space/none mode potentiel issue with case_markup

When using `case_markup` in `space`/`none` mode, unexpected behavior happens:
```python
>>> pyonmttok.Tokenizer("none", case_markup=True).tokenize("你好世界，这是一个Test。") 
... (['｟mrk_case_modifier_C｠', '你好世界，这是一个test。'], None)
>>> pyonmttok.Tokenizer("none", case_markup=True).detokenize(['｟mrk_case_modifier_C｠', '你好世界，这是一个test。'])
... '你好世界，这是一个test。'
```
As you can see, `.detokenize` can not rebuild the original text. Same behavior exists for `space`.

While mode `conservative` or `aggressive` does not suffer this issue. But the result compare to no `case_markup` is not consistent, as they split the text to insert markup placeholder.
```python
>>> pyonmttok.Tokenizer("conservative").tokenize("你好世界，这是一个Test。")
... (['你好世界', '，', '这是一个Test', '。'], None)
>>> pyonmttok.Tokenizer("conservative", case_markup=True).tokenize("你好世界，这是一个Test。") 
... (['你好世界', '，', '这是一个', '｟mrk_case_modifier_C｠', 'test', '。'], None)
```

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

space/none mode potentiel issue with case_markup #176

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

space/none mode potentiel issue with case_markup #176

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions