Tokenizer behavior is different from Python transformers

Hi, I found the tokenizer behavior different from Python transformers when I use Phi-3 model.

swift-transformers
```swift
func testTokenizer() async throws {
    let tokenizer = try await AutoTokenizer.from(pretrained: "mlx-community/Phi-3-mini-4k-instruct-4bit-no-q-embed")
    let inputIds = tokenizer(" Hi")
    print(inputIds)
    // output: [1, 6324]
}
```

Python transformers
```python
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("mlx-community/Phi-3-mini-4k-instruct-4bit-no-q-embed")
input_ids = tokenizer.encode(" Hi")
print(input_ids)
# output: [1, 29871, 6324]
```

Python transformers prepends `29871` (`▁`) before `6324`. It seems to be done by the normalizer. I debugged this issue and found that the normalizer is ignored when `legacy` is `false` at https://github.com/huggingface/swift-transformers/blob/fc6543263e4caed9bf6107466d625cfae9357f08/Sources/Tokenizers/Tokenizer.swift#L341-L344.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Tokenizer behavior is different from Python transformers #96

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

	if !isLegacy {
	configDictionary.removeValue(forKey: "normalizer")
	configDictionary["pre_tokenizer"] = ["type": "Metaspace", "replacement": sentencePieceUnderline, "add_prefix_space": true, "prepend_scheme": "first"]
	}

Tokenizer behavior is different from Python transformers #96

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions