Nlp_models/check_tokenizers.py
2025-07-15 17:39:08 +03:30

29 lines
1.2 KiB
Python

from transformers import AutoTokenizer
import json
file = open('./data/models_info.json', 'r')
models = json.load(file)
# Strips the newline character
text = 'جمهوری موافقت‌نامه معاملات قانون بودجه اساسی قضائی بین‌المللی تأسیس منطقه‌ای لازم‌الاجراء دامپروری راه‌آهن کمیسیون‌های جدیدالاحداث مسئول فرآورده زائد اسقاط پنجساله'
results = []
for line in models:
model_checkpoint = line['model_name']
try:
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
print(model_checkpoint)
tokens = tokenizer.tokenize(text)
print(tokens)
results.append({ 'model': model_checkpoint, 'tokens': tokens})
if len(tokens) == 2 :
file.write( '{'+model_checkpoint + " : [ " + ','.join(tokens) + ' ] }\n' )
#result = tokenizer(text)
#print(result)
#print(tokenizer.decode(result['input_ids']))
except:
error = "An exception occurred in tokenizer : " + model_checkpoint
#file.write( error + '\n' )
print(error)
#tokenizer.save_pretrained(model_checkpoint+'-tokenizer')
file.close()