29 lines
1.2 KiB
Python
29 lines
1.2 KiB
Python
from transformers import AutoTokenizer
|
|
import json
|
|
|
|
file = open('./data/models_info.json', 'r')
|
|
models = json.load(file)
|
|
|
|
# Strips the newline character
|
|
text = 'جمهوری موافقتنامه معاملات قانون بودجه اساسی قضائی بینالمللی تأسیس منطقهای لازمالاجراء دامپروری راهآهن کمیسیونهای جدیدالاحداث مسئول فرآورده زائد اسقاط پنجساله'
|
|
results = []
|
|
for line in models:
|
|
model_checkpoint = line['model_name']
|
|
try:
|
|
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
|
|
print(model_checkpoint)
|
|
tokens = tokenizer.tokenize(text)
|
|
print(tokens)
|
|
results.append({ 'model': model_checkpoint, 'tokens': tokens})
|
|
if len(tokens) == 2 :
|
|
file.write( '{'+model_checkpoint + " : [ " + ','.join(tokens) + ' ] }\n' )
|
|
#result = tokenizer(text)
|
|
#print(result)
|
|
#print(tokenizer.decode(result['input_ids']))
|
|
except:
|
|
error = "An exception occurred in tokenizer : " + model_checkpoint
|
|
#file.write( error + '\n' )
|
|
print(error)
|
|
#tokenizer.save_pretrained(model_checkpoint+'-tokenizer')
|
|
file.close()
|