Nlp_models/check_tokenizers.py

from transformers import AutoTokenizer
import json

file = open('./data/models_info.json', 'r')
models = json.load(file)

# Strips the newline character
text = 'جمهوری موافقت‌نامه معاملات قانون بودجه اساسی قضائی بین‌المللی تأسیس منطقه‌ای لازم‌الاجراء دامپروری راه‌آهن کمیسیون‌های جدیدالاحداث مسئول فرآورده زائد اسقاط پنجساله'
results = []
for line in models:
    model_checkpoint = line['model_name']
    try:
        tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
        print(model_checkpoint)
        tokens = tokenizer.tokenize(text)
        print(tokens)
        results.append({ 'model': model_checkpoint, 'tokens': tokens})
        if len(tokens) == 2 :
            file.write( '{'+model_checkpoint + " : [ " + ','.join(tokens)  + ' ] }\n' )
        #result = tokenizer(text)
        #print(result)
        #print(tokenizer.decode(result['input_ids']))
    except:
        error = "An exception occurred in tokenizer : " + model_checkpoint
        #file.write( error + '\n' )
        print(error)
    #tokenizer.save_pretrained(model_checkpoint+'-tokenizer')
file.close()