from transformers import AutoTokenizer import json file = open('./data/models_info.json', 'r') models = json.load(file) # Strips the newline character text = 'جمهوری موافقت‌نامه معاملات قانون بودجه اساسی قضائی بین‌المللی تأسیس منطقه‌ای لازم‌الاجراء دامپروری راه‌آهن کمیسیون‌های جدیدالاحداث مسئول فرآورده زائد اسقاط پنجساله' results = [] for line in models: model_checkpoint = line['model_name'] try: tokenizer = AutoTokenizer.from_pretrained(model_checkpoint) print(model_checkpoint) tokens = tokenizer.tokenize(text) print(tokens) results.append({ 'model': model_checkpoint, 'tokens': tokens}) if len(tokens) == 2 : file.write( '{'+model_checkpoint + " : [ " + ','.join(tokens) + ' ] }\n' ) #result = tokenizer(text) #print(result) #print(tokenizer.decode(result['input_ids'])) except: error = "An exception occurred in tokenizer : " + model_checkpoint #file.write( error + '\n' ) print(error) #tokenizer.save_pretrained(model_checkpoint+'-tokenizer') file.close()