Nlp_models/data/models_tokenizer_info.json
2025-07-17 20:35:40 +03:30

465 lines
9.0 KiB
JSON
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

[
{
"model": "HooshvareLab/bert-base-parsbert-ner-uncased",
"len": 20,
"tokens": [
"جمهوری",
"موافقتنامه",
"معاملات",
"قانون",
"بودجه",
"اساسی",
"قضايی",
"بینالمللی",
"تاسیس",
"منطقهای",
"لازمالاجراء",
"دامپروری",
"راهاهن",
"کمیسیونهای",
"جدیدالاحداث",
"مسيول",
"فراورده",
"زايد",
"اسقاط",
"پنجساله"
]
},
{
"model": "nicolauduran45/affilgood-ner-multilingual-v2",
"len": 39,
"tokens": [
"▁جمهوری",
"▁موافقت",
"▁نامه",
"▁معاملات",
"▁قانون",
"▁بودجه",
"▁اساسی",
"▁قضا",
"ئی",
"▁بین",
"▁المللی",
"▁تأسیس",
"▁منطقه",
"▁ای",
"▁لازم",
"▁الاج",
"راء",
"▁دام",
"پر",
"وری",
"▁راه",
"▁آهن",
"▁کمیسیون",
"▁های",
"▁جدید",
"الا",
"حد",
"اث",
"▁مسئول",
"▁فر",
"آور",
"ده",
"▁زائد",
"▁اس",
"ق",
"اط",
"▁پنج",
"سال",
"ه"
]
},
{
"model": "HooshvareLab/bert-fa-zwnj-base-ner",
"len": 37,
"tokens": [
"جمهوری",
"موافقت",
"[ZWNJ]",
"نامه",
"معاملات",
"قانون",
"بودجه",
"اساسی",
"[UNK]",
"بین",
"[ZWNJ]",
"المللی",
"[UNK]",
"منطقه",
"[ZWNJ]",
"ای",
"لازم",
"[ZWNJ]",
"الاجرا",
"##ء",
"دامپروری",
"راه",
"[ZWNJ]",
"آ",
"##هن",
"کمیسیون",
"[ZWNJ]",
"های",
"جدیدا",
"##لاح",
"##داث",
"[UNK]",
"[UNK]",
"[UNK]",
"اسقاط",
"پنج",
"##ساله"
]
},
{
"model": "HooshvareLab/bert-fa-base-uncased-ner-peyma",
"len": 20,
"tokens": [
"جمهوری",
"موافقتنامه",
"معاملات",
"قانون",
"بودجه",
"اساسی",
"قضايی",
"بینالمللی",
"تاسیس",
"منطقهای",
"لازمالاجراء",
"دامپروری",
"راهاهن",
"کمیسیونهای",
"جدیدالاحداث",
"مسيول",
"فراورده",
"زايد",
"اسقاط",
"پنجساله"
]
},
{
"model": "HooshvareLab/bert-base-parsbert-armanner-uncased",
"len": 20,
"tokens": [
"جمهوری",
"موافقتنامه",
"معاملات",
"قانون",
"بودجه",
"اساسی",
"قضايی",
"بینالمللی",
"تاسیس",
"منطقهای",
"لازمالاجراء",
"دامپروری",
"راهاهن",
"کمیسیونهای",
"جدیدالاحداث",
"مسيول",
"فراورده",
"زايد",
"اسقاط",
"پنجساله"
]
},
{
"model": "HooshvareLab/distilbert-fa-zwnj-base-ner",
"len": 37,
"tokens": [
"جمهوری",
"موافقت",
"[ZWNJ]",
"نامه",
"معاملات",
"قانون",
"بودجه",
"اساسی",
"[UNK]",
"بین",
"[ZWNJ]",
"المللی",
"[UNK]",
"منطقه",
"[ZWNJ]",
"ای",
"لازم",
"[ZWNJ]",
"الاجرا",
"##ء",
"دامپروری",
"راه",
"[ZWNJ]",
"آ",
"##هن",
"کمیسیون",
"[ZWNJ]",
"های",
"جدیدا",
"##لاح",
"##داث",
"[UNK]",
"[UNK]",
"[UNK]",
"اسقاط",
"پنج",
"##ساله"
]
},
{
"model": "HooshvareLab/roberta-fa-zwnj-base-ner",
"len": 37,
"tokens": [
"ĠجÙħÙĩÙĪØ±ÛĮ",
"ĠÙħÙĪØ§ÙģÙĤت",
"âĢĮ",
"ÙĨاÙħÙĩ",
"ĠÙħعاÙħÙĦات",
"ĠÙĤاÙĨÙĪÙĨ",
"ĠبÙĪØ¯Ø¬Ùĩ",
"ĠاساسÛĮ",
"ĠÙĤضائÛĮ",
"ĠبÛĮÙĨ",
"âĢĮ",
"اÙĦÙħÙĦÙĦÛĮ",
"ĠتأسÛĮس",
"ĠÙħÙĨØ·ÙĤÙĩ",
"âĢĮ",
"اÛĮ",
"ĠÙĦازÙħ",
"âĢĮ",
"اÙĦاج",
"راء",
"ĠداÙħپرÙĪØ±ÛĮ",
"ĠراÙĩ",
"âĢĮ",
"Ø¢ÙĩÙĨ",
"ĠÚ©ÙħÛĮسÛĮÙĪÙĨ",
"âĢĮ",
"ÙĩاÛĮ",
"ĠجدÛĮد",
"اÙĦ",
"اØŃ",
"داث",
"ĠÙħسئÙĪÙĦ",
"ĠÙģØ±Ø¢ÙĪØ±Ø¯Ùĩ",
"Ġزائد",
"ĠاسÙĤاط",
"ĠÙ¾ÙĨج",
"ساÙĦÙĩ"
]
},
{
"model": "HooshvareLab/bert-fa-base-uncased-ner-arman",
"len": 20,
"tokens": [
"جمهوری",
"موافقتنامه",
"معاملات",
"قانون",
"بودجه",
"اساسی",
"قضايی",
"بینالمللی",
"تاسیس",
"منطقهای",
"لازمالاجراء",
"دامپروری",
"راهاهن",
"کمیسیونهای",
"جدیدالاحداث",
"مسيول",
"فراورده",
"زايد",
"اسقاط",
"پنجساله"
]
},
{
"model": "HooshvareLab/albert-fa-zwnj-base-v2-ner",
"len": 46,
"tokens": [
"▁جمهوری",
"▁موافقت",
"[ZWNJ]",
"نامه",
"▁معاملات",
"▁قانون",
"▁بودجه",
"▁اساسی",
"▁قضا",
"ي",
"ی",
"▁بین",
"[ZWNJ]",
"الم",
"لل",
"ی",
"▁تاسیس",
"▁منطقه",
"[ZWNJ]",
"ای",
"▁لازم",
"[ZWNJ]",
"ال",
"اجرا",
"ء",
"▁دامپروری",
"▁راه",
"[ZWNJ]",
"اهن",
"▁کمیسیون",
"[ZWNJ]",
"های",
"▁جدید",
"الا",
"حد",
"اث",
"▁مس",
"ي",
"ول",
"▁فراورده",
"▁زا",
"ي",
"د",
"▁اسقاط",
"▁پنج",
"ساله"
]
},
{
"model": "HooshvareLab/bert-base-parsbert-peymaner-uncased",
"len": 20,
"tokens": [
"جمهوری",
"موافقتنامه",
"معاملات",
"قانون",
"بودجه",
"اساسی",
"قضايی",
"بینالمللی",
"تاسیس",
"منطقهای",
"لازمالاجراء",
"دامپروری",
"راهاهن",
"کمیسیونهای",
"جدیدالاحداث",
"مسيول",
"فراورده",
"زايد",
"اسقاط",
"پنجساله"
]
},
{
"model": "Amirmerfan/bert-base-uncased-persian-ner-50k-base",
"len": 56,
"tokens": [
"جمهوری",
"م",
"##وا",
"##فق",
"##تن",
"##ام",
"##ه",
"مع",
"##امل",
"##ات",
"قانون",
"بود",
"##جه",
"اساسی",
"ق",
"##ضا",
"##يی",
"بینالمللی",
"تاسیس",
"منطقه",
"##ای",
"لازم",
"##ال",
"##اج",
"##راء",
"دا",
"##م",
"##پر",
"##وری",
"راه",
"##اه",
"##ن",
"کمی",
"##سی",
"##ون",
"##های",
"جدید",
"##ال",
"##اح",
"##دا",
"##ث",
"م",
"##سي",
"##ول",
"ف",
"##را",
"##ورد",
"##ه",
"ز",
"##ايد",
"اس",
"##قا",
"##ط",
"پنج",
"##سال",
"##ه"
]
},
{
"model": "AliFartout/Roberta-fa-en-ner",
"len": 39,
"tokens": [
"▁جمهوری",
"▁موافقت",
"▁نامه",
"▁معاملات",
"▁قانون",
"▁بودجه",
"▁اساسی",
"▁قضا",
"ئی",
"▁بین",
"▁المللی",
"▁تأسیس",
"▁منطقه",
"▁ای",
"▁لازم",
"▁الاج",
"راء",
"▁دام",
"پر",
"وری",
"▁راه",
"▁آهن",
"▁کمیسیون",
"▁های",
"▁جدید",
"الا",
"حد",
"اث",
"▁مسئول",
"▁فر",
"آور",
"ده",
"▁زائد",
"▁اس",
"ق",
"اط",
"▁پنج",
"سال",
"ه"
]
}
]