remove some test files

This commit is contained in:
ajokar 2025-07-23 15:04:17 +03:30
parent 48041bdf9e
commit 461eefe390
8 changed files with 216 additions and 390 deletions

View File

@ -3688,3 +3688,148 @@ Span[208:211]: "سازمان محیط زیست"/ORG /%/ 1.0
Span[224:225]: "مشهد"/LOC /%/ 1.0 Span[224:225]: "مشهد"/LOC /%/ 1.0
Span[226:227]: "سمنان"/LOC /%/ 1.0 Span[226:227]: "سمنان"/LOC /%/ 1.0
************************************************** **************************************************
**************************************************
############################################################
Model Name: 2025-07-22--20-44-37--HooshvareLab--bert-fa-base-uncased-ner-peyma
Found Entity Count: 20
inference time: 2025-07-23 13:35:22.302547
############################################################
Span[4:6]: "دستگاههای اجرائی"/ORG2 /%/ 1.0
Span[11:21]: "قانون مدیریت خدمات کشوری مصوب 8 /7 /1386"/REF /%/ 1.0
Span[31:41]: "قانون محاسبات عمومی کشور مصوب 1 /6 /1366"/REF /%/ 1.0
Span[47:49]: "نیروهای مسلح"/ORG /%/ 1.0
Span[57:70]: "قانون استخدام نیروی انتظامی جمهوری اسلامی ایران مصوب 20 /12 /1382"/REF /%/ 1.0
Span[139:141]: "ماه سال"/EVENT /%/ 0.8
Span[143:146]: "و نود و"/EVENT /%/ 0.99
Span[166:168]: "مجلس ملی"/ORG /%/ 1.0
Span[175:177]: "شورای نگهبان"/ORG /%/ 1.0
Span[178:181]: "سازمان محیط زیست"/ORG /%/ 1.0
Span[183:187]: "سازمان جوانان هلال احمر"/ORG /%/ 1.0
Span[189:192]: "قانون صیانت از"/REF /%/ 1.0
Span[193:195]: "در فضای"/REF /%/ 1.0
Span[199:201]: "قانون هوای"/REF /%/ 1.0
Span[204:207]: "مجلس شورای اسلامی"/ORG /%/ 1.0
Span[208:211]: "سازمان محیط زیست"/ORG /%/ 1.0
Span[220:222]: "محمد سرمدی"/PER /%/ 1.0
Span[224:225]: "مشهد"/LOC /%/ 1.0
Span[226:227]: "سمنان"/LOC /%/ 1.0
Span[231:232]: "اعتبار"/ORG /%/ 1.0
**************************************************
**************************************************
############################################################
Model Name: 2025-07-22--20-44-37--HooshvareLab--bert-fa-base-uncased-ner-peyma
Found Entity Count: 4
inference time: 2025-07-23 13:54:24.066756
############################################################
Span[7:18]: "قانون تنظیم خانواده و جمعیت مصوب 26 /2 /1372"/REF /%/ 1.0
Span[27:36]: "قانون سقط درمانی مصوب 10 /3 /1384"/REF /%/ 1.0
Span[52:61]: "قانون مدیریت خدمات کشوری و ماده (86)"/REF /%/ 1.0
Span[61:70]: "قانون تامین اجتماعی مصوب 3 /4 /1354"/REF /%/ 1.0
**************************************************
**************************************************
############################################################
Model Name: 2025-07-22--20-44-37--HooshvareLab--bert-fa-base-uncased-ner-peyma
Found Entity Count: 24
inference time: 2025-07-23 14:00:37.002893
############################################################
Span[26:28]: "ستاد مرکزی"/ORG /%/ 1.0
Span[89:92]: "مجلس شورای اسلامی"/ORG /%/ 1.0
Span[110:113]: "صدا و سیمای"/ORG /%/ 1.0
Span[120:122]: "ستاد کل"/ORG /%/ 1.0
Span[122:124]: "نیروهای مسلح،"/ORG /%/ 1.0
Span[127:131]: "سپاه پاسداران انقلاب اسلامی،"/ORG /%/ 1.0
Span[139:141]: "بانک مرکزی،"/ORG /%/ 1.0
Span[141:143]: "بیمه مرکزی"/ORG /%/ 1.0
Span[144:145]: "گمرک"/ORG /%/ 1.0
Span[149:152]: "سازمان ملی استاندارد"/ORG /%/ 1.0
Span[154:156]: "مرکز آمار"/ORG /%/ 1.0
Span[158:162]: "سازمان برنامه و بودجه"/ORG /%/ 1.0
Span[164:172]: "اتاق بازرگانی و صنایع و معادن و کشاورزی"/ORG /%/ 1.0
Span[174:176]: "اتاق اصناف"/ORG /%/ 1.0
Span[178:181]: "اتاق تعاون مرکزی"/ORG /%/ 1.0
Span[182:185]: "دادستان کل کشور"/ORG /%/ 1.0
Span[189:190]: "رئیس"/ORG /%/ 0.99
Span[190:192]: "قوه قضائیه"/ORG /%/ 1.0
Span[193:194]: "ریاست"/ORG /%/ 1.0
Span[18:21]: "تمامی دستگاههای اجرائی"/ORG2 /%/ 1.0
Span[15:17]: "قوه قضائیه،"/ORG /%/ 1.0
Span[17:19]: "نیروهای نظامی"/ORG /%/ 0.76
Span[20:21]: "سازمان"/ORG /%/ 1.0
Span[21:24]: "صدا و سیمای"/ORG /%/ 1.0
**************************************************
**************************************************
############################################################
Model Name: 2025-07-22--15-52-58--HooshvareLab--bert-fa-base-uncased-ner-peyma
Found Entity Count: 17
inference time: 2025-07-23 14:05:29.841029
############################################################
Span[11:15]: "قانون مدیریت خدمات کشوری"/REF /%/ 1.0
Span[31:35]: "قانون محاسبات عمومی کشور"/REF /%/ 1.0
Span[47:52]: "نیروهای مسلح جمهوری اسلامی ایران"/ORG /%/ 1.0
Span[59:64]: "نیروی انتظامی جمهوری اسلامی ایران"/ORG /%/ 1.0
Span[80:82]: "شهرداری ها"/ORG2 /%/ 0.98
Span[136:147]: "روز نوزدهم دی ماه سال یکهزار وسیصد و نود و سه"/EVENT /%/ 1.0
Span[166:168]: "مجلس ملی"/ORG /%/ 1.0
Span[175:177]: "شورای نگهبان"/ORG /%/ 1.0
Span[178:181]: "سازمان محیط زیست"/ORG /%/ 1.0
Span[183:187]: "سازمان جوانان هلال احمر"/ORG /%/ 1.0
Span[189:190]: "قانون"/REF /%/ 0.99
Span[194:196]: "فضای مجازی"/REF /%/ 0.96
Span[199:202]: "قانون هوای پاک"/REF /%/ 1.0
Span[204:207]: "مجلس شورای اسلامی"/ORG /%/ 1.0
Span[208:211]: "سازمان محیط زیست"/ORG /%/ 1.0
Span[224:225]: "مشهد"/LOC /%/ 1.0
Span[226:227]: "سمنان"/LOC /%/ 1.0
**************************************************
**************************************************
############################################################
Model Name: 2025-07-22--15-52-58--HooshvareLab--bert-fa-base-uncased-ner-peyma
Found Entity Count: 2
inference time: 2025-07-23 14:05:33.663533
############################################################
Span[7:8]: "قانون"/REF /%/ 1.0
Span[52:56]: "قانون مدیریت خدمات کشوری"/REF /%/ 1.0
**************************************************
**************************************************
############################################################
Model Name: 2025-07-22--15-52-58--HooshvareLab--bert-fa-base-uncased-ner-peyma
Found Entity Count: 24
inference time: 2025-07-23 14:05:37.533389
############################################################
Span[27:28]: "مرکزی"/ORG /%/ 1.0
Span[89:92]: "مجلس شورای اسلامی"/ORG /%/ 1.0
Span[110:116]: "صدا و سیمای جمهوری اسلامی ایران،"/ORG /%/ 1.0
Span[120:122]: "ستاد کل"/ORG /%/ 1.0
Span[122:124]: "نیروهای مسلح،"/ORG /%/ 1.0
Span[125:127]: "سازمان اطلاعات"/ORG /%/ 1.0
Span[127:131]: "سپاه پاسداران انقلاب اسلامی،"/ORG /%/ 1.0
Span[133:137]: "انتظامی جمهوری اسلامی ایران،"/ORG /%/ 1.0
Span[140:141]: "مرکزی،"/ORG /%/ 1.0
Span[141:143]: "بیمه مرکزی"/ORG /%/ 0.89
Span[144:148]: "گمرک جمهوری اسلامی ایران،"/ORG /%/ 1.0
Span[149:153]: "سازمان ملی استاندارد ایران،"/ORG /%/ 1.0
Span[154:157]: "مرکز آمار ایران،"/ORG /%/ 1.0
Span[158:162]: "سازمان برنامه و بودجه"/ORG /%/ 1.0
Span[172:173]: "ایران،"/LOC /%/ 1.0
Span[178:182]: "اتاق تعاون مرکزی ایران،"/ORG /%/ 1.0
Span[182:185]: "دادستان کل کشور"/ORG /%/ 1.0
Span[190:192]: "قوه قضائیه"/ORG /%/ 1.0
Span[18:21]: "تمامی دستگاههای اجرائی"/ORG2 /%/ 1.0
Span[23:27]: "انتظامی جمهوری اسلامی ایران"/ORG /%/ 0.99
Span[15:17]: "قوه قضائیه،"/ORG /%/ 1.0
Span[20:21]: "سازمان"/ORG /%/ 1.0
Span[21:27]: "صدا و سیمای جمهوری اسلامی ایران"/ORG /%/ 1.0
Span[28:30]: "اذن رهبری"/ORG /%/ 0.93
**************************************************

View File

@ -1,83 +0,0 @@
{sentence-transformers/LaBSE : [ فسخ,معاملات ] }
{Blaxzter/LaBSE-sentence-embeddings : [ فسخ,معاملات ] }
{orgcatorg/xlm-v-base-ner : [ ▁فسخ,▁معاملات ] }
{HooshvareLab/albert-fa-zwnj-base-v2-ner : [ ▁فسخ,▁معاملات ] }
{HooshvareLab/albert-fa-zwnj-base-v2 : [ ▁فسخ,▁معاملات ] }
{HooshvareLab/bert-base-parsbert-armanner-uncased : [ فسخ,معاملات ] }
{HooshvareLab/bert-base-parsbert-ner-uncased : [ فسخ,معاملات ] }
{HooshvareLab/bert-base-parsbert-peymaner-uncased : [ فسخ,معاملات ] }
{HooshvareLab/bert-fa-base-uncased-clf-digimag : [ فسخ,معاملات ] }
{HooshvareLab/bert-fa-base-uncased-clf-persiannews : [ فسخ,معاملات ] }
{HooshvareLab/bert-fa-base-uncased-ner-arman : [ فسخ,معاملات ] }
{HooshvareLab/bert-fa-base-uncased-ner-peyma : [ فسخ,معاملات ] }
{HooshvareLab/bert-fa-base-uncased-sentiment-deepsentipers-binary : [ فسخ,معاملات ] }
{HooshvareLab/bert-fa-base-uncased-sentiment-deepsentipers-multi : [ فسخ,معاملات ] }
{HooshvareLab/bert-fa-base-uncased-sentiment-digikala : [ فسخ,معاملات ] }
{HooshvareLab/bert-fa-base-uncased-sentiment-snappfood : [ فسخ,معاملات ] }
{HooshvareLab/bert-fa-base-uncased : [ فسخ,معاملات ] }
{HooshvareLab/bert-fa-zwnj-base-ner : [ فسخ,معاملات ] }
{HooshvareLab/bert-fa-zwnj-base : [ فسخ,معاملات ] }
{HooshvareLab/distilbert-fa-zwnj-base-ner : [ فسخ,معاملات ] }
{HooshvareLab/distilbert-fa-zwnj-base : [ فسخ,معاملات ] }
{HooshvareLab/roberta-fa-zwnj-base-ner : [ ĠÙģØ³Ø®,ĠÙħعاÙħÙĦات ] }
{amirhossein1376/pft-clf-finetuned : [ فسخ,معاملات ] }
{bolbolzaban/gpt2-persian : [ ▁فسخ,▁معاملات ] }
{erfan226/persian-t5-formality-transfer : [ ▁فسخ,▁معاملات ] }
{erfan226/persian-t5-paraphraser : [ ▁فسخ,▁معاملات ] }
{m3hrdadfi/albert-fa-base-v2-clf-digimag : [ ▁فسخ,▁معاملات ] }
{m3hrdadfi/albert-fa-base-v2-clf-persiannews : [ ▁فسخ,▁معاملات ] }
{m3hrdadfi/albert-fa-base-v2-ner-arman : [ ▁فسخ,▁معاملات ] }
{m3hrdadfi/albert-fa-base-v2-ner-peyma : [ ▁فسخ,▁معاملات ] }
{m3hrdadfi/albert-fa-base-v2-sentiment-binary : [ ▁فسخ,▁معاملات ] }
{m3hrdadfi/albert-fa-base-v2-sentiment-deepsentipers-binary : [ ▁فسخ,▁معاملات ] }
{m3hrdadfi/albert-fa-base-v2-sentiment-deepsentipers-multi : [ ▁فسخ,▁معاملات ] }
{m3hrdadfi/albert-fa-base-v2-sentiment-digikala : [ ▁فسخ,▁معاملات ] }
{m3hrdadfi/albert-fa-base-v2-sentiment-multi : [ ▁فسخ,▁معاملات ] }
{m3hrdadfi/albert-fa-base-v2-sentiment-snappfood : [ ▁فسخ,▁معاملات ] }
{m3hrdadfi/albert-fa-base-v2 : [ ▁فسخ,▁معاملات ] }
{m3hrdadfi/bert-fa-base-uncased-farstail-mean-tokens : [ فسخ,معاملات ] }
{m3hrdadfi/bert-fa-base-uncased-farstail : [ فسخ,معاملات ] }
{m3hrdadfi/bert-fa-base-uncased-wikinli-mean-tokens : [ فسخ,معاملات ] }
{m3hrdadfi/bert-fa-base-uncased-wikinli : [ فسخ,معاملات ] }
{m3hrdadfi/bert-fa-base-uncased-wikitriplet-mean-tokens : [ فسخ,معاملات ] }
{m3hrdadfi/bert2bert-fa-news-headline : [ فسخ,معاملات ] }
{m3hrdadfi/bert2bert-fa-wiki-summary : [ فسخ,معاملات ] }
{persiannlp/parsbert-base-parsinlu-entailment : [ فسخ,معاملات ] }
{persiannlp/parsbert-base-parsinlu-multiple-choice : [ فسخ,معاملات ] }
{setu4993/LaBSE : [ فسخ,معاملات ] }
{demoversion/bert-fa-base-uncased-haddad-wikinli : [ فسخ,معاملات ] }
{sharif-dal/dal-bert : [ فسخ,معاملات ] }
{Kamrani/t5-large : [ ▁فسخ,▁معاملات ] }
{Helsinki-NLP/opus-mt-tc-big-fa-itc : [ ▁فسخ,▁معاملات ] }
{Helsinki-NLP/opus-mt-tc-big-fa-gmq : [ ▁فسخ,▁معاملات ] }
{Arashasg/WikiBert2WikiBert : [ فسخ,معاملات ] }
{Arnavaz/gpt2-arnavaz-beta : [ ▁فسخ,▁معاملات ] }
{facebook/xlm-v-base : [ ▁فسخ,▁معاملات ] }
{Gholamreza/distilbert-fa-zwnj-base-finetuned-pquad : [ فسخ,معاملات ] }
{SLPL/t5-fa : [ ▁فسخ,▁معاملات ] }
{Yasamansaffari73/bert-fa-base-uncased-finetuned-ParsBert : [ فسخ,معاملات ] }
{setu4993/LEALLA-small : [ فسخ,معاملات ] }
{setu4993/LEALLA-base : [ فسخ,معاملات ] }
{setu4993/LEALLA-large : [ فسخ,معاملات ] }
{zedfum/arman-longformer-8k : [ ▁فسخ,▁معاملات ] }
{michaelfeil/ct2fast-LaBSE : [ فسخ,معاملات ] }
{zedfum/arman-longformer-8k-finetuned-ensani : [ ▁فسخ,▁معاملات ] }
{parsi-ai-nlpclass/NLP_Spring23_HW4_Question_Answering_G13 : [ فسخ,معاملات ] }
{AliGhiasvand86/gisha_qa : [ ▁فسخ,▁معاملات ] }
{jrazi/persian-poem-classifier : [ ▁فسخ,▁معاملات ] }
{SeyedAli/Persian-Text-NER-Bert-V1 : [ فسخ,معاملات ] }
{SeyedAli/Persian-Text-Sentiment-Bert-V1 : [ فسخ,معاملات ] }
{SeyedAli/Persian-Text-Emotion-Bert-V1 : [ فسخ,معاملات ] }
{SeyedAli/Persian-QA-Bert-V1 : [ فسخ,معاملات ] }
{SeyedAli/Persian-Text-paraphraser-mT5-V1 : [ ▁فسخ,▁معاملات ] }
{kev216/sentence-embedding-LaBSE : [ فسخ,معاملات ] }
{sbunlp/fabert : [ فسخ,معاملات ] }
{Griffin88/my_new_model3 : [ فسخ,معاملات ] }
{Griffin88/sentence-embedding-LaBSE : [ فسخ,معاملات ] }
{PardisSzah/NER_ARMAN_parsbert : [ فسخ,معاملات ] }
{PardisSzah/PersianEase : [ ▁فسخ,▁معاملات ] }
{PardisSzah/PersianTextFormalizer : [ ▁فسخ,▁معاملات ] }
{PardisSzah/BasePersianTextFormalizer : [ ▁فسخ,▁معاملات ] }
{PardisSzah/BasePersianEase : [ ▁فسخ,▁معاملات ] }
{parsi-ai-nlpclass/PersianEase : [ ▁فسخ,▁معاملات ] }
{parsi-ai-nlpclass/PersianTextFormalizer : [ ▁فسخ,▁معاملات ] }

View File

@ -1,229 +0,0 @@
▁9
▁-
▁کلیه
▁دستگاههای
▁اجرایی
▁موضوع
▁ماده
▁(5)
▁قانون
▁مدیریت
▁خدمات
▁کشوری
▁مصوب
▁8
/7
/13
86
▁با
▁اصلاحات
▁و
▁الحاق
ات
▁بعدی
▁و
▁ماده
▁(5)
▁قانون
▁محاسبات
▁عمومی
▁کشور
▁مصوب
▁1
/6
/13
66
▁با
▁اصلاحات
▁و
▁الحاق
ات
▁بعدی
▁و
▁نیروهای
▁مسلح
▁جمهوری
▁اسلامی
▁ایران
▁(
موضوع
▁ماده
▁(2)
▁قانون
▁استخدام
▁نیروی
▁انتظامی
▁جمهوری
▁اسلامی
▁ایران
▁مصوب
▁20
/12
/13
82
▁با
▁اصلاحات
▁و
▁الحاق
ات
▁بعدی
)
▁مکلف
ند
▁عوارض
▁و
▁بهای
▁خدمات
▁شهرداری
▁ها
▁و
▁ده
یاری
▁های
▁موضوع
▁این
▁قانون
▁را
▁همه
▁ساله
▁حداکثر
▁تا
▁پایان
▁سال
▁مالی
▁به
▁شهرداری
▁یا
▁ده
یاری
▁مربوط
▁واریز
▁کنند
.
▁ذی
▁حساب
▁و
▁رییس
▁دستگاه
▁مربوط
▁در
▁تاریخ
▁140
1/5
/3
▁مسوول
▁حسن
▁اجرای
▁قانون
▁خانواده
▁و
▁جوانی
▁جمعیت
▁که
▁در
▁مهرماه
▁سال
▁14
01
▁تصویب
▁شده
▁می
▁باشند
.
در
▁روز
▁نوزدهم
▁دی
▁ماه
▁سال
▁یک
هزار
▁و
سی
صد
▁و
▁نود
▁و
▁سه
▁برای
▁اولین
▁بار
▁مسی
له
▁جمعیت
▁به
▁صورت
▁جدی
▁مورد
▁مطالعه
▁شد
.
▁در
▁مورخ
ه
▁13
14.1
.17
▁نیز
▁این
▁مسی
له
▁توسط
▁مجلس
▁ملی
▁به
▁صحن
▁آورده
▁شد
.
▁هم
▁چنین
▁شورای
▁نگهبان
▁و
▁سازمان
▁محیط
▁زیست
▁و
▁نیز
▁سازمان
▁جوانان
▁هلال
▁احمر
▁در
▁مورد
▁قانون
▁صیانت
▁از
▁کاربران
▁در
▁فضای
▁مجازی
▁با
▁توجه
▁به
▁قانون
▁هوای
▁پاک
▁که
▁در
▁مجلس
▁شورای
▁اسلامی
▁و
▁سازمان
▁محیط
▁زیست
▁به
▁تصویب
▁رسیده
▁مسی
ول
▁هستند
.

View File

@ -232,19 +232,29 @@ def inference_main(trained_model,input_sentence):
ner_addresses = ner_addresses + '\n' + str(ner_val) ner_addresses = ner_addresses + '\n' + str(ner_val)
# ner_addresss = '\n'+ '$'*70 + '\n' + ner_addresses + '\n' + '$'*70 # ner_addresss = '\n'+ '$'*70 + '\n' + ner_addresses + '\n' + '$'*70
# save_to_file(result_header + final_result + ner_addresss) # save_to_file(result_header + final_result + ner_addresss)
save_to_file(result_header + final_result+ '\n')
with open(f'./taggers/{trained_model}/inference-result.txt', 'a+', encoding='utf-8') as file: with open(f'./taggers/{trained_model}/inference-result.txt', 'a+', encoding='utf-8') as file:
file.write(result_header + final_result) file.write(result_header + final_result + '\n\n')
save_to_file(result_header + final_result+ '\n')
return result_header + final_result + '\n' return result_header + final_result + '\n'
# https://majles.tavasi.ir/entity/navigation/view/qasection/qq295651?scroll=qs3028542&order=239
qanon_text = """ماده 73 - به موجب این قانون، قانون تنظیم خانواده و جمعیت مصوب 26 /2 /1372 با اصلاحات و الحاقات بعدی آن و ماده واحده قانون سقط درمانی مصوب 10 /3 /1384 و محدودیت ‌های مربوط به تعداد فرزند در بند (4) ماده (68) قانون مدیریت خدمات کشوری و ماده (86) قانون تأمین اجتماعی مصوب 3 /4 /1354 نسخ می گردد."""
# https://majles.tavasi.ir/entity/navigation/view/qasection/qq297500?scroll=qs3008747&order=15
org_text = """ماده 3ـ به منظور سیاستگذاری در حوزه امور اجرائی، پیشگیری و مبارزه با قاچاق کالا و ارز و برنامه ریزی، هماهنگی و نظارت در این موارد، ستاد مرکزی مبارزه با قاچاق کالا و ارز متشکل از وزیران دادگستری، اطلاعات، امور اقتصادی و دارایی، کشور، امور خارجه، صنعت، معدن و تجارت، راه و شهرسازی، جهادکشاورزی، نفت، بهداشت، درمان و آموزش پزشکی، میراث فرهنگی، گردشگری و صنایع دستی و ارتباطات و فناوری اطلاعات یا معاونان ذی ربط آنان و دو نفر از نمایندگان عضو کمیسیون های اقتصادی و قضائی و حقوقی مجلس شورای اسلامی به انتخاب مجلس به عنوان ناظر و روسای سازمان های تعزیرات حکومتی، جمع آوری و فروش اموال تملیکی، صدا و سیمای جمهوری اسلامی ایران، بازرسی کل کشور، رئیس ستاد کل نیروهای مسلح، رئیس سازمان اطلاعات سپاه پاسداران انقلاب اسلامی، فرمانده کل انتظامی جمهوری اسلامی ایران، روسای کل بانک مرکزی، بیمه مرکزی و گمرک جمهوری اسلامی ایران، رئیس سازمان ملی استاندارد ایران، رئیس مرکز آمار ایران، رئیس سازمان برنامه و بودجه کشور، رئیس اتاق بازرگانی و صنایع و معادن و کشاورزی ایران، رئیس اتاق اصناف ایران، رئیس اتاق تعاون مرکزی ایران، دادستان کل کشور و نماینده تام الاختیار رئیس قوه قضائیه با ریاست رئیس جمهور یا نماینده ویژه وی تشکیل می گردد. مصوبات این ستاد پس از امضای رئیس جمهور در موضوعات مرتبط با وظایف ستاد در این ماده برای تمامی دستگاههای اجرائی و فرماندهی انتظامی جمهوری اسلامی ایران لازم الاجراء است.
سایر دستگاههای مرتبط با امر پیشگیری و مبارزه با قاچاق کالا و ارز از جمله قوه قضائیه، نیروهای نظامی و سازمان صدا و سیمای جمهوری اسلامی ایران با إذن رهبری موظف به همکاری با ستاد می باشند."""
if __name__ == "__main__": if __name__ == "__main__":
print("do inf ... ") print("do inf ... ")
trained_model = "2025-07-22--15-52-58--HooshvareLab--bert-fa-base-uncased-ner-peyma" trained_model = "2025-07-22--15-52-58--HooshvareLab--bert-fa-base-uncased-ner-peyma"
result = inference_main(trained_model, read_file()) result = inference_main(trained_model, read_file())
print(result) result = inference_main(trained_model, qanon_text)
with open(f'./taggers/{trained_model}/inference-result.txt', 'a+', encoding='utf-8') as file: result = inference_main(trained_model, org_text)
file.write(result)
# with open(f'./taggers/{trained_model}/inference-result.txt', 'a+', encoding='utf-8') as file:
# file.write(result)
""" """
HooshvareLab--bert-base-parsbert-armanner-uncased--2025-7-20--23-45-26 HooshvareLab--bert-base-parsbert-armanner-uncased--2025-7-20--23-45-26

View File

View File

@ -271,24 +271,63 @@ class Normalizer():
L = wrds.__len__() L = wrds.__len__()
if L < 3: if L < 3:
return doc_string return doc_string
cnt = 1
cnt2 = 0 # NOTE: مشکل کد زیر :
for i in range(0, L - 2): # NOTE: این کد نیز مشکل ترکیبات هم پوشان را دارد به طوری که یک کلمه می تواند در سه ترکیب (یک بار انتها و یک بار وسط و یک بار ابتدای ترکیب) تکرار شود.
# cnt = 1
# cnt2 = 0
# for i in range(0, L - 2):
# w = wrds[i] + wrds[i + 1] + wrds[i + 2]
# try:
# out_sentences = out_sentences + ' ' + self.dic3[w]
# cnt = 0
# cnt2 = 2
# except KeyError:
# if cnt == 1 and cnt2 == 0:
# out_sentences = out_sentences + ' ' + wrds[i]
# else:
# cnt2 -= 1
# cnt = 1
# if cnt == 1 and cnt2 == 0:
# out_sentences = out_sentences + ' ' + wrds[i + 1] + ' ' + wrds[i + 2]
# elif cnt == 1 and cnt2 == 1:
# out_sentences = out_sentences + ' ' + wrds[i + 2]
# NOTE: کد جایگزین
# cnt = 0
# for i in range(0, L - 2):
# if cnt > 0:
# cnt -= 1
# continue
# w = wrds[i] + wrds[i + 1] + wrds[i + 2]
# try:
# out_sentences = out_sentences + ' ' + self.dic3[w]
# cnt = 2
# except KeyError:
# out_sentences = out_sentences + ' ' + wrds[i]
# if cnt == 2:
# out_sentences = out_sentences + ' ' + wrds[i + 1] + ' ' + wrds[i + 2]
# elif cnt == 1:
# out_sentences = out_sentences + ' ' + wrds[i + 2]
# return out_sentences
# NOTE: کد جایگزین دیگر
i = 0
while i < L - 2:
w = wrds[i] + wrds[i + 1] + wrds[i + 2] w = wrds[i] + wrds[i + 1] + wrds[i + 2]
try: if w in self.dic3:
out_sentences = out_sentences + ' ' + self.dic3[w] out_sentences += ' ' + self.dic3[w]
cnt = 0 i += 3
cnt2 = 2
except KeyError:
if cnt == 1 and cnt2 == 0:
out_sentences = out_sentences + ' ' + wrds[i]
else: else:
cnt2 -= 1 out_sentences += ' ' + wrds[i]
cnt = 1 i += 1
if cnt == 1 and cnt2 == 0: while i < L:
out_sentences = out_sentences + ' ' + wrds[i + 1] + ' ' + wrds[i + 2] out_sentences += ' ' + wrds[i]
elif cnt == 1 and cnt2 == 1: i += 1
out_sentences = out_sentences + ' ' + wrds[i + 2]
return out_sentences return out_sentences
def normalize(self, doc_string, new_line_elimination=False, return_dates = False): def normalize(self, doc_string, new_line_elimination=False, return_dates = False):

View File

@ -1,51 +0,0 @@
import flair
from flair.data import Corpus
from flair.datasets import ColumnDataset
from flair.datasets import ColumnCorpus
from flair.embeddings import TransformerDocumentEmbeddings
from flair.models import SequenceTagger
from flair.trainers import ModelTrainer
model = 'zedfum/arman-longformer-8k-finetuned-ensani'
dataset = './jokar/Flair_NER/data/DATASET.txt'
# define columns
columns = {0 : 'text', 1 : 'ner'}
# directory where the data resides
data_folder = './data/'
# initializing the corpus
corpus = ColumnCorpus(data_folder, columns,
train_file = 'DATASET_3.txt'
)
# Load the dataset for training
#corpus = ColumnDataset(dataset, column_format={0: 'text', 1: 'ner'})
# Create a Flair embedding layer using the safetensors model
embeddings = TransformerDocumentEmbeddings(model, layers='-1', pooling='mean')
# tag to predict
tag_type = 'ner'
# make tag dictionary from the corpus
tag_dictionary = corpus.make_label_dictionary(label_type=tag_type)
print(tag_dictionary)
print('#'*50)
print('#'*50)
print('#'*50)
# Create a SequenceTagger model for NER
tagger = SequenceTagger(hidden_size=256, embeddings=embeddings, tag_dictionary=corpus.make_tag_dictionary(tag_type=tag_type),tag_type=tag_type)
print('SequenceTagger')
print('#'*50)
print('#'*50)
print('#'*50)
# Initialize the trainer
trainer = ModelTrainer(tagger, corpus)
print('ModelTrainer')
print('#'*50)
print('#'*50)
print('#'*50)
# Train the model
trainer.train('./jokar/Flair_NER/trained', learning_rate=0.65e-4, mini_batch_size=8, max_epochs=10)
print('trained!')

View File

@ -1,5 +0,0 @@
{
"learning_rate": 6.5e-05,
"mini_batch_size": 10,
"max_epochs": 10
}