تغییرات

This commit is contained in:
Mehdi104797 2025-08-19 12:04:58 +03:30
parent c21d1bd22a
commit 443c98daf3
5 changed files with 59437 additions and 0 deletions

7
.vscode/settings.json vendored Normal file
View File

@ -0,0 +1,7 @@
{
"workbench.colorCustomizations": {
"activityBar.background": "#0E3144",
"titleBar.activeBackground": "#14445F",
"titleBar.activeForeground": "#F8FCFE"
}
}

File diff suppressed because it is too large Load Diff

35342
data/DATASET140402_ref_org.txt Normal file

File diff suppressed because it is too large Load Diff

152
remove_all_o_sentences.py Normal file
View File

@ -0,0 +1,152 @@
def analyze_and_filter_dataset(input_file, output_file, report_file):
with open(input_file, 'r', encoding='utf-8') as f:
lines = f.readlines()
# استخراج جملات
sentences = []
current_sentence = []
for line in lines:
stripped_line = line.strip()
if not stripped_line or stripped_line == '...':
if current_sentence:
sentences.append(current_sentence)
current_sentence = []
else:
current_sentence.append(stripped_line)
if current_sentence:
sentences.append(current_sentence)
# شمارش جملات
total_sentences = len(sentences)
filtered_sentences = []
all_o_count = 0
for sent in sentences:
tags = [token.split()[1] for token in sent if len(token.split()) >= 2]
if all(tag == 'O' for tag in tags):
all_o_count += 1
else:
filtered_sentences.append(sent)
kept_sentences = len(filtered_sentences)
# شمارش توکن‌ها
total_tokens = sum(len(sent) for sent in filtered_sentences)
# استخراج موجودیت‌ها
org_entities = []
ref_entities = []
current_org = []
current_ref = []
for sent in filtered_sentences:
for token_line in sent:
parts = token_line.strip().split()
if len(parts) < 2:
continue
token, tag = parts[0], parts[1]
# پردازش ORG
if tag == 'B-ORG':
if current_org:
org_entities.append(' '.join(current_org))
current_org = [token]
elif tag == 'I-ORG':
if current_org:
current_org.append(token)
else:
if current_org:
org_entities.append(' '.join(current_org))
current_org = []
# پردازش REF
if tag == 'B-REF':
if current_ref:
ref_entities.append(' '.join(current_ref))
current_ref = [token]
elif tag == 'I-REF':
if current_ref:
current_ref.append(token)
else:
if current_ref:
ref_entities.append(' '.join(current_ref))
current_ref = []
# بستن موجودیت‌های باز در پایان جمله
if current_org:
org_entities.append(' '.join(current_org))
current_org = []
if current_ref:
ref_entities.append(' '.join(current_ref))
current_ref = []
unique_org_entities = list(set(org_entities))
unique_ref_entities = list(set(ref_entities))
# نوشتن گزارش در فایل و چاپ آن
report = []
report.append("📊 گزارش تحلیل دیتاست NER")
report.append("=" * 60)
report.append(f"✅ تعداد کل جملات در دیتاست: {total_sentences}")
report.append(f"❌ تعداد جملات حذف‌شده (همه تگ O): {all_o_count}")
report.append(f"✅ تعداد جملات باقی‌مانده (دارای موجودیت): {kept_sentences}")
report.append(f"🔤 تعداد کل توکن‌ها در جملات باقی‌مانده: {total_tokens}")
report.append(f"🏢 تعداد موجودیت ORG (سازمان): {len(org_entities)}")
report.append(f"📜 تعداد موجودیت REF (ارجاع به قانون/ماده): {len(ref_entities)}")
report.append(f"🔍 تعداد موجودیت منحصربه‌فرد ORG: {len(unique_org_entities)}")
report.append(f"🔍 تعداد موجودیت منحصربه‌فرد REF: {len(unique_ref_entities)}")
# report.append("\n📋 نمونه‌های منحصربه‌فرد موجودیت ORG:")
# for ent in sorted(unique_org_entities)[:10]:
# report.append(f" • {ent}")
# if len(unique_org_entities) > 10:
# report.append(f" ... و {len(unique_org_entities) - 10} مورد دیگر")
# report.append("\n📋 نمونه‌های منحصربه‌فرد موجودیت REF:")
# for ent in sorted(unique_ref_entities)[:10]:
# report.append(f" • {ent}")
# if len(unique_ref_entities) > 10:
# report.append(f" ... و {len(unique_ref_entities) - 10} مورد دیگر")
report.append("\n📋 همه موجودیت‌های منحصربه‌فرد ORG:")
if unique_org_entities:
for ent in unique_org_entities:
report.append(f"{ent}")
else:
report.append(" • هیچ موجودیت ORGای یافت نشد.")
report.append("\n📋 همه موجودیت‌های منحصربه‌فرد REF:")
if unique_ref_entities:
for ent in unique_ref_entities:
report.append(f"{ent}")
else:
report.append(" • هیچ موجودیت REFای یافت نشد.")
report.append(f"\n✅ پردازش کامل شد.")
report.append(f"💾 خروجی فیلترشده در '{output_file}' ذخیره شد.")
report.append(f"📄 گزارش کامل در '{report_file}' ذخیره شد.")
# چاپ گزارش در کنسول
for line in report:
print(line)
# ذخیره گزارش در فایل
with open(report_file, 'w', encoding='utf-8') as f:
f.write('\n'.join(report))
# ذخیره دیتاست فیلترشده
with open(output_file, 'w', encoding='utf-8') as f:
for sent in filtered_sentences:
for line in sent:
f.write(line.strip() + '\n')
f.write('\n')
# اجرای تابع
analyze_and_filter_dataset(
input_file='data/DATASET140402_ref_org.txt',
output_file='DATASET140402_ref_org_filtered.txt',
report_file='گزارش_تحلیل_دیتاست.txt'
)

View File

@ -0,0 +1,191 @@
📊 گزارش تحلیل دیتاست NER
============================================================
✅ تعداد کل جملات در دیتاست: 863
❌ تعداد جملات حذف‌شده (همه تگ O): 398
✅ تعداد جملات باقی‌مانده (دارای موجودیت): 465
🔤 تعداد کل توکن‌ها در جملات باقی‌مانده: 23280
🏢 تعداد موجودیت ORG (سازمان): 830
📜 تعداد موجودیت REF (ارجاع به قانون/ماده): 92
🔍 تعداد موجودیت منحصربه‌فرد ORG: 117
🔍 تعداد موجودیت منحصربه‌فرد REF: 56
📋 همه موجودیت‌های منحصربه‌فرد ORG:
• مجلس شورای اسلامی
• وزارت امور اقتصادی و دارایی
• شرکت ملی گاز
• دولت
• اشخاص حقیقی و حقوقی
• نیروی مقاومت بسیج
• وزیر امور اقتصادی و دارایی
• وزارت آموزش و پرورش
• همه پرسی
• تمام دستگاههای اجرایی
• شورای اقتصاد
• سازمان بهزیستی
• شورای عالی انقلاب فرهنگی
• دولت.
• مجلس
• وزارت فرهنگ و آموزش عالی
• جهاد سازندگی
• کلیه سازمانها
• سپاه پاسداران انقلاب اسلامی
• هیات وزیران.
• شورای عالی امنیت ملی
• سازمان برنامه و بودجه
• رییس
• سازمان برنامه
• شورای عالی اشتغال
• سازمان حسابرسی
• جمعیت هلال احمر
• وزارت کشاورزی
• وزارت صنایع و معادن
• شورای عالی شهرسازی و معماری
• سازمان آموزش فنی و حرفه ای
• وزارت نفت
• دستگاههای اجرایی کشور
• وزیر دادگستری
• نیروی انتظامی
• استاندار
• هیات وزیران
• شوراهای اسلامی شهر و روستا
• وزارتخانه ها
• گمرک
• بانک صنعت و معدن
• سازمان تامین اجتماعی
• رییس جمهور
• وزارت صنایع
• شوراهای اسلامی
• سازمان بنادر و کشتیرانی
• وزیر نیرو
• شورای نگهبان
• بانکها
• دیوان محاسبات
• اتاق بازرگانی
• استانداران
• استانداری
• خزانه داری
• مقام معظم رهبری
• دستگاههای اجرایی.
• دادستان کل کشور
• مجلس سنا
• قوه قضاییه
• نیروهای مسلح
• وزارت راه و شهرسازی
• دستگاههای اجرایی
• سازمان حفاظت محیط زیست
• نمایندگان مجلس شورای اسلامی
• وزیر دفاع
• سازمان امور اداری و استخدامی
• شورای عالی اداری
• دانشگاه آزاد اسلامی
• ارتش
• کلیه
• وزارت نیرو
• شرکت سهامی بیمه
• اتاق بازرگانی و صنایع و معادن
• شرکت ملی صنایع پتروشیمی
• وزارت تعاون
• مجمع تشخیص مصلحت نظام
• وزارت بهداشت
• کمیته امداد امام خمینی (ره)
• سازمان میراث فرهنگی و گردشگری
• بانک کشاورزی
• مجلس شورای ملی
• صدا و سیمای
• ستاد کل
• کلیه دستگاههای اجرایی
• وزارت کشور
• وزارت جهاد کشاورزی
• شورای پول و اعتبار
• شورای اسلامی شهر
• شورای عالی حفاظت محیط زیست
• وزارت دادگستری
• شهرداری تهران
• مرکز آمار
• سازمان خصوصی سازی
• وزارت پست و تلگراف و تلفن
• وزارت ارتباطات و فناوری اطلاعات
• بیمه مرکزی
• وزارت جهاد سازندگی
• سازمان مدیریت و برنامه ریزی
• شرکت توانیر
• وزارت کار و امور اجتماعی
• نمایندگان مجلس
• سازمان ملی زمین و مسکن
• وزارت دفاع و پشتیبانی نیروهای مسلح
• سازمان گسترش و نوسازی صنایع
• ریاست جمهوری
• شهرداریها
• بانک مرکزی
• سازمان امور مالیاتی
• کمیته امداد امام خمینی
• مجمع عمومی
• سازمان
• وزارت امور خارجه
• نهادهای انقلاب اسلامی
• سازمان توسعه و نوسازی معادن و صنایع معدنی
• شرکت ملی نفت
• جهاد دانشگاهی
• اتاق تعاون
📋 همه موجودیت‌های منحصربه‌فرد REF:
• قانون مالیاتهای مستقیم مصوب 27/ 11/ 1380
• قانون اساسی
• قانون توزیع عادلانه آب مصوب 18 /7 /1363
• قانون الحاق یک تبصره به ماده 96 قانون محاسبات عمومی
• قانون اساسی مصوب 7 جمادی الاولی مطابق 16 ثور 1329 قمری
• قانون برنامه پنجساله دوم توسعه اقتصادی اجتماعی و فرهنگی جمهوری اسلامی ایران مصوب 20 /9 /1373
• قانون نحوه انجام امور مالی و معاملاتی دانشگاهها و موسسات آموزش عالی و تحقیقاتی مصوب 18 /10 /1369
• قانون تنظیم بخشی از مقررات مالی دولت مصوب 27 /11 /1380
• قانون عملیات بانکی بدون ربا
• قانون انتشار اوراق مشارکت مصوب 3 /6 /1376)
• قانون بودجه سال 1385 کل کشور مصوب 12 /7 /1385
• قانون برنامه سوم توسعه اقتصادی اجتماعی و فرهنگی جمهوری اسلامی ایران
• قانون نظام هماهنگ پرداخت کارکنان
• قانون استفساریه تبصره ذیل ماده -1082 قانون مدنی مصوب 1376
• قانون اصلاح بندهای (الف) (ب) و (ج) ماده -80 و ماده -86 قانون محاسبات عمومی کشور مصوب 1 /6 /1366
• قانون بیمه مرکزی ایران و بیمه گری مصوب 1350
• قانون معافیت کلیه دانشجویان بورسیه و اعضای هیات علمی
• قانون اصلاح تبصره 2 ماده 73 قانون محاسبات عمومی مصوب 1349
• قانون تجارت
• قانون برنامه و بودجه مصوب 1351
• قانون اصلاح بندهای (ز) و (ح) ماده 84 و بند (ج) ماده 86 قانون محاسبات عمومی
• قانون بودجه سال 1386
• قانون مدنی مصوب 1307
• قانون محاسبات عمومی
• قانون پولی و بانکی کشور مصوب سال 1351
• قانون تابعیت
• قانون تغییر نصاب معاملات موضوع ماده -87 قانون محاسبات عمومی کشور
• قانون محاسبات عمومی کشور مصوب 1366
• قانون تامین اجتماعی مصوب 1354
• قانون تشکیل هیات امنائ دانشگاهها و موسسات آموزش عالی و پژوهشی مصوب 23 /12 /1367
• قانون عملیات بانکی بدون ربا مصوب 8 /6 /1362
• قانون مدنی
• قانون محاسبات عمومی کشور مصوب 1 /6 /1366
• قانون نحوه وصول برخی از درآمدهای دولت و مصرف آن در موارد معین مصوب 1373
• قانون برنامه چهارم توسعه اقتصادی اجتماعی و
• قانون الحاق موادی به قانون تنظیم بخشی از مقررات مالی دولت -1 - مصوب 27 /11 /1380
• قانون برنامه چهارم توسعه اقتصادی اجتماعی و فرهنگی
• قانون اساسی مصوب 1358
• قانون نحوه توزیع قند و شکر تولیدی کارخانه های کشور مصوب 1353
• قانون تشکیل شوراهای آموزش و پرورش مصوب 26 /10 /1372
• قانون مدنی مصوب 1314.1.20
• قانون بیمه
• قانون تشویق و حمایت سرمایه گذاری خارجی مصوب 19 /12 /1380
• قانون تشویق و حمایت سرمایه گذاری خارجی مصوب 19 /12 /1380:
• قانون تاسیس بورس اوراق بهادار مصوب 27 /2 /1345
• قانون بیمه همگانی خدمات درمانی کشور مصوب 1373
• قانون مدنی مصوب 29 /4 /1376
• قانون حداکثر استفاده از توان فنی مهندسی تولیدی و صنعتی و اجرایی کشور مصوب 12 /12 /1375
• قانون تنظیم بخشی از مقررات مالی دولت مصوب 15 /8 /1384
• قانون بودجه سال 1385
• قانون مدنی مصوب 1314.1.17
• قانون تنظیم بخشی از مقررات مالی دولت مصوب 1380
• قانون حداکثر استفاده از توان فنی و مهندسی تولیدی و صنعتی و اجرایی کشور در اجرای پروژه ها و ایجاد تسهیلات به منظور صدور خدمات مصوب 12 /12 /1375
• قانون برگزاری مناقصات
• قانون برنامه پنج ساله دوم توسعه اقتصادی اجتماعی و فرهنگی جمهوری اسلامی ایران مصوب 20 /9 /1373
• لایحه قانونی الحاقی به ماده 37 قانون محاسبات عمومی
✅ پردازش کامل شد.
💾 خروجی فیلترشده در 'DATASET140402_ref_org_filtered.txt' ذخیره شد.
📄 گزارش کامل در 'گزارش_تحلیل_دیتاست.txt' ذخیره شد.