add readme and update ds

2025-08-21 15:06:49 +03:30 · 2025-08-21 15:06:49 +03:30 · 8b789db37c
commit 8b789db37c
parent 6708cd4133
2 changed files with 105 additions and 1 deletions
--- a/readme-train.md
+++ b/readme-train.md
@ -0,0 +1,104 @@
+
+# آموزش مدل NER فارسی با Flair
+
+این پروژه برای آموزش یک مدل تشخیص موجودیت‌های نامدار (NER) روی داده‌های حقوقی به زبان فارسی طراحی شده است.  
+کد موجود از کتابخانه **Flair** برای آموزش و ریزتنظیم (Fine-tune) مدل‌های مبتنی بر ترانسفورمر استفاده می‌کند.
+
+---
+
+## ویژگی‌ها
+- پشتیبانی از زبان فارسی
+- استفاده از مدل‌های از پیش آموزش‌دیده (Pretrained Transformers)
+- ذخیره نتایج آموزش و ارزیابی به صورت فایل
+- قابلیت تست مدل آموزش‌دیده روی داده‌های جدید
+
+---
+
+## پیش‌نیازها
+قبل از اجرای کد، نیاز است پکیج‌های زیر نصب شده باشند:
+```bash
+pip install flair transformers torch
+```
+
+---
+
+## تنظیمات اولیه
+سه پارامتر اصلی آموزش در ابتدای کد تعریف شده‌اند:
+
+- **LEARNING_RATE**: نرخ یادگیری (مثال: `0.65e-4`)
+- **MINI_BATCH_SIZE**: سایز مینی‌بچ (مثال: `8`)
+- **MAX_EPOCHS**: حداکثر تعداد تکرار آموزش (مثال: `100`)
+
+---
+
+## ساختار داده‌ها
+داده‌ها باید در پوشه `./data/` قرار گیرند و فرمت آن به صورت ستونی (ColumnCorpus) باشد:
+```
+token label
+```
+
+مثال:
+```
+علی B-PER
+به O
+دادگاه B-ORG
+رفت O
+```
+
+---
+
+## متدهای اصلی
+
+### `main_train(model: str) -> bool`
+- **ورودی**: نام مدل ترانسفورمر (مثل: `"HooshvareLab/bert-fa-base-uncased-ner-peyma"`)
+- **خروجی**: مقدار بولین (موفقیت یا شکست)
+- **عملکرد**:
+  1. بارگذاری داده‌ها و آماده‌سازی فرهنگ برچسب‌ها
+  2. بارگذاری و پیکربندی embeddingها
+  3. ایجاد مدل NER با SequenceTagger
+  4. آموزش مدل با استفاده از Flair ModelTrainer
+  5. ذخیره مدل و نتایج آموزش
+  6. تست مدل روی داده جدید
+  7. ارزیابی عملکرد و محاسبه F1
+
+---
+
+## اجرای آموزش
+
+برای آموزش مدل، کافی است کد اصلی اجرا شود:
+```bash
+python train.py
+```
+
+مدل خروجی در پوشه `./taggers/` ذخیره خواهد شد. نام مدل شامل تاریخ و ساعت آموزش است.
+
+---
+
+## سناریوی تست
+
+پس از پایان آموزش:
+1. یک تست سریع روی یک ورودی ساده با استفاده از `inference.py` انجام می‌شود.
+2. ارزیابی مدل با `evaluate_model.py` اجرا می‌شود.
+3. نتایج در فایل `test-result.txt` ذخیره می‌گردد.
+
+---
+
+## خروجی‌ها
+- مدل آموزش‌دیده در پوشه `./taggers/`
+- فایل `test-result.txt` شامل نتایج آموزش و ارزیابی
+- لاگ آموزش برای رسم نمودار
+
+---
+
+## نکات مهم
+- این کد برای داده‌های **حقوقی** طراحی شده است اما می‌توان آن را روی سایر داده‌های فارسی نیز استفاده کرد.
+- در صورت قطع آموزش، اجرای دوباره فرآیند باعث ایجاد مدل جدید با نام متفاوت می‌شود.
+- برای بهبود نتایج، می‌توانید:
+  - نرخ یادگیری (Learning Rate) را تغییر دهید.
+  - سایز مینی‌بچ (Mini Batch Size) را بزرگ‌تر کنید.
+  - تعداد epochها را افزایش دهید.
+
+---
+
+## توسعه‌دهندگان
+این پروژه با هدف پردازش زبان طبیعی فارسی در حوزه حقوقی توسعه داده شده است.
--- a/train.py
+++ b/train.py
@ -43,7 +43,7 @@ def main_train(model):
    #آدرس فایل دیتاست اینجا تنظیم شود 
    corpus = ColumnCorpus(data_folder, columns,
                                #train_file = 'peyma_train.txt')
-                                train_file = 'DATASET140402_no_aref2.txt', # qavanin 36K tokens
+                                train_file = 'DATASET140402_ref_org_filtered.txt', # qavanin 36K tokens
                                # test_file = 'test_ds_new.txt', # test 110 sections - 6.7K
                                #dev_file = 'dev split 2.txt'
                                #max_sentence_length=500