ner readme

2025-08-16 15:14:27 +03:30 · 2025-08-16 15:14:27 +03:30 · 13fabcb940
commit 13fabcb940
parent 91d3f9be6c
6 changed files with 149 additions and 21 deletions
--- a/readme/ner-recognizer-en.md
+++ b/readme/ner-recognizer-en.md
@ -0,0 +1,65 @@
+# Named Entity Recognition (NER) Script
+
+This project provides a Python script (`p2_ner_recognizer.py`) for extracting named entities from text sections using a trained NER model. The script is designed to identify entities such as names, organizations, locations, and more, which is useful for information extraction and text analysis tasks.
+
+## Requirements
+
+Before using this script, please install the required libraries:
+
+```bash
+pip install flair
+```
+
+You also need a trained NER model. Update the `model` path in the script to point to your model file.
+
+## How It Works
+
+- The script loads a trained NER model using the Flair library.
+- It processes each text section, splits long texts into smaller parts if needed, and extracts named entities.
+- The results are saved in a JSON file for further use.
+
+## Main Functions
+
+- `single_ner_recognizer(input_sentence)`: Extracts named entities from a single sentence or text.
+- `do_ner_recognize(sections)`: Processes all sections in a dictionary, extracts entities, and saves the results.
+
+## Usage Example
+
+Suppose you have your sections data as a dictionary:
+
+```python
+sections = {
+    "1": {"content": "First section text"},
+    "2": {"content": "Second section text"}
+}
+```
+
+You can extract named entities for all sections as follows:
+
+```python
+from p2_ner_recognizer import do_ner_recognize
+
+result = do_ner_recognize(sections)
+```
+
+After running, the results will be saved in a JSON file in the `./data/ner/` directory.
+
+## Output Structure
+
+Each section will have a new field `ners_v2` with the extracted entities:
+
+```json
+"1": {
+  "content": "First section text",
+  "ners_v2": [
+    {"key": "PERSON", "value": "John Doe", "begin": 0, "end": 2, "score": 0.98},
+    ...
+  ]
+}
+```
+
+## Notes
+
+- Make sure the model path is correct and the model file is available.
+- The script supports Persian language if the model is trained for it.
+- The output JSON file will be saved in `./data/ner/`.
--- a/readme/ner-recognizer-fa.md
+++ b/readme/ner-recognizer-fa.md
@ -0,0 +1,65 @@
+# اسکریپت تشخیص موجودیت‌های نامدار (NER)
+
+این پروژه شامل یک اسکریپت پایتون (`p2_ner_recognizer.py`) برای استخراج موجودیت‌های نامدار از بخش‌های متنی با استفاده از یک مدل آموزش‌دیده NER است. این اسکریپت برای شناسایی موجودیت‌هایی مانند نام افراد، سازمان‌ها، مکان‌ها و ... کاربرد دارد و برای استخراج اطلاعات و تحلیل متون مفید است.
+
+## پیش‌نیازها
+
+قبل از استفاده از این اسکریپت، کتابخانه زیر را نصب کنید:
+
+```bash
+pip install flair
+```
+
+همچنین به یک مدل آموزش‌دیده NER نیاز دارید. مسیر مدل را در اسکریپت به فایل مدل خودتان تغییر دهید.
+
+## نحوه عملکرد
+
+- اسکریپت با استفاده از کتابخانه Flair یک مدل NER آموزش‌دیده را بارگذاری می‌کند.
+- هر بخش متنی را پردازش می‌کند، در صورت نیاز متن‌های طولانی را به بخش‌های کوچکتر تقسیم می‌کند و موجودیت‌های نامدار را استخراج می‌کند.
+- نتایج در یک فایل JSON برای استفاده‌های بعدی ذخیره می‌شود.
+
+## توابع اصلی
+
+- `single_ner_recognizer(input_sentence)`: موجودیت‌های نامدار را از یک جمله یا متن استخراج می‌کند.
+- `do_ner_recognize(sections)`: همه بخش‌ها را پردازش کرده، موجودیت‌ها را استخراج و نتایج را ذخیره می‌کند.
+
+## مثال استفاده
+
+فرض کنید داده‌های بخش‌های شما به صورت دیکشنری زیر است:
+
+```python
+sections = {
+    "1": {"content": "متن بخش اول"},
+    "2": {"content": "متن بخش دوم"}
+}
+```
+
+می‌توانید موجودیت‌های نامدار همه بخش‌ها را به شکل زیر استخراج کنید:
+
+```python
+from p2_ner_recognizer import do_ner_recognize
+
+result = do_ner_recognize(sections)
+```
+
+پس از اجرا، نتایج در یک فایل JSON در مسیر `./data/ner/` ذخیره می‌شود.
+
+## ساختار خروجی
+
+برای هر بخش، یک فیلد جدید به نام `ners_v2` با موجودیت‌های استخراج‌شده اضافه می‌شود:
+
+```json
+"1": {
+  "content": "متن بخش اول",
+  "ners_v2": [
+    {"key": "PERSON", "value": "علی رضایی", "begin": 0, "end": 2, "score": 0.98},
+    ...
+  ]
+}
+```
+
+## نکات
+
+- مطمئن شوید مسیر مدل صحیح است و فایل مدل در دسترس است.
+- اگر مدل برای زبان فارسی آموزش دیده باشد، اسکریپت از زبان فارسی پشتیبانی می‌کند.
+- فایل خروجی JSON در مسیر `./data/ner/` ذخیره خواهد شد.
--- a/readme/readme-classifier-en.md
+++ b/readme/readme-classifier-en.md
@ -1,6 +1,6 @@
 # Section Classification Script

-This project provides a Python script (`classification.py`) for classifying text sections using a fine-tuned transformer model. The script is designed to suggest the most relevant classes for each section of text, which is useful for legal documents, content categorization, and similar NLP tasks.
+This project provides a Python script (`p1_classifier.py`) for classifying text sections using a fine-tuned transformer model. The script is designed to suggest the most relevant classes for each section of text, which is useful for legal documents, content categorization, and similar NLP tasks.

 ## Requirements

@ -40,7 +40,7 @@ sections = {
 You can classify all sections as follows:

 ```python
-from classification import do_classify
+from p1_classifier import do_classify

 result = do_classify(sections)
 ```
@ -67,5 +67,4 @@ Each section will have a new field `ai_codes` with the classification results:
 ## Notes

 - Make sure the model path in `model_checkpoint` is correct and the model files are available.
- The script supports Persian language.
 - The output JSON file will be saved in `./data/classification/`.
--- a/readme/readme-classifier-fa.md
+++ b/readme/readme-classifier-fa.md
@ -1,6 +1,6 @@
-# اسکریپت کلاسبندی سکشن‌ها
+# اسکریپت کلاسیفیکیشن سکشن‌های قانون

-این پروژه شامل یک اسکریپت پایتون (`classification.py`) برای کلاسبندی بخش‌های متنی با استفاده از یک مدل ترنسفورمر آموزش‌دیده است. این اسکریپت برای پیشنهاد مرتبط‌ترین کلاس‌ها برای هر بخش از متن طراحی شده و برای اسناد حقوقی، دسته‌بندی محتوا و وظایف مشابه در پردازش زبان طبیعی (NLP) کاربرد دارد.
+این پروژه شامل یک اسکریپت پایتون (`p1_classifier.py`) برای کلاسبندی بخش‌های متنی با استفاده از یک مدل ترنسفورمر آموزش‌دیده است. این اسکریپت برای پیشنهاد مرتبط‌ترین کلاس‌ها برای هر بخش از متن طراحی شده و برای اسناد حقوقی، دسته‌بندی محتوا و وظایف مشابه در پردازش زبان طبیعی (NLP) کاربرد دارد.

 ## پیش‌نیازها

@ -10,21 +10,21 @@
 pip install transformers pandas
 ```

-همچنین به یک مدل کلاسبندی آموزش‌دیده و توکنایزر آن نیاز دارید. مسیر مدل (`model_checkpoint`) را در اسکریپت به مدل خودتان تغییر دهید.
+همچنین به یک مدل کلاسیفیکیشن آموزش‌دیده و توکنایزر آن نیاز دارید. مسیر مدل (`model_checkpoint`) را در اسکریپت به مدل خودتان تغییر دهید.

 ## نحوه عملکرد

- اسکریپت یک مدل ترنسفورمر آموزش‌دیده را برای کلاسبندی متن بارگذاری می‌کند.
+- اسکریپت یک مدل ترنسفورمر آموزش‌دیده را برای کلاسیفیکیشن متن بارگذاری می‌کند.
 - هر بخش از متن را پردازش می‌کند و در صورت طولانی بودن متن، آن را به پنجره‌هایی تقسیم می‌کند تا با اندازه ورودی مدل سازگار شود.
 - برای هر بخش، بهترین کلاس‌ها را پیش‌بینی و نتایج را ذخیره می‌کند.

 ## توابع اصلی

- `get_class(sentences, top_k=4)`: یک جمله یا متن را کلاسبندی می‌کند و برترین کلاس‌ها را برمی‌گرداند.
+- `get_class(sentences, top_k=4)`: یک جمله یا متن را کلاسیفای می‌کند و برترین کلاس‌ها را برمی‌گرداند.
 - `mean_classes(input_classes)`: نتایج کلاس‌بندی چند پنجره از یک متن طولانی را تجمیع می‌کند.
- `get_window_classes(text)`: تقسیم متن‌های طولانی به پنجره و تجمیع نتایج کلاسبندی آن‌ها را مدیریت می‌کند.
+- `get_window_classes(text)`: تقسیم متن‌های طولانی به پنجره و تجمیع نتایج کلاسیفیکیشن آن‌ها را مدیریت می‌کند.
 - `single_section_classification(id, section_source)`: یک بخش را کلاسبندی کرده و بهترین و سایر کلاس‌های پیشنهادی را برمی‌گرداند.
- `do_classify(sections)`: همه بخش‌ها را کلاسبندی کرده و نتایج را در یک فایل JSON ذخیره می‌کند.
+- `do_classify(sections)`: همه بخش‌ها را کلاسیفای کرده و نتایج را در یک فایل JSON ذخیره می‌کند.

 ## مثال استفاده

@ -40,7 +40,7 @@ sections = {
 می‌توانید همه بخش‌ها را به شکل زیر کلاسبندی کنید:

 ```python
-from classification import do_classify
+from p1_classifier import do_classify

 result = do_classify(sections)
 ```
@ -49,7 +49,7 @@ result = do_classify(sections)

 ## ساختار خروجی

-برای هر بخش، یک فیلد جدید به نام `ai_codes` با نتایج کلاسبندی اضافه می‌شود:
+برای هر بخش، یک فیلد جدید به نام `ai_codes` با نتایج کلاسیفیکیشن اضافه می‌شود:

 ```json
 "1": {
@ -67,5 +67,4 @@ result = do_classify(sections)
 ## نکات

 - مطمئن شوید مسیر مدل (`model_checkpoint`) صحیح است و فایل‌های مدل در دسترس هستند.
- این اسکریپت بسته به مدل شما از زبان فارسی و سایر زبان‌ها پشتیبانی می‌کند.
 - فایل خروجی JSON در مسیر `./data/classification/` ذخیره خواهد شد.
--- a/readme/readme-words-embedder-en.md
+++ b/readme/readme-words-embedder-en.md
@ -1,6 +1,6 @@
 # Sentence Embedding Generator

-This project provides a Python script (`embedding.py`) for generating sentence embeddings using the [Sentence Transformers]library.
+This project provides a Python script (`p3_words_embedder.py`) for generating sentence embeddings using the [Sentence Transformers]library.

 ## Requirements

@ -22,7 +22,7 @@ pip install sentence-transformers numpy
 ### 1. Get Embedding for a Single Sentence

 ```python
-from embedding import single_section_embedder
+from p3_words_embedder import single_section_embedder

 sentence = "This is a sample sentence."
 embedding = single_section_embedder(sentence)
@ -43,7 +43,7 @@ sections = {
 You can generate and save embeddings as follows:

 ```python
-from embedding import do_word_embedder
+from p3_words_embedder import do_word_embedder

 result = do_word_embedder(sections)
 ```
--- a/readme/readme-words-embedder-fa.md
+++ b/readme/readme-words-embedder-fa.md
@ -1,6 +1,6 @@
 # تولید بردار جملات (امبدینگ)

-این پروژه شامل یک اسکریپت پایتون (`embedding.py`) برای تولید بردارهای جملات با استفاده از کتابخانه [Sentence Transformers] است.
+این پروژه شامل یک اسکریپت پایتون (`p3_words_embedder.py`) برای تولید بردارهای جملات با استفاده از کتابخانه [Sentence Transformers] است.

 ## پیش‌نیازها

@ -22,7 +22,7 @@ pip install sentence-transformers numpy
 ### ۱. دریافت امبدینگ برای یک جمله

 ```python
-from embedding import single_section_embedder
+from p3_words_embedder.py import single_section_embedder

 sentence = "این یک جمله نمونه است."
 embedding = single_section_embedder(sentence)
@ -43,12 +43,12 @@ sections = {
 سپس می‌توانید امبدینگ‌ها را به شکل زیر تولید و ذخیره کنید:

 ```python
-from embedding import do_word_embedder
+from p3_words_embedder.py import do_word_embedder

 result = do_word_embedder(sections)
 ```

-پس از اجرا، فایلی با نامی مانند `sections_embeddings_سال-ماه-روز-ساعت.json` در مسیر `./data/embeddings/` ساخته می‌شود که شامل امبدینگ هر بخش است.
+پس از اجرا، فایلی با نامی مانند `sections_embeddings_year-month-day-hour.json` در مسیر `./data/embeddings` ساخته می‌شود که شامل امبدینگ هر بخش است.

 ## ساختار خروجی

@ -67,4 +67,4 @@ result = do_word_embedder(sections)
 ## نکات

 - قبل از اجرا، پوشه `./data/embeddings/` را ایجاد کنید.
- این اسکریپت از زبان فارسی نیز پشتیبانی می‌کند.
+- این اسکریپت از زبان فارسی پشتیبانی می‌کند.