data_processes/readme/readme-keyword-extractor-fa.md
2025-08-16 15:40:27 +03:30

39 lines
2.4 KiB
Markdown

# استخراج‌گر کلمات کلیدی
این پروژه یک اسکریپت ساده برای استخراج کلمات کلیدی از متن با استفاده از **پردازش زبان طبیعی (NLP)** است.
## نحوه عملکرد
این اسکریپت متن ورودی را پردازش کرده و مرتبط‌ترین کلمات کلیدی را با استفاده از یک **مدل از پیش آموزش‌دیده (Transformer Model)** (مانند `bert-base-uncased` یا مدل مشابه) استخراج می‌کند.
طراحی آن ساده، سبک و قابل تغییر است.
## پیش‌نیازها
- پایتون 3.8 یا بالاتر
- کتابخانه‌های NLP (مانند transformers، torch و …)
- سایر ابزارهای مورد نیاز در فایل requirements.txt
برای مشاهده نسخه دقیق کتابخانه‌ها به فایل **`requirements.txt`** مراجعه کنید.
## روش اجرا
1. مخزن (repository) را کلون کنید.
2. پیش‌نیازها را نصب کنید:
```bash
pip install -r requirements.txt
```
3. اسکریپت را اجرا کنید:
```bash
python keyword_extractor.py
```
## متدهای اصلی
- `load_model()`: بارگذاری مدل از پیش آموزش‌دیده برای پردازش متن. این متد اصلی برای آماده‌سازی مدل است.
- `preprocess_text(text)`: پاک‌سازی و آماده‌سازی متن ورودی (مانند کوچک‌سازی حروف، حذف توقف‌واژه‌ها و ...).
- `extract_keywords(text, top_n=10)`: متد اصلی استخراج که کلمات کلیدی را با استفاده از مدل انتخاب کرده و n کلمه برتر را برمی‌گرداند.
- `display_results(keywords)`: نمایش یا ذخیره‌سازی کلمات کلیدی استخراج‌شده برای استفاده‌های بعدی.
## مدل
این اسکریپت از یک **مدل مبتنی بر Transformer** برای استخراج کلمات کلیدی استفاده می‌کند. در صورت نیاز می‌توانید مدل را در کد تغییر دهید.
## نکات
- با زبان انگلیسی (و در صورت پشتیبانی مدل، سایر زبان‌ها) کار می‌کند.
- کیفیت نتایج به مدل و متن ورودی وابسته است.