data_processes/readme/readme-keyword-extractor-fa.md
2025-08-16 15:57:21 +03:30

35 lines
2.2 KiB
Markdown

# استخراج‌گر کلمات کلیدی
این سورس، یک اسکریپت برای استخراج کلمات کلیدی از متن با استفاده از مدل های زبانی بزرگی مانند لاما و بر اساس پرامپت های کاربر است.
## نحوه عملکرد
این اسکریپت متن ورودی را پردازش کرده و مرتبط‌ترین کلمات کلیدی را با استفاده از یک مدل زبانی بزرگ با پرامپت های سیستمی و کاربری که در سورس قابل مشاهده است، استخراج می کند
## پیش‌نیازها
- پایتون 3.8 یا بالاتر
- کتابخانه‌های NLP (مانند transformers، torch و …)
- سایر ابزارهای مورد نیاز در فایل requirements.txt
برای مشاهده نسخه دقیق کتابخانه‌ها به فایل **`requirements.txt`** مراجعه کنید.
## روش اجرا
1. مخزن (repository) را کلون کنید.
2. پیش‌نیازها را نصب کنید:
```bash
pip install -r requirements.txt
```
3. اسکریپت را اجرا کنید:
```bash
python keyword_extractor.py
```
## متدهای اصلی
- `load_model()`: بارگذاری مدل از پیش آموزش‌دیده برای پردازش متن. این متد اصلی برای آماده‌سازی مدل است.
- `preprocess_text(text)`: پاک‌سازی و آماده‌سازی متن ورودی (مانند کوچک‌سازی حروف، حذف توقف‌واژه‌ها و ...).
- `extract_keywords(text, top_n=10)`: متد اصلی استخراج که کلمات کلیدی را با استفاده از مدل انتخاب کرده و n کلمه برتر را برمی‌گرداند.
- `display_results(keywords)`: نمایش یا ذخیره‌سازی کلمات کلیدی استخراج‌شده برای استفاده‌های بعدی.
## مدل
این اسکریپت از یک مدل زبانی بزرگ مانند llama3.1-8B برای استخراج کلمات کلیدی استفاده می‌کند. در صورت نیاز می‌توانید مدل را در کد تغییر دهید.