data_processes/readme/readme-keyword-extractor-fa.md

# استخراج‌گر کلمات کلیدی

این سورس، یک اسکریپت برای استخراج کلمات کلیدی از متن با استفاده از مدل های زبانی بزرگی مانند لاما و بر اساس پرامپت های کاربر است.

## نحوه عملکرد
این اسکریپت متن ورودی را پردازش کرده و مرتبط‌ترین کلمات کلیدی را با استفاده از یک مدل زبانی بزرگ با پرامپت های سیستمی و کاربری که در سورس قابل مشاهده است، استخراج می کند

## پیش‌نیازها
- پایتون 3.8 یا بالاتر
- کتابخانه‌های NLP (مانند transformers، torch و …)
- سایر ابزارهای مورد نیاز در فایل requirements.txt

برای مشاهده نسخه دقیق کتابخانه‌ها به فایل **`requirements.txt`** مراجعه کنید.

## روش اجرا
1. مخزن (repository) را کلون کنید.
2. پیش‌نیازها را نصب کنید:
   ```bash
   pip install -r requirements.txt
   ```
3. اسکریپت را اجرا کنید:
   ```bash
   python keyword_extractor.py
   ```

## متدهای اصلی
- `load_model()`: بارگذاری مدل از پیش آموزش‌دیده برای پردازش متن. این متد اصلی برای آماده‌سازی مدل است.
- `preprocess_text(text)`: پاک‌سازی و آماده‌سازی متن ورودی (مانند کوچک‌سازی حروف، حذف توقف‌واژه‌ها و ...).
- `extract_keywords(text, top_n=10)`: متد اصلی استخراج که کلمات کلیدی را با استفاده از مدل انتخاب کرده و n کلمه برتر را برمی‌گرداند.
- `display_results(keywords)`: نمایش یا ذخیره‌سازی کلمات کلیدی استخراج‌شده برای استفاده‌های بعدی.

## مدل
این اسکریپت از یک مدل زبانی بزرگ مانند llama3.1-8B برای استخراج کلمات کلیدی استفاده می‌کند. در صورت نیاز می‌توانید مدل را در کد تغییر دهید.