35 lines
2.2 KiB
Markdown
35 lines
2.2 KiB
Markdown
# استخراجگر کلمات کلیدی
|
|
|
|
این سورس، یک اسکریپت برای استخراج کلمات کلیدی از متن با استفاده از مدل های زبانی بزرگی مانند لاما و بر اساس پرامپت های کاربر است.
|
|
|
|
## نحوه عملکرد
|
|
این اسکریپت متن ورودی را پردازش کرده و مرتبطترین کلمات کلیدی را با استفاده از یک مدل زبانی بزرگ با پرامپت های سیستمی و کاربری که در سورس قابل مشاهده است، استخراج می کند
|
|
|
|
## پیشنیازها
|
|
- پایتون 3.8 یا بالاتر
|
|
- کتابخانههای NLP (مانند transformers، torch و …)
|
|
- سایر ابزارهای مورد نیاز در فایل requirements.txt
|
|
|
|
برای مشاهده نسخه دقیق کتابخانهها به فایل **`requirements.txt`** مراجعه کنید.
|
|
|
|
## روش اجرا
|
|
1. مخزن (repository) را کلون کنید.
|
|
2. پیشنیازها را نصب کنید:
|
|
```bash
|
|
pip install -r requirements.txt
|
|
```
|
|
3. اسکریپت را اجرا کنید:
|
|
```bash
|
|
python keyword_extractor.py
|
|
```
|
|
|
|
## متدهای اصلی
|
|
- `load_model()`: بارگذاری مدل از پیش آموزشدیده برای پردازش متن. این متد اصلی برای آمادهسازی مدل است.
|
|
- `preprocess_text(text)`: پاکسازی و آمادهسازی متن ورودی (مانند کوچکسازی حروف، حذف توقفواژهها و ...).
|
|
- `extract_keywords(text, top_n=10)`: متد اصلی استخراج که کلمات کلیدی را با استفاده از مدل انتخاب کرده و n کلمه برتر را برمیگرداند.
|
|
- `display_results(keywords)`: نمایش یا ذخیرهسازی کلمات کلیدی استخراجشده برای استفادههای بعدی.
|
|
|
|
## مدل
|
|
این اسکریپت از یک مدل زبانی بزرگ مانند llama3.1-8B برای استخراج کلمات کلیدی استفاده میکند. در صورت نیاز میتوانید مدل را در کد تغییر دهید.
|
|
|