39 lines
2.4 KiB
Markdown
39 lines
2.4 KiB
Markdown
# استخراجگر کلمات کلیدی
|
|
|
|
این پروژه یک اسکریپت ساده برای استخراج کلمات کلیدی از متن با استفاده از **پردازش زبان طبیعی (NLP)** است.
|
|
|
|
## نحوه عملکرد
|
|
این اسکریپت متن ورودی را پردازش کرده و مرتبطترین کلمات کلیدی را با استفاده از یک **مدل از پیش آموزشدیده (Transformer Model)** (مانند `bert-base-uncased` یا مدل مشابه) استخراج میکند.
|
|
طراحی آن ساده، سبک و قابل تغییر است.
|
|
|
|
## پیشنیازها
|
|
- پایتون 3.8 یا بالاتر
|
|
- کتابخانههای NLP (مانند transformers، torch و …)
|
|
- سایر ابزارهای مورد نیاز در فایل requirements.txt
|
|
|
|
برای مشاهده نسخه دقیق کتابخانهها به فایل **`requirements.txt`** مراجعه کنید.
|
|
|
|
## روش اجرا
|
|
1. مخزن (repository) را کلون کنید.
|
|
2. پیشنیازها را نصب کنید:
|
|
```bash
|
|
pip install -r requirements.txt
|
|
```
|
|
3. اسکریپت را اجرا کنید:
|
|
```bash
|
|
python keyword_extractor.py
|
|
```
|
|
|
|
## متدهای اصلی
|
|
- `load_model()`: بارگذاری مدل از پیش آموزشدیده برای پردازش متن. این متد اصلی برای آمادهسازی مدل است.
|
|
- `preprocess_text(text)`: پاکسازی و آمادهسازی متن ورودی (مانند کوچکسازی حروف، حذف توقفواژهها و ...).
|
|
- `extract_keywords(text, top_n=10)`: متد اصلی استخراج که کلمات کلیدی را با استفاده از مدل انتخاب کرده و n کلمه برتر را برمیگرداند.
|
|
- `display_results(keywords)`: نمایش یا ذخیرهسازی کلمات کلیدی استخراجشده برای استفادههای بعدی.
|
|
|
|
## مدل
|
|
این اسکریپت از یک **مدل مبتنی بر Transformer** برای استخراج کلمات کلیدی استفاده میکند. در صورت نیاز میتوانید مدل را در کد تغییر دهید.
|
|
|
|
## نکات
|
|
- با زبان انگلیسی (و در صورت پشتیبانی مدل، سایر زبانها) کار میکند.
|
|
- کیفیت نتایج به مدل و متن ورودی وابسته است.
|