2.4 KiB
2.4 KiB
استخراجگر کلمات کلیدی
این پروژه یک اسکریپت ساده برای استخراج کلمات کلیدی از متن با استفاده از پردازش زبان طبیعی (NLP) است.
نحوه عملکرد
این اسکریپت متن ورودی را پردازش کرده و مرتبطترین کلمات کلیدی را با استفاده از یک مدل از پیش آموزشدیده (Transformer Model) (مانند bert-base-uncased
یا مدل مشابه) استخراج میکند.
طراحی آن ساده، سبک و قابل تغییر است.
پیشنیازها
- پایتون 3.8 یا بالاتر
- کتابخانههای NLP (مانند transformers، torch و …)
- سایر ابزارهای مورد نیاز در فایل requirements.txt
برای مشاهده نسخه دقیق کتابخانهها به فایل requirements.txt
مراجعه کنید.
روش اجرا
- مخزن (repository) را کلون کنید.
- پیشنیازها را نصب کنید:
pip install -r requirements.txt
- اسکریپت را اجرا کنید:
python keyword_extractor.py
متدهای اصلی
load_model()
: بارگذاری مدل از پیش آموزشدیده برای پردازش متن. این متد اصلی برای آمادهسازی مدل است.preprocess_text(text)
: پاکسازی و آمادهسازی متن ورودی (مانند کوچکسازی حروف، حذف توقفواژهها و ...).extract_keywords(text, top_n=10)
: متد اصلی استخراج که کلمات کلیدی را با استفاده از مدل انتخاب کرده و n کلمه برتر را برمیگرداند.display_results(keywords)
: نمایش یا ذخیرهسازی کلمات کلیدی استخراجشده برای استفادههای بعدی.
مدل
این اسکریپت از یک مدل مبتنی بر Transformer برای استخراج کلمات کلیدی استفاده میکند. در صورت نیاز میتوانید مدل را در کد تغییر دهید.
نکات
- با زبان انگلیسی (و در صورت پشتیبانی مدل، سایر زبانها) کار میکند.
- کیفیت نتایج به مدل و متن ورودی وابسته است.