2.2 KiB
2.2 KiB
استخراجگر کلمات کلیدی
این سورس، یک اسکریپت برای استخراج کلمات کلیدی از متن با استفاده از مدل های زبانی بزرگی مانند لاما و بر اساس پرامپت های کاربر است.
نحوه عملکرد
این اسکریپت متن ورودی را پردازش کرده و مرتبطترین کلمات کلیدی را با استفاده از یک مدل زبانی بزرگ با پرامپت های سیستمی و کاربری که در سورس قابل مشاهده است، استخراج می کند
پیشنیازها
- پایتون 3.8 یا بالاتر
- کتابخانههای NLP (مانند transformers، torch و …)
- سایر ابزارهای مورد نیاز در فایل requirements.txt
برای مشاهده نسخه دقیق کتابخانهها به فایل requirements.txt
مراجعه کنید.
روش اجرا
- مخزن (repository) را کلون کنید.
- پیشنیازها را نصب کنید:
pip install -r requirements.txt
- اسکریپت را اجرا کنید:
python keyword_extractor.py
متدهای اصلی
load_model()
: بارگذاری مدل از پیش آموزشدیده برای پردازش متن. این متد اصلی برای آمادهسازی مدل است.preprocess_text(text)
: پاکسازی و آمادهسازی متن ورودی (مانند کوچکسازی حروف، حذف توقفواژهها و ...).extract_keywords(text, top_n=10)
: متد اصلی استخراج که کلمات کلیدی را با استفاده از مدل انتخاب کرده و n کلمه برتر را برمیگرداند.display_results(keywords)
: نمایش یا ذخیرهسازی کلمات کلیدی استخراجشده برای استفادههای بعدی.
مدل
این اسکریپت از یک مدل زبانی بزرگ مانند llama3.1-8B برای استخراج کلمات کلیدی استفاده میکند. در صورت نیاز میتوانید مدل را در کد تغییر دهید.