data_processes/readme/readme-keyword-extractor-fa.md
2025-08-16 15:40:27 +03:30

2.4 KiB

استخراج‌گر کلمات کلیدی

این پروژه یک اسکریپت ساده برای استخراج کلمات کلیدی از متن با استفاده از پردازش زبان طبیعی (NLP) است.

نحوه عملکرد

این اسکریپت متن ورودی را پردازش کرده و مرتبط‌ترین کلمات کلیدی را با استفاده از یک مدل از پیش آموزش‌دیده (Transformer Model) (مانند bert-base-uncased یا مدل مشابه) استخراج می‌کند.
طراحی آن ساده، سبک و قابل تغییر است.

پیش‌نیازها

  • پایتون 3.8 یا بالاتر
  • کتابخانه‌های NLP (مانند transformers، torch و …)
  • سایر ابزارهای مورد نیاز در فایل requirements.txt

برای مشاهده نسخه دقیق کتابخانه‌ها به فایل requirements.txt مراجعه کنید.

روش اجرا

  1. مخزن (repository) را کلون کنید.
  2. پیش‌نیازها را نصب کنید:
    pip install -r requirements.txt
    
  3. اسکریپت را اجرا کنید:
    python keyword_extractor.py
    

متدهای اصلی

  • load_model(): بارگذاری مدل از پیش آموزش‌دیده برای پردازش متن. این متد اصلی برای آماده‌سازی مدل است.
  • preprocess_text(text): پاک‌سازی و آماده‌سازی متن ورودی (مانند کوچک‌سازی حروف، حذف توقف‌واژه‌ها و ...).
  • extract_keywords(text, top_n=10): متد اصلی استخراج که کلمات کلیدی را با استفاده از مدل انتخاب کرده و n کلمه برتر را برمی‌گرداند.
  • display_results(keywords): نمایش یا ذخیره‌سازی کلمات کلیدی استخراج‌شده برای استفاده‌های بعدی.

مدل

این اسکریپت از یک مدل مبتنی بر Transformer برای استخراج کلمات کلیدی استفاده می‌کند. در صورت نیاز می‌توانید مدل را در کد تغییر دهید.

نکات

  • با زبان انگلیسی (و در صورت پشتیبانی مدل، سایر زبان‌ها) کار می‌کند.
  • کیفیت نتایج به مدل و متن ورودی وابسته است.