data_processes/readme/readme-keyword-extractor-fa.md
2025-08-16 15:57:21 +03:30

2.2 KiB

استخراج‌گر کلمات کلیدی

این سورس، یک اسکریپت برای استخراج کلمات کلیدی از متن با استفاده از مدل های زبانی بزرگی مانند لاما و بر اساس پرامپت های کاربر است.

نحوه عملکرد

این اسکریپت متن ورودی را پردازش کرده و مرتبط‌ترین کلمات کلیدی را با استفاده از یک مدل زبانی بزرگ با پرامپت های سیستمی و کاربری که در سورس قابل مشاهده است، استخراج می کند

پیش‌نیازها

  • پایتون 3.8 یا بالاتر
  • کتابخانه‌های NLP (مانند transformers، torch و …)
  • سایر ابزارهای مورد نیاز در فایل requirements.txt

برای مشاهده نسخه دقیق کتابخانه‌ها به فایل requirements.txt مراجعه کنید.

روش اجرا

  1. مخزن (repository) را کلون کنید.
  2. پیش‌نیازها را نصب کنید:
    pip install -r requirements.txt
    
  3. اسکریپت را اجرا کنید:
    python keyword_extractor.py
    

متدهای اصلی

  • load_model(): بارگذاری مدل از پیش آموزش‌دیده برای پردازش متن. این متد اصلی برای آماده‌سازی مدل است.
  • preprocess_text(text): پاک‌سازی و آماده‌سازی متن ورودی (مانند کوچک‌سازی حروف، حذف توقف‌واژه‌ها و ...).
  • extract_keywords(text, top_n=10): متد اصلی استخراج که کلمات کلیدی را با استفاده از مدل انتخاب کرده و n کلمه برتر را برمی‌گرداند.
  • display_results(keywords): نمایش یا ذخیره‌سازی کلمات کلیدی استخراج‌شده برای استفاده‌های بعدی.

مدل

این اسکریپت از یک مدل زبانی بزرگ مانند llama3.1-8B برای استخراج کلمات کلیدی استفاده می‌کند. در صورت نیاز می‌توانید مدل را در کد تغییر دهید.