data_processes/readme/readme-representer-fa.md

2.8 KiB
Raw Blame History

اسکریپت بازنمایی جملات فارسی

این اسکریپت (p5_representer.py) برای ساده‌سازی و بازنمایی جملات پیچیده حقوقی فارسی به مجموعه‌ای از جملات ساده‌تر و قابل فهم‌تر طراحی شده است. مدل مورد استفاده در این سورس meta-llama/Meta-Llama-3.1-8B-Instruct می‌باشد.

نکته: برای مشاهده نسخه کتابخانه‌ها به فایل requirements.txt مراجعه کنید.

مدل مورد استفاده

  • مدل: meta-llama/Meta-Llama-3.1-8B-Instruct
  • بارگذاری با استفاده از کتابخانه Transformers (توکنایزر و مدل)

پرامپت‌های سیستمی و کاربری

  • پرامپت سیستمی: مدل را به عنوان یک وکیل حقوق‌دان معرفی می‌کند که باید متون حقوقی را بدون تغییر اصطلاحات فنی، به زبان ساده برای افراد غیرحقوق‌دان توضیح دهد.
  • پرامپت کاربری: از مدل می‌خواهد متن ورودی را در تعداد جمله مشخص، ساده و روان به زبان فارسی بازنویسی کند.

متدهای اصلی

۱. single_section_representation(content)

  • هدف: ساده‌سازی یک بخش متنی حقوقی.
  • ورودی:
    • content (رشته): متن حقوقی برای ساده‌سازی.
  • خروجی:
    • result (بولین): وضعیت عملیات.
    • desc (رشته): توضیح نتیجه.
    • sentences (لیست): لیست جملات ساده‌شده.

۲. do_representation(sections)

  • هدف: پردازش چندین بخش و ذخیره نتایج.
  • ورودی:
    • sections (دیکشنری): هر کلید شناسه بخش و مقدار آن شامل فیلد content است.
  • خروجی:
    • operation_result (بولین): وضعیت کلی عملیات.
    • sections (دیکشنری): دیکشنری ورودی با فیلد جدید represented_sentences برای هر بخش.

مثال ورودی

sections = {
    "1": {"content": "این یک متن حقوقی پیچیده است که باید ساده شود."},
    "2": {"content": "متن حقوقی دوم برای بازنمایی."}
}
result, output_sections = do_representation(sections)

خروجی

برای هر بخش، یک فیلد جدید به نام represented_sentences شامل جملات ساده‌شده اضافه می‌شود.

نکات

  • اسکریپت به صورت خودکار در صورت وجود GPU از آن استفاده می‌کند.
  • خطاهای هر بخش در مسیر ./data/represent/ ثبت می‌شوند.
  • فایل خروجی JSON در مسیر ./data/represent/ ذخیره می‌شود.