اسکریپت بازنمایی جملات فارسی

این اسکریپت (p5_representer.py) برای ساده‌سازی و بازنمایی جملات پیچیده حقوقی فارسی به مجموعه‌ای از جملات ساده‌تر و قابل فهم‌تر طراحی شده است. مدل مورد استفاده در این سورس meta-llama/Meta-Llama-3.1-8B-Instruct می‌باشد.

نکته: برای مشاهده نسخه کتابخانه‌ها به فایل requirements.txt مراجعه کنید.

مدل مورد استفاده

مدل: meta-llama/Meta-Llama-3.1-8B-Instruct
بارگذاری با استفاده از کتابخانه Transformers (توکنایزر و مدل)

پرامپت‌های سیستمی و کاربری

پرامپت سیستمی: مدل را به عنوان یک وکیل حقوق‌دان معرفی می‌کند که باید متون حقوقی را بدون تغییر اصطلاحات فنی، به زبان ساده برای افراد غیرحقوق‌دان توضیح دهد.
پرامپت کاربری: از مدل می‌خواهد متن ورودی را در تعداد جمله مشخص، ساده و روان به زبان فارسی بازنویسی کند.

متدهای اصلی

۱. `single_section_representation(content)`

هدف: ساده‌سازی یک بخش متنی حقوقی.
ورودی:
- content (رشته): متن حقوقی برای ساده‌سازی.
خروجی:
- result (بولین): وضعیت عملیات.
- desc (رشته): توضیح نتیجه.
- sentences (لیست): لیست جملات ساده‌شده.

۲. `do_representation(sections)`

هدف: پردازش چندین بخش و ذخیره نتایج.
ورودی:
- sections (دیکشنری): هر کلید شناسه بخش و مقدار آن شامل فیلد content است.
خروجی:
- operation_result (بولین): وضعیت کلی عملیات.
- sections (دیکشنری): دیکشنری ورودی با فیلد جدید represented_sentences برای هر بخش.

مثال ورودی

sections = {
    "1": {"content": "این یک متن حقوقی پیچیده است که باید ساده شود."},
    "2": {"content": "متن حقوقی دوم برای بازنمایی."}
}
result, output_sections = do_representation(sections)

خروجی

برای هر بخش، یک فیلد جدید به نام represented_sentences شامل جملات ساده‌شده اضافه می‌شود.

نکات

اسکریپت به صورت خودکار در صورت وجود GPU از آن استفاده می‌کند.
خطاهای هر بخش در مسیر ./data/represent/ ثبت می‌شوند.
فایل خروجی JSON در مسیر ./data/represent/ ذخیره می‌شود.

2.8 KiB Raw Permalink Blame History Unescape Escape