from general_functions import normalize_content from funcs import separated_date_format_finder from flair.data import Sentence from flair.models import SequenceTagger from flair.nn import Classifier from transformers import AutoTokenizer, AutoModelForMaskedLM from transformers import AutoTokenizer, AutoModelForTokenClassification import torch from transformers import AutoTokenizer from flair.embeddings import TransformerWordEmbeddings # from train import model trained_model = 'unknown' model = "/home/gpu/tnlp/jokar/Flair_NER/taggers/final-model.pt" print('model read') tagger = SequenceTagger.load(model) print('tagger initialized') # import nltk import re # from num2words import num2words def find_ner_values_in_text(text, ner_values): text_temp = text text_tokens = text.split() ner_obj = [] difference = 0 for raw_item in ner_values: raw_ner = raw_item['value'] ner = re.findall(r'"(.*?)"', raw_ner)[0] if ner == ')' or ner == '(' or ner == '/' or ner == 'قانون تغییر' or ner == 'قانون' or ner == '.' or ner == '': continue ner_parts = raw_ner.split(ner)[1] ner_parts = ner_parts.lstrip('"/') ner_type = ner_parts.strip() ner_score = raw_item['score'].strip() ner_type = ner_type.strip() ner_score = ner_score.strip() ner = normalize_content(ner) # پیدا کردن موجودیت نامدار بالا در متن matched_ner = [(m.start(), m.end()) for m in re.finditer(re.escape(ner), text_temp)] if matched_ner: matched_ner_start = matched_ner[0][0] matched_ner_end = matched_ner[0][1] before_ner_text = '' if matched_ner_start > 1: before_ner_text = text_temp[0:matched_ner_start-1] difference = len(before_ner_text.split()) ner_start_token = difference ner_end_token = len(ner.split()) + difference #after_ner_text = text_temp[matched_ner_end:] #$after_ner_text_tokens = [text_tokens[t] for t in range (ner_end_token, len(text_tokens))] #after_ner_text = ' '.join(after_ner_text_tokens) if ner_end_token > len(text_tokens): ner_start_token -= 1 ner_end_token -= 1 ner_tokens = [text_tokens[t] for t in range (ner_start_token,ner_end_token)] # برای جلوگیری از خطای منطقی در هنگامی که مقدار # ner #ما بیشتر از یکبار در متن وجود دارد، موجودیت بررسی شده را با کاراکتر های خنثی جایگزین می کنیم for t in range (ner_start_token,ner_end_token): text_tokens[t] = '#####' text_temp = ' '.join(text_tokens) text_temp = text_temp.strip() if matched_ner_start == 0: difference = len(ner.split()) #region Evaluate NER Format # law_id = 0 if ner_type == 'HALFREFERENCE': ner_type = 'H_REF' if ner_type == 'REFERENCE': ner_type = 'REF' if not (ner.strip()).startswith('قانون'): continue ################################## # پیدا کردن شناسه متناظر با این قانون # law_id = find_related_law(ner.strip()) ################################## if ner_type == 'DATE2':# تاریخ در سه توکن # # در این فرمت از تاریخ اگر تعداد توکن های تاریخ، برابر با سه نباشد، تشخیص ماشین اشتباه بوده # if len(ner_tokens) != 3: # continue date_ner = ' '.join(ner_tokens).strip() # بررسی فرمت صحیح تاریخ با رگولار result = separated_date_format_finder(date_ner) if not result: continue if ner_type == 'DATE3':# تاریخ در یک توکن date_ner = ' '.join(ner_tokens).strip() # بررسی فرمت صحیح تاریخ با رگولار result = separated_date_format_finder(date_ner) if not result: continue #endregion ner_obj.append({ 'ner_value' : ner.strip(), 'ner_start_token': ner_start_token, 'ner_end_token' : ner_end_token, 'ner_key' : ner_type.strip(), 'ner_score' : float(ner_score.strip()), #'ner_tokens' : ner_tokens, }) # if law_id != 0: # ner_obj[len(ner_obj)-1]['ner_law_id']= law_id return ner_obj def inference_main(trained_model,input_sentence): try: proccess_result = True, '' input_sentence = normalize_content(input_sentence) result = [] # if len(input_sentence) > 511 : # sentence_parts = input_sentence.split('.') sentence_parts = split_sentence(input_sentence) for part in sentence_parts: sentence = Sentence(part) tagger.predict(sentence) for span in sentence.get_spans(): result.append(span) # else: # sentence = Sentence(input_sentence) # tagger.predict(sentence) # for span in sentence.get_spans(): # result.append(span) final_result = '' #result_header = 100*'#' + '\n' + 'Model Name: ' + trained_model + '\n' + 'Found Entity Count: ' + str(len(result)) + '\n' + 'inference time: ' + str(datetime.now()) + '\n' + 100*'#' ner_values = [] if result: for item in result: value = item.annotation_layers['ner'][0].labeled_identifier score = round(item.score, 2) score = str(score) final_result = final_result + '\n' + value + ' /%/ ' + score ner_values.append({ 'value':value, 'score':score }) ner_obj_list = find_ner_values_in_text(input_sentence, ner_values) except Exception as error: proccess_result = False , error.args[0] ner_obj_list = [] return ner_obj_list, input_sentence, proccess_result # تابع بازگشتی برای تقسیم متن به تکه های کوچکتر از 512 کاراکتر def split_sentence(input_sentence): # تعریف یک لیست داخلی برای نگهداری بخش‌های تقسیم شده parts = [] # کاراکترهایی که بر اساس آنها به ترتیب، یک متن را به زیرمتن های کوچک تر تبدیل می کنیم separators = ['\n', '.', ':', '،'] # تابع بازگشتی def recursive_split(sentence): # اگر تعداد توکن های متن پاس داده شده کمتر یا برابر با 511 کاراکتر باشد، آن را به لیست اضافه کن if len(sentence.split()) <= 256: if sentence != '': parts.append(sentence) return # تلاش برای استفاده از جداکننده‌های مختلف for separator in separators: if separator in sentence: # تقسیم رشته با استفاده از جداکننده‌ی فعلی split_parts = sentence.split(separator) new_sentence = [] for part in split_parts: new_sentence.append(part) # بررسی اینکه آیا همه بخش‌ها به اندازه کافی کوچک شده‌اند for part in new_sentence: # print(len(part)) if len(part.split()) <= 256: if part == '': continue parts.append(part) else: recursive_split(part) return # اگر هیچ جداکننده‌ای کار نکرد، رشته را به دو نیمه تقسیم کن # mid_point = len(sentence) // 2 # recursive_split(sentence[:mid_point]) # recursive_split(sentence[mid_point:]) # شروع تقسیم بازگشتی recursive_split(input_sentence) return parts