create ner-dataset part

ارسال کلیدواژه های 11 هزارتایی به aitools
2025-07-28 16:22:36 +03:30 · 2024-09-28 16:47:38 +03:30
6 changed files with 234418 additions and 5039 deletions
--- a/import_data/ai_keyword_insert_02.py
+++ b/import_data/ai_keyword_insert_02.py
@ -14,9 +14,9 @@ headers = HEADERS

 address = os.getcwd()
 if "import_data" in address:
-    address += "/data/clean_sections_kw_15k.json"
+    address += "/data/clean_sections_kw_11k.json"
 else:
-    address += "/import_data/data/clean_sections_kw_15k.json"
+    address += "/import_data/data/clean_sections_kw_11k.json"

 # open .json file
 lines = read_from_json(address)
@ -58,7 +58,7 @@ def createIndex(id, content, result_objects):
    output = {
        "id" : id,
        "content": content,
-        "domain": "استخراج کلیدواژه 15 هزارتایی",
+        "domain": "استخراج کلیدواژه 11 هزارتایی",
        "ref_id": "",
        "ref_url": "",
        "result_objects": result_objects,
@ -128,7 +128,12 @@ for i, line in enumerate(lines):
    result_objects = []
    llam_prompt_kws = line["keywords"]
    # values = extract_keywords(llam_prompt_kw)
-    values = llam_prompt_kws
+    
+    values = []
+    for item in llam_prompt_kws:
+        values.append({
+            "text": item,
+        })
    result_objects.append(
    {
        "task": "keyword",
@ -154,7 +159,7 @@ for i, line in enumerate(lines):
    bulk_data.append(data)

    bulk_count += 1
-    if bulk_data.__len__() > 500:
+    if bulk_data.__len__() > 1000:
        print("=" * 30)
        print("count " + str(count))
        payload = json.dumps(bulk_data, cls=JSONEncoder)  # Works!
--- a/import_data/data/clean_sections_kw_11k.json
+++ b/import_data/data/clean_sections_kw_11k.json
--- a/import_data/data/clean_sections_kw_15k.json
+++ b/import_data/data/clean_sections_kw_15k.json
--- a/ORIGINAL_480Kـoutput.json
+++ b/ORIGINAL_480Kـoutput.json
--- a/ner_dataset/data/DATASET140402_no_arefـoutput.json
+++ b/ner_dataset/data/DATASET140402_no_arefـoutput.json
--- a/ner_dataset/data/all_sections_classes_new_140405.zip
+++ b/ner_dataset/data/all_sections_classes_new_140405.zip
Author	SHA1	Message	Date
ajokar	6bdac3f01e	create ner-dataset part	2025-07-28 16:22:36 +03:30
ajokar	d1aee6adeb	ارسال کلیدواژه های 11 هزارتایی به aitools	2024-09-28 16:47:38 +03:30