2025-05-05 19:18:34.166514: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2025-05-05 19:18:35.615541: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer_plugin.so.7'; dlerror: libcudnn.so.8: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: :/home/gpu/NLP/.env/lib/python3.10/site-packages/tensorrt:/home/gpu/NLP/.env/lib/python3.10/site-packages/tensorrt
2025-05-05 19:18:35.615574: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Cannot dlopen some TensorRT libraries. If you would like to use Nvidia GPU with TensorRT, please make sure the missing libraries mentioned above are installed properly.
HooshvareLab/bert-base-parsbert-ner-uncased
##################################################
##################################################
2025-05-05 19:18:37,522 Reading data from data
2025-05-05 19:18:37,522 Train: data/DATASET140402.txt
2025-05-05 19:18:37,522 Dev: None
2025-05-05 19:18:37,522 Test: None
2025-05-05 19:18:38,029 No test split found. Using 10% (i.e. 81 samples) of the train split as test data
2025-05-05 19:18:38,029 No dev split found. Using 10% (i.e. 73 samples) of the train split as dev data
2025-05-05 19:18:38,030 Computing label dictionary. Progress:
0it [00:00, ?it/s]0it [00:00, ?it/s]
0it [00:00, ?it/s]659it [00:00, 23673.90it/s]
2025-05-05 19:18:38,066 Dictionary created for label 'ner' with 9 values: AREF (seen 452 times), ORG (seen 424 times), ORG2 (seen 232 times), FAC (seen 197 times), LOC2 (seen 71 times), REF (seen 69 times), LOC (seen 54 times), EVENT (seen 17 times), PER (seen 15 times)
2025-05-05 19:18:40.452531: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudnn.so.8'; dlerror: libcudnn.so.8: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: :/home/gpu/NLP/.env/lib/python3.10/site-packages/tensorrt:/home/gpu/NLP/.env/lib/python3.10/site-packages/tensorrt
2025-05-05 19:18:40.452573: W tensorflow/core/common_runtime/gpu/gpu_device.cc:1934] Cannot dlopen some GPU libraries. Please make sure the missing libraries mentioned above are installed properly if you would like to use GPU. Follow the guide at https://www.tensorflow.org/install/gpu for how to download and setup the required libraries for your platform.
Skipping registering GPU devices...
model read successfully !
##################################################
##################################################
2025-05-05 19:18:44,200 SequenceTagger predicts: Dictionary with 37 tags: O, S-AREF, B-AREF, E-AREF, I-AREF, S-ORG, B-ORG, E-ORG, I-ORG, S-ORG2, B-ORG2, E-ORG2, I-ORG2, S-FAC, B-FAC, E-FAC, I-FAC, S-LOC2, B-LOC2, E-LOC2, I-LOC2, S-REF, B-REF, E-REF, I-REF, S-LOC, B-LOC, E-LOC, I-LOC, S-EVENT, B-EVENT, E-EVENT, I-EVENT, S-PER, B-PER, E-PER, I-PER
/home/gpu/NLP/.env/lib/python3.10/site-packages/flair/trainers/trainer.py:499: FutureWarning: `torch.cuda.amp.GradScaler(args...)` is deprecated. Please use `torch.amp.GradScaler('cuda', args...)` instead.
  scaler = torch.cuda.amp.GradScaler(enabled=use_amp and flair.device.type != "cpu")
2025-05-05 19:18:44,206 ----------------------------------------------------------------------------------------------------
2025-05-05 19:18:44,207 Model: "SequenceTagger(
  (embeddings): TransformerWordEmbeddings(
    (model): BertModel(
      (embeddings): BertEmbeddings(
        (word_embeddings): Embedding(100001, 768, padding_idx=0)
        (position_embeddings): Embedding(512, 768)
        (token_type_embeddings): Embedding(2, 768)
        (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (encoder): BertEncoder(
        (layer): ModuleList(
          (0-11): 12 x BertLayer(
            (attention): BertAttention(
              (self): BertSdpaSelfAttention(
                (query): Linear(in_features=768, out_features=768, bias=True)
                (key): Linear(in_features=768, out_features=768, bias=True)
                (value): Linear(in_features=768, out_features=768, bias=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
              (output): BertSelfOutput(
                (dense): Linear(in_features=768, out_features=768, bias=True)
                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
                (dropout): Dropout(p=0.1, inplace=False)
              )
            )
            (intermediate): BertIntermediate(
              (dense): Linear(in_features=768, out_features=3072, bias=True)
              (intermediate_act_fn): GELUActivation()
            )
            (output): BertOutput(
              (dense): Linear(in_features=3072, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
          )
        )
      )
      (pooler): BertPooler(
        (dense): Linear(in_features=768, out_features=768, bias=True)
        (activation): Tanh()
      )
    )
  )
  (locked_dropout): LockedDropout(p=0.5)
  (linear): Linear(in_features=768, out_features=37, bias=True)
  (loss_function): CrossEntropyLoss()
)"
2025-05-05 19:18:44,207 ----------------------------------------------------------------------------------------------------
2025-05-05 19:18:44,207 Corpus: 659 train + 73 dev + 81 test sentences
2025-05-05 19:18:44,207 ----------------------------------------------------------------------------------------------------
2025-05-05 19:18:44,207 Train:  659 sentences
2025-05-05 19:18:44,207         (train_with_dev=False, train_with_test=False)
2025-05-05 19:18:44,207 ----------------------------------------------------------------------------------------------------
2025-05-05 19:18:44,207 Training Params:
2025-05-05 19:18:44,208  - learning_rate: "6.5e-05" 
2025-05-05 19:18:44,208  - mini_batch_size: "8"
2025-05-05 19:18:44,208  - max_epochs: "200"
2025-05-05 19:18:44,208  - shuffle: "True"
2025-05-05 19:18:44,208 ----------------------------------------------------------------------------------------------------
2025-05-05 19:18:44,208 Plugins:
2025-05-05 19:18:44,208  - LinearScheduler | warmup_fraction: '0.1'
2025-05-05 19:18:44,208 ----------------------------------------------------------------------------------------------------
2025-05-05 19:18:44,208 Final evaluation on model after last epoch (final-model.pt)
2025-05-05 19:18:44,208  - metric: "('micro avg', 'f1-score')"
2025-05-05 19:18:44,208 ----------------------------------------------------------------------------------------------------
2025-05-05 19:18:44,208 Computation:
2025-05-05 19:18:44,208  - compute on device: cuda:0
2025-05-05 19:18:44,208  - embedding storage: none
2025-05-05 19:18:44,208 ----------------------------------------------------------------------------------------------------
2025-05-05 19:18:44,208 Model training base path: "taggers"
2025-05-05 19:18:44,208 ----------------------------------------------------------------------------------------------------
2025-05-05 19:18:44,208 ----------------------------------------------------------------------------------------------------
2025-05-05 19:18:45,964 epoch 1 - iter 8/83 - loss 4.88107231 - time (sec): 1.75 - samples/sec: 1594.56 - lr: 0.000000 - momentum: 0.000000
2025-05-05 19:18:46,795 epoch 1 - iter 16/83 - loss 4.96605820 - time (sec): 2.59 - samples/sec: 2030.53 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:18:47,617 epoch 1 - iter 24/83 - loss 4.90422556 - time (sec): 3.41 - samples/sec: 2394.29 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:18:48,494 epoch 1 - iter 32/83 - loss 4.81953241 - time (sec): 4.28 - samples/sec: 2485.25 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:18:49,285 epoch 1 - iter 40/83 - loss 4.73885822 - time (sec): 5.08 - samples/sec: 2568.59 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:18:50,212 epoch 1 - iter 48/83 - loss 4.58169460 - time (sec): 6.00 - samples/sec: 2700.05 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:18:51,128 epoch 1 - iter 56/83 - loss 4.48121854 - time (sec): 6.92 - samples/sec: 2780.99 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:18:52,016 epoch 1 - iter 64/83 - loss 4.37189533 - time (sec): 7.81 - samples/sec: 2834.94 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:18:52,849 epoch 1 - iter 72/83 - loss 4.24427416 - time (sec): 8.64 - samples/sec: 2865.31 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:18:53,664 epoch 1 - iter 80/83 - loss 4.11392041 - time (sec): 9.45 - samples/sec: 2881.71 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:18:54,039 ----------------------------------------------------------------------------------------------------
2025-05-05 19:18:54,039 EPOCH 1 done: loss 4.0762 - lr: 0.000003
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  9.74it/s] 60%|███████████████          | 3/5 [00:00<00:00, 11.31it/s]100%|█████████████████████████| 5/5 [00:00<00:00, 11.85it/s]100%|█████████████████████████| 5/5 [00:00<00:00, 11.60it/s]
2025-05-05 19:18:54,492 DEV : loss 1.7145661115646362 - f1-score (micro avg)  0.0
2025-05-05 19:18:54,495 ----------------------------------------------------------------------------------------------------
2025-05-05 19:18:55,342 epoch 2 - iter 8/83 - loss 2.02827049 - time (sec): 0.85 - samples/sec: 3092.01 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:18:56,104 epoch 2 - iter 16/83 - loss 1.69235852 - time (sec): 1.61 - samples/sec: 3040.37 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:18:56,917 epoch 2 - iter 24/83 - loss 1.47139458 - time (sec): 2.42 - samples/sec: 3127.24 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:18:57,822 epoch 2 - iter 32/83 - loss 1.31222075 - time (sec): 3.33 - samples/sec: 3107.43 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:18:58,650 epoch 2 - iter 40/83 - loss 1.22055627 - time (sec): 4.15 - samples/sec: 3159.18 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:18:59,540 epoch 2 - iter 48/83 - loss 1.15958650 - time (sec): 5.04 - samples/sec: 3191.59 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:19:00,443 epoch 2 - iter 56/83 - loss 1.12092809 - time (sec): 5.95 - samples/sec: 3160.73 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:19:01,265 epoch 2 - iter 64/83 - loss 1.07580136 - time (sec): 6.77 - samples/sec: 3170.44 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:19:02,192 epoch 2 - iter 72/83 - loss 1.01441727 - time (sec): 7.70 - samples/sec: 3189.45 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:19:03,099 epoch 2 - iter 80/83 - loss 0.98027725 - time (sec): 8.60 - samples/sec: 3152.17 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:19:03,405 ----------------------------------------------------------------------------------------------------
2025-05-05 19:19:03,405 EPOCH 2 done: loss 0.9734 - lr: 0.000006
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  7.57it/s] 40%|██████████               | 2/5 [00:00<00:00,  8.53it/s] 60%|███████████████          | 3/5 [00:00<00:00,  9.11it/s] 80%|████████████████████     | 4/5 [00:00<00:00,  8.07it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  9.05it/s]
2025-05-05 19:19:03,977 DEV : loss 0.5160036683082581 - f1-score (micro avg)  0.1561
2025-05-05 19:19:03,981 ----------------------------------------------------------------------------------------------------
2025-05-05 19:19:04,842 epoch 3 - iter 8/83 - loss 0.58345577 - time (sec): 0.86 - samples/sec: 3441.97 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:19:05,638 epoch 3 - iter 16/83 - loss 0.59006828 - time (sec): 1.66 - samples/sec: 3239.12 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:19:06,464 epoch 3 - iter 24/83 - loss 0.56978575 - time (sec): 2.48 - samples/sec: 3198.04 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:19:07,295 epoch 3 - iter 32/83 - loss 0.56131485 - time (sec): 3.31 - samples/sec: 3232.27 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:19:08,217 epoch 3 - iter 40/83 - loss 0.56598234 - time (sec): 4.24 - samples/sec: 3291.83 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:19:09,178 epoch 3 - iter 48/83 - loss 0.54861789 - time (sec): 5.20 - samples/sec: 3170.25 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:19:10,054 epoch 3 - iter 56/83 - loss 0.54144048 - time (sec): 6.07 - samples/sec: 3154.75 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:19:10,998 epoch 3 - iter 64/83 - loss 0.52496957 - time (sec): 7.02 - samples/sec: 3097.25 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:19:11,919 epoch 3 - iter 72/83 - loss 0.51298091 - time (sec): 7.94 - samples/sec: 3113.49 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:19:12,851 epoch 3 - iter 80/83 - loss 0.50054725 - time (sec): 8.87 - samples/sec: 3068.98 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:19:13,139 ----------------------------------------------------------------------------------------------------
2025-05-05 19:19:13,139 EPOCH 3 done: loss 0.4962 - lr: 0.000010
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  9.33it/s] 40%|██████████               | 2/5 [00:00<00:00,  7.27it/s] 60%|███████████████          | 3/5 [00:00<00:00,  8.24it/s] 80%|████████████████████     | 4/5 [00:00<00:00,  7.63it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  8.57it/s]
2025-05-05 19:19:13,743 DEV : loss 0.2809968888759613 - f1-score (micro avg)  0.6109
2025-05-05 19:19:13,747 ----------------------------------------------------------------------------------------------------
2025-05-05 19:19:14,720 epoch 4 - iter 8/83 - loss 0.30618598 - time (sec): 0.97 - samples/sec: 2791.77 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:19:15,644 epoch 4 - iter 16/83 - loss 0.27786065 - time (sec): 1.90 - samples/sec: 2911.50 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:19:16,501 epoch 4 - iter 24/83 - loss 0.30135989 - time (sec): 2.75 - samples/sec: 2963.58 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:19:17,412 epoch 4 - iter 32/83 - loss 0.31650354 - time (sec): 3.66 - samples/sec: 3004.51 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:19:18,324 epoch 4 - iter 40/83 - loss 0.31395492 - time (sec): 4.58 - samples/sec: 2982.94 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:19:19,156 epoch 4 - iter 48/83 - loss 0.30922281 - time (sec): 5.41 - samples/sec: 2980.32 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:19:20,185 epoch 4 - iter 56/83 - loss 0.30872372 - time (sec): 6.44 - samples/sec: 2854.40 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:19:21,036 epoch 4 - iter 64/83 - loss 0.30333459 - time (sec): 7.29 - samples/sec: 2928.54 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:19:22,110 epoch 4 - iter 72/83 - loss 0.31145505 - time (sec): 8.36 - samples/sec: 2920.05 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:19:23,010 epoch 4 - iter 80/83 - loss 0.29884188 - time (sec): 9.26 - samples/sec: 2930.24 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:19:23,304 ----------------------------------------------------------------------------------------------------
2025-05-05 19:19:23,304 EPOCH 4 done: loss 0.2999 - lr: 0.000013
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  9.27it/s] 60%|███████████████          | 3/5 [00:00<00:00, 10.03it/s] 80%|████████████████████     | 4/5 [00:00<00:00,  8.46it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  9.57it/s]
2025-05-05 19:19:23,845 DEV : loss 0.19799019396305084 - f1-score (micro avg)  0.689
2025-05-05 19:19:23,849 ----------------------------------------------------------------------------------------------------
2025-05-05 19:19:24,684 epoch 5 - iter 8/83 - loss 0.22058741 - time (sec): 0.83 - samples/sec: 3105.59 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:19:25,595 epoch 5 - iter 16/83 - loss 0.25665877 - time (sec): 1.74 - samples/sec: 3000.07 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:19:26,745 epoch 5 - iter 24/83 - loss 0.24250447 - time (sec): 2.90 - samples/sec: 2741.85 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:19:27,788 epoch 5 - iter 32/83 - loss 0.22194247 - time (sec): 3.94 - samples/sec: 2746.65 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:19:28,761 epoch 5 - iter 40/83 - loss 0.22070114 - time (sec): 4.91 - samples/sec: 2746.54 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:19:29,654 epoch 5 - iter 48/83 - loss 0.20872966 - time (sec): 5.80 - samples/sec: 2787.74 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:19:30,558 epoch 5 - iter 56/83 - loss 0.21406539 - time (sec): 6.71 - samples/sec: 2842.99 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:19:31,588 epoch 5 - iter 64/83 - loss 0.21166648 - time (sec): 7.74 - samples/sec: 2826.37 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:19:32,497 epoch 5 - iter 72/83 - loss 0.20972596 - time (sec): 8.65 - samples/sec: 2840.10 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:19:33,396 epoch 5 - iter 80/83 - loss 0.20899250 - time (sec): 9.55 - samples/sec: 2837.85 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:19:33,726 ----------------------------------------------------------------------------------------------------
2025-05-05 19:19:33,726 EPOCH 5 done: loss 0.2071 - lr: 0.000016
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  8.86it/s] 60%|███████████████          | 3/5 [00:00<00:00,  9.77it/s] 80%|████████████████████     | 4/5 [00:00<00:00,  8.45it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  9.49it/s]
2025-05-05 19:19:34,273 DEV : loss 0.1848450005054474 - f1-score (micro avg)  0.6667
2025-05-05 19:19:34,276 ----------------------------------------------------------------------------------------------------
2025-05-05 19:19:35,208 epoch 6 - iter 8/83 - loss 0.13575019 - time (sec): 0.93 - samples/sec: 2930.06 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:19:36,064 epoch 6 - iter 16/83 - loss 0.12671872 - time (sec): 1.79 - samples/sec: 2998.38 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:19:37,007 epoch 6 - iter 24/83 - loss 0.11837524 - time (sec): 2.73 - samples/sec: 2799.22 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:19:38,051 epoch 6 - iter 32/83 - loss 0.11420529 - time (sec): 3.77 - samples/sec: 2757.90 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:19:38,953 epoch 6 - iter 40/83 - loss 0.13277279 - time (sec): 4.68 - samples/sec: 2786.63 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:19:39,904 epoch 6 - iter 48/83 - loss 0.13732925 - time (sec): 5.63 - samples/sec: 2833.06 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:19:40,944 epoch 6 - iter 56/83 - loss 0.14123635 - time (sec): 6.67 - samples/sec: 2810.87 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:19:41,855 epoch 6 - iter 64/83 - loss 0.13441163 - time (sec): 7.58 - samples/sec: 2879.36 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:19:42,757 epoch 6 - iter 72/83 - loss 0.14311918 - time (sec): 8.48 - samples/sec: 2888.35 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:19:43,838 epoch 6 - iter 80/83 - loss 0.14240548 - time (sec): 9.56 - samples/sec: 2858.56 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:19:44,119 ----------------------------------------------------------------------------------------------------
2025-05-05 19:19:44,119 EPOCH 6 done: loss 0.1433 - lr: 0.000019
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  9.21it/s] 60%|███████████████          | 3/5 [00:00<00:00, 10.04it/s] 80%|████████████████████     | 4/5 [00:00<00:00,  8.62it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  9.70it/s]
2025-05-05 19:19:44,654 DEV : loss 0.14470835030078888 - f1-score (micro avg)  0.7451
2025-05-05 19:19:44,657 ----------------------------------------------------------------------------------------------------
2025-05-05 19:19:45,595 epoch 7 - iter 8/83 - loss 0.09116828 - time (sec): 0.94 - samples/sec: 2829.21 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:19:46,514 epoch 7 - iter 16/83 - loss 0.07478304 - time (sec): 1.86 - samples/sec: 2802.22 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:19:47,562 epoch 7 - iter 24/83 - loss 0.07066187 - time (sec): 2.90 - samples/sec: 2792.32 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:19:48,568 epoch 7 - iter 32/83 - loss 0.07220424 - time (sec): 3.91 - samples/sec: 2856.81 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:19:49,469 epoch 7 - iter 40/83 - loss 0.07309758 - time (sec): 4.81 - samples/sec: 2843.59 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:19:50,531 epoch 7 - iter 48/83 - loss 0.07850619 - time (sec): 5.87 - samples/sec: 2778.12 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:19:51,446 epoch 7 - iter 56/83 - loss 0.08994936 - time (sec): 6.79 - samples/sec: 2777.12 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:19:52,359 epoch 7 - iter 64/83 - loss 0.09500045 - time (sec): 7.70 - samples/sec: 2819.01 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:19:53,368 epoch 7 - iter 72/83 - loss 0.09628878 - time (sec): 8.71 - samples/sec: 2783.80 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:19:54,325 epoch 7 - iter 80/83 - loss 0.09788850 - time (sec): 9.67 - samples/sec: 2784.05 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:19:54,613 ----------------------------------------------------------------------------------------------------
2025-05-05 19:19:54,613 EPOCH 7 done: loss 0.0961 - lr: 0.000023
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  9.03it/s] 60%|███████████████          | 3/5 [00:00<00:00,  9.65it/s] 80%|████████████████████     | 4/5 [00:00<00:00,  8.29it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  9.34it/s]
2025-05-05 19:19:55,168 DEV : loss 0.16720086336135864 - f1-score (micro avg)  0.7089
2025-05-05 19:19:55,171 ----------------------------------------------------------------------------------------------------
2025-05-05 19:19:56,083 epoch 8 - iter 8/83 - loss 0.07045746 - time (sec): 0.91 - samples/sec: 2614.15 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:19:56,952 epoch 8 - iter 16/83 - loss 0.08712588 - time (sec): 1.78 - samples/sec: 2709.68 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:19:58,063 epoch 8 - iter 24/83 - loss 0.09139676 - time (sec): 2.89 - samples/sec: 2696.20 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:19:58,991 epoch 8 - iter 32/83 - loss 0.08541675 - time (sec): 3.82 - samples/sec: 2856.49 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:19:59,912 epoch 8 - iter 40/83 - loss 0.08351574 - time (sec): 4.74 - samples/sec: 2867.84 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:20:00,854 epoch 8 - iter 48/83 - loss 0.07617656 - time (sec): 5.68 - samples/sec: 2902.16 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:20:01,782 epoch 8 - iter 56/83 - loss 0.07831579 - time (sec): 6.61 - samples/sec: 2885.64 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:20:02,770 epoch 8 - iter 64/83 - loss 0.07615405 - time (sec): 7.60 - samples/sec: 2866.59 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:20:03,591 epoch 8 - iter 72/83 - loss 0.07681187 - time (sec): 8.42 - samples/sec: 2901.46 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:20:04,686 epoch 8 - iter 80/83 - loss 0.07401436 - time (sec): 9.51 - samples/sec: 2853.83 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:20:05,057 ----------------------------------------------------------------------------------------------------
2025-05-05 19:20:05,057 EPOCH 8 done: loss 0.0726 - lr: 0.000026
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  9.21it/s] 60%|███████████████          | 3/5 [00:00<00:00,  9.95it/s] 80%|████████████████████     | 4/5 [00:00<00:00,  8.55it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  9.63it/s]
2025-05-05 19:20:05,596 DEV : loss 0.15011084079742432 - f1-score (micro avg)  0.7763
2025-05-05 19:20:05,599 ----------------------------------------------------------------------------------------------------
2025-05-05 19:20:06,497 epoch 9 - iter 8/83 - loss 0.04550993 - time (sec): 0.90 - samples/sec: 3190.36 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:20:07,474 epoch 9 - iter 16/83 - loss 0.06069491 - time (sec): 1.87 - samples/sec: 2868.00 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:20:08,365 epoch 9 - iter 24/83 - loss 0.05099229 - time (sec): 2.76 - samples/sec: 2853.14 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:20:09,377 epoch 9 - iter 32/83 - loss 0.05233683 - time (sec): 3.78 - samples/sec: 2894.98 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:20:10,292 epoch 9 - iter 40/83 - loss 0.05358528 - time (sec): 4.69 - samples/sec: 2954.76 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:20:11,304 epoch 9 - iter 48/83 - loss 0.05496557 - time (sec): 5.70 - samples/sec: 2917.69 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:20:12,449 epoch 9 - iter 56/83 - loss 0.05500494 - time (sec): 6.85 - samples/sec: 2860.13 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:20:13,558 epoch 9 - iter 64/83 - loss 0.05420928 - time (sec): 7.96 - samples/sec: 2782.49 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:20:14,473 epoch 9 - iter 72/83 - loss 0.05230711 - time (sec): 8.87 - samples/sec: 2756.13 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:20:15,579 epoch 9 - iter 80/83 - loss 0.05021694 - time (sec): 9.98 - samples/sec: 2735.51 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:20:15,920 ----------------------------------------------------------------------------------------------------
2025-05-05 19:20:15,920 EPOCH 9 done: loss 0.0524 - lr: 0.000029
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  9.18it/s] 60%|███████████████          | 3/5 [00:00<00:00, 10.06it/s] 80%|████████████████████     | 4/5 [00:00<00:00,  8.53it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  9.63it/s]
2025-05-05 19:20:16,459 DEV : loss 0.1698727309703827 - f1-score (micro avg)  0.8161
2025-05-05 19:20:16,462 ----------------------------------------------------------------------------------------------------
2025-05-05 19:20:17,347 epoch 10 - iter 8/83 - loss 0.02511262 - time (sec): 0.88 - samples/sec: 3415.62 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:20:18,330 epoch 10 - iter 16/83 - loss 0.03739862 - time (sec): 1.87 - samples/sec: 3203.31 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:20:19,402 epoch 10 - iter 24/83 - loss 0.03409058 - time (sec): 2.94 - samples/sec: 3011.05 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:20:20,278 epoch 10 - iter 32/83 - loss 0.03107493 - time (sec): 3.81 - samples/sec: 3077.86 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:20:21,074 epoch 10 - iter 40/83 - loss 0.03285096 - time (sec): 4.61 - samples/sec: 3026.80 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:20:22,009 epoch 10 - iter 48/83 - loss 0.03561710 - time (sec): 5.55 - samples/sec: 3024.76 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:20:22,951 epoch 10 - iter 56/83 - loss 0.03605003 - time (sec): 6.49 - samples/sec: 3021.57 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:20:23,849 epoch 10 - iter 64/83 - loss 0.03683816 - time (sec): 7.39 - samples/sec: 3010.97 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:20:24,726 epoch 10 - iter 72/83 - loss 0.03702314 - time (sec): 8.26 - samples/sec: 2985.58 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:20:25,831 epoch 10 - iter 80/83 - loss 0.03590612 - time (sec): 9.37 - samples/sec: 2898.54 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:20:26,156 ----------------------------------------------------------------------------------------------------
2025-05-05 19:20:26,156 EPOCH 10 done: loss 0.0369 - lr: 0.000032
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  5.64it/s] 60%|███████████████          | 3/5 [00:00<00:00,  8.45it/s] 80%|████████████████████     | 4/5 [00:00<00:00,  7.75it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  8.48it/s]
2025-05-05 19:20:26,766 DEV : loss 0.1580190360546112 - f1-score (micro avg)  0.8079
2025-05-05 19:20:26,769 ----------------------------------------------------------------------------------------------------
2025-05-05 19:20:27,721 epoch 11 - iter 8/83 - loss 0.04402962 - time (sec): 0.95 - samples/sec: 3111.27 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:20:28,772 epoch 11 - iter 16/83 - loss 0.04151920 - time (sec): 2.00 - samples/sec: 2656.38 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:20:29,828 epoch 11 - iter 24/83 - loss 0.03693384 - time (sec): 3.06 - samples/sec: 2652.65 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:20:30,747 epoch 11 - iter 32/83 - loss 0.03438046 - time (sec): 3.98 - samples/sec: 2696.06 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:20:31,855 epoch 11 - iter 40/83 - loss 0.03191554 - time (sec): 5.08 - samples/sec: 2588.33 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:20:32,934 epoch 11 - iter 48/83 - loss 0.03088389 - time (sec): 6.16 - samples/sec: 2598.93 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:20:33,863 epoch 11 - iter 56/83 - loss 0.02987578 - time (sec): 7.09 - samples/sec: 2595.99 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:20:34,742 epoch 11 - iter 64/83 - loss 0.03061193 - time (sec): 7.97 - samples/sec: 2618.93 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:20:35,658 epoch 11 - iter 72/83 - loss 0.02919520 - time (sec): 8.89 - samples/sec: 2723.01 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:20:37,051 epoch 11 - iter 80/83 - loss 0.02978853 - time (sec): 10.28 - samples/sec: 2645.88 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:20:37,354 ----------------------------------------------------------------------------------------------------
2025-05-05 19:20:37,355 EPOCH 11 done: loss 0.0295 - lr: 0.000035
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  9.07it/s] 60%|███████████████          | 3/5 [00:00<00:00,  9.97it/s] 80%|████████████████████     | 4/5 [00:00<00:00,  8.54it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  8.78it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  8.92it/s]
2025-05-05 19:20:37,934 DEV : loss 0.20408059656620026 - f1-score (micro avg)  0.7657
2025-05-05 19:20:37,938 ----------------------------------------------------------------------------------------------------
2025-05-05 19:20:39,000 epoch 12 - iter 8/83 - loss 0.02658605 - time (sec): 1.06 - samples/sec: 3124.69 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:20:40,252 epoch 12 - iter 16/83 - loss 0.02435961 - time (sec): 2.31 - samples/sec: 2587.24 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:20:41,150 epoch 12 - iter 24/83 - loss 0.02208771 - time (sec): 3.21 - samples/sec: 2666.63 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:20:42,122 epoch 12 - iter 32/83 - loss 0.02664461 - time (sec): 4.18 - samples/sec: 2622.23 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:20:43,298 epoch 12 - iter 40/83 - loss 0.02392313 - time (sec): 5.36 - samples/sec: 2513.23 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:20:44,217 epoch 12 - iter 48/83 - loss 0.02474454 - time (sec): 6.28 - samples/sec: 2568.88 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:20:45,149 epoch 12 - iter 56/83 - loss 0.02265953 - time (sec): 7.21 - samples/sec: 2611.50 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:20:46,068 epoch 12 - iter 64/83 - loss 0.02704439 - time (sec): 8.13 - samples/sec: 2666.87 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:20:46,997 epoch 12 - iter 72/83 - loss 0.02826545 - time (sec): 9.06 - samples/sec: 2691.82 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:20:47,870 epoch 12 - iter 80/83 - loss 0.02826419 - time (sec): 9.93 - samples/sec: 2732.22 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:20:48,179 ----------------------------------------------------------------------------------------------------
2025-05-05 19:20:48,179 EPOCH 12 done: loss 0.0275 - lr: 0.000039
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  8.10it/s] 60%|███████████████          | 3/5 [00:00<00:00,  9.50it/s] 80%|████████████████████     | 4/5 [00:00<00:00,  8.21it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  9.20it/s]
2025-05-05 19:20:48,743 DEV : loss 0.1901579201221466 - f1-score (micro avg)  0.8235
2025-05-05 19:20:48,747 ----------------------------------------------------------------------------------------------------
2025-05-05 19:20:49,752 epoch 13 - iter 8/83 - loss 0.01121461 - time (sec): 1.00 - samples/sec: 2512.28 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:20:50,714 epoch 13 - iter 16/83 - loss 0.01463786 - time (sec): 1.97 - samples/sec: 2705.08 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:20:51,600 epoch 13 - iter 24/83 - loss 0.01855395 - time (sec): 2.85 - samples/sec: 2754.05 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:20:52,559 epoch 13 - iter 32/83 - loss 0.01955847 - time (sec): 3.81 - samples/sec: 2807.32 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:20:53,564 epoch 13 - iter 40/83 - loss 0.01865383 - time (sec): 4.82 - samples/sec: 2723.61 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:20:54,493 epoch 13 - iter 48/83 - loss 0.02014358 - time (sec): 5.75 - samples/sec: 2752.09 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:20:55,430 epoch 13 - iter 56/83 - loss 0.02209184 - time (sec): 6.68 - samples/sec: 2762.74 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:20:56,446 epoch 13 - iter 64/83 - loss 0.02242473 - time (sec): 7.70 - samples/sec: 2743.78 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:20:57,612 epoch 13 - iter 72/83 - loss 0.02377764 - time (sec): 8.86 - samples/sec: 2716.38 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:20:58,723 epoch 13 - iter 80/83 - loss 0.02348116 - time (sec): 9.98 - samples/sec: 2692.62 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:20:59,216 ----------------------------------------------------------------------------------------------------
2025-05-05 19:20:59,216 EPOCH 13 done: loss 0.0232 - lr: 0.000042
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  9.26it/s] 60%|███████████████          | 3/5 [00:00<00:00, 10.07it/s] 80%|████████████████████     | 4/5 [00:00<00:00,  5.76it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  7.34it/s]
2025-05-05 19:20:59,917 DEV : loss 0.1936994343996048 - f1-score (micro avg)  0.8014
2025-05-05 19:20:59,921 ----------------------------------------------------------------------------------------------------
2025-05-05 19:21:00,763 epoch 14 - iter 8/83 - loss 0.01436762 - time (sec): 0.84 - samples/sec: 2985.78 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:21:01,652 epoch 14 - iter 16/83 - loss 0.01437062 - time (sec): 1.73 - samples/sec: 2844.00 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:21:02,628 epoch 14 - iter 24/83 - loss 0.01489049 - time (sec): 2.71 - samples/sec: 2834.84 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:21:03,468 epoch 14 - iter 32/83 - loss 0.01249254 - time (sec): 3.55 - samples/sec: 2890.23 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:21:04,430 epoch 14 - iter 40/83 - loss 0.01430415 - time (sec): 4.51 - samples/sec: 2951.67 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:21:05,595 epoch 14 - iter 48/83 - loss 0.01849167 - time (sec): 5.67 - samples/sec: 2891.67 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:21:06,538 epoch 14 - iter 56/83 - loss 0.01804089 - time (sec): 6.62 - samples/sec: 2893.88 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:21:07,627 epoch 14 - iter 64/83 - loss 0.01742676 - time (sec): 7.71 - samples/sec: 2812.56 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:21:08,633 epoch 14 - iter 72/83 - loss 0.01785033 - time (sec): 8.71 - samples/sec: 2779.16 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:21:09,612 epoch 14 - iter 80/83 - loss 0.01983152 - time (sec): 9.69 - samples/sec: 2799.75 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:21:09,951 ----------------------------------------------------------------------------------------------------
2025-05-05 19:21:09,951 EPOCH 14 done: loss 0.0195 - lr: 0.000045
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  8.24it/s] 60%|███████████████          | 3/5 [00:00<00:00,  9.21it/s] 80%|████████████████████     | 4/5 [00:00<00:00,  7.64it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  8.76it/s]
2025-05-05 19:21:10,542 DEV : loss 0.17982584238052368 - f1-score (micro avg)  0.7921
2025-05-05 19:21:10,545 ----------------------------------------------------------------------------------------------------
2025-05-05 19:21:11,532 epoch 15 - iter 8/83 - loss 0.01034678 - time (sec): 0.99 - samples/sec: 2300.59 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:21:12,534 epoch 15 - iter 16/83 - loss 0.01720347 - time (sec): 1.99 - samples/sec: 2386.42 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:21:13,694 epoch 15 - iter 24/83 - loss 0.01296302 - time (sec): 3.15 - samples/sec: 2500.70 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:21:14,689 epoch 15 - iter 32/83 - loss 0.01482548 - time (sec): 4.14 - samples/sec: 2652.70 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:21:15,868 epoch 15 - iter 40/83 - loss 0.01361962 - time (sec): 5.32 - samples/sec: 2578.17 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:21:16,967 epoch 15 - iter 48/83 - loss 0.01491418 - time (sec): 6.42 - samples/sec: 2520.93 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:21:17,892 epoch 15 - iter 56/83 - loss 0.01834651 - time (sec): 7.35 - samples/sec: 2547.42 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:21:18,853 epoch 15 - iter 64/83 - loss 0.01875444 - time (sec): 8.31 - samples/sec: 2594.16 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:21:19,919 epoch 15 - iter 72/83 - loss 0.02092741 - time (sec): 9.37 - samples/sec: 2588.12 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:21:21,052 epoch 15 - iter 80/83 - loss 0.02159088 - time (sec): 10.51 - samples/sec: 2582.83 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:21:21,407 ----------------------------------------------------------------------------------------------------
2025-05-05 19:21:21,407 EPOCH 15 done: loss 0.0219 - lr: 0.000048
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  8.43it/s] 60%|███████████████          | 3/5 [00:00<00:00,  8.73it/s] 80%|████████████████████     | 4/5 [00:00<00:00,  7.11it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  8.30it/s]
2025-05-05 19:21:22,029 DEV : loss 0.21492967009544373 - f1-score (micro avg)  0.7653
2025-05-05 19:21:22,032 ----------------------------------------------------------------------------------------------------
2025-05-05 19:21:23,001 epoch 16 - iter 8/83 - loss 0.00894159 - time (sec): 0.97 - samples/sec: 2923.32 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:21:23,880 epoch 16 - iter 16/83 - loss 0.01050288 - time (sec): 1.85 - samples/sec: 2759.84 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:21:24,769 epoch 16 - iter 24/83 - loss 0.02405440 - time (sec): 2.74 - samples/sec: 2839.89 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:21:25,728 epoch 16 - iter 32/83 - loss 0.02078835 - time (sec): 3.69 - samples/sec: 2899.10 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:21:26,686 epoch 16 - iter 40/83 - loss 0.02296100 - time (sec): 4.65 - samples/sec: 2867.67 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:21:27,749 epoch 16 - iter 48/83 - loss 0.02292146 - time (sec): 5.72 - samples/sec: 2802.30 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:21:28,753 epoch 16 - iter 56/83 - loss 0.02156747 - time (sec): 6.72 - samples/sec: 2770.96 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:21:29,779 epoch 16 - iter 64/83 - loss 0.02078979 - time (sec): 7.75 - samples/sec: 2847.51 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:21:30,818 epoch 16 - iter 72/83 - loss 0.02273255 - time (sec): 8.78 - samples/sec: 2797.29 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:21:31,779 epoch 16 - iter 80/83 - loss 0.02450754 - time (sec): 9.75 - samples/sec: 2798.91 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:21:32,070 ----------------------------------------------------------------------------------------------------
2025-05-05 19:21:32,070 EPOCH 16 done: loss 0.0244 - lr: 0.000052
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  8.64it/s] 60%|███████████████          | 3/5 [00:00<00:00,  9.43it/s] 80%|████████████████████     | 4/5 [00:00<00:00,  7.91it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  9.04it/s]
2025-05-05 19:21:32,643 DEV : loss 0.2309589385986328 - f1-score (micro avg)  0.7588
2025-05-05 19:21:32,646 ----------------------------------------------------------------------------------------------------
2025-05-05 19:21:33,539 epoch 17 - iter 8/83 - loss 0.01905715 - time (sec): 0.89 - samples/sec: 3056.15 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:21:34,611 epoch 17 - iter 16/83 - loss 0.01235856 - time (sec): 1.96 - samples/sec: 2816.51 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:21:35,569 epoch 17 - iter 24/83 - loss 0.01770889 - time (sec): 2.92 - samples/sec: 2935.36 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:21:36,670 epoch 17 - iter 32/83 - loss 0.01957455 - time (sec): 4.02 - samples/sec: 2854.44 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:21:37,666 epoch 17 - iter 40/83 - loss 0.01820008 - time (sec): 5.02 - samples/sec: 2755.98 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:21:38,760 epoch 17 - iter 48/83 - loss 0.01918351 - time (sec): 6.11 - samples/sec: 2690.51 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:21:39,838 epoch 17 - iter 56/83 - loss 0.01944794 - time (sec): 7.19 - samples/sec: 2658.23 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:21:40,854 epoch 17 - iter 64/83 - loss 0.02173049 - time (sec): 8.21 - samples/sec: 2646.26 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:21:41,832 epoch 17 - iter 72/83 - loss 0.02098892 - time (sec): 9.18 - samples/sec: 2654.45 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:21:42,782 epoch 17 - iter 80/83 - loss 0.02532959 - time (sec): 10.13 - samples/sec: 2668.32 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:21:43,118 ----------------------------------------------------------------------------------------------------
2025-05-05 19:21:43,118 EPOCH 17 done: loss 0.0264 - lr: 0.000055
  0%|                                 | 0/5 [00:00<?, ?it/s] 20%|█████                    | 1/5 [00:00<00:00,  8.70it/s] 40%|██████████               | 2/5 [00:00<00:00,  9.33it/s] 60%|███████████████          | 3/5 [00:00<00:00,  9.34it/s] 80%|████████████████████     | 4/5 [00:00<00:00,  7.71it/s]100%|█████████████████████████| 5/5 [00:00<00:00,  8.93it/s]
2025-05-05 19:21:43,698 DEV : loss 0.23382559418678284 - f1-score (micro avg)  0.7987
2025-05-05 19:21:43,702 ----------------------------------------------------------------------------------------------------
2025-05-05 19:21:44,723 epoch 18 - iter 8/83 - loss 0.02246430 - time (sec): 1.02 - samples/sec: 2847.99 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:21:45,875 epoch 18 - iter 16/83 - loss 0.02123807 - time (sec): 2.17 - samples/sec: 2477.34 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:21:46,818 epoch 18 - iter 24/83 - loss 0.01745920 - time (sec): 3.11 - samples/sec: 2615.82 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:21:47,823 epoch 18 - iter 32/83 - loss 0.02450488 - time (sec): 4.12 - samples/sec: 2727.21 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:21:48,836 epoch 18 - iter 40/83 - loss 0.02146887 - time (sec): 5.13 - samples/sec: 2673.52 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:21:49,806 epoch 18 - iter 48/83 - loss 0.02427173 - time (sec): 6.10 - samples/sec: 2691.03 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:21:50,809 epoch 18 - iter 56/83 - loss 0.02269113 - time (sec): 7.11 - samples/sec: 2697.92 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:21:51,903 epoch 18 - iter 64/83 - loss 0.02044572 - time (sec): 8.20 - samples/sec: 2658.65 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:21:52,872 epoch 18 - iter 72/83 - loss 0.02296820 - time (sec): 9.17 - samples/sec: 2650.08 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:21:53,931 epoch 18 - iter 80/83 - loss 0.02287457 - time (sec): 10.23 - samples/sec: 2660.71 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:21:54,251 ----------------------------------------------------------------------------------------------------
2025-05-05 19:21:54,251 EPOCH 18 done: loss 0.0233 - lr: 0.000058
  0%|                                                                                       | 0/5 [00:00<?, ?it/s] 20%|███████████████▊                                                               | 1/5 [00:00<00:00,  7.24it/s] 60%|███████████████████████████████████████████████▍                               | 3/5 [00:00<00:00,  9.27it/s] 80%|███████████████████████████████████████████████████████████████▏               | 4/5 [00:00<00:00,  8.15it/s]100%|███████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  9.03it/s]
2025-05-05 19:21:54,826 DEV : loss 0.2748679518699646 - f1-score (micro avg)  0.7601
2025-05-05 19:21:54,829 ----------------------------------------------------------------------------------------------------
2025-05-05 19:21:55,813 epoch 19 - iter 8/83 - loss 0.01380085 - time (sec): 0.98 - samples/sec: 2890.67 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:21:57,065 epoch 19 - iter 16/83 - loss 0.00989483 - time (sec): 2.23 - samples/sec: 2571.62 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:21:58,171 epoch 19 - iter 24/83 - loss 0.01426723 - time (sec): 3.34 - samples/sec: 2558.70 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:21:59,261 epoch 19 - iter 32/83 - loss 0.01544643 - time (sec): 4.43 - samples/sec: 2519.60 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:22:00,228 epoch 19 - iter 40/83 - loss 0.01647549 - time (sec): 5.40 - samples/sec: 2477.66 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:22:01,140 epoch 19 - iter 48/83 - loss 0.01605492 - time (sec): 6.31 - samples/sec: 2580.18 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:22:02,049 epoch 19 - iter 56/83 - loss 0.02062217 - time (sec): 7.22 - samples/sec: 2621.58 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:22:03,164 epoch 19 - iter 64/83 - loss 0.02243453 - time (sec): 8.33 - samples/sec: 2642.71 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:22:04,062 epoch 19 - iter 72/83 - loss 0.02405033 - time (sec): 9.23 - samples/sec: 2644.38 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:22:04,999 epoch 19 - iter 80/83 - loss 0.02331617 - time (sec): 10.17 - samples/sec: 2662.11 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:22:05,305 ----------------------------------------------------------------------------------------------------
2025-05-05 19:22:05,305 EPOCH 19 done: loss 0.0239 - lr: 0.000061
  0%|                                                                                       | 0/5 [00:00<?, ?it/s] 20%|███████████████▊                                                               | 1/5 [00:00<00:00,  8.78it/s] 60%|███████████████████████████████████████████████▍                               | 3/5 [00:00<00:00,  9.60it/s] 80%|███████████████████████████████████████████████████████████████▏               | 4/5 [00:00<00:00,  8.08it/s]100%|███████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  9.17it/s]
2025-05-05 19:22:05,870 DEV : loss 0.22955770790576935 - f1-score (micro avg)  0.8173
2025-05-05 19:22:05,873 ----------------------------------------------------------------------------------------------------
2025-05-05 19:22:06,903 epoch 20 - iter 8/83 - loss 0.02254828 - time (sec): 1.03 - samples/sec: 2768.56 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:22:08,019 epoch 20 - iter 16/83 - loss 0.01307946 - time (sec): 2.14 - samples/sec: 2703.00 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:22:09,074 epoch 20 - iter 24/83 - loss 0.01177066 - time (sec): 3.20 - samples/sec: 2608.70 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:22:10,086 epoch 20 - iter 32/83 - loss 0.01871822 - time (sec): 4.21 - samples/sec: 2563.55 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:22:10,993 epoch 20 - iter 40/83 - loss 0.01694942 - time (sec): 5.12 - samples/sec: 2618.75 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:22:12,213 epoch 20 - iter 48/83 - loss 0.01731642 - time (sec): 6.34 - samples/sec: 2597.12 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:22:13,223 epoch 20 - iter 56/83 - loss 0.01582693 - time (sec): 7.35 - samples/sec: 2601.15 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:14,242 epoch 20 - iter 64/83 - loss 0.01423799 - time (sec): 8.37 - samples/sec: 2618.46 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:15,293 epoch 20 - iter 72/83 - loss 0.01807744 - time (sec): 9.42 - samples/sec: 2614.99 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:16,161 epoch 20 - iter 80/83 - loss 0.01905986 - time (sec): 10.29 - samples/sec: 2643.74 - lr: 0.000065 - momentum: 0.000000
2025-05-05 19:22:16,502 ----------------------------------------------------------------------------------------------------
2025-05-05 19:22:16,502 EPOCH 20 done: loss 0.0200 - lr: 0.000065
  0%|                                                                                       | 0/5 [00:00<?, ?it/s] 20%|███████████████▊                                                               | 1/5 [00:00<00:00,  7.19it/s] 40%|███████████████████████████████▌                                               | 2/5 [00:00<00:00,  7.84it/s] 60%|███████████████████████████████████████████████▍                               | 3/5 [00:00<00:00,  7.86it/s] 80%|███████████████████████████████████████████████████████████████▏               | 4/5 [00:00<00:00,  7.27it/s]100%|███████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  8.26it/s]
2025-05-05 19:22:17,127 DEV : loss 0.24156373739242554 - f1-score (micro avg)  0.8208
2025-05-05 19:22:17,131 ----------------------------------------------------------------------------------------------------
2025-05-05 19:22:18,140 epoch 21 - iter 8/83 - loss 0.01612632 - time (sec): 1.01 - samples/sec: 2558.01 - lr: 0.000065 - momentum: 0.000000
2025-05-05 19:22:19,187 epoch 21 - iter 16/83 - loss 0.01301358 - time (sec): 2.05 - samples/sec: 2457.57 - lr: 0.000065 - momentum: 0.000000
2025-05-05 19:22:20,031 epoch 21 - iter 24/83 - loss 0.03036852 - time (sec): 2.90 - samples/sec: 2650.17 - lr: 0.000065 - momentum: 0.000000
2025-05-05 19:22:21,162 epoch 21 - iter 32/83 - loss 0.02810327 - time (sec): 4.03 - samples/sec: 2514.23 - lr: 0.000065 - momentum: 0.000000
2025-05-05 19:22:22,141 epoch 21 - iter 40/83 - loss 0.02668944 - time (sec): 5.01 - samples/sec: 2561.19 - lr: 0.000065 - momentum: 0.000000
2025-05-05 19:22:23,034 epoch 21 - iter 48/83 - loss 0.02697739 - time (sec): 5.90 - samples/sec: 2647.27 - lr: 0.000065 - momentum: 0.000000
2025-05-05 19:22:24,001 epoch 21 - iter 56/83 - loss 0.02463610 - time (sec): 6.87 - samples/sec: 2655.35 - lr: 0.000065 - momentum: 0.000000
2025-05-05 19:22:24,923 epoch 21 - iter 64/83 - loss 0.02422667 - time (sec): 7.79 - samples/sec: 2725.65 - lr: 0.000065 - momentum: 0.000000
2025-05-05 19:22:25,921 epoch 21 - iter 72/83 - loss 0.02379934 - time (sec): 8.79 - samples/sec: 2742.84 - lr: 0.000065 - momentum: 0.000000
2025-05-05 19:22:26,867 epoch 21 - iter 80/83 - loss 0.02233725 - time (sec): 9.74 - samples/sec: 2767.18 - lr: 0.000065 - momentum: 0.000000
2025-05-05 19:22:27,226 ----------------------------------------------------------------------------------------------------
2025-05-05 19:22:27,226 EPOCH 21 done: loss 0.0220 - lr: 0.000065
  0%|                                                                                       | 0/5 [00:00<?, ?it/s] 20%|███████████████▊                                                               | 1/5 [00:00<00:00,  7.73it/s] 60%|███████████████████████████████████████████████▍                               | 3/5 [00:00<00:00,  9.53it/s] 80%|███████████████████████████████████████████████████████████████▏               | 4/5 [00:00<00:00,  7.67it/s]100%|███████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  8.81it/s]
2025-05-05 19:22:27,813 DEV : loss 0.2847842574119568 - f1-score (micro avg)  0.8232
2025-05-05 19:22:27,817 ----------------------------------------------------------------------------------------------------
2025-05-05 19:22:28,703 epoch 22 - iter 8/83 - loss 0.02021909 - time (sec): 0.88 - samples/sec: 2635.53 - lr: 0.000065 - momentum: 0.000000
2025-05-05 19:22:29,824 epoch 22 - iter 16/83 - loss 0.01169353 - time (sec): 2.01 - samples/sec: 2559.14 - lr: 0.000065 - momentum: 0.000000
2025-05-05 19:22:30,781 epoch 22 - iter 24/83 - loss 0.02522587 - time (sec): 2.96 - samples/sec: 2823.06 - lr: 0.000065 - momentum: 0.000000
2025-05-05 19:22:31,807 epoch 22 - iter 32/83 - loss 0.02644897 - time (sec): 3.99 - samples/sec: 2775.40 - lr: 0.000065 - momentum: 0.000000
2025-05-05 19:22:32,813 epoch 22 - iter 40/83 - loss 0.02885992 - time (sec): 5.00 - samples/sec: 2766.88 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:33,715 epoch 22 - iter 48/83 - loss 0.02720947 - time (sec): 5.90 - samples/sec: 2740.86 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:34,734 epoch 22 - iter 56/83 - loss 0.02820113 - time (sec): 6.92 - samples/sec: 2747.15 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:35,861 epoch 22 - iter 64/83 - loss 0.02666778 - time (sec): 8.04 - samples/sec: 2715.99 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:36,996 epoch 22 - iter 72/83 - loss 0.02600374 - time (sec): 9.18 - samples/sec: 2676.15 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:38,050 epoch 22 - iter 80/83 - loss 0.02377006 - time (sec): 10.23 - samples/sec: 2661.81 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:38,479 ----------------------------------------------------------------------------------------------------
2025-05-05 19:22:38,479 EPOCH 22 done: loss 0.0232 - lr: 0.000064
  0%|                                                                                       | 0/5 [00:00<?, ?it/s] 20%|███████████████▊                                                               | 1/5 [00:00<00:00,  4.84it/s] 60%|███████████████████████████████████████████████▍                               | 3/5 [00:00<00:00,  8.00it/s] 80%|███████████████████████████████████████████████████████████████▏               | 4/5 [00:00<00:00,  7.50it/s]100%|███████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  8.11it/s]
2025-05-05 19:22:39,115 DEV : loss 0.2673145830631256 - f1-score (micro avg)  0.8361
2025-05-05 19:22:39,119 ----------------------------------------------------------------------------------------------------
2025-05-05 19:22:40,080 epoch 23 - iter 8/83 - loss 0.01314325 - time (sec): 0.96 - samples/sec: 2686.06 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:41,166 epoch 23 - iter 16/83 - loss 0.01149992 - time (sec): 2.05 - samples/sec: 2619.17 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:42,379 epoch 23 - iter 24/83 - loss 0.02183660 - time (sec): 3.26 - samples/sec: 2527.68 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:43,514 epoch 23 - iter 32/83 - loss 0.02664687 - time (sec): 4.39 - samples/sec: 2476.86 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:44,438 epoch 23 - iter 40/83 - loss 0.02769340 - time (sec): 5.32 - samples/sec: 2551.40 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:45,394 epoch 23 - iter 48/83 - loss 0.02366224 - time (sec): 6.27 - samples/sec: 2670.57 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:46,307 epoch 23 - iter 56/83 - loss 0.02154797 - time (sec): 7.19 - samples/sec: 2686.34 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:47,305 epoch 23 - iter 64/83 - loss 0.02055385 - time (sec): 8.18 - samples/sec: 2658.73 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:48,477 epoch 23 - iter 72/83 - loss 0.01983223 - time (sec): 9.36 - samples/sec: 2604.50 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:49,747 epoch 23 - iter 80/83 - loss 0.02059164 - time (sec): 10.63 - samples/sec: 2555.78 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:50,080 ----------------------------------------------------------------------------------------------------
2025-05-05 19:22:50,080 EPOCH 23 done: loss 0.0212 - lr: 0.000064
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.22it/s] 40%|██   | 2/5 [00:00<00:00,  8.85it/s] 60%|███  | 3/5 [00:00<00:00,  8.61it/s] 80%|████ | 4/5 [00:00<00:00,  7.06it/s]100%|█████| 5/5 [00:00<00:00,  8.38it/s]
2025-05-05 19:22:50,696 DEV : loss 0.32161134481430054 - f1-score (micro avg)  0.7595
2025-05-05 19:22:50,700 ----------------------------------------------------------------------------------------------------
2025-05-05 19:22:51,746 epoch 24 - iter 8/83 - loss 0.01125843 - time (sec): 1.05 - samples/sec: 2246.09 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:52,811 epoch 24 - iter 16/83 - loss 0.03074957 - time (sec): 2.11 - samples/sec: 2421.76 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:53,904 epoch 24 - iter 24/83 - loss 0.02929456 - time (sec): 3.20 - samples/sec: 2478.68 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:54,979 epoch 24 - iter 32/83 - loss 0.02977588 - time (sec): 4.28 - samples/sec: 2497.19 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:56,020 epoch 24 - iter 40/83 - loss 0.02605767 - time (sec): 5.32 - samples/sec: 2624.43 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:56,947 epoch 24 - iter 48/83 - loss 0.02479102 - time (sec): 6.25 - samples/sec: 2634.85 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:57,924 epoch 24 - iter 56/83 - loss 0.02286302 - time (sec): 7.22 - samples/sec: 2658.28 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:58,858 epoch 24 - iter 64/83 - loss 0.02309074 - time (sec): 8.16 - samples/sec: 2664.83 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:22:59,908 epoch 24 - iter 72/83 - loss 0.02342793 - time (sec): 9.21 - samples/sec: 2638.54 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:23:00,916 epoch 24 - iter 80/83 - loss 0.02303874 - time (sec): 10.21 - samples/sec: 2663.22 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:23:01,305 ----------------------------------------------------------------------------------------------------
2025-05-05 19:23:01,328 EPOCH 24 done: loss 0.0227 - lr: 0.000064
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  9.21it/s] 60%|███  | 3/5 [00:00<00:00, 10.02it/s] 80%|████ | 4/5 [00:00<00:00,  8.31it/s]100%|█████| 5/5 [00:00<00:00,  6.71it/s]100%|█████| 5/5 [00:00<00:00,  7.48it/s]
2025-05-05 19:23:02,016 DEV : loss 0.27463921904563904 - f1-score (micro avg)  0.8106
2025-05-05 19:23:02,020 ----------------------------------------------------------------------------------------------------
2025-05-05 19:23:03,014 epoch 25 - iter 8/83 - loss 0.00628472 - time (sec): 0.99 - samples/sec: 2739.05 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:23:04,019 epoch 25 - iter 16/83 - loss 0.00965682 - time (sec): 2.00 - samples/sec: 2448.04 - lr: 0.000064 - momentum: 0.000000
2025-05-05 19:23:05,011 epoch 25 - iter 24/83 - loss 0.01215043 - time (sec): 2.99 - samples/sec: 2542.82 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:06,062 epoch 25 - iter 32/83 - loss 0.01749916 - time (sec): 4.04 - samples/sec: 2696.72 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:07,289 epoch 25 - iter 40/83 - loss 0.01799453 - time (sec): 5.27 - samples/sec: 2634.50 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:08,304 epoch 25 - iter 48/83 - loss 0.02069678 - time (sec): 6.28 - samples/sec: 2638.63 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:09,500 epoch 25 - iter 56/83 - loss 0.02024406 - time (sec): 7.48 - samples/sec: 2578.17 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:10,782 epoch 25 - iter 64/83 - loss 0.02089943 - time (sec): 8.76 - samples/sec: 2504.03 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:11,863 epoch 25 - iter 72/83 - loss 0.02241872 - time (sec): 9.84 - samples/sec: 2529.48 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:12,780 epoch 25 - iter 80/83 - loss 0.02593074 - time (sec): 10.76 - samples/sec: 2542.04 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:13,061 ----------------------------------------------------------------------------------------------------
2025-05-05 19:23:13,062 EPOCH 25 done: loss 0.0254 - lr: 0.000063
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.45it/s] 60%|███  | 3/5 [00:00<00:00,  9.51it/s] 80%|████ | 4/5 [00:00<00:00,  8.25it/s]100%|█████| 5/5 [00:00<00:00,  9.30it/s]
2025-05-05 19:23:13,619 DEV : loss 0.21986070275306702 - f1-score (micro avg)  0.8467
2025-05-05 19:23:13,622 ----------------------------------------------------------------------------------------------------
2025-05-05 19:23:14,768 epoch 26 - iter 8/83 - loss 0.00708353 - time (sec): 1.14 - samples/sec: 2262.04 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:15,797 epoch 26 - iter 16/83 - loss 0.00725579 - time (sec): 2.17 - samples/sec: 2438.58 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:16,715 epoch 26 - iter 24/83 - loss 0.00842973 - time (sec): 3.09 - samples/sec: 2564.17 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:17,797 epoch 26 - iter 32/83 - loss 0.01144118 - time (sec): 4.17 - samples/sec: 2508.18 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:18,833 epoch 26 - iter 40/83 - loss 0.01545017 - time (sec): 5.21 - samples/sec: 2573.09 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:19,773 epoch 26 - iter 48/83 - loss 0.01606615 - time (sec): 6.15 - samples/sec: 2610.09 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:20,860 epoch 26 - iter 56/83 - loss 0.01437696 - time (sec): 7.24 - samples/sec: 2656.27 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:21,825 epoch 26 - iter 64/83 - loss 0.01566695 - time (sec): 8.20 - samples/sec: 2661.85 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:22,834 epoch 26 - iter 72/83 - loss 0.01437959 - time (sec): 9.21 - samples/sec: 2688.59 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:23,800 epoch 26 - iter 80/83 - loss 0.01360806 - time (sec): 10.18 - samples/sec: 2662.40 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:24,125 ----------------------------------------------------------------------------------------------------
2025-05-05 19:23:24,125 EPOCH 26 done: loss 0.0133 - lr: 0.000063
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.41it/s] 40%|██   | 2/5 [00:00<00:00,  9.13it/s] 60%|███  | 3/5 [00:00<00:00,  9.08it/s] 80%|████ | 4/5 [00:00<00:00,  7.50it/s]100%|█████| 5/5 [00:00<00:00,  8.80it/s]
2025-05-05 19:23:24,712 DEV : loss 0.2617335319519043 - f1-score (micro avg)  0.8203
2025-05-05 19:23:24,716 ----------------------------------------------------------------------------------------------------
2025-05-05 19:23:25,747 epoch 27 - iter 8/83 - loss 0.00444475 - time (sec): 1.03 - samples/sec: 2999.25 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:26,773 epoch 27 - iter 16/83 - loss 0.01106757 - time (sec): 2.06 - samples/sec: 2861.07 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:27,920 epoch 27 - iter 24/83 - loss 0.01503824 - time (sec): 3.20 - samples/sec: 2626.82 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:29,016 epoch 27 - iter 32/83 - loss 0.01834822 - time (sec): 4.30 - samples/sec: 2531.79 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:30,119 epoch 27 - iter 40/83 - loss 0.01680835 - time (sec): 5.40 - samples/sec: 2467.17 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:31,090 epoch 27 - iter 48/83 - loss 0.01765181 - time (sec): 6.37 - samples/sec: 2499.70 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:32,058 epoch 27 - iter 56/83 - loss 0.01749660 - time (sec): 7.34 - samples/sec: 2530.04 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:33,208 epoch 27 - iter 64/83 - loss 0.01635146 - time (sec): 8.49 - samples/sec: 2523.90 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:34,242 epoch 27 - iter 72/83 - loss 0.01646573 - time (sec): 9.53 - samples/sec: 2528.36 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:35,436 epoch 27 - iter 80/83 - loss 0.01475511 - time (sec): 10.72 - samples/sec: 2542.39 - lr: 0.000063 - momentum: 0.000000
2025-05-05 19:23:35,851 ----------------------------------------------------------------------------------------------------
2025-05-05 19:23:35,851 EPOCH 27 done: loss 0.0144 - lr: 0.000063
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.13it/s] 40%|██   | 2/5 [00:00<00:00,  7.96it/s] 60%|███  | 3/5 [00:00<00:00,  7.92it/s] 80%|████ | 4/5 [00:00<00:00,  6.63it/s]100%|█████| 5/5 [00:00<00:00,  7.84it/s]
2025-05-05 19:23:36,509 DEV : loss 0.27756986021995544 - f1-score (micro avg)  0.7823
2025-05-05 19:23:36,512 ----------------------------------------------------------------------------------------------------
2025-05-05 19:23:37,510 epoch 28 - iter 8/83 - loss 0.00104489 - time (sec): 1.00 - samples/sec: 2285.57 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:38,475 epoch 28 - iter 16/83 - loss 0.00422324 - time (sec): 1.96 - samples/sec: 2576.22 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:39,777 epoch 28 - iter 24/83 - loss 0.00844788 - time (sec): 3.26 - samples/sec: 2539.94 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:40,870 epoch 28 - iter 32/83 - loss 0.01672428 - time (sec): 4.36 - samples/sec: 2539.08 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:41,860 epoch 28 - iter 40/83 - loss 0.01502751 - time (sec): 5.35 - samples/sec: 2562.69 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:42,914 epoch 28 - iter 48/83 - loss 0.01465448 - time (sec): 6.40 - samples/sec: 2539.24 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:44,276 epoch 28 - iter 56/83 - loss 0.01861339 - time (sec): 7.76 - samples/sec: 2428.97 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:45,430 epoch 28 - iter 64/83 - loss 0.01733173 - time (sec): 8.92 - samples/sec: 2428.27 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:46,389 epoch 28 - iter 72/83 - loss 0.01694956 - time (sec): 9.88 - samples/sec: 2473.23 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:47,433 epoch 28 - iter 80/83 - loss 0.01736495 - time (sec): 10.92 - samples/sec: 2485.22 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:47,753 ----------------------------------------------------------------------------------------------------
2025-05-05 19:23:47,754 EPOCH 28 done: loss 0.0180 - lr: 0.000062
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.18it/s] 40%|██   | 2/5 [00:00<00:00,  5.04it/s] 80%|████ | 4/5 [00:00<00:00,  6.58it/s]100%|█████| 5/5 [00:00<00:00,  7.25it/s]
2025-05-05 19:23:48,462 DEV : loss 0.2915337383747101 - f1-score (micro avg)  0.796
2025-05-05 19:23:48,466 ----------------------------------------------------------------------------------------------------
2025-05-05 19:23:49,509 epoch 29 - iter 8/83 - loss 0.02085028 - time (sec): 1.04 - samples/sec: 2415.04 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:50,743 epoch 29 - iter 16/83 - loss 0.01618508 - time (sec): 2.28 - samples/sec: 2347.19 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:51,837 epoch 29 - iter 24/83 - loss 0.01189153 - time (sec): 3.37 - samples/sec: 2442.20 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:52,979 epoch 29 - iter 32/83 - loss 0.01131728 - time (sec): 4.51 - samples/sec: 2415.90 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:54,087 epoch 29 - iter 40/83 - loss 0.01301552 - time (sec): 5.62 - samples/sec: 2461.45 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:55,023 epoch 29 - iter 48/83 - loss 0.01497725 - time (sec): 6.56 - samples/sec: 2561.27 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:56,125 epoch 29 - iter 56/83 - loss 0.01403027 - time (sec): 7.66 - samples/sec: 2561.21 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:57,110 epoch 29 - iter 64/83 - loss 0.01541862 - time (sec): 8.64 - samples/sec: 2604.54 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:58,099 epoch 29 - iter 72/83 - loss 0.01503639 - time (sec): 9.63 - samples/sec: 2566.25 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:59,184 epoch 29 - iter 80/83 - loss 0.01405386 - time (sec): 10.72 - samples/sec: 2537.27 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:23:59,536 ----------------------------------------------------------------------------------------------------
2025-05-05 19:23:59,536 EPOCH 29 done: loss 0.0137 - lr: 0.000062
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  9.17it/s] 60%|███  | 3/5 [00:00<00:00,  6.09it/s] 80%|████ | 4/5 [00:00<00:00,  6.29it/s]100%|█████| 5/5 [00:00<00:00,  7.22it/s]
2025-05-05 19:24:00,249 DEV : loss 0.3115432858467102 - f1-score (micro avg)  0.8051
2025-05-05 19:24:00,252 ----------------------------------------------------------------------------------------------------
2025-05-05 19:24:01,261 epoch 30 - iter 8/83 - loss 0.00192503 - time (sec): 1.01 - samples/sec: 2361.29 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:24:02,345 epoch 30 - iter 16/83 - loss 0.00341560 - time (sec): 2.09 - samples/sec: 2319.09 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:24:03,374 epoch 30 - iter 24/83 - loss 0.02494556 - time (sec): 3.12 - samples/sec: 2416.69 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:24:04,535 epoch 30 - iter 32/83 - loss 0.02407216 - time (sec): 4.28 - samples/sec: 2408.03 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:24:05,623 epoch 30 - iter 40/83 - loss 0.02323788 - time (sec): 5.37 - samples/sec: 2452.88 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:24:06,544 epoch 30 - iter 48/83 - loss 0.02048828 - time (sec): 6.29 - samples/sec: 2507.66 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:24:07,476 epoch 30 - iter 56/83 - loss 0.01948966 - time (sec): 7.22 - samples/sec: 2595.07 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:24:08,548 epoch 30 - iter 64/83 - loss 0.01881730 - time (sec): 8.29 - samples/sec: 2626.17 - lr: 0.000062 - momentum: 0.000000
2025-05-05 19:24:09,513 epoch 30 - iter 72/83 - loss 0.01736916 - time (sec): 9.26 - samples/sec: 2667.84 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:10,490 epoch 30 - iter 80/83 - loss 0.01847474 - time (sec): 10.24 - samples/sec: 2656.80 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:10,807 ----------------------------------------------------------------------------------------------------
2025-05-05 19:24:10,807 EPOCH 30 done: loss 0.0180 - lr: 0.000061
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.06it/s] 40%|██   | 2/5 [00:00<00:00,  7.06it/s] 60%|███  | 3/5 [00:00<00:00,  7.31it/s] 80%|████ | 4/5 [00:00<00:00,  6.31it/s]100%|█████| 5/5 [00:00<00:00,  7.33it/s]
2025-05-05 19:24:11,509 DEV : loss 0.2858237326145172 - f1-score (micro avg)  0.796
2025-05-05 19:24:11,513 ----------------------------------------------------------------------------------------------------
2025-05-05 19:24:12,402 epoch 31 - iter 8/83 - loss 0.01235429 - time (sec): 0.89 - samples/sec: 2764.77 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:13,519 epoch 31 - iter 16/83 - loss 0.01265502 - time (sec): 2.01 - samples/sec: 2863.47 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:14,888 epoch 31 - iter 24/83 - loss 0.01327647 - time (sec): 3.37 - samples/sec: 2761.74 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:16,073 epoch 31 - iter 32/83 - loss 0.01615945 - time (sec): 4.56 - samples/sec: 2534.97 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:17,064 epoch 31 - iter 40/83 - loss 0.01556685 - time (sec): 5.55 - samples/sec: 2546.20 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:18,131 epoch 31 - iter 48/83 - loss 0.01390533 - time (sec): 6.62 - samples/sec: 2521.83 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:19,102 epoch 31 - iter 56/83 - loss 0.01312628 - time (sec): 7.59 - samples/sec: 2518.94 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:20,114 epoch 31 - iter 64/83 - loss 0.01213339 - time (sec): 8.60 - samples/sec: 2535.02 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:21,117 epoch 31 - iter 72/83 - loss 0.01133544 - time (sec): 9.60 - samples/sec: 2518.55 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:22,084 epoch 31 - iter 80/83 - loss 0.01041149 - time (sec): 10.57 - samples/sec: 2557.87 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:22,406 ----------------------------------------------------------------------------------------------------
2025-05-05 19:24:22,406 EPOCH 31 done: loss 0.0110 - lr: 0.000061
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.43it/s] 60%|███  | 3/5 [00:00<00:00,  8.25it/s] 80%|████ | 4/5 [00:00<00:00,  6.81it/s]100%|█████| 5/5 [00:00<00:00,  7.93it/s]
2025-05-05 19:24:23,056 DEV : loss 0.27489835023880005 - f1-score (micro avg)  0.8339
2025-05-05 19:24:23,060 ----------------------------------------------------------------------------------------------------
2025-05-05 19:24:24,141 epoch 32 - iter 8/83 - loss 0.01056211 - time (sec): 1.08 - samples/sec: 2809.56 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:25,268 epoch 32 - iter 16/83 - loss 0.01535795 - time (sec): 2.21 - samples/sec: 2644.66 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:26,507 epoch 32 - iter 24/83 - loss 0.01187668 - time (sec): 3.45 - samples/sec: 2520.27 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:27,618 epoch 32 - iter 32/83 - loss 0.01108124 - time (sec): 4.56 - samples/sec: 2482.68 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:28,576 epoch 32 - iter 40/83 - loss 0.01143663 - time (sec): 5.51 - samples/sec: 2532.64 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:29,485 epoch 32 - iter 48/83 - loss 0.01378372 - time (sec): 6.42 - samples/sec: 2533.67 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:30,458 epoch 32 - iter 56/83 - loss 0.01247577 - time (sec): 7.40 - samples/sec: 2591.46 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:31,552 epoch 32 - iter 64/83 - loss 0.01545817 - time (sec): 8.49 - samples/sec: 2566.14 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:32,471 epoch 32 - iter 72/83 - loss 0.01691416 - time (sec): 9.41 - samples/sec: 2631.12 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:33,439 epoch 32 - iter 80/83 - loss 0.01625779 - time (sec): 10.38 - samples/sec: 2624.68 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:33,797 ----------------------------------------------------------------------------------------------------
2025-05-05 19:24:33,797 EPOCH 32 done: loss 0.0158 - lr: 0.000061
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.54it/s] 40%|██   | 2/5 [00:00<00:00,  7.95it/s] 60%|███  | 3/5 [00:00<00:00,  7.72it/s] 80%|████ | 4/5 [00:00<00:00,  6.29it/s]100%|█████| 5/5 [00:00<00:00,  7.64it/s]
2025-05-05 19:24:34,471 DEV : loss 0.28564804792404175 - f1-score (micro avg)  0.82
2025-05-05 19:24:34,475 ----------------------------------------------------------------------------------------------------
2025-05-05 19:24:35,343 epoch 33 - iter 8/83 - loss 0.01896872 - time (sec): 0.87 - samples/sec: 2743.93 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:36,367 epoch 33 - iter 16/83 - loss 0.01010142 - time (sec): 1.89 - samples/sec: 2762.49 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:37,367 epoch 33 - iter 24/83 - loss 0.00965301 - time (sec): 2.89 - samples/sec: 2771.07 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:38,328 epoch 33 - iter 32/83 - loss 0.01056126 - time (sec): 3.85 - samples/sec: 2776.39 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:39,433 epoch 33 - iter 40/83 - loss 0.01315906 - time (sec): 4.96 - samples/sec: 2654.70 - lr: 0.000061 - momentum: 0.000000
2025-05-05 19:24:40,373 epoch 33 - iter 48/83 - loss 0.01649828 - time (sec): 5.90 - samples/sec: 2729.85 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:24:41,456 epoch 33 - iter 56/83 - loss 0.01574345 - time (sec): 6.98 - samples/sec: 2719.68 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:24:42,591 epoch 33 - iter 64/83 - loss 0.01495882 - time (sec): 8.12 - samples/sec: 2664.40 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:24:43,605 epoch 33 - iter 72/83 - loss 0.01352622 - time (sec): 9.13 - samples/sec: 2668.25 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:24:44,554 epoch 33 - iter 80/83 - loss 0.01346637 - time (sec): 10.08 - samples/sec: 2693.40 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:24:44,970 ----------------------------------------------------------------------------------------------------
2025-05-05 19:24:44,970 EPOCH 33 done: loss 0.0143 - lr: 0.000060
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.23it/s] 40%|██   | 2/5 [00:00<00:00,  7.15it/s] 60%|███  | 3/5 [00:00<00:00,  7.36it/s] 80%|████ | 4/5 [00:00<00:00,  7.04it/s]100%|█████| 5/5 [00:00<00:00,  7.86it/s]
2025-05-05 19:24:45,658 DEV : loss 0.2621913552284241 - f1-score (micro avg)  0.7789
2025-05-05 19:24:45,662 ----------------------------------------------------------------------------------------------------
2025-05-05 19:24:46,720 epoch 34 - iter 8/83 - loss 0.01351434 - time (sec): 1.06 - samples/sec: 2635.42 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:24:48,052 epoch 34 - iter 16/83 - loss 0.00853756 - time (sec): 2.39 - samples/sec: 2328.30 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:24:49,238 epoch 34 - iter 24/83 - loss 0.01151855 - time (sec): 3.57 - samples/sec: 2282.66 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:24:50,309 epoch 34 - iter 32/83 - loss 0.01148593 - time (sec): 4.65 - samples/sec: 2330.15 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:24:51,293 epoch 34 - iter 40/83 - loss 0.01115268 - time (sec): 5.63 - samples/sec: 2420.51 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:24:52,334 epoch 34 - iter 48/83 - loss 0.01090119 - time (sec): 6.67 - samples/sec: 2418.28 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:24:53,457 epoch 34 - iter 56/83 - loss 0.01202486 - time (sec): 7.79 - samples/sec: 2408.15 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:24:54,486 epoch 34 - iter 64/83 - loss 0.01044209 - time (sec): 8.82 - samples/sec: 2452.84 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:24:55,388 epoch 34 - iter 72/83 - loss 0.01004047 - time (sec): 9.73 - samples/sec: 2498.97 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:24:56,346 epoch 34 - iter 80/83 - loss 0.00936656 - time (sec): 10.68 - samples/sec: 2537.72 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:24:56,758 ----------------------------------------------------------------------------------------------------
2025-05-05 19:24:56,759 EPOCH 34 done: loss 0.0094 - lr: 0.000060
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.86it/s] 60%|███  | 3/5 [00:00<00:00,  9.50it/s] 80%|████ | 4/5 [00:00<00:00,  5.38it/s]100%|█████| 5/5 [00:00<00:00,  6.91it/s]
2025-05-05 19:24:57,502 DEV : loss 0.3203810453414917 - f1-score (micro avg)  0.8185
2025-05-05 19:24:57,505 ----------------------------------------------------------------------------------------------------
2025-05-05 19:24:58,482 epoch 35 - iter 8/83 - loss 0.02005425 - time (sec): 0.98 - samples/sec: 2701.77 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:24:59,503 epoch 35 - iter 16/83 - loss 0.01253445 - time (sec): 2.00 - samples/sec: 2664.41 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:25:00,432 epoch 35 - iter 24/83 - loss 0.01149664 - time (sec): 2.93 - samples/sec: 2626.48 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:25:01,448 epoch 35 - iter 32/83 - loss 0.00849824 - time (sec): 3.94 - samples/sec: 2654.44 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:25:02,415 epoch 35 - iter 40/83 - loss 0.00695275 - time (sec): 4.91 - samples/sec: 2739.45 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:25:03,534 epoch 35 - iter 48/83 - loss 0.00792746 - time (sec): 6.03 - samples/sec: 2704.76 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:25:04,691 epoch 35 - iter 56/83 - loss 0.00670411 - time (sec): 7.18 - samples/sec: 2690.43 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:25:05,936 epoch 35 - iter 64/83 - loss 0.00753333 - time (sec): 8.43 - samples/sec: 2591.11 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:25:07,027 epoch 35 - iter 72/83 - loss 0.00873175 - time (sec): 9.52 - samples/sec: 2601.12 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:25:08,011 epoch 35 - iter 80/83 - loss 0.00842881 - time (sec): 10.50 - samples/sec: 2570.02 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:25:08,365 ----------------------------------------------------------------------------------------------------
2025-05-05 19:25:08,365 EPOCH 35 done: loss 0.0086 - lr: 0.000060
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.11it/s] 40%|██   | 2/5 [00:00<00:00,  8.82it/s] 60%|███  | 3/5 [00:00<00:00,  8.88it/s] 80%|████ | 4/5 [00:00<00:00,  7.37it/s]100%|█████| 5/5 [00:00<00:00,  8.61it/s]
2025-05-05 19:25:08,966 DEV : loss 0.3092021644115448 - f1-score (micro avg)  0.7756
2025-05-05 19:25:08,969 ----------------------------------------------------------------------------------------------------
2025-05-05 19:25:09,952 epoch 36 - iter 8/83 - loss 0.01075549 - time (sec): 0.98 - samples/sec: 2811.05 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:25:11,084 epoch 36 - iter 16/83 - loss 0.01361103 - time (sec): 2.11 - samples/sec: 2630.94 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:25:12,215 epoch 36 - iter 24/83 - loss 0.01159781 - time (sec): 3.24 - samples/sec: 2664.92 - lr: 0.000060 - momentum: 0.000000
2025-05-05 19:25:13,200 epoch 36 - iter 32/83 - loss 0.01116224 - time (sec): 4.23 - samples/sec: 2628.60 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:14,155 epoch 36 - iter 40/83 - loss 0.01038140 - time (sec): 5.18 - samples/sec: 2706.28 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:15,064 epoch 36 - iter 48/83 - loss 0.01005058 - time (sec): 6.09 - samples/sec: 2744.17 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:16,310 epoch 36 - iter 56/83 - loss 0.01021958 - time (sec): 7.34 - samples/sec: 2628.70 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:17,402 epoch 36 - iter 64/83 - loss 0.01159966 - time (sec): 8.43 - samples/sec: 2574.07 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:18,422 epoch 36 - iter 72/83 - loss 0.01165546 - time (sec): 9.45 - samples/sec: 2588.80 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:19,695 epoch 36 - iter 80/83 - loss 0.01173571 - time (sec): 10.72 - samples/sec: 2526.88 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:20,073 ----------------------------------------------------------------------------------------------------
2025-05-05 19:25:20,074 EPOCH 36 done: loss 0.0122 - lr: 0.000059
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.95it/s] 60%|███  | 3/5 [00:00<00:00,  9.58it/s] 80%|████ | 4/5 [00:00<00:00,  8.35it/s]100%|█████| 5/5 [00:00<00:00,  9.34it/s]
2025-05-05 19:25:20,628 DEV : loss 0.2449529618024826 - f1-score (micro avg)  0.8361
2025-05-05 19:25:20,632 ----------------------------------------------------------------------------------------------------
2025-05-05 19:25:21,866 epoch 37 - iter 8/83 - loss 0.01241501 - time (sec): 1.23 - samples/sec: 2233.33 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:22,943 epoch 37 - iter 16/83 - loss 0.01556351 - time (sec): 2.31 - samples/sec: 2502.75 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:24,059 epoch 37 - iter 24/83 - loss 0.01766151 - time (sec): 3.43 - samples/sec: 2493.68 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:25,012 epoch 37 - iter 32/83 - loss 0.01429370 - time (sec): 4.38 - samples/sec: 2531.57 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:26,025 epoch 37 - iter 40/83 - loss 0.01784208 - time (sec): 5.39 - samples/sec: 2528.32 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:27,141 epoch 37 - iter 48/83 - loss 0.01800053 - time (sec): 6.51 - samples/sec: 2526.97 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:28,144 epoch 37 - iter 56/83 - loss 0.01614237 - time (sec): 7.51 - samples/sec: 2571.09 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:29,200 epoch 37 - iter 64/83 - loss 0.01551393 - time (sec): 8.57 - samples/sec: 2525.79 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:30,320 epoch 37 - iter 72/83 - loss 0.01504814 - time (sec): 9.69 - samples/sec: 2525.71 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:31,398 epoch 37 - iter 80/83 - loss 0.01459583 - time (sec): 10.77 - samples/sec: 2511.87 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:31,749 ----------------------------------------------------------------------------------------------------
2025-05-05 19:25:31,749 EPOCH 37 done: loss 0.0150 - lr: 0.000059
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.97it/s] 40%|██   | 2/5 [00:00<00:00,  8.98it/s] 60%|███  | 3/5 [00:00<00:00,  8.93it/s] 80%|████ | 4/5 [00:00<00:00,  7.48it/s]100%|█████| 5/5 [00:00<00:00,  8.71it/s]
2025-05-05 19:25:32,342 DEV : loss 0.3185136318206787 - f1-score (micro avg)  0.8243
2025-05-05 19:25:32,346 ----------------------------------------------------------------------------------------------------
2025-05-05 19:25:33,289 epoch 38 - iter 8/83 - loss 0.00415787 - time (sec): 0.94 - samples/sec: 2779.85 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:34,485 epoch 38 - iter 16/83 - loss 0.00290654 - time (sec): 2.14 - samples/sec: 2447.58 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:35,670 epoch 38 - iter 24/83 - loss 0.00188263 - time (sec): 3.32 - samples/sec: 2489.52 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:36,960 epoch 38 - iter 32/83 - loss 0.00143168 - time (sec): 4.61 - samples/sec: 2371.93 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:38,025 epoch 38 - iter 40/83 - loss 0.00276490 - time (sec): 5.68 - samples/sec: 2418.15 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:39,253 epoch 38 - iter 48/83 - loss 0.00524822 - time (sec): 6.91 - samples/sec: 2319.53 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:40,493 epoch 38 - iter 56/83 - loss 0.00541131 - time (sec): 8.15 - samples/sec: 2293.60 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:41,638 epoch 38 - iter 64/83 - loss 0.00523475 - time (sec): 9.29 - samples/sec: 2248.54 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:43,010 epoch 38 - iter 72/83 - loss 0.00561706 - time (sec): 10.66 - samples/sec: 2242.88 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:44,109 epoch 38 - iter 80/83 - loss 0.00736189 - time (sec): 11.76 - samples/sec: 2291.92 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:44,574 ----------------------------------------------------------------------------------------------------
2025-05-05 19:25:44,574 EPOCH 38 done: loss 0.0073 - lr: 0.000059
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.79it/s] 60%|███  | 3/5 [00:00<00:00,  9.75it/s] 80%|████ | 4/5 [00:00<00:00,  8.37it/s]100%|█████| 5/5 [00:00<00:00,  6.74it/s]100%|█████| 5/5 [00:00<00:00,  7.47it/s]
2025-05-05 19:25:45,263 DEV : loss 0.2948843538761139 - f1-score (micro avg)  0.8505
2025-05-05 19:25:45,266 ----------------------------------------------------------------------------------------------------
2025-05-05 19:25:46,534 epoch 39 - iter 8/83 - loss 0.00920467 - time (sec): 1.27 - samples/sec: 2443.46 - lr: 0.000059 - momentum: 0.000000
2025-05-05 19:25:47,776 epoch 39 - iter 16/83 - loss 0.00929861 - time (sec): 2.51 - samples/sec: 2293.80 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:25:48,745 epoch 39 - iter 24/83 - loss 0.00748325 - time (sec): 3.48 - samples/sec: 2389.67 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:25:49,754 epoch 39 - iter 32/83 - loss 0.00957389 - time (sec): 4.49 - samples/sec: 2499.73 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:25:50,902 epoch 39 - iter 40/83 - loss 0.00792904 - time (sec): 5.63 - samples/sec: 2506.16 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:25:51,933 epoch 39 - iter 48/83 - loss 0.00695050 - time (sec): 6.67 - samples/sec: 2490.81 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:25:52,933 epoch 39 - iter 56/83 - loss 0.00656761 - time (sec): 7.67 - samples/sec: 2508.31 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:25:53,937 epoch 39 - iter 64/83 - loss 0.00650336 - time (sec): 8.67 - samples/sec: 2492.59 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:25:55,225 epoch 39 - iter 72/83 - loss 0.00687568 - time (sec): 9.96 - samples/sec: 2478.10 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:25:56,327 epoch 39 - iter 80/83 - loss 0.00643068 - time (sec): 11.06 - samples/sec: 2458.18 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:25:56,702 ----------------------------------------------------------------------------------------------------
2025-05-05 19:25:56,702 EPOCH 39 done: loss 0.0076 - lr: 0.000058
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.29it/s] 60%|███  | 3/5 [00:00<00:00,  8.78it/s] 80%|████ | 4/5 [00:00<00:00,  7.93it/s]100%|█████| 5/5 [00:00<00:00,  8.76it/s]
2025-05-05 19:25:57,293 DEV : loss 0.3220660984516144 - f1-score (micro avg)  0.8328
2025-05-05 19:25:57,296 ----------------------------------------------------------------------------------------------------
2025-05-05 19:25:58,630 epoch 40 - iter 8/83 - loss 0.03077586 - time (sec): 1.33 - samples/sec: 1872.89 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:25:59,908 epoch 40 - iter 16/83 - loss 0.01512990 - time (sec): 2.61 - samples/sec: 1980.01 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:01,140 epoch 40 - iter 24/83 - loss 0.02775735 - time (sec): 3.84 - samples/sec: 2129.44 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:02,100 epoch 40 - iter 32/83 - loss 0.02393213 - time (sec): 4.80 - samples/sec: 2285.91 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:03,371 epoch 40 - iter 40/83 - loss 0.02451122 - time (sec): 6.07 - samples/sec: 2217.66 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:04,684 epoch 40 - iter 48/83 - loss 0.02094879 - time (sec): 7.39 - samples/sec: 2227.98 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:05,623 epoch 40 - iter 56/83 - loss 0.01999231 - time (sec): 8.33 - samples/sec: 2283.66 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:06,649 epoch 40 - iter 64/83 - loss 0.01893236 - time (sec): 9.35 - samples/sec: 2298.33 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:07,850 epoch 40 - iter 72/83 - loss 0.01716643 - time (sec): 10.55 - samples/sec: 2292.94 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:09,088 epoch 40 - iter 80/83 - loss 0.01617048 - time (sec): 11.79 - samples/sec: 2309.07 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:09,462 ----------------------------------------------------------------------------------------------------
2025-05-05 19:26:09,462 EPOCH 40 done: loss 0.0163 - lr: 0.000058
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.79it/s] 40%|██   | 2/5 [00:00<00:00,  8.49it/s] 60%|███  | 3/5 [00:00<00:00,  8.45it/s] 80%|████ | 4/5 [00:00<00:00,  7.24it/s]100%|█████| 5/5 [00:00<00:00,  8.43it/s]
2025-05-05 19:26:10,075 DEV : loss 0.2992073595523834 - f1-score (micro avg)  0.8533
2025-05-05 19:26:10,078 ----------------------------------------------------------------------------------------------------
2025-05-05 19:26:11,210 epoch 41 - iter 8/83 - loss 0.01387599 - time (sec): 1.13 - samples/sec: 2504.66 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:12,317 epoch 41 - iter 16/83 - loss 0.00918875 - time (sec): 2.24 - samples/sec: 2247.07 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:13,288 epoch 41 - iter 24/83 - loss 0.00876330 - time (sec): 3.21 - samples/sec: 2481.74 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:14,311 epoch 41 - iter 32/83 - loss 0.00777158 - time (sec): 4.23 - samples/sec: 2558.05 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:15,356 epoch 41 - iter 40/83 - loss 0.00764149 - time (sec): 5.28 - samples/sec: 2549.72 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:16,363 epoch 41 - iter 48/83 - loss 0.01089160 - time (sec): 6.28 - samples/sec: 2552.13 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:17,323 epoch 41 - iter 56/83 - loss 0.01081991 - time (sec): 7.24 - samples/sec: 2586.86 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:18,356 epoch 41 - iter 64/83 - loss 0.01101761 - time (sec): 8.28 - samples/sec: 2601.42 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:19,458 epoch 41 - iter 72/83 - loss 0.00980447 - time (sec): 9.38 - samples/sec: 2592.56 - lr: 0.000058 - momentum: 0.000000
2025-05-05 19:26:20,643 epoch 41 - iter 80/83 - loss 0.01000754 - time (sec): 10.56 - samples/sec: 2567.44 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:21,148 ----------------------------------------------------------------------------------------------------
2025-05-05 19:26:21,148 EPOCH 41 done: loss 0.0097 - lr: 0.000057
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  4.44it/s] 60%|███  | 3/5 [00:00<00:00,  7.70it/s] 80%|████ | 4/5 [00:00<00:00,  7.33it/s]100%|█████| 5/5 [00:00<00:00,  7.89it/s]
2025-05-05 19:26:21,801 DEV : loss 0.31274208426475525 - f1-score (micro avg)  0.8301
2025-05-05 19:26:21,805 ----------------------------------------------------------------------------------------------------
2025-05-05 19:26:22,829 epoch 42 - iter 8/83 - loss 0.00021958 - time (sec): 1.02 - samples/sec: 2885.63 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:23,915 epoch 42 - iter 16/83 - loss 0.01255320 - time (sec): 2.11 - samples/sec: 2719.95 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:24,916 epoch 42 - iter 24/83 - loss 0.00958910 - time (sec): 3.11 - samples/sec: 2704.85 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:25,886 epoch 42 - iter 32/83 - loss 0.00947297 - time (sec): 4.08 - samples/sec: 2749.77 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:27,060 epoch 42 - iter 40/83 - loss 0.00858607 - time (sec): 5.25 - samples/sec: 2582.14 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:28,232 epoch 42 - iter 48/83 - loss 0.01000706 - time (sec): 6.43 - samples/sec: 2521.29 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:29,227 epoch 42 - iter 56/83 - loss 0.01023795 - time (sec): 7.42 - samples/sec: 2528.95 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:30,198 epoch 42 - iter 64/83 - loss 0.00972492 - time (sec): 8.39 - samples/sec: 2569.24 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:31,211 epoch 42 - iter 72/83 - loss 0.00975814 - time (sec): 9.41 - samples/sec: 2602.33 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:32,173 epoch 42 - iter 80/83 - loss 0.01054685 - time (sec): 10.37 - samples/sec: 2610.39 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:32,557 ----------------------------------------------------------------------------------------------------
2025-05-05 19:26:32,557 EPOCH 42 done: loss 0.0111 - lr: 0.000057
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.59it/s] 40%|██   | 2/5 [00:00<00:00,  7.30it/s] 60%|███  | 3/5 [00:00<00:00,  7.38it/s] 80%|████ | 4/5 [00:00<00:00,  6.38it/s]100%|█████| 5/5 [00:00<00:00,  7.46it/s]
2025-05-05 19:26:33,246 DEV : loss 0.3017001152038574 - f1-score (micro avg)  0.8254
2025-05-05 19:26:33,250 ----------------------------------------------------------------------------------------------------
2025-05-05 19:26:34,268 epoch 43 - iter 8/83 - loss 0.00780729 - time (sec): 1.02 - samples/sec: 2494.54 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:35,364 epoch 43 - iter 16/83 - loss 0.00778970 - time (sec): 2.11 - samples/sec: 2296.65 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:36,439 epoch 43 - iter 24/83 - loss 0.01273029 - time (sec): 3.19 - samples/sec: 2351.00 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:37,398 epoch 43 - iter 32/83 - loss 0.00939956 - time (sec): 4.15 - samples/sec: 2562.36 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:38,539 epoch 43 - iter 40/83 - loss 0.00759322 - time (sec): 5.29 - samples/sec: 2490.29 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:39,868 epoch 43 - iter 48/83 - loss 0.00777895 - time (sec): 6.62 - samples/sec: 2431.61 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:40,993 epoch 43 - iter 56/83 - loss 0.00856799 - time (sec): 7.74 - samples/sec: 2411.37 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:42,012 epoch 43 - iter 64/83 - loss 0.00849165 - time (sec): 8.76 - samples/sec: 2455.10 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:43,063 epoch 43 - iter 72/83 - loss 0.00799880 - time (sec): 9.81 - samples/sec: 2479.89 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:44,027 epoch 43 - iter 80/83 - loss 0.00843052 - time (sec): 10.78 - samples/sec: 2514.85 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:44,387 ----------------------------------------------------------------------------------------------------
2025-05-05 19:26:44,387 EPOCH 43 done: loss 0.0090 - lr: 0.000057
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.30it/s] 40%|██   | 2/5 [00:00<00:00,  8.99it/s] 60%|███  | 3/5 [00:00<00:00,  9.05it/s] 80%|████ | 4/5 [00:00<00:00,  7.34it/s]100%|█████| 5/5 [00:00<00:00,  8.65it/s]
2025-05-05 19:26:44,984 DEV : loss 0.31276917457580566 - f1-score (micro avg)  0.8407
2025-05-05 19:26:44,988 ----------------------------------------------------------------------------------------------------
2025-05-05 19:26:45,966 epoch 44 - iter 8/83 - loss 0.01204802 - time (sec): 0.98 - samples/sec: 2836.38 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:46,948 epoch 44 - iter 16/83 - loss 0.02042881 - time (sec): 1.96 - samples/sec: 2675.15 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:47,944 epoch 44 - iter 24/83 - loss 0.01807475 - time (sec): 2.96 - samples/sec: 2638.85 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:48,977 epoch 44 - iter 32/83 - loss 0.01343489 - time (sec): 3.99 - samples/sec: 2703.10 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:50,121 epoch 44 - iter 40/83 - loss 0.01342043 - time (sec): 5.13 - samples/sec: 2602.65 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:51,082 epoch 44 - iter 48/83 - loss 0.01152902 - time (sec): 6.09 - samples/sec: 2634.79 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:52,114 epoch 44 - iter 56/83 - loss 0.01006069 - time (sec): 7.13 - samples/sec: 2595.90 - lr: 0.000057 - momentum: 0.000000
2025-05-05 19:26:53,180 epoch 44 - iter 64/83 - loss 0.00953643 - time (sec): 8.19 - samples/sec: 2570.86 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:26:54,235 epoch 44 - iter 72/83 - loss 0.01133821 - time (sec): 9.25 - samples/sec: 2626.71 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:26:55,281 epoch 44 - iter 80/83 - loss 0.01077453 - time (sec): 10.29 - samples/sec: 2647.67 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:26:55,598 ----------------------------------------------------------------------------------------------------
2025-05-05 19:26:55,598 EPOCH 44 done: loss 0.0105 - lr: 0.000056
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.28it/s] 60%|███  | 3/5 [00:00<00:00,  9.53it/s] 80%|████ | 4/5 [00:00<00:00,  7.74it/s]100%|█████| 5/5 [00:00<00:00,  6.43it/s]100%|█████| 5/5 [00:00<00:00,  7.11it/s]
2025-05-05 19:26:56,321 DEV : loss 0.3002553880214691 - f1-score (micro avg)  0.8247
2025-05-05 19:26:56,324 ----------------------------------------------------------------------------------------------------
2025-05-05 19:26:57,427 epoch 45 - iter 8/83 - loss 0.01741635 - time (sec): 1.10 - samples/sec: 2570.27 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:26:58,644 epoch 45 - iter 16/83 - loss 0.01033421 - time (sec): 2.32 - samples/sec: 2247.21 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:26:59,843 epoch 45 - iter 24/83 - loss 0.01014527 - time (sec): 3.52 - samples/sec: 2297.13 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:01,039 epoch 45 - iter 32/83 - loss 0.00771638 - time (sec): 4.71 - samples/sec: 2271.27 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:02,263 epoch 45 - iter 40/83 - loss 0.00780876 - time (sec): 5.94 - samples/sec: 2236.12 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:03,625 epoch 45 - iter 48/83 - loss 0.01045653 - time (sec): 7.30 - samples/sec: 2232.03 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:04,775 epoch 45 - iter 56/83 - loss 0.00896416 - time (sec): 8.45 - samples/sec: 2249.62 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:06,164 epoch 45 - iter 64/83 - loss 0.00828384 - time (sec): 9.84 - samples/sec: 2192.48 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:07,217 epoch 45 - iter 72/83 - loss 0.00741322 - time (sec): 10.89 - samples/sec: 2239.94 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:08,285 epoch 45 - iter 80/83 - loss 0.00735839 - time (sec): 11.96 - samples/sec: 2270.63 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:08,757 ----------------------------------------------------------------------------------------------------
2025-05-05 19:27:08,757 EPOCH 45 done: loss 0.0071 - lr: 0.000056
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.03it/s] 60%|███  | 3/5 [00:00<00:00,  9.60it/s] 80%|████ | 4/5 [00:00<00:00,  8.37it/s]100%|█████| 5/5 [00:00<00:00,  9.00it/s]
2025-05-05 19:27:09,332 DEV : loss 0.3139377236366272 - f1-score (micro avg)  0.8146
2025-05-05 19:27:09,336 ----------------------------------------------------------------------------------------------------
2025-05-05 19:27:10,602 epoch 46 - iter 8/83 - loss 0.00476317 - time (sec): 1.27 - samples/sec: 2576.11 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:11,701 epoch 46 - iter 16/83 - loss 0.00266240 - time (sec): 2.36 - samples/sec: 2575.46 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:12,943 epoch 46 - iter 24/83 - loss 0.00461353 - time (sec): 3.61 - samples/sec: 2444.53 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:14,148 epoch 46 - iter 32/83 - loss 0.00350024 - time (sec): 4.81 - samples/sec: 2417.11 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:15,365 epoch 46 - iter 40/83 - loss 0.00305438 - time (sec): 6.03 - samples/sec: 2432.60 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:16,569 epoch 46 - iter 48/83 - loss 0.00402727 - time (sec): 7.23 - samples/sec: 2418.97 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:17,838 epoch 46 - iter 56/83 - loss 0.00396703 - time (sec): 8.50 - samples/sec: 2362.85 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:19,066 epoch 46 - iter 64/83 - loss 0.00436346 - time (sec): 9.73 - samples/sec: 2327.31 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:20,099 epoch 46 - iter 72/83 - loss 0.00405821 - time (sec): 10.76 - samples/sec: 2302.23 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:21,123 epoch 46 - iter 80/83 - loss 0.00370690 - time (sec): 11.79 - samples/sec: 2311.38 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:21,464 ----------------------------------------------------------------------------------------------------
2025-05-05 19:27:21,465 EPOCH 46 done: loss 0.0036 - lr: 0.000056
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.23it/s] 40%|██   | 2/5 [00:00<00:00,  8.90it/s] 60%|███  | 3/5 [00:00<00:00,  6.93it/s] 80%|████ | 4/5 [00:00<00:00,  5.59it/s]100%|█████| 5/5 [00:00<00:00,  7.05it/s]
2025-05-05 19:27:22,194 DEV : loss 0.31807366013526917 - f1-score (micro avg)  0.8435
2025-05-05 19:27:22,197 ----------------------------------------------------------------------------------------------------
2025-05-05 19:27:23,134 epoch 47 - iter 8/83 - loss 0.00783063 - time (sec): 0.94 - samples/sec: 2823.07 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:24,320 epoch 47 - iter 16/83 - loss 0.00385497 - time (sec): 2.12 - samples/sec: 2537.76 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:25,436 epoch 47 - iter 24/83 - loss 0.00888954 - time (sec): 3.24 - samples/sec: 2618.15 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:26,465 epoch 47 - iter 32/83 - loss 0.00698425 - time (sec): 4.27 - samples/sec: 2541.71 - lr: 0.000056 - momentum: 0.000000
2025-05-05 19:27:27,500 epoch 47 - iter 40/83 - loss 0.00561997 - time (sec): 5.30 - samples/sec: 2556.06 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:28,604 epoch 47 - iter 48/83 - loss 0.00762236 - time (sec): 6.41 - samples/sec: 2543.73 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:29,549 epoch 47 - iter 56/83 - loss 0.00649535 - time (sec): 7.35 - samples/sec: 2602.72 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:30,524 epoch 47 - iter 64/83 - loss 0.00691294 - time (sec): 8.33 - samples/sec: 2660.21 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:31,594 epoch 47 - iter 72/83 - loss 0.00666576 - time (sec): 9.40 - samples/sec: 2618.89 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:32,719 epoch 47 - iter 80/83 - loss 0.00679340 - time (sec): 10.52 - samples/sec: 2601.00 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:33,046 ----------------------------------------------------------------------------------------------------
2025-05-05 19:27:33,046 EPOCH 47 done: loss 0.0066 - lr: 0.000055
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.45it/s] 40%|██   | 2/5 [00:00<00:00,  8.30it/s] 60%|███  | 3/5 [00:00<00:00,  7.99it/s] 80%|████ | 4/5 [00:00<00:00,  6.74it/s]100%|█████| 5/5 [00:00<00:00,  8.02it/s]
2025-05-05 19:27:33,689 DEV : loss 0.2998475432395935 - f1-score (micro avg)  0.8361
2025-05-05 19:27:33,692 ----------------------------------------------------------------------------------------------------
2025-05-05 19:27:34,675 epoch 48 - iter 8/83 - loss 0.00079136 - time (sec): 0.98 - samples/sec: 3079.91 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:35,695 epoch 48 - iter 16/83 - loss 0.00982841 - time (sec): 2.00 - samples/sec: 2859.40 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:36,772 epoch 48 - iter 24/83 - loss 0.01098336 - time (sec): 3.08 - samples/sec: 2727.28 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:37,736 epoch 48 - iter 32/83 - loss 0.01061024 - time (sec): 4.04 - samples/sec: 2646.47 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:38,945 epoch 48 - iter 40/83 - loss 0.00907958 - time (sec): 5.25 - samples/sec: 2497.27 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:39,974 epoch 48 - iter 48/83 - loss 0.00897196 - time (sec): 6.28 - samples/sec: 2546.85 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:41,102 epoch 48 - iter 56/83 - loss 0.01001873 - time (sec): 7.41 - samples/sec: 2579.16 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:42,130 epoch 48 - iter 64/83 - loss 0.00900730 - time (sec): 8.44 - samples/sec: 2591.62 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:43,092 epoch 48 - iter 72/83 - loss 0.00952229 - time (sec): 9.40 - samples/sec: 2615.51 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:44,135 epoch 48 - iter 80/83 - loss 0.00954098 - time (sec): 10.44 - samples/sec: 2612.28 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:44,457 ----------------------------------------------------------------------------------------------------
2025-05-05 19:27:44,457 EPOCH 48 done: loss 0.0095 - lr: 0.000055
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.12it/s] 40%|██   | 2/5 [00:00<00:00,  8.79it/s] 60%|███  | 3/5 [00:00<00:00,  8.76it/s] 80%|████ | 4/5 [00:00<00:00,  7.44it/s]100%|█████| 5/5 [00:00<00:00,  8.66it/s]
2025-05-05 19:27:45,054 DEV : loss 0.31514373421669006 - f1-score (micro avg)  0.8367
2025-05-05 19:27:45,058 ----------------------------------------------------------------------------------------------------
2025-05-05 19:27:46,014 epoch 49 - iter 8/83 - loss 0.00393788 - time (sec): 0.95 - samples/sec: 2816.51 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:47,335 epoch 49 - iter 16/83 - loss 0.01184919 - time (sec): 2.28 - samples/sec: 2474.73 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:48,628 epoch 49 - iter 24/83 - loss 0.00910300 - time (sec): 3.57 - samples/sec: 2377.32 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:49,919 epoch 49 - iter 32/83 - loss 0.00893095 - time (sec): 4.86 - samples/sec: 2316.11 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:51,010 epoch 49 - iter 40/83 - loss 0.01072273 - time (sec): 5.95 - samples/sec: 2362.19 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:52,107 epoch 49 - iter 48/83 - loss 0.00952746 - time (sec): 7.05 - samples/sec: 2437.55 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:53,159 epoch 49 - iter 56/83 - loss 0.00867034 - time (sec): 8.10 - samples/sec: 2460.17 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:54,131 epoch 49 - iter 64/83 - loss 0.00807414 - time (sec): 9.07 - samples/sec: 2470.04 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:55,057 epoch 49 - iter 72/83 - loss 0.00777316 - time (sec): 10.00 - samples/sec: 2494.88 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:55,989 epoch 49 - iter 80/83 - loss 0.01270975 - time (sec): 10.93 - samples/sec: 2482.66 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:56,303 ----------------------------------------------------------------------------------------------------
2025-05-05 19:27:56,304 EPOCH 49 done: loss 0.0123 - lr: 0.000055
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.27it/s] 40%|██   | 2/5 [00:00<00:00,  8.93it/s] 60%|███  | 3/5 [00:00<00:00,  9.36it/s] 80%|████ | 4/5 [00:00<00:00,  7.68it/s]100%|█████| 5/5 [00:00<00:00,  8.88it/s]
2025-05-05 19:27:56,886 DEV : loss 0.26644954085350037 - f1-score (micro avg)  0.8456
2025-05-05 19:27:56,890 ----------------------------------------------------------------------------------------------------
2025-05-05 19:27:57,955 epoch 50 - iter 8/83 - loss 0.02066164 - time (sec): 1.06 - samples/sec: 2491.17 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:27:59,253 epoch 50 - iter 16/83 - loss 0.01188643 - time (sec): 2.36 - samples/sec: 2331.18 - lr: 0.000055 - momentum: 0.000000
2025-05-05 19:28:00,398 epoch 50 - iter 24/83 - loss 0.00999723 - time (sec): 3.51 - samples/sec: 2494.81 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:01,610 epoch 50 - iter 32/83 - loss 0.00988017 - time (sec): 4.72 - samples/sec: 2382.55 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:02,624 epoch 50 - iter 40/83 - loss 0.01461777 - time (sec): 5.73 - samples/sec: 2416.46 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:03,723 epoch 50 - iter 48/83 - loss 0.01395983 - time (sec): 6.83 - samples/sec: 2363.21 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:04,891 epoch 50 - iter 56/83 - loss 0.01283939 - time (sec): 8.00 - samples/sec: 2377.11 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:06,118 epoch 50 - iter 64/83 - loss 0.01127506 - time (sec): 9.23 - samples/sec: 2353.84 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:07,521 epoch 50 - iter 72/83 - loss 0.01126633 - time (sec): 10.63 - samples/sec: 2285.73 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:08,724 epoch 50 - iter 80/83 - loss 0.01039877 - time (sec): 11.83 - samples/sec: 2286.44 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:09,106 ----------------------------------------------------------------------------------------------------
2025-05-05 19:28:09,106 EPOCH 50 done: loss 0.0101 - lr: 0.000054
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.82it/s] 60%|███  | 3/5 [00:00<00:00,  8.94it/s] 80%|████ | 4/5 [00:00<00:00,  6.85it/s]100%|█████| 5/5 [00:00<00:00,  8.12it/s]
2025-05-05 19:28:09,741 DEV : loss 0.2832210958003998 - f1-score (micro avg)  0.8439
2025-05-05 19:28:09,745 ----------------------------------------------------------------------------------------------------
2025-05-05 19:28:10,893 epoch 51 - iter 8/83 - loss 0.00353338 - time (sec): 1.15 - samples/sec: 2517.73 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:12,002 epoch 51 - iter 16/83 - loss 0.01168864 - time (sec): 2.26 - samples/sec: 2425.56 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:13,151 epoch 51 - iter 24/83 - loss 0.01197013 - time (sec): 3.41 - samples/sec: 2392.66 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:14,208 epoch 51 - iter 32/83 - loss 0.01688195 - time (sec): 4.46 - samples/sec: 2450.79 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:15,226 epoch 51 - iter 40/83 - loss 0.01470964 - time (sec): 5.48 - samples/sec: 2538.24 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:16,323 epoch 51 - iter 48/83 - loss 0.01383306 - time (sec): 6.58 - samples/sec: 2541.34 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:17,772 epoch 51 - iter 56/83 - loss 0.01312830 - time (sec): 8.03 - samples/sec: 2422.72 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:18,762 epoch 51 - iter 64/83 - loss 0.01292378 - time (sec): 9.02 - samples/sec: 2433.66 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:19,952 epoch 51 - iter 72/83 - loss 0.01388119 - time (sec): 10.21 - samples/sec: 2408.64 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:20,868 epoch 51 - iter 80/83 - loss 0.01334245 - time (sec): 11.12 - samples/sec: 2434.27 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:21,221 ----------------------------------------------------------------------------------------------------
2025-05-05 19:28:21,222 EPOCH 51 done: loss 0.0138 - lr: 0.000054
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.63it/s] 40%|██   | 2/5 [00:00<00:00,  8.84it/s] 60%|███  | 3/5 [00:00<00:00,  8.54it/s] 80%|████ | 4/5 [00:00<00:00,  7.17it/s]100%|█████| 5/5 [00:00<00:00,  8.39it/s]
2025-05-05 19:28:21,838 DEV : loss 0.23735247552394867 - f1-score (micro avg)  0.86
2025-05-05 19:28:21,842 ----------------------------------------------------------------------------------------------------
2025-05-05 19:28:22,831 epoch 52 - iter 8/83 - loss 0.00115229 - time (sec): 0.99 - samples/sec: 2570.96 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:24,032 epoch 52 - iter 16/83 - loss 0.01799856 - time (sec): 2.19 - samples/sec: 2470.85 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:25,209 epoch 52 - iter 24/83 - loss 0.01272132 - time (sec): 3.37 - samples/sec: 2487.17 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:26,514 epoch 52 - iter 32/83 - loss 0.01560762 - time (sec): 4.67 - samples/sec: 2418.49 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:27,818 epoch 52 - iter 40/83 - loss 0.01269249 - time (sec): 5.97 - samples/sec: 2364.44 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:28,925 epoch 52 - iter 48/83 - loss 0.01118097 - time (sec): 7.08 - samples/sec: 2403.71 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:29,912 epoch 52 - iter 56/83 - loss 0.00978758 - time (sec): 8.07 - samples/sec: 2436.90 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:31,053 epoch 52 - iter 64/83 - loss 0.01070510 - time (sec): 9.21 - samples/sec: 2440.50 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:32,238 epoch 52 - iter 72/83 - loss 0.00969877 - time (sec): 10.39 - samples/sec: 2388.79 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:33,461 epoch 52 - iter 80/83 - loss 0.00907040 - time (sec): 11.62 - samples/sec: 2332.99 - lr: 0.000054 - momentum: 0.000000
2025-05-05 19:28:33,885 ----------------------------------------------------------------------------------------------------
2025-05-05 19:28:33,886 EPOCH 52 done: loss 0.0088 - lr: 0.000054
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  9.25it/s] 40%|██   | 2/5 [00:00<00:00,  7.24it/s] 60%|███  | 3/5 [00:00<00:00,  8.17it/s] 80%|████ | 4/5 [00:00<00:00,  7.52it/s]100%|█████| 5/5 [00:00<00:00,  7.26it/s]100%|█████| 5/5 [00:00<00:00,  7.50it/s]
2025-05-05 19:28:34,571 DEV : loss 0.2628922760486603 - f1-score (micro avg)  0.84
2025-05-05 19:28:34,575 ----------------------------------------------------------------------------------------------------
2025-05-05 19:28:35,523 epoch 53 - iter 8/83 - loss 0.00060843 - time (sec): 0.95 - samples/sec: 2470.68 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:36,771 epoch 53 - iter 16/83 - loss 0.00712388 - time (sec): 2.19 - samples/sec: 2404.45 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:37,835 epoch 53 - iter 24/83 - loss 0.02115989 - time (sec): 3.26 - samples/sec: 2576.08 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:39,012 epoch 53 - iter 32/83 - loss 0.01584734 - time (sec): 4.44 - samples/sec: 2534.12 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:40,215 epoch 53 - iter 40/83 - loss 0.01239136 - time (sec): 5.64 - samples/sec: 2600.19 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:41,262 epoch 53 - iter 48/83 - loss 0.01256454 - time (sec): 6.69 - samples/sec: 2557.91 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:42,512 epoch 53 - iter 56/83 - loss 0.01096455 - time (sec): 7.94 - samples/sec: 2470.82 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:43,456 epoch 53 - iter 64/83 - loss 0.01060415 - time (sec): 8.88 - samples/sec: 2477.57 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:44,398 epoch 53 - iter 72/83 - loss 0.01080562 - time (sec): 9.82 - samples/sec: 2489.59 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:45,416 epoch 53 - iter 80/83 - loss 0.00964772 - time (sec): 10.84 - samples/sec: 2526.67 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:45,723 ----------------------------------------------------------------------------------------------------
2025-05-05 19:28:45,723 EPOCH 53 done: loss 0.0096 - lr: 0.000053
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.90it/s] 40%|██   | 2/5 [00:00<00:00,  8.84it/s] 60%|███  | 3/5 [00:00<00:00,  8.80it/s] 80%|████ | 4/5 [00:00<00:00,  5.45it/s]100%|█████| 5/5 [00:00<00:00,  7.12it/s]
2025-05-05 19:28:46,444 DEV : loss 0.2446330040693283 - f1-score (micro avg)  0.8533
2025-05-05 19:28:46,448 ----------------------------------------------------------------------------------------------------
2025-05-05 19:28:47,535 epoch 54 - iter 8/83 - loss 0.00024336 - time (sec): 1.09 - samples/sec: 2480.29 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:48,823 epoch 54 - iter 16/83 - loss 0.00390127 - time (sec): 2.37 - samples/sec: 2387.38 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:50,016 epoch 54 - iter 24/83 - loss 0.00803357 - time (sec): 3.57 - samples/sec: 2204.81 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:50,983 epoch 54 - iter 32/83 - loss 0.00836259 - time (sec): 4.53 - samples/sec: 2251.99 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:51,968 epoch 54 - iter 40/83 - loss 0.00735418 - time (sec): 5.52 - samples/sec: 2339.46 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:53,113 epoch 54 - iter 48/83 - loss 0.00680805 - time (sec): 6.66 - samples/sec: 2355.69 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:54,182 epoch 54 - iter 56/83 - loss 0.00730210 - time (sec): 7.73 - samples/sec: 2420.06 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:55,161 epoch 54 - iter 64/83 - loss 0.00641652 - time (sec): 8.71 - samples/sec: 2480.73 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:56,103 epoch 54 - iter 72/83 - loss 0.00861761 - time (sec): 9.65 - samples/sec: 2526.01 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:57,206 epoch 54 - iter 80/83 - loss 0.00904011 - time (sec): 10.76 - samples/sec: 2520.32 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:28:57,504 ----------------------------------------------------------------------------------------------------
2025-05-05 19:28:57,505 EPOCH 54 done: loss 0.0095 - lr: 0.000053
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.21it/s] 40%|██   | 2/5 [00:00<00:00,  6.64it/s] 60%|███  | 3/5 [00:00<00:00,  6.63it/s] 80%|████ | 4/5 [00:00<00:00,  5.78it/s]100%|█████| 5/5 [00:00<00:00,  6.86it/s]
2025-05-05 19:28:58,253 DEV : loss 0.275765985250473 - f1-score (micro avg)  0.8487
2025-05-05 19:28:58,257 ----------------------------------------------------------------------------------------------------
2025-05-05 19:28:59,214 epoch 55 - iter 8/83 - loss 0.00001373 - time (sec): 0.96 - samples/sec: 2827.98 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:29:00,279 epoch 55 - iter 16/83 - loss 0.00561733 - time (sec): 2.02 - samples/sec: 2667.19 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:29:01,214 epoch 55 - iter 24/83 - loss 0.00382821 - time (sec): 2.96 - samples/sec: 2683.45 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:29:02,444 epoch 55 - iter 32/83 - loss 0.00286254 - time (sec): 4.19 - samples/sec: 2537.32 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:29:03,459 epoch 55 - iter 40/83 - loss 0.00272512 - time (sec): 5.20 - samples/sec: 2564.62 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:29:04,589 epoch 55 - iter 48/83 - loss 0.00441893 - time (sec): 6.33 - samples/sec: 2571.47 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:29:05,700 epoch 55 - iter 56/83 - loss 0.01030267 - time (sec): 7.44 - samples/sec: 2553.78 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:29:06,726 epoch 55 - iter 64/83 - loss 0.00954837 - time (sec): 8.47 - samples/sec: 2590.80 - lr: 0.000053 - momentum: 0.000000
2025-05-05 19:29:07,962 epoch 55 - iter 72/83 - loss 0.00875149 - time (sec): 9.70 - samples/sec: 2539.21 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:09,069 epoch 55 - iter 80/83 - loss 0.00860714 - time (sec): 10.81 - samples/sec: 2519.39 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:09,417 ----------------------------------------------------------------------------------------------------
2025-05-05 19:29:09,417 EPOCH 55 done: loss 0.0084 - lr: 0.000052
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  9.20it/s] 60%|███  | 3/5 [00:00<00:00, 10.02it/s] 80%|████ | 4/5 [00:00<00:00,  8.43it/s]100%|█████| 5/5 [00:00<00:00,  9.56it/s]
2025-05-05 19:29:09,960 DEV : loss 0.3495587706565857 - f1-score (micro avg)  0.8421
2025-05-05 19:29:09,964 ----------------------------------------------------------------------------------------------------
2025-05-05 19:29:11,196 epoch 56 - iter 8/83 - loss 0.00000920 - time (sec): 1.23 - samples/sec: 2154.81 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:12,189 epoch 56 - iter 16/83 - loss 0.00239017 - time (sec): 2.22 - samples/sec: 2339.57 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:13,263 epoch 56 - iter 24/83 - loss 0.00276867 - time (sec): 3.30 - samples/sec: 2480.46 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:14,489 epoch 56 - iter 32/83 - loss 0.00284409 - time (sec): 4.52 - samples/sec: 2488.86 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:15,491 epoch 56 - iter 40/83 - loss 0.00530636 - time (sec): 5.53 - samples/sec: 2469.78 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:16,673 epoch 56 - iter 48/83 - loss 0.00825177 - time (sec): 6.71 - samples/sec: 2442.62 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:17,720 epoch 56 - iter 56/83 - loss 0.00718367 - time (sec): 7.75 - samples/sec: 2470.70 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:18,919 epoch 56 - iter 64/83 - loss 0.00674162 - time (sec): 8.95 - samples/sec: 2433.24 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:19,992 epoch 56 - iter 72/83 - loss 0.00752583 - time (sec): 10.03 - samples/sec: 2445.66 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:21,351 epoch 56 - iter 80/83 - loss 0.00728559 - time (sec): 11.39 - samples/sec: 2385.42 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:21,668 ----------------------------------------------------------------------------------------------------
2025-05-05 19:29:21,668 EPOCH 56 done: loss 0.0071 - lr: 0.000052
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.16it/s] 40%|██   | 2/5 [00:00<00:00,  7.35it/s] 60%|███  | 3/5 [00:00<00:00,  8.29it/s] 80%|████ | 4/5 [00:00<00:00,  7.49it/s]100%|█████| 5/5 [00:00<00:00,  8.30it/s]
2025-05-05 19:29:22,290 DEV : loss 0.33595892786979675 - f1-score (micro avg)  0.8449
2025-05-05 19:29:22,293 ----------------------------------------------------------------------------------------------------
2025-05-05 19:29:23,379 epoch 57 - iter 8/83 - loss 0.00967992 - time (sec): 1.08 - samples/sec: 2584.67 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:24,760 epoch 57 - iter 16/83 - loss 0.00649949 - time (sec): 2.47 - samples/sec: 2121.50 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:25,994 epoch 57 - iter 24/83 - loss 0.00666356 - time (sec): 3.70 - samples/sec: 2101.83 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:27,278 epoch 57 - iter 32/83 - loss 0.00600578 - time (sec): 4.98 - samples/sec: 2125.69 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:28,666 epoch 57 - iter 40/83 - loss 0.00797312 - time (sec): 6.37 - samples/sec: 2137.21 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:29,953 epoch 57 - iter 48/83 - loss 0.00730757 - time (sec): 7.66 - samples/sec: 2138.09 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:31,174 epoch 57 - iter 56/83 - loss 0.00756010 - time (sec): 8.88 - samples/sec: 2176.43 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:32,177 epoch 57 - iter 64/83 - loss 0.00929976 - time (sec): 9.88 - samples/sec: 2219.20 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:33,225 epoch 57 - iter 72/83 - loss 0.01285693 - time (sec): 10.93 - samples/sec: 2244.43 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:34,229 epoch 57 - iter 80/83 - loss 0.01165775 - time (sec): 11.93 - samples/sec: 2272.54 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:34,629 ----------------------------------------------------------------------------------------------------
2025-05-05 19:29:34,630 EPOCH 57 done: loss 0.0128 - lr: 0.000052
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.78it/s] 40%|██   | 2/5 [00:00<00:00,  7.95it/s] 60%|███  | 3/5 [00:00<00:00,  8.00it/s] 80%|████ | 4/5 [00:00<00:00,  5.22it/s]100%|█████| 5/5 [00:00<00:00,  6.73it/s]
2025-05-05 19:29:35,392 DEV : loss 0.2823799252510071 - f1-score (micro avg)  0.8581
2025-05-05 19:29:35,395 ----------------------------------------------------------------------------------------------------
2025-05-05 19:29:36,466 epoch 58 - iter 8/83 - loss 0.00185587 - time (sec): 1.07 - samples/sec: 2644.18 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:37,623 epoch 58 - iter 16/83 - loss 0.00090004 - time (sec): 2.23 - samples/sec: 2636.34 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:38,854 epoch 58 - iter 24/83 - loss 0.00460494 - time (sec): 3.46 - samples/sec: 2598.19 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:39,876 epoch 58 - iter 32/83 - loss 0.00365583 - time (sec): 4.48 - samples/sec: 2529.28 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:40,978 epoch 58 - iter 40/83 - loss 0.00296002 - time (sec): 5.58 - samples/sec: 2524.16 - lr: 0.000052 - momentum: 0.000000
2025-05-05 19:29:41,967 epoch 58 - iter 48/83 - loss 0.00272594 - time (sec): 6.57 - samples/sec: 2556.49 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:29:43,088 epoch 58 - iter 56/83 - loss 0.00333422 - time (sec): 7.69 - samples/sec: 2522.46 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:29:44,032 epoch 58 - iter 64/83 - loss 0.00366166 - time (sec): 8.64 - samples/sec: 2566.45 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:29:45,078 epoch 58 - iter 72/83 - loss 0.00410473 - time (sec): 9.68 - samples/sec: 2558.04 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:29:46,546 epoch 58 - iter 80/83 - loss 0.00461709 - time (sec): 11.15 - samples/sec: 2445.35 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:29:46,814 ----------------------------------------------------------------------------------------------------
2025-05-05 19:29:46,814 EPOCH 58 done: loss 0.0047 - lr: 0.000051
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.57it/s] 40%|██   | 2/5 [00:00<00:00,  8.16it/s] 60%|███  | 3/5 [00:00<00:00,  8.13it/s] 80%|████ | 4/5 [00:00<00:00,  6.83it/s]100%|█████| 5/5 [00:00<00:00,  8.04it/s]
2025-05-05 19:29:47,455 DEV : loss 0.2699146270751953 - f1-score (micro avg)  0.8495
2025-05-05 19:29:47,458 ----------------------------------------------------------------------------------------------------
2025-05-05 19:29:48,423 epoch 59 - iter 8/83 - loss 0.00002317 - time (sec): 0.96 - samples/sec: 2669.74 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:29:49,782 epoch 59 - iter 16/83 - loss 0.00001529 - time (sec): 2.32 - samples/sec: 2165.76 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:29:51,053 epoch 59 - iter 24/83 - loss 0.00448779 - time (sec): 3.59 - samples/sec: 2208.97 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:29:52,099 epoch 59 - iter 32/83 - loss 0.00349542 - time (sec): 4.64 - samples/sec: 2291.86 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:29:53,326 epoch 59 - iter 40/83 - loss 0.00274527 - time (sec): 5.87 - samples/sec: 2311.45 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:29:54,644 epoch 59 - iter 48/83 - loss 0.00322215 - time (sec): 7.19 - samples/sec: 2290.32 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:29:55,802 epoch 59 - iter 56/83 - loss 0.00551925 - time (sec): 8.34 - samples/sec: 2252.37 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:29:56,894 epoch 59 - iter 64/83 - loss 0.01649104 - time (sec): 9.43 - samples/sec: 2255.95 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:29:57,911 epoch 59 - iter 72/83 - loss 0.01857490 - time (sec): 10.45 - samples/sec: 2320.04 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:29:59,157 epoch 59 - iter 80/83 - loss 0.01838120 - time (sec): 11.70 - samples/sec: 2311.17 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:29:59,541 ----------------------------------------------------------------------------------------------------
2025-05-05 19:29:59,541 EPOCH 59 done: loss 0.0178 - lr: 0.000051
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.68it/s] 40%|██   | 2/5 [00:00<00:00,  8.51it/s] 60%|███  | 3/5 [00:00<00:00,  8.31it/s] 80%|████ | 4/5 [00:00<00:00,  6.98it/s]100%|█████| 5/5 [00:00<00:00,  8.23it/s]
2025-05-05 19:30:00,168 DEV : loss 0.2671603560447693 - f1-score (micro avg)  0.8766
2025-05-05 19:30:00,172 ----------------------------------------------------------------------------------------------------
2025-05-05 19:30:01,075 epoch 60 - iter 8/83 - loss 0.00753776 - time (sec): 0.90 - samples/sec: 3045.39 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:30:02,259 epoch 60 - iter 16/83 - loss 0.00813568 - time (sec): 2.09 - samples/sec: 2729.08 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:30:03,292 epoch 60 - iter 24/83 - loss 0.00549800 - time (sec): 3.12 - samples/sec: 2737.74 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:30:04,532 epoch 60 - iter 32/83 - loss 0.00428628 - time (sec): 4.36 - samples/sec: 2605.41 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:30:05,817 epoch 60 - iter 40/83 - loss 0.00429215 - time (sec): 5.64 - samples/sec: 2503.75 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:30:06,957 epoch 60 - iter 48/83 - loss 0.00440530 - time (sec): 6.78 - samples/sec: 2458.85 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:30:08,071 epoch 60 - iter 56/83 - loss 0.00381071 - time (sec): 7.90 - samples/sec: 2444.53 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:30:09,352 epoch 60 - iter 64/83 - loss 0.00376607 - time (sec): 9.18 - samples/sec: 2376.79 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:30:10,837 epoch 60 - iter 72/83 - loss 0.00338205 - time (sec): 10.66 - samples/sec: 2301.47 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:30:11,946 epoch 60 - iter 80/83 - loss 0.00363478 - time (sec): 11.77 - samples/sec: 2304.69 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:30:12,443 ----------------------------------------------------------------------------------------------------
2025-05-05 19:30:12,443 EPOCH 60 done: loss 0.0035 - lr: 0.000051
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.49it/s] 60%|███  | 3/5 [00:00<00:00,  9.81it/s] 80%|████ | 4/5 [00:00<00:00,  8.39it/s]100%|█████| 5/5 [00:00<00:00,  6.74it/s]100%|█████| 5/5 [00:00<00:00,  7.47it/s]
2025-05-05 19:30:13,132 DEV : loss 0.30914607644081116 - f1-score (micro avg)  0.8393
2025-05-05 19:30:13,135 ----------------------------------------------------------------------------------------------------
2025-05-05 19:30:14,222 epoch 61 - iter 8/83 - loss 0.00622780 - time (sec): 1.08 - samples/sec: 2605.53 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:30:15,348 epoch 61 - iter 16/83 - loss 0.00335147 - time (sec): 2.21 - samples/sec: 2402.73 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:30:16,534 epoch 61 - iter 24/83 - loss 0.00342435 - time (sec): 3.40 - samples/sec: 2445.55 - lr: 0.000051 - momentum: 0.000000
2025-05-05 19:30:17,696 epoch 61 - iter 32/83 - loss 0.00250680 - time (sec): 4.56 - samples/sec: 2491.05 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:18,695 epoch 61 - iter 40/83 - loss 0.00317702 - time (sec): 5.56 - samples/sec: 2497.61 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:19,754 epoch 61 - iter 48/83 - loss 0.00401377 - time (sec): 6.62 - samples/sec: 2473.30 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:20,759 epoch 61 - iter 56/83 - loss 0.00492482 - time (sec): 7.62 - samples/sec: 2512.89 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:21,764 epoch 61 - iter 64/83 - loss 0.00598699 - time (sec): 8.63 - samples/sec: 2540.42 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:22,829 epoch 61 - iter 72/83 - loss 0.00559151 - time (sec): 9.69 - samples/sec: 2518.35 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:23,894 epoch 61 - iter 80/83 - loss 0.00531203 - time (sec): 10.76 - samples/sec: 2512.79 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:24,246 ----------------------------------------------------------------------------------------------------
2025-05-05 19:30:24,246 EPOCH 61 done: loss 0.0051 - lr: 0.000050
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.31it/s] 40%|██   | 2/5 [00:00<00:00,  5.00it/s] 60%|███  | 3/5 [00:00<00:00,  6.47it/s] 80%|████ | 4/5 [00:00<00:00,  6.52it/s]100%|█████| 5/5 [00:00<00:00,  7.19it/s]
2025-05-05 19:30:24,961 DEV : loss 0.32013559341430664 - f1-score (micro avg)  0.8414
2025-05-05 19:30:24,965 ----------------------------------------------------------------------------------------------------
2025-05-05 19:30:26,069 epoch 62 - iter 8/83 - loss 0.00266626 - time (sec): 1.10 - samples/sec: 2667.99 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:27,003 epoch 62 - iter 16/83 - loss 0.00297699 - time (sec): 2.04 - samples/sec: 2507.74 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:27,980 epoch 62 - iter 24/83 - loss 0.00310098 - time (sec): 3.01 - samples/sec: 2645.30 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:29,114 epoch 62 - iter 32/83 - loss 0.00231661 - time (sec): 4.15 - samples/sec: 2575.24 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:30,150 epoch 62 - iter 40/83 - loss 0.00181888 - time (sec): 5.18 - samples/sec: 2625.91 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:31,447 epoch 62 - iter 48/83 - loss 0.00438067 - time (sec): 6.48 - samples/sec: 2547.82 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:32,575 epoch 62 - iter 56/83 - loss 0.00374938 - time (sec): 7.61 - samples/sec: 2536.05 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:33,603 epoch 62 - iter 64/83 - loss 0.00331815 - time (sec): 8.64 - samples/sec: 2526.81 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:34,722 epoch 62 - iter 72/83 - loss 0.00355838 - time (sec): 9.76 - samples/sec: 2481.83 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:35,926 epoch 62 - iter 80/83 - loss 0.00320139 - time (sec): 10.96 - samples/sec: 2456.85 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:36,329 ----------------------------------------------------------------------------------------------------
2025-05-05 19:30:36,329 EPOCH 62 done: loss 0.0034 - lr: 0.000050
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.78it/s] 40%|██   | 2/5 [00:00<00:00,  8.49it/s] 60%|███  | 3/5 [00:00<00:00,  8.35it/s] 80%|████ | 4/5 [00:00<00:00,  6.88it/s]100%|█████| 5/5 [00:00<00:00,  8.16it/s]
2025-05-05 19:30:36,961 DEV : loss 0.3858875632286072 - f1-score (micro avg)  0.8039
2025-05-05 19:30:36,965 ----------------------------------------------------------------------------------------------------
2025-05-05 19:30:37,831 epoch 63 - iter 8/83 - loss 0.00370790 - time (sec): 0.87 - samples/sec: 2784.95 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:39,043 epoch 63 - iter 16/83 - loss 0.00583461 - time (sec): 2.08 - samples/sec: 2592.72 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:40,303 epoch 63 - iter 24/83 - loss 0.00696254 - time (sec): 3.34 - samples/sec: 2537.12 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:41,284 epoch 63 - iter 32/83 - loss 0.00778297 - time (sec): 4.32 - samples/sec: 2619.04 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:42,231 epoch 63 - iter 40/83 - loss 0.00745756 - time (sec): 5.26 - samples/sec: 2737.40 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:43,182 epoch 63 - iter 48/83 - loss 0.00776667 - time (sec): 6.22 - samples/sec: 2733.11 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:44,336 epoch 63 - iter 56/83 - loss 0.00722821 - time (sec): 7.37 - samples/sec: 2653.46 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:45,387 epoch 63 - iter 64/83 - loss 0.00648572 - time (sec): 8.42 - samples/sec: 2588.64 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:46,397 epoch 63 - iter 72/83 - loss 0.00592432 - time (sec): 9.43 - samples/sec: 2560.06 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:47,545 epoch 63 - iter 80/83 - loss 0.00599719 - time (sec): 10.58 - samples/sec: 2559.16 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:47,898 ----------------------------------------------------------------------------------------------------
2025-05-05 19:30:47,898 EPOCH 63 done: loss 0.0058 - lr: 0.000050
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.17it/s] 40%|██   | 2/5 [00:00<00:00,  7.50it/s] 60%|███  | 3/5 [00:00<00:00,  8.43it/s] 80%|████ | 4/5 [00:00<00:00,  6.78it/s]100%|█████| 5/5 [00:00<00:00,  7.87it/s]
2025-05-05 19:30:48,553 DEV : loss 0.45181331038475037 - f1-score (micro avg)  0.7948
2025-05-05 19:30:48,556 ----------------------------------------------------------------------------------------------------
2025-05-05 19:30:49,863 epoch 64 - iter 8/83 - loss 0.00695925 - time (sec): 1.31 - samples/sec: 2221.19 - lr: 0.000050 - momentum: 0.000000
2025-05-05 19:30:50,917 epoch 64 - iter 16/83 - loss 0.00639886 - time (sec): 2.36 - samples/sec: 2246.25 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:30:51,909 epoch 64 - iter 24/83 - loss 0.00440711 - time (sec): 3.35 - samples/sec: 2415.07 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:30:52,895 epoch 64 - iter 32/83 - loss 0.00422607 - time (sec): 4.34 - samples/sec: 2460.92 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:30:53,917 epoch 64 - iter 40/83 - loss 0.00582986 - time (sec): 5.36 - samples/sec: 2466.05 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:30:54,847 epoch 64 - iter 48/83 - loss 0.00549311 - time (sec): 6.29 - samples/sec: 2532.53 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:30:56,062 epoch 64 - iter 56/83 - loss 0.00517852 - time (sec): 7.50 - samples/sec: 2495.01 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:30:57,261 epoch 64 - iter 64/83 - loss 0.00452205 - time (sec): 8.70 - samples/sec: 2464.20 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:30:58,490 epoch 64 - iter 72/83 - loss 0.00571887 - time (sec): 9.93 - samples/sec: 2431.30 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:30:59,621 epoch 64 - iter 80/83 - loss 0.00657000 - time (sec): 11.06 - samples/sec: 2463.62 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:30:59,998 ----------------------------------------------------------------------------------------------------
2025-05-05 19:30:59,998 EPOCH 64 done: loss 0.0064 - lr: 0.000049
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.80it/s] 40%|██   | 2/5 [00:00<00:00,  8.70it/s] 60%|███  | 3/5 [00:00<00:00,  8.65it/s] 80%|████ | 4/5 [00:00<00:00,  7.17it/s]100%|█████| 5/5 [00:00<00:00,  8.43it/s]
2025-05-05 19:31:00,610 DEV : loss 0.34047818183898926 - f1-score (micro avg)  0.8255
2025-05-05 19:31:00,614 ----------------------------------------------------------------------------------------------------
2025-05-05 19:31:01,571 epoch 65 - iter 8/83 - loss 0.00022188 - time (sec): 0.96 - samples/sec: 2951.35 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:03,097 epoch 65 - iter 16/83 - loss 0.00289071 - time (sec): 2.48 - samples/sec: 2297.34 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:04,339 epoch 65 - iter 24/83 - loss 0.00197755 - time (sec): 3.72 - samples/sec: 2317.21 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:05,687 epoch 65 - iter 32/83 - loss 0.00167496 - time (sec): 5.07 - samples/sec: 2203.73 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:06,858 epoch 65 - iter 40/83 - loss 0.00477821 - time (sec): 6.24 - samples/sec: 2195.97 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:08,127 epoch 65 - iter 48/83 - loss 0.00632097 - time (sec): 7.51 - samples/sec: 2142.40 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:09,301 epoch 65 - iter 56/83 - loss 0.00546624 - time (sec): 8.69 - samples/sec: 2142.75 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:10,689 epoch 65 - iter 64/83 - loss 0.00486646 - time (sec): 10.07 - samples/sec: 2075.51 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:11,735 epoch 65 - iter 72/83 - loss 0.00428989 - time (sec): 11.12 - samples/sec: 2133.34 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:13,138 epoch 65 - iter 80/83 - loss 0.00429773 - time (sec): 12.52 - samples/sec: 2158.85 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:13,561 ----------------------------------------------------------------------------------------------------
2025-05-05 19:31:13,561 EPOCH 65 done: loss 0.0042 - lr: 0.000049
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.32it/s] 40%|██   | 2/5 [00:00<00:00,  8.93it/s] 60%|███  | 3/5 [00:00<00:00,  8.91it/s] 80%|████ | 4/5 [00:00<00:00,  7.40it/s]100%|█████| 5/5 [00:00<00:00,  8.65it/s]
2025-05-05 19:31:14,158 DEV : loss 0.40178558230400085 - f1-score (micro avg)  0.8339
2025-05-05 19:31:14,162 ----------------------------------------------------------------------------------------------------
2025-05-05 19:31:15,183 epoch 66 - iter 8/83 - loss 0.01075100 - time (sec): 1.02 - samples/sec: 2689.05 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:16,342 epoch 66 - iter 16/83 - loss 0.01336429 - time (sec): 2.18 - samples/sec: 2548.86 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:17,674 epoch 66 - iter 24/83 - loss 0.01528184 - time (sec): 3.51 - samples/sec: 2370.03 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:19,185 epoch 66 - iter 32/83 - loss 0.01187298 - time (sec): 5.02 - samples/sec: 2132.96 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:20,354 epoch 66 - iter 40/83 - loss 0.00975413 - time (sec): 6.19 - samples/sec: 2215.48 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:21,762 epoch 66 - iter 48/83 - loss 0.00879981 - time (sec): 7.60 - samples/sec: 2168.35 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:22,886 epoch 66 - iter 56/83 - loss 0.00800346 - time (sec): 8.72 - samples/sec: 2163.02 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:23,875 epoch 66 - iter 64/83 - loss 0.00775439 - time (sec): 9.71 - samples/sec: 2235.41 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:24,932 epoch 66 - iter 72/83 - loss 0.00899747 - time (sec): 10.77 - samples/sec: 2266.95 - lr: 0.000049 - momentum: 0.000000
2025-05-05 19:31:25,982 epoch 66 - iter 80/83 - loss 0.00827212 - time (sec): 11.82 - samples/sec: 2288.91 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:26,361 ----------------------------------------------------------------------------------------------------
2025-05-05 19:31:26,361 EPOCH 66 done: loss 0.0082 - lr: 0.000048
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.39it/s] 40%|██   | 2/5 [00:00<00:00,  9.16it/s] 60%|███  | 3/5 [00:00<00:00,  9.10it/s] 80%|████ | 4/5 [00:00<00:00,  7.38it/s]100%|█████| 5/5 [00:00<00:00,  8.68it/s]
2025-05-05 19:31:26,957 DEV : loss 0.34285643696784973 - f1-score (micro avg)  0.8449
2025-05-05 19:31:26,960 ----------------------------------------------------------------------------------------------------
2025-05-05 19:31:28,064 epoch 67 - iter 8/83 - loss 0.02894151 - time (sec): 1.10 - samples/sec: 2813.30 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:29,287 epoch 67 - iter 16/83 - loss 0.01520119 - time (sec): 2.33 - samples/sec: 2539.21 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:30,292 epoch 67 - iter 24/83 - loss 0.01051064 - time (sec): 3.33 - samples/sec: 2575.42 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:31,231 epoch 67 - iter 32/83 - loss 0.00847524 - time (sec): 4.27 - samples/sec: 2594.16 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:32,110 epoch 67 - iter 40/83 - loss 0.00712553 - time (sec): 5.15 - samples/sec: 2606.01 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:33,284 epoch 67 - iter 48/83 - loss 0.00714344 - time (sec): 6.32 - samples/sec: 2623.84 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:34,344 epoch 67 - iter 56/83 - loss 0.00627109 - time (sec): 7.38 - samples/sec: 2633.44 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:35,459 epoch 67 - iter 64/83 - loss 0.00551446 - time (sec): 8.50 - samples/sec: 2602.39 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:36,391 epoch 67 - iter 72/83 - loss 0.00493094 - time (sec): 9.43 - samples/sec: 2626.73 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:37,512 epoch 67 - iter 80/83 - loss 0.00553133 - time (sec): 10.55 - samples/sec: 2583.68 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:37,866 ----------------------------------------------------------------------------------------------------
2025-05-05 19:31:37,866 EPOCH 67 done: loss 0.0054 - lr: 0.000048
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.48it/s] 40%|██   | 2/5 [00:00<00:00,  8.32it/s] 60%|███  | 3/5 [00:00<00:00,  8.16it/s] 80%|████ | 4/5 [00:00<00:00,  6.87it/s]100%|█████| 5/5 [00:00<00:00,  8.09it/s]
2025-05-05 19:31:38,503 DEV : loss 0.29638251662254333 - f1-score (micro avg)  0.8707
2025-05-05 19:31:38,506 ----------------------------------------------------------------------------------------------------
2025-05-05 19:31:39,464 epoch 68 - iter 8/83 - loss 0.00055967 - time (sec): 0.96 - samples/sec: 2932.98 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:40,508 epoch 68 - iter 16/83 - loss 0.00031020 - time (sec): 2.00 - samples/sec: 2617.64 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:41,907 epoch 68 - iter 24/83 - loss 0.00171312 - time (sec): 3.40 - samples/sec: 2435.10 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:42,980 epoch 68 - iter 32/83 - loss 0.00134002 - time (sec): 4.47 - samples/sec: 2381.63 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:44,338 epoch 68 - iter 40/83 - loss 0.00424244 - time (sec): 5.83 - samples/sec: 2295.46 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:45,496 epoch 68 - iter 48/83 - loss 0.00711576 - time (sec): 6.99 - samples/sec: 2342.57 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:47,013 epoch 68 - iter 56/83 - loss 0.00742221 - time (sec): 8.51 - samples/sec: 2264.31 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:48,188 epoch 68 - iter 64/83 - loss 0.00698744 - time (sec): 9.68 - samples/sec: 2306.87 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:49,450 epoch 68 - iter 72/83 - loss 0.00667589 - time (sec): 10.94 - samples/sec: 2282.10 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:50,570 epoch 68 - iter 80/83 - loss 0.00613910 - time (sec): 12.06 - samples/sec: 2264.57 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:50,887 ----------------------------------------------------------------------------------------------------
2025-05-05 19:31:50,887 EPOCH 68 done: loss 0.0071 - lr: 0.000048
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.05it/s] 40%|██   | 2/5 [00:00<00:00,  4.97it/s] 60%|███  | 3/5 [00:00<00:00,  6.44it/s] 80%|████ | 4/5 [00:00<00:00,  6.56it/s]100%|█████| 5/5 [00:00<00:00,  7.20it/s]
2025-05-05 19:31:51,601 DEV : loss 0.2882446050643921 - f1-score (micro avg)  0.8837
2025-05-05 19:31:51,604 ----------------------------------------------------------------------------------------------------
2025-05-05 19:31:52,690 epoch 69 - iter 8/83 - loss 0.04352930 - time (sec): 1.09 - samples/sec: 2360.33 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:53,808 epoch 69 - iter 16/83 - loss 0.02093381 - time (sec): 2.20 - samples/sec: 2417.81 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:54,784 epoch 69 - iter 24/83 - loss 0.01488088 - time (sec): 3.18 - samples/sec: 2490.40 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:55,759 epoch 69 - iter 32/83 - loss 0.01301487 - time (sec): 4.15 - samples/sec: 2571.16 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:57,013 epoch 69 - iter 40/83 - loss 0.01121431 - time (sec): 5.41 - samples/sec: 2539.91 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:58,204 epoch 69 - iter 48/83 - loss 0.00930720 - time (sec): 6.60 - samples/sec: 2508.59 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:31:59,536 epoch 69 - iter 56/83 - loss 0.00922181 - time (sec): 7.93 - samples/sec: 2488.31 - lr: 0.000048 - momentum: 0.000000
2025-05-05 19:32:00,559 epoch 69 - iter 64/83 - loss 0.00837691 - time (sec): 8.95 - samples/sec: 2493.93 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:01,727 epoch 69 - iter 72/83 - loss 0.00793304 - time (sec): 10.12 - samples/sec: 2453.97 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:02,784 epoch 69 - iter 80/83 - loss 0.00726503 - time (sec): 11.18 - samples/sec: 2426.43 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:03,119 ----------------------------------------------------------------------------------------------------
2025-05-05 19:32:03,119 EPOCH 69 done: loss 0.0074 - lr: 0.000047
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.71it/s] 40%|██   | 2/5 [00:00<00:00,  8.68it/s] 60%|███  | 3/5 [00:00<00:00,  8.80it/s] 80%|████ | 4/5 [00:00<00:00,  7.42it/s]100%|█████| 5/5 [00:00<00:00,  8.60it/s]
2025-05-05 19:32:03,719 DEV : loss 0.25802046060562134 - f1-score (micro avg)  0.8684
2025-05-05 19:32:03,723 ----------------------------------------------------------------------------------------------------
2025-05-05 19:32:04,778 epoch 70 - iter 8/83 - loss 0.00197381 - time (sec): 1.05 - samples/sec: 2503.89 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:06,040 epoch 70 - iter 16/83 - loss 0.00141771 - time (sec): 2.32 - samples/sec: 2225.63 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:07,174 epoch 70 - iter 24/83 - loss 0.00094025 - time (sec): 3.45 - samples/sec: 2256.42 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:08,292 epoch 70 - iter 32/83 - loss 0.00070675 - time (sec): 4.57 - samples/sec: 2275.43 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:09,551 epoch 70 - iter 40/83 - loss 0.00055632 - time (sec): 5.83 - samples/sec: 2295.08 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:10,683 epoch 70 - iter 48/83 - loss 0.00209660 - time (sec): 6.96 - samples/sec: 2255.48 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:11,792 epoch 70 - iter 56/83 - loss 0.00441563 - time (sec): 8.07 - samples/sec: 2241.68 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:13,184 epoch 70 - iter 64/83 - loss 0.00453862 - time (sec): 9.46 - samples/sec: 2246.54 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:14,273 epoch 70 - iter 72/83 - loss 0.00398457 - time (sec): 10.55 - samples/sec: 2295.47 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:15,274 epoch 70 - iter 80/83 - loss 0.00356787 - time (sec): 11.55 - samples/sec: 2342.53 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:15,624 ----------------------------------------------------------------------------------------------------
2025-05-05 19:32:15,624 EPOCH 70 done: loss 0.0035 - lr: 0.000047
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.12it/s] 40%|██   | 2/5 [00:00<00:00,  5.17it/s] 60%|███  | 3/5 [00:00<00:00,  4.37it/s] 80%|████ | 4/5 [00:00<00:00,  5.07it/s]100%|█████| 5/5 [00:00<00:00,  5.86it/s]
2025-05-05 19:32:16,496 DEV : loss 0.28742706775665283 - f1-score (micro avg)  0.8733
2025-05-05 19:32:16,500 ----------------------------------------------------------------------------------------------------
2025-05-05 19:32:17,799 epoch 71 - iter 8/83 - loss 0.00002198 - time (sec): 1.30 - samples/sec: 2267.70 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:18,904 epoch 71 - iter 16/83 - loss 0.00001561 - time (sec): 2.40 - samples/sec: 2408.63 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:19,860 epoch 71 - iter 24/83 - loss 0.00001306 - time (sec): 3.36 - samples/sec: 2642.11 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:20,730 epoch 71 - iter 32/83 - loss 0.00001169 - time (sec): 4.23 - samples/sec: 2639.36 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:21,987 epoch 71 - iter 40/83 - loss 0.00177954 - time (sec): 5.49 - samples/sec: 2525.13 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:23,242 epoch 71 - iter 48/83 - loss 0.00150046 - time (sec): 6.74 - samples/sec: 2442.92 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:24,290 epoch 71 - iter 56/83 - loss 0.00233311 - time (sec): 7.79 - samples/sec: 2454.13 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:25,353 epoch 71 - iter 64/83 - loss 0.00203488 - time (sec): 8.85 - samples/sec: 2476.58 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:26,325 epoch 71 - iter 72/83 - loss 0.00196746 - time (sec): 9.82 - samples/sec: 2475.84 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:27,749 epoch 71 - iter 80/83 - loss 0.00344318 - time (sec): 11.25 - samples/sec: 2415.63 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:28,105 ----------------------------------------------------------------------------------------------------
2025-05-05 19:32:28,106 EPOCH 71 done: loss 0.0033 - lr: 0.000047
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:01,  4.00it/s] 40%|██   | 2/5 [00:00<00:00,  5.07it/s] 60%|███  | 3/5 [00:00<00:00,  6.54it/s] 80%|████ | 4/5 [00:00<00:00,  6.60it/s]100%|█████| 5/5 [00:00<00:00,  6.87it/s]
2025-05-05 19:32:28,873 DEV : loss 0.29688510298728943 - f1-score (micro avg)  0.8638
2025-05-05 19:32:28,877 ----------------------------------------------------------------------------------------------------
2025-05-05 19:32:29,771 epoch 72 - iter 8/83 - loss 0.01113644 - time (sec): 0.89 - samples/sec: 2664.57 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:30,802 epoch 72 - iter 16/83 - loss 0.02250282 - time (sec): 1.92 - samples/sec: 2849.70 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:31,786 epoch 72 - iter 24/83 - loss 0.01545117 - time (sec): 2.91 - samples/sec: 2758.82 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:32,819 epoch 72 - iter 32/83 - loss 0.01461499 - time (sec): 3.94 - samples/sec: 2706.62 - lr: 0.000047 - momentum: 0.000000
2025-05-05 19:32:33,808 epoch 72 - iter 40/83 - loss 0.01237523 - time (sec): 4.93 - samples/sec: 2769.47 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:35,062 epoch 72 - iter 48/83 - loss 0.01043644 - time (sec): 6.18 - samples/sec: 2674.06 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:36,193 epoch 72 - iter 56/83 - loss 0.01059074 - time (sec): 7.31 - samples/sec: 2619.23 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:37,250 epoch 72 - iter 64/83 - loss 0.01277022 - time (sec): 8.37 - samples/sec: 2616.38 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:38,402 epoch 72 - iter 72/83 - loss 0.01289824 - time (sec): 9.52 - samples/sec: 2598.15 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:39,680 epoch 72 - iter 80/83 - loss 0.01210533 - time (sec): 10.80 - samples/sec: 2525.65 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:40,055 ----------------------------------------------------------------------------------------------------
2025-05-05 19:32:40,055 EPOCH 72 done: loss 0.0118 - lr: 0.000046
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.25it/s] 40%|██   | 2/5 [00:00<00:00,  8.08it/s] 60%|███  | 3/5 [00:00<00:00,  8.58it/s] 80%|████ | 4/5 [00:00<00:00,  7.15it/s]100%|█████| 5/5 [00:00<00:00,  6.32it/s]100%|█████| 5/5 [00:00<00:00,  6.93it/s]
2025-05-05 19:32:40,796 DEV : loss 0.3343521058559418 - f1-score (micro avg)  0.8355
2025-05-05 19:32:40,799 ----------------------------------------------------------------------------------------------------
2025-05-05 19:32:41,846 epoch 73 - iter 8/83 - loss 0.00918227 - time (sec): 1.05 - samples/sec: 2654.81 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:43,198 epoch 73 - iter 16/83 - loss 0.00647074 - time (sec): 2.40 - samples/sec: 2418.53 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:44,545 epoch 73 - iter 24/83 - loss 0.00535864 - time (sec): 3.75 - samples/sec: 2175.64 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:45,800 epoch 73 - iter 32/83 - loss 0.00739210 - time (sec): 5.00 - samples/sec: 2163.45 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:46,787 epoch 73 - iter 40/83 - loss 0.00604548 - time (sec): 5.99 - samples/sec: 2224.05 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:47,870 epoch 73 - iter 48/83 - loss 0.00783407 - time (sec): 7.07 - samples/sec: 2300.02 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:48,848 epoch 73 - iter 56/83 - loss 0.00850715 - time (sec): 8.05 - samples/sec: 2361.53 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:49,790 epoch 73 - iter 64/83 - loss 0.00752099 - time (sec): 8.99 - samples/sec: 2402.69 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:50,834 epoch 73 - iter 72/83 - loss 0.00668101 - time (sec): 10.03 - samples/sec: 2423.57 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:52,045 epoch 73 - iter 80/83 - loss 0.00784196 - time (sec): 11.25 - samples/sec: 2419.74 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:52,397 ----------------------------------------------------------------------------------------------------
2025-05-05 19:32:52,397 EPOCH 73 done: loss 0.0076 - lr: 0.000046
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.08it/s] 40%|██   | 2/5 [00:00<00:00,  6.99it/s] 60%|███  | 3/5 [00:00<00:00,  6.99it/s] 80%|████ | 4/5 [00:00<00:00,  6.86it/s]100%|█████| 5/5 [00:00<00:00,  7.66it/s]
2025-05-05 19:32:53,069 DEV : loss 0.31810110807418823 - f1-score (micro avg)  0.8591
2025-05-05 19:32:53,073 ----------------------------------------------------------------------------------------------------
2025-05-05 19:32:54,128 epoch 74 - iter 8/83 - loss 0.00015023 - time (sec): 1.05 - samples/sec: 2696.45 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:55,127 epoch 74 - iter 16/83 - loss 0.00575158 - time (sec): 2.05 - samples/sec: 2606.75 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:56,110 epoch 74 - iter 24/83 - loss 0.00730491 - time (sec): 3.04 - samples/sec: 2632.90 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:57,345 epoch 74 - iter 32/83 - loss 0.00647531 - time (sec): 4.27 - samples/sec: 2607.43 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:58,461 epoch 74 - iter 40/83 - loss 0.00658586 - time (sec): 5.39 - samples/sec: 2491.57 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:32:59,508 epoch 74 - iter 48/83 - loss 0.00684801 - time (sec): 6.43 - samples/sec: 2495.75 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:33:00,637 epoch 74 - iter 56/83 - loss 0.00719866 - time (sec): 7.56 - samples/sec: 2430.45 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:33:01,978 epoch 74 - iter 64/83 - loss 0.00732523 - time (sec): 8.90 - samples/sec: 2396.10 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:33:02,999 epoch 74 - iter 72/83 - loss 0.00972572 - time (sec): 9.93 - samples/sec: 2418.50 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:33:04,107 epoch 74 - iter 80/83 - loss 0.00922948 - time (sec): 11.03 - samples/sec: 2451.06 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:33:04,423 ----------------------------------------------------------------------------------------------------
2025-05-05 19:33:04,423 EPOCH 74 done: loss 0.0089 - lr: 0.000046
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.84it/s] 40%|██   | 2/5 [00:00<00:00,  8.28it/s] 60%|███  | 3/5 [00:00<00:00,  7.93it/s] 80%|████ | 4/5 [00:00<00:00,  6.60it/s]100%|█████| 5/5 [00:00<00:00,  7.89it/s]
2025-05-05 19:33:05,076 DEV : loss 0.32966387271881104 - f1-score (micro avg)  0.8418
2025-05-05 19:33:05,079 ----------------------------------------------------------------------------------------------------
2025-05-05 19:33:06,020 epoch 75 - iter 8/83 - loss 0.00929058 - time (sec): 0.94 - samples/sec: 3099.18 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:33:07,162 epoch 75 - iter 16/83 - loss 0.01374355 - time (sec): 2.08 - samples/sec: 3015.75 - lr: 0.000046 - momentum: 0.000000
2025-05-05 19:33:08,227 epoch 75 - iter 24/83 - loss 0.00966177 - time (sec): 3.15 - samples/sec: 2849.76 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:09,212 epoch 75 - iter 32/83 - loss 0.00914385 - time (sec): 4.13 - samples/sec: 2776.78 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:10,408 epoch 75 - iter 40/83 - loss 0.00744621 - time (sec): 5.33 - samples/sec: 2650.86 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:11,502 epoch 75 - iter 48/83 - loss 0.00757996 - time (sec): 6.42 - samples/sec: 2587.30 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:12,588 epoch 75 - iter 56/83 - loss 0.00704139 - time (sec): 7.51 - samples/sec: 2582.58 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:13,706 epoch 75 - iter 64/83 - loss 0.00631223 - time (sec): 8.63 - samples/sec: 2534.70 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:14,681 epoch 75 - iter 72/83 - loss 0.00565923 - time (sec): 9.60 - samples/sec: 2540.85 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:15,696 epoch 75 - iter 80/83 - loss 0.00552621 - time (sec): 10.62 - samples/sec: 2536.93 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:16,093 ----------------------------------------------------------------------------------------------------
2025-05-05 19:33:16,093 EPOCH 75 done: loss 0.0053 - lr: 0.000045
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.75it/s] 40%|██   | 2/5 [00:00<00:00,  7.55it/s] 60%|███  | 3/5 [00:00<00:00,  7.34it/s] 80%|████ | 4/5 [00:00<00:00,  6.18it/s]100%|█████| 5/5 [00:00<00:00,  7.42it/s]
2025-05-05 19:33:16,786 DEV : loss 0.2576940357685089 - f1-score (micro avg)  0.8439
2025-05-05 19:33:16,790 ----------------------------------------------------------------------------------------------------
2025-05-05 19:33:17,896 epoch 76 - iter 8/83 - loss 0.00038745 - time (sec): 1.10 - samples/sec: 2398.81 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:18,910 epoch 76 - iter 16/83 - loss 0.00997412 - time (sec): 2.12 - samples/sec: 2575.39 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:19,980 epoch 76 - iter 24/83 - loss 0.00688354 - time (sec): 3.19 - samples/sec: 2592.13 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:21,465 epoch 76 - iter 32/83 - loss 0.00522947 - time (sec): 4.67 - samples/sec: 2399.46 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:22,681 epoch 76 - iter 40/83 - loss 0.00422262 - time (sec): 5.89 - samples/sec: 2359.14 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:23,797 epoch 76 - iter 48/83 - loss 0.00667068 - time (sec): 7.01 - samples/sec: 2309.33 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:25,050 epoch 76 - iter 56/83 - loss 0.00572076 - time (sec): 8.26 - samples/sec: 2284.71 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:26,391 epoch 76 - iter 64/83 - loss 0.00496861 - time (sec): 9.60 - samples/sec: 2264.05 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:27,489 epoch 76 - iter 72/83 - loss 0.00541554 - time (sec): 10.70 - samples/sec: 2260.71 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:28,716 epoch 76 - iter 80/83 - loss 0.00579023 - time (sec): 11.93 - samples/sec: 2272.83 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:29,042 ----------------------------------------------------------------------------------------------------
2025-05-05 19:33:29,043 EPOCH 76 done: loss 0.0057 - lr: 0.000045
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.38it/s] 40%|██   | 2/5 [00:00<00:00,  9.04it/s] 60%|███  | 3/5 [00:00<00:00,  9.03it/s] 80%|████ | 4/5 [00:00<00:00,  7.49it/s]100%|█████| 5/5 [00:00<00:00,  8.74it/s]
2025-05-05 19:33:29,634 DEV : loss 0.3632281422615051 - f1-score (micro avg)  0.8361
2025-05-05 19:33:29,637 ----------------------------------------------------------------------------------------------------
2025-05-05 19:33:30,745 epoch 77 - iter 8/83 - loss 0.00053146 - time (sec): 1.11 - samples/sec: 3036.77 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:32,182 epoch 77 - iter 16/83 - loss 0.00034824 - time (sec): 2.54 - samples/sec: 2287.30 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:33,216 epoch 77 - iter 24/83 - loss 0.00024870 - time (sec): 3.58 - samples/sec: 2328.53 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:34,249 epoch 77 - iter 32/83 - loss 0.00019374 - time (sec): 4.61 - samples/sec: 2330.13 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:35,225 epoch 77 - iter 40/83 - loss 0.00070997 - time (sec): 5.59 - samples/sec: 2377.62 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:36,558 epoch 77 - iter 48/83 - loss 0.00234442 - time (sec): 6.92 - samples/sec: 2358.17 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:37,723 epoch 77 - iter 56/83 - loss 0.00306776 - time (sec): 8.08 - samples/sec: 2370.89 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:38,686 epoch 77 - iter 64/83 - loss 0.00271486 - time (sec): 9.05 - samples/sec: 2394.26 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:39,898 epoch 77 - iter 72/83 - loss 0.00243606 - time (sec): 10.26 - samples/sec: 2375.58 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:41,140 epoch 77 - iter 80/83 - loss 0.00238777 - time (sec): 11.50 - samples/sec: 2369.05 - lr: 0.000045 - momentum: 0.000000
2025-05-05 19:33:41,540 ----------------------------------------------------------------------------------------------------
2025-05-05 19:33:41,540 EPOCH 77 done: loss 0.0023 - lr: 0.000045
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.46it/s] 60%|███  | 3/5 [00:00<00:00,  9.28it/s] 80%|████ | 4/5 [00:00<00:00,  8.01it/s]100%|█████| 5/5 [00:00<00:00,  6.57it/s]100%|█████| 5/5 [00:00<00:00,  7.18it/s]
2025-05-05 19:33:42,256 DEV : loss 0.35783377289772034 - f1-score (micro avg)  0.8495
2025-05-05 19:33:42,260 ----------------------------------------------------------------------------------------------------
2025-05-05 19:33:43,259 epoch 78 - iter 8/83 - loss 0.00000646 - time (sec): 1.00 - samples/sec: 2656.75 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:33:44,662 epoch 78 - iter 16/83 - loss 0.00270175 - time (sec): 2.40 - samples/sec: 2216.67 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:33:45,935 epoch 78 - iter 24/83 - loss 0.00330588 - time (sec): 3.67 - samples/sec: 2099.58 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:33:47,165 epoch 78 - iter 32/83 - loss 0.00413556 - time (sec): 4.90 - samples/sec: 2124.61 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:33:48,485 epoch 78 - iter 40/83 - loss 0.00574916 - time (sec): 6.22 - samples/sec: 2234.30 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:33:49,630 epoch 78 - iter 48/83 - loss 0.00473720 - time (sec): 7.37 - samples/sec: 2301.30 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:33:50,628 epoch 78 - iter 56/83 - loss 0.00544210 - time (sec): 8.37 - samples/sec: 2330.67 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:33:51,763 epoch 78 - iter 64/83 - loss 0.00486013 - time (sec): 9.50 - samples/sec: 2301.67 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:33:53,056 epoch 78 - iter 72/83 - loss 0.00458809 - time (sec): 10.80 - samples/sec: 2279.07 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:33:54,190 epoch 78 - iter 80/83 - loss 0.00461266 - time (sec): 11.93 - samples/sec: 2271.62 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:33:54,602 ----------------------------------------------------------------------------------------------------
2025-05-05 19:33:54,603 EPOCH 78 done: loss 0.0045 - lr: 0.000044
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.90it/s] 40%|██   | 2/5 [00:00<00:00,  7.73it/s] 60%|███  | 3/5 [00:00<00:00,  7.64it/s] 80%|████ | 4/5 [00:00<00:00,  6.47it/s]100%|█████| 5/5 [00:00<00:00,  7.65it/s]
2025-05-05 19:33:55,276 DEV : loss 0.37952443957328796 - f1-score (micro avg)  0.8418
2025-05-05 19:33:55,279 ----------------------------------------------------------------------------------------------------
2025-05-05 19:33:56,406 epoch 79 - iter 8/83 - loss 0.00719738 - time (sec): 1.13 - samples/sec: 2631.99 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:33:57,423 epoch 79 - iter 16/83 - loss 0.00718630 - time (sec): 2.14 - samples/sec: 2503.92 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:33:58,429 epoch 79 - iter 24/83 - loss 0.00615358 - time (sec): 3.15 - samples/sec: 2594.33 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:33:59,712 epoch 79 - iter 32/83 - loss 0.00650268 - time (sec): 4.43 - samples/sec: 2456.65 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:34:00,842 epoch 79 - iter 40/83 - loss 0.00973204 - time (sec): 5.56 - samples/sec: 2417.98 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:34:02,017 epoch 79 - iter 48/83 - loss 0.01372594 - time (sec): 6.74 - samples/sec: 2454.65 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:34:03,093 epoch 79 - iter 56/83 - loss 0.01202939 - time (sec): 7.81 - samples/sec: 2487.09 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:34:04,118 epoch 79 - iter 64/83 - loss 0.01078404 - time (sec): 8.84 - samples/sec: 2515.55 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:34:05,181 epoch 79 - iter 72/83 - loss 0.00966551 - time (sec): 9.90 - samples/sec: 2505.45 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:34:06,276 epoch 79 - iter 80/83 - loss 0.00876385 - time (sec): 11.00 - samples/sec: 2488.28 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:34:06,567 ----------------------------------------------------------------------------------------------------
2025-05-05 19:34:06,567 EPOCH 79 done: loss 0.0086 - lr: 0.000044
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.02it/s] 40%|██   | 2/5 [00:00<00:00,  8.79it/s] 60%|███  | 3/5 [00:00<00:00,  8.72it/s] 80%|████ | 4/5 [00:00<00:00,  7.49it/s]100%|█████| 5/5 [00:00<00:00,  8.65it/s]
2025-05-05 19:34:07,165 DEV : loss 0.352437287569046 - f1-score (micro avg)  0.8411
2025-05-05 19:34:07,168 ----------------------------------------------------------------------------------------------------
2025-05-05 19:34:08,247 epoch 80 - iter 8/83 - loss 0.00000426 - time (sec): 1.08 - samples/sec: 2460.07 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:34:09,282 epoch 80 - iter 16/83 - loss 0.00000518 - time (sec): 2.11 - samples/sec: 2576.90 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:34:10,486 epoch 80 - iter 24/83 - loss 0.00308469 - time (sec): 3.32 - samples/sec: 2445.59 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:34:11,595 epoch 80 - iter 32/83 - loss 0.00664085 - time (sec): 4.43 - samples/sec: 2505.82 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:34:12,536 epoch 80 - iter 40/83 - loss 0.00769620 - time (sec): 5.37 - samples/sec: 2553.28 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:34:13,472 epoch 80 - iter 48/83 - loss 0.00664948 - time (sec): 6.30 - samples/sec: 2592.08 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:34:14,600 epoch 80 - iter 56/83 - loss 0.00680730 - time (sec): 7.43 - samples/sec: 2576.21 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:34:15,672 epoch 80 - iter 64/83 - loss 0.00730613 - time (sec): 8.50 - samples/sec: 2580.91 - lr: 0.000044 - momentum: 0.000000
2025-05-05 19:34:16,664 epoch 80 - iter 72/83 - loss 0.00653753 - time (sec): 9.50 - samples/sec: 2591.98 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:17,781 epoch 80 - iter 80/83 - loss 0.00593202 - time (sec): 10.61 - samples/sec: 2556.35 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:18,110 ----------------------------------------------------------------------------------------------------
2025-05-05 19:34:18,110 EPOCH 80 done: loss 0.0058 - lr: 0.000043
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.17it/s] 40%|██   | 2/5 [00:00<00:00,  8.99it/s] 60%|███  | 3/5 [00:00<00:00,  8.86it/s] 80%|████ | 4/5 [00:00<00:00,  5.15it/s]100%|█████| 5/5 [00:00<00:00,  6.88it/s]
2025-05-05 19:34:18,856 DEV : loss 0.36635950207710266 - f1-score (micro avg)  0.8446
2025-05-05 19:34:18,860 ----------------------------------------------------------------------------------------------------
2025-05-05 19:34:19,767 epoch 81 - iter 8/83 - loss 0.00011386 - time (sec): 0.91 - samples/sec: 2949.63 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:20,939 epoch 81 - iter 16/83 - loss 0.00373362 - time (sec): 2.08 - samples/sec: 2632.38 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:21,984 epoch 81 - iter 24/83 - loss 0.00609617 - time (sec): 3.12 - samples/sec: 2579.02 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:23,013 epoch 81 - iter 32/83 - loss 0.00712772 - time (sec): 4.15 - samples/sec: 2568.91 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:23,996 epoch 81 - iter 40/83 - loss 0.00587124 - time (sec): 5.14 - samples/sec: 2522.17 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:25,345 epoch 81 - iter 48/83 - loss 0.00578386 - time (sec): 6.48 - samples/sec: 2439.21 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:26,542 epoch 81 - iter 56/83 - loss 0.00794576 - time (sec): 7.68 - samples/sec: 2411.10 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:27,643 epoch 81 - iter 64/83 - loss 0.00710960 - time (sec): 8.78 - samples/sec: 2435.76 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:28,737 epoch 81 - iter 72/83 - loss 0.00635469 - time (sec): 9.88 - samples/sec: 2448.03 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:29,721 epoch 81 - iter 80/83 - loss 0.00564343 - time (sec): 10.86 - samples/sec: 2507.21 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:30,033 ----------------------------------------------------------------------------------------------------
2025-05-05 19:34:30,033 EPOCH 81 done: loss 0.0058 - lr: 0.000043
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.27it/s] 40%|██   | 2/5 [00:00<00:00,  7.06it/s] 60%|███  | 3/5 [00:00<00:00,  6.71it/s] 80%|████ | 4/5 [00:00<00:00,  5.67it/s]100%|█████| 5/5 [00:00<00:00,  6.95it/s]
2025-05-05 19:34:30,773 DEV : loss 0.33271706104278564 - f1-score (micro avg)  0.8456
2025-05-05 19:34:30,776 ----------------------------------------------------------------------------------------------------
2025-05-05 19:34:31,730 epoch 82 - iter 8/83 - loss 0.00498816 - time (sec): 0.95 - samples/sec: 3082.14 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:32,779 epoch 82 - iter 16/83 - loss 0.00278570 - time (sec): 2.00 - samples/sec: 2712.77 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:33,878 epoch 82 - iter 24/83 - loss 0.00185376 - time (sec): 3.10 - samples/sec: 2632.87 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:35,224 epoch 82 - iter 32/83 - loss 0.00146660 - time (sec): 4.45 - samples/sec: 2439.07 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:36,494 epoch 82 - iter 40/83 - loss 0.00127012 - time (sec): 5.72 - samples/sec: 2358.93 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:37,523 epoch 82 - iter 48/83 - loss 0.00105757 - time (sec): 6.75 - samples/sec: 2402.20 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:38,570 epoch 82 - iter 56/83 - loss 0.00223316 - time (sec): 7.79 - samples/sec: 2422.85 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:39,662 epoch 82 - iter 64/83 - loss 0.00197176 - time (sec): 8.89 - samples/sec: 2407.30 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:40,952 epoch 82 - iter 72/83 - loss 0.00174982 - time (sec): 10.17 - samples/sec: 2371.37 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:42,177 epoch 82 - iter 80/83 - loss 0.00156701 - time (sec): 11.40 - samples/sec: 2364.00 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:42,545 ----------------------------------------------------------------------------------------------------
2025-05-05 19:34:42,546 EPOCH 82 done: loss 0.0015 - lr: 0.000043
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.06it/s] 40%|██   | 2/5 [00:00<00:00,  7.90it/s] 60%|███  | 3/5 [00:00<00:00,  7.98it/s] 80%|████ | 4/5 [00:00<00:00,  6.62it/s]100%|█████| 5/5 [00:00<00:00,  7.82it/s]
2025-05-05 19:34:43,204 DEV : loss 0.3446671664714813 - f1-score (micro avg)  0.8737
2025-05-05 19:34:43,208 ----------------------------------------------------------------------------------------------------
2025-05-05 19:34:44,143 epoch 83 - iter 8/83 - loss 0.00003165 - time (sec): 0.93 - samples/sec: 2867.42 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:45,119 epoch 83 - iter 16/83 - loss 0.00001918 - time (sec): 1.91 - samples/sec: 2849.38 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:46,262 epoch 83 - iter 24/83 - loss 0.00002231 - time (sec): 3.05 - samples/sec: 2702.39 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:47,471 epoch 83 - iter 32/83 - loss 0.00001752 - time (sec): 4.26 - samples/sec: 2555.31 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:48,590 epoch 83 - iter 40/83 - loss 0.00002821 - time (sec): 5.38 - samples/sec: 2552.64 - lr: 0.000043 - momentum: 0.000000
2025-05-05 19:34:49,847 epoch 83 - iter 48/83 - loss 0.00002500 - time (sec): 6.64 - samples/sec: 2406.23 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:34:50,955 epoch 83 - iter 56/83 - loss 0.00002203 - time (sec): 7.75 - samples/sec: 2423.67 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:34:51,969 epoch 83 - iter 64/83 - loss 0.00003515 - time (sec): 8.76 - samples/sec: 2424.83 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:34:53,142 epoch 83 - iter 72/83 - loss 0.00003136 - time (sec): 9.93 - samples/sec: 2428.46 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:34:54,229 epoch 83 - iter 80/83 - loss 0.00002853 - time (sec): 11.02 - samples/sec: 2458.94 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:34:54,604 ----------------------------------------------------------------------------------------------------
2025-05-05 19:34:54,604 EPOCH 83 done: loss 0.0000 - lr: 0.000042
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.98it/s] 40%|██   | 2/5 [00:00<00:00,  8.37it/s] 60%|███  | 3/5 [00:00<00:00,  8.37it/s] 80%|████ | 4/5 [00:00<00:00,  6.91it/s]100%|█████| 5/5 [00:00<00:00,  8.18it/s]
2025-05-05 19:34:55,235 DEV : loss 0.33387136459350586 - f1-score (micro avg)  0.8729
2025-05-05 19:34:55,238 ----------------------------------------------------------------------------------------------------
2025-05-05 19:34:56,280 epoch 84 - iter 8/83 - loss 0.00289671 - time (sec): 1.04 - samples/sec: 2709.35 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:34:57,613 epoch 84 - iter 16/83 - loss 0.00143770 - time (sec): 2.37 - samples/sec: 2397.27 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:34:58,818 epoch 84 - iter 24/83 - loss 0.00629009 - time (sec): 3.58 - samples/sec: 2390.80 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:00,001 epoch 84 - iter 32/83 - loss 0.00658239 - time (sec): 4.76 - samples/sec: 2325.51 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:01,031 epoch 84 - iter 40/83 - loss 0.00519739 - time (sec): 5.79 - samples/sec: 2421.83 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:02,098 epoch 84 - iter 48/83 - loss 0.00437133 - time (sec): 6.86 - samples/sec: 2434.56 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:03,174 epoch 84 - iter 56/83 - loss 0.00680001 - time (sec): 7.94 - samples/sec: 2447.37 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:04,150 epoch 84 - iter 64/83 - loss 0.00597632 - time (sec): 8.91 - samples/sec: 2484.06 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:05,123 epoch 84 - iter 72/83 - loss 0.00577666 - time (sec): 9.88 - samples/sec: 2484.71 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:06,338 epoch 84 - iter 80/83 - loss 0.00660933 - time (sec): 11.10 - samples/sec: 2457.92 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:06,631 ----------------------------------------------------------------------------------------------------
2025-05-05 19:35:06,631 EPOCH 84 done: loss 0.0064 - lr: 0.000042
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.73it/s] 40%|██   | 2/5 [00:00<00:00,  7.52it/s] 60%|███  | 3/5 [00:00<00:00,  7.47it/s] 80%|████ | 4/5 [00:00<00:00,  3.95it/s]100%|█████| 5/5 [00:00<00:00,  5.50it/s]
2025-05-05 19:35:07,560 DEV : loss 0.26206469535827637 - f1-score (micro avg)  0.8431
2025-05-05 19:35:07,563 ----------------------------------------------------------------------------------------------------
2025-05-05 19:35:08,593 epoch 85 - iter 8/83 - loss 0.00005356 - time (sec): 1.03 - samples/sec: 2505.57 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:09,643 epoch 85 - iter 16/83 - loss 0.00290897 - time (sec): 2.08 - samples/sec: 2665.32 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:10,869 epoch 85 - iter 24/83 - loss 0.00201940 - time (sec): 3.30 - samples/sec: 2645.77 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:12,065 epoch 85 - iter 32/83 - loss 0.00159146 - time (sec): 4.50 - samples/sec: 2481.57 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:13,354 epoch 85 - iter 40/83 - loss 0.00389896 - time (sec): 5.79 - samples/sec: 2441.77 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:14,642 epoch 85 - iter 48/83 - loss 0.00345513 - time (sec): 7.08 - samples/sec: 2377.20 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:15,836 epoch 85 - iter 56/83 - loss 0.00301260 - time (sec): 8.27 - samples/sec: 2335.03 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:17,138 epoch 85 - iter 64/83 - loss 0.00348502 - time (sec): 9.57 - samples/sec: 2310.96 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:18,318 epoch 85 - iter 72/83 - loss 0.00310368 - time (sec): 10.75 - samples/sec: 2310.57 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:19,332 epoch 85 - iter 80/83 - loss 0.00281558 - time (sec): 11.77 - samples/sec: 2327.81 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:19,625 ----------------------------------------------------------------------------------------------------
2025-05-05 19:35:19,625 EPOCH 85 done: loss 0.0028 - lr: 0.000042
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.22it/s] 40%|██   | 2/5 [00:00<00:00,  7.69it/s] 60%|███  | 3/5 [00:00<00:00,  7.66it/s] 80%|████ | 4/5 [00:00<00:00,  6.45it/s]100%|█████| 5/5 [00:00<00:00,  7.63it/s]
2025-05-05 19:35:20,300 DEV : loss 0.3327188491821289 - f1-score (micro avg)  0.8647
2025-05-05 19:35:20,303 ----------------------------------------------------------------------------------------------------
2025-05-05 19:35:21,229 epoch 86 - iter 8/83 - loss 0.00511591 - time (sec): 0.92 - samples/sec: 3012.68 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:22,311 epoch 86 - iter 16/83 - loss 0.00587485 - time (sec): 2.01 - samples/sec: 2740.31 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:23,530 epoch 86 - iter 24/83 - loss 0.00560659 - time (sec): 3.23 - samples/sec: 2555.36 - lr: 0.000042 - momentum: 0.000000
2025-05-05 19:35:24,651 epoch 86 - iter 32/83 - loss 0.00498687 - time (sec): 4.35 - samples/sec: 2572.70 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:25,679 epoch 86 - iter 40/83 - loss 0.00687697 - time (sec): 5.37 - samples/sec: 2560.78 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:26,652 epoch 86 - iter 48/83 - loss 0.00577483 - time (sec): 6.35 - samples/sec: 2583.32 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:27,706 epoch 86 - iter 56/83 - loss 0.00492414 - time (sec): 7.40 - samples/sec: 2600.30 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:28,776 epoch 86 - iter 64/83 - loss 0.00440087 - time (sec): 8.47 - samples/sec: 2542.27 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:29,868 epoch 86 - iter 72/83 - loss 0.00445770 - time (sec): 9.56 - samples/sec: 2543.87 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:30,944 epoch 86 - iter 80/83 - loss 0.00405737 - time (sec): 10.64 - samples/sec: 2559.47 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:31,239 ----------------------------------------------------------------------------------------------------
2025-05-05 19:35:31,239 EPOCH 86 done: loss 0.0040 - lr: 0.000041
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.88it/s] 40%|██   | 2/5 [00:00<00:00,  8.66it/s] 60%|███  | 3/5 [00:00<00:00,  8.56it/s] 80%|████ | 4/5 [00:00<00:00,  6.63it/s]100%|█████| 5/5 [00:00<00:00,  7.98it/s]
2025-05-05 19:35:31,885 DEV : loss 0.31568846106529236 - f1-score (micro avg)  0.8505
2025-05-05 19:35:31,889 ----------------------------------------------------------------------------------------------------
2025-05-05 19:35:32,956 epoch 87 - iter 8/83 - loss 0.00000312 - time (sec): 1.07 - samples/sec: 2652.03 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:33,896 epoch 87 - iter 16/83 - loss 0.00003083 - time (sec): 2.01 - samples/sec: 2669.76 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:34,932 epoch 87 - iter 24/83 - loss 0.00210963 - time (sec): 3.04 - samples/sec: 2652.24 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:36,063 epoch 87 - iter 32/83 - loss 0.00187415 - time (sec): 4.17 - samples/sec: 2656.80 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:37,151 epoch 87 - iter 40/83 - loss 0.00171867 - time (sec): 5.26 - samples/sec: 2635.64 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:38,122 epoch 87 - iter 48/83 - loss 0.00198643 - time (sec): 6.23 - samples/sec: 2617.24 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:39,161 epoch 87 - iter 56/83 - loss 0.00325740 - time (sec): 7.27 - samples/sec: 2595.85 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:40,427 epoch 87 - iter 64/83 - loss 0.00367086 - time (sec): 8.54 - samples/sec: 2596.43 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:41,568 epoch 87 - iter 72/83 - loss 0.00329746 - time (sec): 9.68 - samples/sec: 2550.35 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:42,767 epoch 87 - iter 80/83 - loss 0.00307606 - time (sec): 10.88 - samples/sec: 2495.94 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:43,227 ----------------------------------------------------------------------------------------------------
2025-05-05 19:35:43,227 EPOCH 87 done: loss 0.0030 - lr: 0.000041
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  5.59it/s] 60%|███  | 3/5 [00:00<00:00,  8.33it/s] 80%|████ | 4/5 [00:00<00:00,  7.67it/s]100%|█████| 5/5 [00:00<00:00,  8.41it/s]
2025-05-05 19:35:43,840 DEV : loss 0.32246747612953186 - f1-score (micro avg)  0.8383
2025-05-05 19:35:43,844 ----------------------------------------------------------------------------------------------------
2025-05-05 19:35:45,063 epoch 88 - iter 8/83 - loss 0.00681374 - time (sec): 1.22 - samples/sec: 2385.52 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:46,049 epoch 88 - iter 16/83 - loss 0.00376813 - time (sec): 2.20 - samples/sec: 2392.76 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:47,257 epoch 88 - iter 24/83 - loss 0.00416867 - time (sec): 3.41 - samples/sec: 2337.02 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:48,498 epoch 88 - iter 32/83 - loss 0.00512451 - time (sec): 4.65 - samples/sec: 2238.42 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:49,562 epoch 88 - iter 40/83 - loss 0.00691286 - time (sec): 5.72 - samples/sec: 2279.69 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:50,826 epoch 88 - iter 48/83 - loss 0.00642373 - time (sec): 6.98 - samples/sec: 2286.93 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:51,962 epoch 88 - iter 56/83 - loss 0.00595634 - time (sec): 8.12 - samples/sec: 2341.01 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:52,844 epoch 88 - iter 64/83 - loss 0.00541900 - time (sec): 9.00 - samples/sec: 2382.18 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:54,057 epoch 88 - iter 72/83 - loss 0.00496351 - time (sec): 10.21 - samples/sec: 2371.53 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:55,107 epoch 88 - iter 80/83 - loss 0.00499130 - time (sec): 11.26 - samples/sec: 2401.06 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:55,449 ----------------------------------------------------------------------------------------------------
2025-05-05 19:35:55,449 EPOCH 88 done: loss 0.0052 - lr: 0.000041
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.71it/s] 60%|███  | 3/5 [00:00<00:00,  8.84it/s] 80%|████ | 4/5 [00:00<00:00,  7.76it/s]100%|█████| 5/5 [00:00<00:00,  6.45it/s]100%|█████| 5/5 [00:00<00:00,  7.03it/s]
2025-05-05 19:35:56,179 DEV : loss 0.38255956768989563 - f1-score (micro avg)  0.8601
2025-05-05 19:35:56,183 ----------------------------------------------------------------------------------------------------
2025-05-05 19:35:57,303 epoch 89 - iter 8/83 - loss 0.00481836 - time (sec): 1.12 - samples/sec: 2338.62 - lr: 0.000041 - momentum: 0.000000
2025-05-05 19:35:58,487 epoch 89 - iter 16/83 - loss 0.01109909 - time (sec): 2.30 - samples/sec: 2290.21 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:35:59,516 epoch 89 - iter 24/83 - loss 0.01157065 - time (sec): 3.33 - samples/sec: 2472.74 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:00,627 epoch 89 - iter 32/83 - loss 0.00891854 - time (sec): 4.44 - samples/sec: 2410.34 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:01,958 epoch 89 - iter 40/83 - loss 0.00883183 - time (sec): 5.77 - samples/sec: 2311.98 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:03,136 epoch 89 - iter 48/83 - loss 0.00736498 - time (sec): 6.95 - samples/sec: 2303.01 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:04,137 epoch 89 - iter 56/83 - loss 0.00845511 - time (sec): 7.95 - samples/sec: 2346.79 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:05,288 epoch 89 - iter 64/83 - loss 0.00725371 - time (sec): 9.10 - samples/sec: 2389.88 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:06,310 epoch 89 - iter 72/83 - loss 0.00829766 - time (sec): 10.13 - samples/sec: 2407.15 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:07,340 epoch 89 - iter 80/83 - loss 0.00745849 - time (sec): 11.16 - samples/sec: 2431.54 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:07,665 ----------------------------------------------------------------------------------------------------
2025-05-05 19:36:07,666 EPOCH 89 done: loss 0.0072 - lr: 0.000040
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.57it/s] 40%|██   | 2/5 [00:00<00:00,  8.50it/s] 60%|███  | 3/5 [00:00<00:00,  8.41it/s] 80%|████ | 4/5 [00:00<00:00,  7.02it/s]100%|█████| 5/5 [00:00<00:00,  8.25it/s]
2025-05-05 19:36:08,291 DEV : loss 0.27916839718818665 - f1-score (micro avg)  0.88
2025-05-05 19:36:08,295 ----------------------------------------------------------------------------------------------------
2025-05-05 19:36:09,470 epoch 90 - iter 8/83 - loss 0.00564956 - time (sec): 1.17 - samples/sec: 2507.28 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:10,590 epoch 90 - iter 16/83 - loss 0.00828031 - time (sec): 2.29 - samples/sec: 2609.52 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:11,595 epoch 90 - iter 24/83 - loss 0.00583345 - time (sec): 3.30 - samples/sec: 2577.59 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:12,657 epoch 90 - iter 32/83 - loss 0.00543600 - time (sec): 4.36 - samples/sec: 2574.99 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:13,629 epoch 90 - iter 40/83 - loss 0.00439333 - time (sec): 5.33 - samples/sec: 2637.84 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:14,725 epoch 90 - iter 48/83 - loss 0.00486700 - time (sec): 6.43 - samples/sec: 2560.32 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:16,083 epoch 90 - iter 56/83 - loss 0.00744873 - time (sec): 7.79 - samples/sec: 2500.81 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:17,268 epoch 90 - iter 64/83 - loss 0.00647985 - time (sec): 8.97 - samples/sec: 2495.44 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:18,242 epoch 90 - iter 72/83 - loss 0.00589143 - time (sec): 9.95 - samples/sec: 2517.92 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:19,225 epoch 90 - iter 80/83 - loss 0.00548336 - time (sec): 10.93 - samples/sec: 2511.77 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:19,616 ----------------------------------------------------------------------------------------------------
2025-05-05 19:36:19,616 EPOCH 90 done: loss 0.0054 - lr: 0.000040
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.08it/s] 40%|██   | 2/5 [00:00<00:00,  7.92it/s] 60%|███  | 3/5 [00:00<00:00,  8.70it/s] 80%|████ | 4/5 [00:00<00:00,  7.79it/s]100%|█████| 5/5 [00:00<00:00,  6.38it/s]100%|█████| 5/5 [00:00<00:00,  6.99it/s]
2025-05-05 19:36:20,350 DEV : loss 0.3551757335662842 - f1-score (micro avg)  0.8571
2025-05-05 19:36:20,353 ----------------------------------------------------------------------------------------------------
2025-05-05 19:36:21,592 epoch 91 - iter 8/83 - loss 0.00496647 - time (sec): 1.24 - samples/sec: 2288.98 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:22,726 epoch 91 - iter 16/83 - loss 0.00255824 - time (sec): 2.37 - samples/sec: 2377.26 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:24,098 epoch 91 - iter 24/83 - loss 0.00167799 - time (sec): 3.74 - samples/sec: 2300.58 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:25,445 epoch 91 - iter 32/83 - loss 0.00303058 - time (sec): 5.09 - samples/sec: 2213.93 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:26,464 epoch 91 - iter 40/83 - loss 0.00280234 - time (sec): 6.11 - samples/sec: 2245.17 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:27,474 epoch 91 - iter 48/83 - loss 0.00330512 - time (sec): 7.12 - samples/sec: 2349.79 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:28,515 epoch 91 - iter 56/83 - loss 0.00313539 - time (sec): 8.16 - samples/sec: 2333.42 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:29,563 epoch 91 - iter 64/83 - loss 0.00279851 - time (sec): 9.21 - samples/sec: 2375.28 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:30,622 epoch 91 - iter 72/83 - loss 0.00251290 - time (sec): 10.27 - samples/sec: 2372.60 - lr: 0.000040 - momentum: 0.000000
2025-05-05 19:36:31,683 epoch 91 - iter 80/83 - loss 0.00246484 - time (sec): 11.33 - samples/sec: 2387.44 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:32,080 ----------------------------------------------------------------------------------------------------
2025-05-05 19:36:32,080 EPOCH 91 done: loss 0.0024 - lr: 0.000039
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.63it/s] 40%|██   | 2/5 [00:00<00:00,  8.51it/s] 60%|███  | 3/5 [00:00<00:00,  8.32it/s] 80%|████ | 4/5 [00:00<00:00,  7.01it/s]100%|█████| 5/5 [00:00<00:00,  8.24it/s]
2025-05-05 19:36:32,706 DEV : loss 0.33209776878356934 - f1-score (micro avg)  0.8477
2025-05-05 19:36:32,710 ----------------------------------------------------------------------------------------------------
2025-05-05 19:36:33,653 epoch 92 - iter 8/83 - loss 0.01317319 - time (sec): 0.94 - samples/sec: 3247.20 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:34,664 epoch 92 - iter 16/83 - loss 0.00724476 - time (sec): 1.95 - samples/sec: 3117.66 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:35,924 epoch 92 - iter 24/83 - loss 0.00901305 - time (sec): 3.21 - samples/sec: 2852.48 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:36,934 epoch 92 - iter 32/83 - loss 0.00766532 - time (sec): 4.22 - samples/sec: 2802.20 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:38,026 epoch 92 - iter 40/83 - loss 0.00699548 - time (sec): 5.32 - samples/sec: 2678.53 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:39,008 epoch 92 - iter 48/83 - loss 0.00749469 - time (sec): 6.30 - samples/sec: 2661.50 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:39,928 epoch 92 - iter 56/83 - loss 0.00654749 - time (sec): 7.22 - samples/sec: 2680.10 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:41,001 epoch 92 - iter 64/83 - loss 0.00614169 - time (sec): 8.29 - samples/sec: 2663.27 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:42,024 epoch 92 - iter 72/83 - loss 0.00656591 - time (sec): 9.31 - samples/sec: 2650.74 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:43,064 epoch 92 - iter 80/83 - loss 0.00593672 - time (sec): 10.35 - samples/sec: 2637.42 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:43,395 ----------------------------------------------------------------------------------------------------
2025-05-05 19:36:43,395 EPOCH 92 done: loss 0.0058 - lr: 0.000039
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.47it/s] 60%|███  | 3/5 [00:00<00:00,  9.57it/s] 80%|████ | 4/5 [00:00<00:00,  7.60it/s]100%|█████| 5/5 [00:00<00:00,  6.39it/s]100%|█████| 5/5 [00:00<00:00,  7.07it/s]
2025-05-05 19:36:44,122 DEV : loss 0.3451326787471771 - f1-score (micro avg)  0.8418
2025-05-05 19:36:44,126 ----------------------------------------------------------------------------------------------------
2025-05-05 19:36:45,228 epoch 93 - iter 8/83 - loss 0.00458289 - time (sec): 1.10 - samples/sec: 2808.37 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:46,396 epoch 93 - iter 16/83 - loss 0.00245705 - time (sec): 2.27 - samples/sec: 2547.18 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:47,520 epoch 93 - iter 24/83 - loss 0.00168124 - time (sec): 3.39 - samples/sec: 2490.55 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:48,602 epoch 93 - iter 32/83 - loss 0.00135696 - time (sec): 4.48 - samples/sec: 2460.15 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:49,826 epoch 93 - iter 40/83 - loss 0.00113835 - time (sec): 5.70 - samples/sec: 2429.56 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:51,001 epoch 93 - iter 48/83 - loss 0.00152692 - time (sec): 6.87 - samples/sec: 2409.81 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:52,034 epoch 93 - iter 56/83 - loss 0.00634828 - time (sec): 7.91 - samples/sec: 2419.29 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:53,022 epoch 93 - iter 64/83 - loss 0.00545757 - time (sec): 8.90 - samples/sec: 2502.00 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:54,104 epoch 93 - iter 72/83 - loss 0.00492941 - time (sec): 9.98 - samples/sec: 2471.73 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:55,148 epoch 93 - iter 80/83 - loss 0.00473702 - time (sec): 11.02 - samples/sec: 2453.55 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:55,490 ----------------------------------------------------------------------------------------------------
2025-05-05 19:36:55,491 EPOCH 93 done: loss 0.0046 - lr: 0.000039
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.95it/s] 40%|██   | 2/5 [00:00<00:00,  8.77it/s] 60%|███  | 3/5 [00:00<00:00,  8.71it/s] 80%|████ | 4/5 [00:00<00:00,  7.22it/s]100%|█████| 5/5 [00:00<00:00,  8.45it/s]
2025-05-05 19:36:56,102 DEV : loss 0.35843735933303833 - f1-score (micro avg)  0.8328
2025-05-05 19:36:56,106 ----------------------------------------------------------------------------------------------------
2025-05-05 19:36:57,120 epoch 94 - iter 8/83 - loss 0.00000335 - time (sec): 1.01 - samples/sec: 2956.36 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:58,264 epoch 94 - iter 16/83 - loss 0.00000344 - time (sec): 2.16 - samples/sec: 2851.06 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:36:59,537 epoch 94 - iter 24/83 - loss 0.00011159 - time (sec): 3.43 - samples/sec: 2532.01 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:37:00,771 epoch 94 - iter 32/83 - loss 0.00321879 - time (sec): 4.66 - samples/sec: 2455.76 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:37:01,885 epoch 94 - iter 40/83 - loss 0.00366953 - time (sec): 5.78 - samples/sec: 2378.87 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:37:02,893 epoch 94 - iter 48/83 - loss 0.00614198 - time (sec): 6.79 - samples/sec: 2402.34 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:37:03,989 epoch 94 - iter 56/83 - loss 0.00540670 - time (sec): 7.88 - samples/sec: 2483.24 - lr: 0.000039 - momentum: 0.000000
2025-05-05 19:37:04,962 epoch 94 - iter 64/83 - loss 0.00481256 - time (sec): 8.85 - samples/sec: 2483.51 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:06,107 epoch 94 - iter 72/83 - loss 0.00467571 - time (sec): 10.00 - samples/sec: 2490.04 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:07,137 epoch 94 - iter 80/83 - loss 0.00426793 - time (sec): 11.03 - samples/sec: 2473.29 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:07,438 ----------------------------------------------------------------------------------------------------
2025-05-05 19:37:07,438 EPOCH 94 done: loss 0.0042 - lr: 0.000038
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.11it/s] 40%|██   | 2/5 [00:00<00:00,  8.81it/s] 60%|███  | 3/5 [00:00<00:00,  8.60it/s] 80%|████ | 4/5 [00:00<00:00,  7.18it/s]100%|█████| 5/5 [00:00<00:00,  8.44it/s]
2025-05-05 19:37:08,050 DEV : loss 0.3516916036605835 - f1-score (micro avg)  0.8552
2025-05-05 19:37:08,054 ----------------------------------------------------------------------------------------------------
2025-05-05 19:37:09,173 epoch 95 - iter 8/83 - loss 0.00768293 - time (sec): 1.12 - samples/sec: 2605.57 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:10,191 epoch 95 - iter 16/83 - loss 0.00775350 - time (sec): 2.14 - samples/sec: 2548.01 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:11,272 epoch 95 - iter 24/83 - loss 0.00664905 - time (sec): 3.22 - samples/sec: 2444.43 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:12,487 epoch 95 - iter 32/83 - loss 0.00534587 - time (sec): 4.43 - samples/sec: 2364.41 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:13,896 epoch 95 - iter 40/83 - loss 0.00478945 - time (sec): 5.84 - samples/sec: 2239.40 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:15,061 epoch 95 - iter 48/83 - loss 0.00421589 - time (sec): 7.01 - samples/sec: 2264.58 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:16,414 epoch 95 - iter 56/83 - loss 0.00354822 - time (sec): 8.36 - samples/sec: 2255.79 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:17,671 epoch 95 - iter 64/83 - loss 0.00305760 - time (sec): 9.62 - samples/sec: 2276.66 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:19,104 epoch 95 - iter 72/83 - loss 0.00287871 - time (sec): 11.05 - samples/sec: 2191.88 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:20,443 epoch 95 - iter 80/83 - loss 0.00315126 - time (sec): 12.39 - samples/sec: 2178.89 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:20,861 ----------------------------------------------------------------------------------------------------
2025-05-05 19:37:20,861 EPOCH 95 done: loss 0.0032 - lr: 0.000038
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.18it/s] 40%|██   | 2/5 [00:00<00:00,  7.86it/s] 60%|███  | 3/5 [00:00<00:00,  8.64it/s] 80%|████ | 4/5 [00:00<00:00,  7.77it/s]100%|█████| 5/5 [00:00<00:00,  7.33it/s]100%|█████| 5/5 [00:00<00:00,  7.59it/s]
2025-05-05 19:37:21,539 DEV : loss 0.3440435826778412 - f1-score (micro avg)  0.8729
2025-05-05 19:37:21,543 ----------------------------------------------------------------------------------------------------
2025-05-05 19:37:22,494 epoch 96 - iter 8/83 - loss 0.00802746 - time (sec): 0.95 - samples/sec: 2418.53 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:23,546 epoch 96 - iter 16/83 - loss 0.00396476 - time (sec): 2.00 - samples/sec: 2408.35 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:24,582 epoch 96 - iter 24/83 - loss 0.00460751 - time (sec): 3.04 - samples/sec: 2523.18 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:25,620 epoch 96 - iter 32/83 - loss 0.00505804 - time (sec): 4.08 - samples/sec: 2651.09 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:26,560 epoch 96 - iter 40/83 - loss 0.00497397 - time (sec): 5.02 - samples/sec: 2650.36 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:27,603 epoch 96 - iter 48/83 - loss 0.00505785 - time (sec): 6.06 - samples/sec: 2654.33 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:28,650 epoch 96 - iter 56/83 - loss 0.00565019 - time (sec): 7.11 - samples/sec: 2657.60 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:29,840 epoch 96 - iter 64/83 - loss 0.00891295 - time (sec): 8.30 - samples/sec: 2594.57 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:31,034 epoch 96 - iter 72/83 - loss 0.00796913 - time (sec): 9.49 - samples/sec: 2538.35 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:32,404 epoch 96 - iter 80/83 - loss 0.00749038 - time (sec): 10.86 - samples/sec: 2477.95 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:32,781 ----------------------------------------------------------------------------------------------------
2025-05-05 19:37:32,781 EPOCH 96 done: loss 0.0072 - lr: 0.000038
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  4.23it/s] 40%|██   | 2/5 [00:00<00:00,  5.37it/s] 60%|███  | 3/5 [00:00<00:00,  6.48it/s] 80%|████ | 4/5 [00:00<00:00,  6.55it/s]100%|█████| 5/5 [00:00<00:00,  6.93it/s]
2025-05-05 19:37:33,521 DEV : loss 0.33131077885627747 - f1-score (micro avg)  0.8581
2025-05-05 19:37:33,525 ----------------------------------------------------------------------------------------------------
2025-05-05 19:37:34,725 epoch 97 - iter 8/83 - loss 0.00530551 - time (sec): 1.20 - samples/sec: 2316.80 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:35,696 epoch 97 - iter 16/83 - loss 0.00274977 - time (sec): 2.17 - samples/sec: 2470.52 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:36,777 epoch 97 - iter 24/83 - loss 0.00181022 - time (sec): 3.25 - samples/sec: 2510.21 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:37,870 epoch 97 - iter 32/83 - loss 0.00149610 - time (sec): 4.34 - samples/sec: 2532.88 - lr: 0.000038 - momentum: 0.000000
2025-05-05 19:37:38,940 epoch 97 - iter 40/83 - loss 0.00131609 - time (sec): 5.41 - samples/sec: 2567.92 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:37:40,062 epoch 97 - iter 48/83 - loss 0.00311116 - time (sec): 6.54 - samples/sec: 2483.33 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:37:41,371 epoch 97 - iter 56/83 - loss 0.00271927 - time (sec): 7.84 - samples/sec: 2367.47 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:37:42,473 epoch 97 - iter 64/83 - loss 0.00235270 - time (sec): 8.95 - samples/sec: 2399.62 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:37:43,503 epoch 97 - iter 72/83 - loss 0.00207582 - time (sec): 9.98 - samples/sec: 2439.54 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:37:44,569 epoch 97 - iter 80/83 - loss 0.00246378 - time (sec): 11.04 - samples/sec: 2457.22 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:37:44,932 ----------------------------------------------------------------------------------------------------
2025-05-05 19:37:44,932 EPOCH 97 done: loss 0.0025 - lr: 0.000037
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.80it/s] 40%|██   | 2/5 [00:00<00:00,  8.63it/s] 60%|███  | 3/5 [00:00<00:00,  8.72it/s] 80%|████ | 4/5 [00:00<00:00,  7.25it/s]100%|█████| 5/5 [00:00<00:00,  8.48it/s]
2025-05-05 19:37:45,541 DEV : loss 0.3116604685783386 - f1-score (micro avg)  0.8514
2025-05-05 19:37:45,544 ----------------------------------------------------------------------------------------------------
2025-05-05 19:37:46,659 epoch 98 - iter 8/83 - loss 0.00463966 - time (sec): 1.11 - samples/sec: 2302.66 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:37:47,902 epoch 98 - iter 16/83 - loss 0.00224199 - time (sec): 2.36 - samples/sec: 2253.96 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:37:49,239 epoch 98 - iter 24/83 - loss 0.00147147 - time (sec): 3.69 - samples/sec: 2201.59 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:37:50,591 epoch 98 - iter 32/83 - loss 0.00260177 - time (sec): 5.05 - samples/sec: 2207.70 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:37:51,667 epoch 98 - iter 40/83 - loss 0.00221453 - time (sec): 6.12 - samples/sec: 2242.64 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:37:53,045 epoch 98 - iter 48/83 - loss 0.00592527 - time (sec): 7.50 - samples/sec: 2218.24 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:37:54,465 epoch 98 - iter 56/83 - loss 0.00548342 - time (sec): 8.92 - samples/sec: 2143.03 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:37:55,711 epoch 98 - iter 64/83 - loss 0.00521983 - time (sec): 10.17 - samples/sec: 2157.10 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:37:56,889 epoch 98 - iter 72/83 - loss 0.00466576 - time (sec): 11.34 - samples/sec: 2162.75 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:37:58,212 epoch 98 - iter 80/83 - loss 0.00421241 - time (sec): 12.67 - samples/sec: 2151.39 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:37:58,601 ----------------------------------------------------------------------------------------------------
2025-05-05 19:37:58,601 EPOCH 98 done: loss 0.0041 - lr: 0.000037
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  5.30it/s] 60%|███  | 3/5 [00:00<00:00,  8.17it/s] 80%|████ | 4/5 [00:00<00:00,  7.59it/s]100%|█████| 5/5 [00:00<00:00,  8.29it/s]
2025-05-05 19:37:59,224 DEV : loss 0.35973408818244934 - f1-score (micro avg)  0.8439
2025-05-05 19:37:59,228 ----------------------------------------------------------------------------------------------------
2025-05-05 19:38:00,511 epoch 99 - iter 8/83 - loss 0.00000344 - time (sec): 1.28 - samples/sec: 2312.65 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:38:01,599 epoch 99 - iter 16/83 - loss 0.00233254 - time (sec): 2.37 - samples/sec: 2428.62 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:38:02,751 epoch 99 - iter 24/83 - loss 0.00286404 - time (sec): 3.52 - samples/sec: 2180.04 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:38:03,974 epoch 99 - iter 32/83 - loss 0.00314085 - time (sec): 4.75 - samples/sec: 2174.26 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:38:05,160 epoch 99 - iter 40/83 - loss 0.00491006 - time (sec): 5.93 - samples/sec: 2207.62 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:38:06,224 epoch 99 - iter 48/83 - loss 0.00400655 - time (sec): 7.00 - samples/sec: 2294.19 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:38:07,167 epoch 99 - iter 56/83 - loss 0.00354865 - time (sec): 7.94 - samples/sec: 2331.12 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:38:08,283 epoch 99 - iter 64/83 - loss 0.00307169 - time (sec): 9.05 - samples/sec: 2361.62 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:38:09,293 epoch 99 - iter 72/83 - loss 0.00350138 - time (sec): 10.06 - samples/sec: 2392.73 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:38:10,462 epoch 99 - iter 80/83 - loss 0.00373530 - time (sec): 11.23 - samples/sec: 2418.18 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:38:10,812 ----------------------------------------------------------------------------------------------------
2025-05-05 19:38:10,812 EPOCH 99 done: loss 0.0036 - lr: 0.000037
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.15it/s] 40%|██   | 2/5 [00:00<00:00,  8.87it/s] 60%|███  | 3/5 [00:00<00:00,  8.77it/s] 80%|████ | 4/5 [00:00<00:00,  7.34it/s]100%|█████| 5/5 [00:00<00:00,  8.60it/s]
2025-05-05 19:38:11,412 DEV : loss 0.3637365698814392 - f1-score (micro avg)  0.8729
2025-05-05 19:38:11,415 ----------------------------------------------------------------------------------------------------
2025-05-05 19:38:12,403 epoch 100 - iter 8/83 - loss 0.00005746 - time (sec): 0.99 - samples/sec: 3001.05 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:38:13,626 epoch 100 - iter 16/83 - loss 0.00003282 - time (sec): 2.21 - samples/sec: 2525.98 - lr: 0.000037 - momentum: 0.000000
2025-05-05 19:38:14,894 epoch 100 - iter 24/83 - loss 0.00005322 - time (sec): 3.48 - samples/sec: 2482.67 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:15,925 epoch 100 - iter 32/83 - loss 0.00010785 - time (sec): 4.51 - samples/sec: 2524.33 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:16,928 epoch 100 - iter 40/83 - loss 0.00126015 - time (sec): 5.51 - samples/sec: 2491.19 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:17,951 epoch 100 - iter 48/83 - loss 0.00105967 - time (sec): 6.53 - samples/sec: 2499.21 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:19,136 epoch 100 - iter 56/83 - loss 0.00092802 - time (sec): 7.72 - samples/sec: 2484.19 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:20,093 epoch 100 - iter 64/83 - loss 0.00133502 - time (sec): 8.68 - samples/sec: 2536.17 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:21,065 epoch 100 - iter 72/83 - loss 0.00165657 - time (sec): 9.65 - samples/sec: 2563.15 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:22,293 epoch 100 - iter 80/83 - loss 0.00150373 - time (sec): 10.88 - samples/sec: 2506.43 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:22,736 ----------------------------------------------------------------------------------------------------
2025-05-05 19:38:22,737 EPOCH 100 done: loss 0.0015 - lr: 0.000036
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  5.60it/s] 40%|██   | 2/5 [00:00<00:00,  7.02it/s] 60%|███  | 3/5 [00:00<00:00,  8.12it/s] 80%|████ | 4/5 [00:00<00:00,  7.52it/s]100%|█████| 5/5 [00:00<00:00,  8.18it/s]
2025-05-05 19:38:23,367 DEV : loss 0.2994975745677948 - f1-score (micro avg)  0.8696
2025-05-05 19:38:23,371 ----------------------------------------------------------------------------------------------------
2025-05-05 19:38:24,377 epoch 101 - iter 8/83 - loss 0.01746552 - time (sec): 1.01 - samples/sec: 2724.24 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:25,411 epoch 101 - iter 16/83 - loss 0.01195265 - time (sec): 2.04 - samples/sec: 2702.96 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:26,652 epoch 101 - iter 24/83 - loss 0.00789457 - time (sec): 3.28 - samples/sec: 2548.63 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:27,833 epoch 101 - iter 32/83 - loss 0.00714874 - time (sec): 4.46 - samples/sec: 2422.64 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:28,879 epoch 101 - iter 40/83 - loss 0.00574572 - time (sec): 5.51 - samples/sec: 2465.20 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:29,963 epoch 101 - iter 48/83 - loss 0.00474672 - time (sec): 6.59 - samples/sec: 2493.78 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:31,140 epoch 101 - iter 56/83 - loss 0.00493774 - time (sec): 7.77 - samples/sec: 2453.50 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:32,479 epoch 101 - iter 64/83 - loss 0.00456424 - time (sec): 9.11 - samples/sec: 2432.31 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:33,582 epoch 101 - iter 72/83 - loss 0.00439159 - time (sec): 10.21 - samples/sec: 2415.72 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:34,694 epoch 101 - iter 80/83 - loss 0.00397850 - time (sec): 11.32 - samples/sec: 2404.61 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:35,115 ----------------------------------------------------------------------------------------------------
2025-05-05 19:38:35,115 EPOCH 101 done: loss 0.0039 - lr: 0.000036
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  4.87it/s] 40%|██   | 2/5 [00:00<00:00,  5.82it/s] 60%|███  | 3/5 [00:00<00:00,  7.17it/s] 80%|████ | 4/5 [00:00<00:00,  6.98it/s]100%|█████| 5/5 [00:00<00:00,  7.45it/s]
2025-05-05 19:38:35,806 DEV : loss 0.32152631878852844 - f1-score (micro avg)  0.8421
2025-05-05 19:38:35,809 ----------------------------------------------------------------------------------------------------
2025-05-05 19:38:36,986 epoch 102 - iter 8/83 - loss 0.00000303 - time (sec): 1.18 - samples/sec: 1962.92 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:38,293 epoch 102 - iter 16/83 - loss 0.00115808 - time (sec): 2.48 - samples/sec: 1968.58 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:39,594 epoch 102 - iter 24/83 - loss 0.00115941 - time (sec): 3.78 - samples/sec: 1969.38 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:40,706 epoch 102 - iter 32/83 - loss 0.00398622 - time (sec): 4.90 - samples/sec: 2128.68 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:42,015 epoch 102 - iter 40/83 - loss 0.00310051 - time (sec): 6.20 - samples/sec: 2165.16 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:43,156 epoch 102 - iter 48/83 - loss 0.00406427 - time (sec): 7.35 - samples/sec: 2206.73 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:44,466 epoch 102 - iter 56/83 - loss 0.00350751 - time (sec): 8.66 - samples/sec: 2215.65 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:45,788 epoch 102 - iter 64/83 - loss 0.00370466 - time (sec): 9.98 - samples/sec: 2208.49 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:46,942 epoch 102 - iter 72/83 - loss 0.00334482 - time (sec): 11.13 - samples/sec: 2192.60 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:47,998 epoch 102 - iter 80/83 - loss 0.00377983 - time (sec): 12.19 - samples/sec: 2218.21 - lr: 0.000036 - momentum: 0.000000
2025-05-05 19:38:48,361 ----------------------------------------------------------------------------------------------------
2025-05-05 19:38:48,361 EPOCH 102 done: loss 0.0037 - lr: 0.000036
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.09it/s] 40%|██   | 2/5 [00:00<00:00,  8.90it/s] 60%|███  | 3/5 [00:00<00:00,  5.60it/s] 80%|████ | 4/5 [00:00<00:00,  5.96it/s]100%|█████| 5/5 [00:00<00:00,  7.10it/s]
2025-05-05 19:38:49,084 DEV : loss 0.33918651938438416 - f1-score (micro avg)  0.8449
2025-05-05 19:38:49,088 ----------------------------------------------------------------------------------------------------
2025-05-05 19:38:50,269 epoch 103 - iter 8/83 - loss 0.00067519 - time (sec): 1.18 - samples/sec: 2312.60 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:38:51,571 epoch 103 - iter 16/83 - loss 0.00283706 - time (sec): 2.48 - samples/sec: 2466.39 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:38:52,662 epoch 103 - iter 24/83 - loss 0.00195460 - time (sec): 3.57 - samples/sec: 2491.49 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:38:53,695 epoch 103 - iter 32/83 - loss 0.00157246 - time (sec): 4.61 - samples/sec: 2403.62 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:38:54,709 epoch 103 - iter 40/83 - loss 0.00223368 - time (sec): 5.62 - samples/sec: 2452.94 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:38:55,708 epoch 103 - iter 48/83 - loss 0.00185948 - time (sec): 6.62 - samples/sec: 2502.64 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:38:56,788 epoch 103 - iter 56/83 - loss 0.00159273 - time (sec): 7.70 - samples/sec: 2512.48 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:38:57,824 epoch 103 - iter 64/83 - loss 0.00141418 - time (sec): 8.74 - samples/sec: 2494.38 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:38:58,888 epoch 103 - iter 72/83 - loss 0.00125122 - time (sec): 9.80 - samples/sec: 2515.49 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:00,127 epoch 103 - iter 80/83 - loss 0.00113486 - time (sec): 11.04 - samples/sec: 2462.60 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:00,532 ----------------------------------------------------------------------------------------------------
2025-05-05 19:39:00,532 EPOCH 103 done: loss 0.0011 - lr: 0.000035
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.69it/s] 40%|██   | 2/5 [00:00<00:00,  8.63it/s] 60%|███  | 3/5 [00:00<00:00,  8.54it/s] 80%|████ | 4/5 [00:00<00:00,  7.05it/s]100%|█████| 5/5 [00:00<00:00,  8.26it/s]
2025-05-05 19:39:01,156 DEV : loss 0.3474055826663971 - f1-score (micro avg)  0.8716
2025-05-05 19:39:01,160 ----------------------------------------------------------------------------------------------------
2025-05-05 19:39:02,511 epoch 104 - iter 8/83 - loss 0.00310415 - time (sec): 1.35 - samples/sec: 2235.16 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:03,590 epoch 104 - iter 16/83 - loss 0.00165415 - time (sec): 2.43 - samples/sec: 2331.80 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:04,647 epoch 104 - iter 24/83 - loss 0.00117301 - time (sec): 3.49 - samples/sec: 2502.97 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:05,887 epoch 104 - iter 32/83 - loss 0.00289978 - time (sec): 4.73 - samples/sec: 2404.93 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:06,857 epoch 104 - iter 40/83 - loss 0.00237911 - time (sec): 5.70 - samples/sec: 2432.70 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:07,793 epoch 104 - iter 48/83 - loss 0.00201681 - time (sec): 6.63 - samples/sec: 2465.36 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:09,022 epoch 104 - iter 56/83 - loss 0.00175540 - time (sec): 7.86 - samples/sec: 2390.01 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:10,048 epoch 104 - iter 64/83 - loss 0.00154479 - time (sec): 8.89 - samples/sec: 2405.38 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:11,157 epoch 104 - iter 72/83 - loss 0.00305490 - time (sec): 10.00 - samples/sec: 2458.34 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:12,165 epoch 104 - iter 80/83 - loss 0.00278293 - time (sec): 11.00 - samples/sec: 2451.32 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:12,563 ----------------------------------------------------------------------------------------------------
2025-05-05 19:39:12,563 EPOCH 104 done: loss 0.0027 - lr: 0.000035
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.41it/s] 40%|██   | 2/5 [00:00<00:00,  8.36it/s] 60%|███  | 3/5 [00:00<00:00,  8.34it/s] 80%|████ | 4/5 [00:00<00:00,  7.03it/s]100%|█████| 5/5 [00:00<00:00,  8.22it/s]
2025-05-05 19:39:13,191 DEV : loss 0.36275652050971985 - f1-score (micro avg)  0.8591
2025-05-05 19:39:13,195 ----------------------------------------------------------------------------------------------------
2025-05-05 19:39:14,193 epoch 105 - iter 8/83 - loss 0.00000172 - time (sec): 1.00 - samples/sec: 2704.11 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:15,263 epoch 105 - iter 16/83 - loss 0.00000179 - time (sec): 2.07 - samples/sec: 2681.34 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:16,262 epoch 105 - iter 24/83 - loss 0.00182625 - time (sec): 3.07 - samples/sec: 2647.69 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:17,681 epoch 105 - iter 32/83 - loss 0.00154770 - time (sec): 4.48 - samples/sec: 2419.89 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:18,768 epoch 105 - iter 40/83 - loss 0.00181291 - time (sec): 5.57 - samples/sec: 2396.00 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:20,039 epoch 105 - iter 48/83 - loss 0.00264679 - time (sec): 6.84 - samples/sec: 2325.21 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:21,381 epoch 105 - iter 56/83 - loss 0.00244393 - time (sec): 8.18 - samples/sec: 2319.20 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:22,766 epoch 105 - iter 64/83 - loss 0.00295708 - time (sec): 9.57 - samples/sec: 2236.11 - lr: 0.000035 - momentum: 0.000000
2025-05-05 19:39:23,848 epoch 105 - iter 72/83 - loss 0.00395478 - time (sec): 10.65 - samples/sec: 2262.54 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:24,851 epoch 105 - iter 80/83 - loss 0.00351590 - time (sec): 11.65 - samples/sec: 2326.31 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:25,187 ----------------------------------------------------------------------------------------------------
2025-05-05 19:39:25,187 EPOCH 105 done: loss 0.0045 - lr: 0.000034
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.26it/s] 60%|███  | 3/5 [00:00<00:00,  9.60it/s] 80%|████ | 4/5 [00:00<00:00,  8.03it/s]100%|█████| 5/5 [00:00<00:00,  6.57it/s]100%|█████| 5/5 [00:00<00:00,  7.26it/s]
2025-05-05 19:39:25,895 DEV : loss 0.36478671431541443 - f1-score (micro avg)  0.8562
2025-05-05 19:39:25,899 ----------------------------------------------------------------------------------------------------
2025-05-05 19:39:26,983 epoch 106 - iter 8/83 - loss 0.00532506 - time (sec): 1.08 - samples/sec: 2611.97 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:28,203 epoch 106 - iter 16/83 - loss 0.00269793 - time (sec): 2.30 - samples/sec: 2429.64 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:29,697 epoch 106 - iter 24/83 - loss 0.00177747 - time (sec): 3.80 - samples/sec: 2238.02 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:30,832 epoch 106 - iter 32/83 - loss 0.00138675 - time (sec): 4.93 - samples/sec: 2209.87 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:31,852 epoch 106 - iter 40/83 - loss 0.00142417 - time (sec): 5.95 - samples/sec: 2308.48 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:32,961 epoch 106 - iter 48/83 - loss 0.00120779 - time (sec): 7.06 - samples/sec: 2295.04 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:33,998 epoch 106 - iter 56/83 - loss 0.00127648 - time (sec): 8.10 - samples/sec: 2334.54 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:35,008 epoch 106 - iter 64/83 - loss 0.00526165 - time (sec): 9.11 - samples/sec: 2394.13 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:36,211 epoch 106 - iter 72/83 - loss 0.00472509 - time (sec): 10.31 - samples/sec: 2355.24 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:37,435 epoch 106 - iter 80/83 - loss 0.00420220 - time (sec): 11.54 - samples/sec: 2367.32 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:38,056 ----------------------------------------------------------------------------------------------------
2025-05-05 19:39:38,057 EPOCH 106 done: loss 0.0041 - lr: 0.000034
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  9.12it/s] 60%|███  | 3/5 [00:00<00:00,  9.82it/s] 80%|████ | 4/5 [00:00<00:00,  5.71it/s]100%|█████| 5/5 [00:00<00:00,  6.94it/s]
2025-05-05 19:39:38,796 DEV : loss 0.38113152980804443 - f1-score (micro avg)  0.8581
2025-05-05 19:39:38,800 ----------------------------------------------------------------------------------------------------
2025-05-05 19:39:39,930 epoch 107 - iter 8/83 - loss 0.00438703 - time (sec): 1.13 - samples/sec: 2244.43 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:40,930 epoch 107 - iter 16/83 - loss 0.00630908 - time (sec): 2.13 - samples/sec: 2369.29 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:41,972 epoch 107 - iter 24/83 - loss 0.00417876 - time (sec): 3.17 - samples/sec: 2408.52 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:43,005 epoch 107 - iter 32/83 - loss 0.00311832 - time (sec): 4.20 - samples/sec: 2434.92 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:44,006 epoch 107 - iter 40/83 - loss 0.00276856 - time (sec): 5.20 - samples/sec: 2516.82 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:45,070 epoch 107 - iter 48/83 - loss 0.00231762 - time (sec): 6.27 - samples/sec: 2496.18 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:46,095 epoch 107 - iter 56/83 - loss 0.00196347 - time (sec): 7.29 - samples/sec: 2532.81 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:47,200 epoch 107 - iter 64/83 - loss 0.00294470 - time (sec): 8.40 - samples/sec: 2553.94 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:48,403 epoch 107 - iter 72/83 - loss 0.00354050 - time (sec): 9.60 - samples/sec: 2538.68 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:49,659 epoch 107 - iter 80/83 - loss 0.00321539 - time (sec): 10.86 - samples/sec: 2487.71 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:50,082 ----------------------------------------------------------------------------------------------------
2025-05-05 19:39:50,082 EPOCH 107 done: loss 0.0031 - lr: 0.000034
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  5.18it/s] 60%|███  | 3/5 [00:00<00:00,  8.19it/s] 80%|████ | 4/5 [00:00<00:00,  7.61it/s]100%|█████| 5/5 [00:00<00:00,  8.29it/s]
2025-05-05 19:39:50,705 DEV : loss 0.3642842173576355 - f1-score (micro avg)  0.8814
2025-05-05 19:39:50,708 ----------------------------------------------------------------------------------------------------
2025-05-05 19:39:51,767 epoch 108 - iter 8/83 - loss 0.00607195 - time (sec): 1.06 - samples/sec: 2742.67 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:52,813 epoch 108 - iter 16/83 - loss 0.00322439 - time (sec): 2.10 - samples/sec: 2597.19 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:53,906 epoch 108 - iter 24/83 - loss 0.01229316 - time (sec): 3.20 - samples/sec: 2623.80 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:54,953 epoch 108 - iter 32/83 - loss 0.01012777 - time (sec): 4.24 - samples/sec: 2630.04 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:55,860 epoch 108 - iter 40/83 - loss 0.00831101 - time (sec): 5.15 - samples/sec: 2640.36 - lr: 0.000034 - momentum: 0.000000
2025-05-05 19:39:56,933 epoch 108 - iter 48/83 - loss 0.00757492 - time (sec): 6.22 - samples/sec: 2633.06 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:39:57,949 epoch 108 - iter 56/83 - loss 0.00719848 - time (sec): 7.24 - samples/sec: 2633.99 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:39:59,037 epoch 108 - iter 64/83 - loss 0.00645861 - time (sec): 8.33 - samples/sec: 2612.77 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:00,060 epoch 108 - iter 72/83 - loss 0.00581144 - time (sec): 9.35 - samples/sec: 2586.51 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:01,119 epoch 108 - iter 80/83 - loss 0.00519343 - time (sec): 10.41 - samples/sec: 2600.05 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:01,474 ----------------------------------------------------------------------------------------------------
2025-05-05 19:40:01,475 EPOCH 108 done: loss 0.0050 - lr: 0.000033
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.79it/s] 40%|██   | 2/5 [00:00<00:00,  8.55it/s] 60%|███  | 3/5 [00:00<00:00,  6.39it/s] 80%|████ | 4/5 [00:00<00:00,  6.47it/s]100%|█████| 5/5 [00:00<00:00,  7.56it/s]
2025-05-05 19:40:02,156 DEV : loss 0.3429563045501709 - f1-score (micro avg)  0.8638
2025-05-05 19:40:02,159 ----------------------------------------------------------------------------------------------------
2025-05-05 19:40:03,485 epoch 109 - iter 8/83 - loss 0.00203851 - time (sec): 1.32 - samples/sec: 1910.07 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:04,819 epoch 109 - iter 16/83 - loss 0.00100042 - time (sec): 2.66 - samples/sec: 1941.03 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:06,227 epoch 109 - iter 24/83 - loss 0.00068201 - time (sec): 4.07 - samples/sec: 1864.37 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:07,446 epoch 109 - iter 32/83 - loss 0.00051744 - time (sec): 5.29 - samples/sec: 1892.84 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:08,605 epoch 109 - iter 40/83 - loss 0.00069469 - time (sec): 6.44 - samples/sec: 1941.53 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:09,818 epoch 109 - iter 48/83 - loss 0.00148758 - time (sec): 7.66 - samples/sec: 2033.03 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:10,844 epoch 109 - iter 56/83 - loss 0.00128975 - time (sec): 8.68 - samples/sec: 2112.60 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:11,874 epoch 109 - iter 64/83 - loss 0.00113008 - time (sec): 9.71 - samples/sec: 2155.71 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:13,023 epoch 109 - iter 72/83 - loss 0.00098299 - time (sec): 10.86 - samples/sec: 2216.66 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:14,091 epoch 109 - iter 80/83 - loss 0.00088157 - time (sec): 11.93 - samples/sec: 2251.80 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:14,449 ----------------------------------------------------------------------------------------------------
2025-05-05 19:40:14,449 EPOCH 109 done: loss 0.0008 - lr: 0.000033
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.87it/s] 40%|██   | 2/5 [00:00<00:00,  8.87it/s] 60%|███  | 3/5 [00:00<00:00,  8.81it/s] 80%|████ | 4/5 [00:00<00:00,  7.26it/s]100%|█████| 5/5 [00:00<00:00,  8.52it/s]
2025-05-05 19:40:15,056 DEV : loss 0.37521830201148987 - f1-score (micro avg)  0.8754
2025-05-05 19:40:15,059 ----------------------------------------------------------------------------------------------------
2025-05-05 19:40:16,045 epoch 110 - iter 8/83 - loss 0.00000244 - time (sec): 0.98 - samples/sec: 2614.73 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:17,105 epoch 110 - iter 16/83 - loss 0.00544181 - time (sec): 2.04 - samples/sec: 2564.64 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:18,069 epoch 110 - iter 24/83 - loss 0.00377197 - time (sec): 3.01 - samples/sec: 2514.64 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:19,038 epoch 110 - iter 32/83 - loss 0.00715124 - time (sec): 3.98 - samples/sec: 2642.87 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:20,204 epoch 110 - iter 40/83 - loss 0.00559342 - time (sec): 5.14 - samples/sec: 2614.80 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:21,226 epoch 110 - iter 48/83 - loss 0.00470053 - time (sec): 6.17 - samples/sec: 2618.23 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:22,406 epoch 110 - iter 56/83 - loss 0.00468162 - time (sec): 7.35 - samples/sec: 2619.40 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:23,370 epoch 110 - iter 64/83 - loss 0.00416295 - time (sec): 8.31 - samples/sec: 2605.19 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:24,521 epoch 110 - iter 72/83 - loss 0.00408188 - time (sec): 9.46 - samples/sec: 2566.14 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:25,721 epoch 110 - iter 80/83 - loss 0.00365782 - time (sec): 10.66 - samples/sec: 2541.62 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:26,126 ----------------------------------------------------------------------------------------------------
2025-05-05 19:40:26,126 EPOCH 110 done: loss 0.0035 - lr: 0.000033
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.24it/s] 40%|██   | 2/5 [00:00<00:00,  8.06it/s] 60%|███  | 3/5 [00:00<00:00,  8.16it/s] 80%|████ | 4/5 [00:00<00:00,  6.76it/s]100%|█████| 5/5 [00:00<00:00,  7.97it/s]
2025-05-05 19:40:26,773 DEV : loss 0.3884458839893341 - f1-score (micro avg)  0.861
2025-05-05 19:40:26,777 ----------------------------------------------------------------------------------------------------
2025-05-05 19:40:27,784 epoch 111 - iter 8/83 - loss 0.00294160 - time (sec): 1.01 - samples/sec: 2290.46 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:28,976 epoch 111 - iter 16/83 - loss 0.00130076 - time (sec): 2.20 - samples/sec: 2392.59 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:30,012 epoch 111 - iter 24/83 - loss 0.00086277 - time (sec): 3.23 - samples/sec: 2453.07 - lr: 0.000033 - momentum: 0.000000
2025-05-05 19:40:31,244 epoch 111 - iter 32/83 - loss 0.00064366 - time (sec): 4.47 - samples/sec: 2382.54 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:32,464 epoch 111 - iter 40/83 - loss 0.00052093 - time (sec): 5.69 - samples/sec: 2313.42 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:33,631 epoch 111 - iter 48/83 - loss 0.00043831 - time (sec): 6.85 - samples/sec: 2282.36 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:34,962 epoch 111 - iter 56/83 - loss 0.00264393 - time (sec): 8.18 - samples/sec: 2276.64 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:36,218 epoch 111 - iter 64/83 - loss 0.00254475 - time (sec): 9.44 - samples/sec: 2286.00 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:37,372 epoch 111 - iter 72/83 - loss 0.00260216 - time (sec): 10.59 - samples/sec: 2315.97 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:38,408 epoch 111 - iter 80/83 - loss 0.00232753 - time (sec): 11.63 - samples/sec: 2358.62 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:38,747 ----------------------------------------------------------------------------------------------------
2025-05-05 19:40:38,747 EPOCH 111 done: loss 0.0023 - lr: 0.000032
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.86it/s] 40%|██   | 2/5 [00:00<00:00,  8.60it/s] 60%|███  | 3/5 [00:00<00:00,  3.48it/s] 80%|████ | 4/5 [00:00<00:00,  4.30it/s]100%|█████| 5/5 [00:00<00:00,  5.31it/s]
2025-05-05 19:40:39,709 DEV : loss 0.3517269790172577 - f1-score (micro avg)  0.8713
2025-05-05 19:40:39,712 ----------------------------------------------------------------------------------------------------
2025-05-05 19:40:40,771 epoch 112 - iter 8/83 - loss 0.00274853 - time (sec): 1.06 - samples/sec: 2195.92 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:42,023 epoch 112 - iter 16/83 - loss 0.00234278 - time (sec): 2.31 - samples/sec: 2243.17 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:43,343 epoch 112 - iter 24/83 - loss 0.00225311 - time (sec): 3.63 - samples/sec: 2151.00 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:44,654 epoch 112 - iter 32/83 - loss 0.00160739 - time (sec): 4.94 - samples/sec: 2215.82 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:45,644 epoch 112 - iter 40/83 - loss 0.00245356 - time (sec): 5.93 - samples/sec: 2256.17 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:46,741 epoch 112 - iter 48/83 - loss 0.00231376 - time (sec): 7.03 - samples/sec: 2244.85 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:47,836 epoch 112 - iter 56/83 - loss 0.00296258 - time (sec): 8.12 - samples/sec: 2279.36 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:48,930 epoch 112 - iter 64/83 - loss 0.00327385 - time (sec): 9.22 - samples/sec: 2319.99 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:49,953 epoch 112 - iter 72/83 - loss 0.00290753 - time (sec): 10.24 - samples/sec: 2360.66 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:50,983 epoch 112 - iter 80/83 - loss 0.00330045 - time (sec): 11.27 - samples/sec: 2397.07 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:51,368 ----------------------------------------------------------------------------------------------------
2025-05-05 19:40:51,368 EPOCH 112 done: loss 0.0032 - lr: 0.000032
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.03it/s] 40%|██   | 2/5 [00:00<00:00,  6.64it/s] 60%|███  | 3/5 [00:00<00:00,  5.83it/s] 80%|████ | 4/5 [00:00<00:00,  6.10it/s]100%|█████| 5/5 [00:00<00:00,  7.05it/s]
2025-05-05 19:40:52,097 DEV : loss 0.3489724099636078 - f1-score (micro avg)  0.8716
2025-05-05 19:40:52,101 ----------------------------------------------------------------------------------------------------
2025-05-05 19:40:53,292 epoch 113 - iter 8/83 - loss 0.00574355 - time (sec): 1.19 - samples/sec: 2269.08 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:54,586 epoch 113 - iter 16/83 - loss 0.00302698 - time (sec): 2.48 - samples/sec: 2184.67 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:55,603 epoch 113 - iter 24/83 - loss 0.00366172 - time (sec): 3.50 - samples/sec: 2338.20 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:56,603 epoch 113 - iter 32/83 - loss 0.00282873 - time (sec): 4.50 - samples/sec: 2354.48 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:57,571 epoch 113 - iter 40/83 - loss 0.00228065 - time (sec): 5.47 - samples/sec: 2419.91 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:58,593 epoch 113 - iter 48/83 - loss 0.00188344 - time (sec): 6.49 - samples/sec: 2469.56 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:40:59,831 epoch 113 - iter 56/83 - loss 0.00162200 - time (sec): 7.73 - samples/sec: 2409.72 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:41:00,884 epoch 113 - iter 64/83 - loss 0.00256284 - time (sec): 8.78 - samples/sec: 2449.78 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:41:01,878 epoch 113 - iter 72/83 - loss 0.00227463 - time (sec): 9.78 - samples/sec: 2479.76 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:41:02,873 epoch 113 - iter 80/83 - loss 0.00203551 - time (sec): 10.77 - samples/sec: 2515.34 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:41:03,179 ----------------------------------------------------------------------------------------------------
2025-05-05 19:41:03,179 EPOCH 113 done: loss 0.0020 - lr: 0.000032
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  5.34it/s] 40%|██   | 2/5 [00:00<00:00,  6.17it/s] 60%|███  | 3/5 [00:00<00:00,  7.39it/s] 80%|████ | 4/5 [00:00<00:00,  7.08it/s]100%|█████| 5/5 [00:00<00:00,  7.43it/s]
2025-05-05 19:41:03,872 DEV : loss 0.3455878496170044 - f1-score (micro avg)  0.8725
2025-05-05 19:41:03,875 ----------------------------------------------------------------------------------------------------
2025-05-05 19:41:04,966 epoch 114 - iter 8/83 - loss 0.00198775 - time (sec): 1.09 - samples/sec: 2015.55 - lr: 0.000032 - momentum: 0.000000
2025-05-05 19:41:05,964 epoch 114 - iter 16/83 - loss 0.00090434 - time (sec): 2.09 - samples/sec: 2318.62 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:07,068 epoch 114 - iter 24/83 - loss 0.00059504 - time (sec): 3.19 - samples/sec: 2308.03 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:08,283 epoch 114 - iter 32/83 - loss 0.00071354 - time (sec): 4.41 - samples/sec: 2253.17 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:09,637 epoch 114 - iter 40/83 - loss 0.00054596 - time (sec): 5.76 - samples/sec: 2253.67 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:10,933 epoch 114 - iter 48/83 - loss 0.00045392 - time (sec): 7.06 - samples/sec: 2214.87 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:12,352 epoch 114 - iter 56/83 - loss 0.00163672 - time (sec): 8.48 - samples/sec: 2188.06 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:13,677 epoch 114 - iter 64/83 - loss 0.00141048 - time (sec): 9.80 - samples/sec: 2196.38 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:14,830 epoch 114 - iter 72/83 - loss 0.00123719 - time (sec): 10.95 - samples/sec: 2240.90 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:16,068 epoch 114 - iter 80/83 - loss 0.00143271 - time (sec): 12.19 - samples/sec: 2236.55 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:16,478 ----------------------------------------------------------------------------------------------------
2025-05-05 19:41:16,478 EPOCH 114 done: loss 0.0014 - lr: 0.000031
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.31it/s] 60%|███  | 3/5 [00:00<00:00,  8.81it/s] 80%|████ | 4/5 [00:00<00:00,  7.90it/s]100%|█████| 5/5 [00:00<00:00,  8.74it/s]
2025-05-05 19:41:17,070 DEV : loss 0.3516016900539398 - f1-score (micro avg)  0.866
2025-05-05 19:41:17,074 ----------------------------------------------------------------------------------------------------
2025-05-05 19:41:18,186 epoch 115 - iter 8/83 - loss 0.00270865 - time (sec): 1.11 - samples/sec: 2636.11 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:19,326 epoch 115 - iter 16/83 - loss 0.00136082 - time (sec): 2.25 - samples/sec: 2595.66 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:20,359 epoch 115 - iter 24/83 - loss 0.00099127 - time (sec): 3.28 - samples/sec: 2443.49 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:21,258 epoch 115 - iter 32/83 - loss 0.00078328 - time (sec): 4.18 - samples/sec: 2533.77 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:22,442 epoch 115 - iter 40/83 - loss 0.00096507 - time (sec): 5.37 - samples/sec: 2455.44 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:23,863 epoch 115 - iter 48/83 - loss 0.00233930 - time (sec): 6.79 - samples/sec: 2342.64 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:24,929 epoch 115 - iter 56/83 - loss 0.00202618 - time (sec): 7.85 - samples/sec: 2337.73 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:25,995 epoch 115 - iter 64/83 - loss 0.00176168 - time (sec): 8.92 - samples/sec: 2367.53 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:26,998 epoch 115 - iter 72/83 - loss 0.00153540 - time (sec): 9.92 - samples/sec: 2442.34 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:27,974 epoch 115 - iter 80/83 - loss 0.00137825 - time (sec): 10.90 - samples/sec: 2477.74 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:28,342 ----------------------------------------------------------------------------------------------------
2025-05-05 19:41:28,343 EPOCH 115 done: loss 0.0013 - lr: 0.000031
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.99it/s] 40%|██   | 2/5 [00:00<00:00,  8.58it/s] 60%|███  | 3/5 [00:00<00:00,  8.61it/s] 80%|████ | 4/5 [00:00<00:00,  7.22it/s]100%|█████| 5/5 [00:00<00:00,  8.46it/s]
2025-05-05 19:41:28,953 DEV : loss 0.3766397535800934 - f1-score (micro avg)  0.8446
2025-05-05 19:41:28,957 ----------------------------------------------------------------------------------------------------
2025-05-05 19:41:30,206 epoch 116 - iter 8/83 - loss 0.00000214 - time (sec): 1.25 - samples/sec: 2057.88 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:31,381 epoch 116 - iter 16/83 - loss 0.00253818 - time (sec): 2.42 - samples/sec: 2331.09 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:32,504 epoch 116 - iter 24/83 - loss 0.00163304 - time (sec): 3.55 - samples/sec: 2482.91 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:33,531 epoch 116 - iter 32/83 - loss 0.00194976 - time (sec): 4.57 - samples/sec: 2515.34 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:34,539 epoch 116 - iter 40/83 - loss 0.00156579 - time (sec): 5.58 - samples/sec: 2566.89 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:35,532 epoch 116 - iter 48/83 - loss 0.00133460 - time (sec): 6.57 - samples/sec: 2557.77 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:36,790 epoch 116 - iter 56/83 - loss 0.00116157 - time (sec): 7.83 - samples/sec: 2467.29 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:37,892 epoch 116 - iter 64/83 - loss 0.00101299 - time (sec): 8.93 - samples/sec: 2484.16 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:38,870 epoch 116 - iter 72/83 - loss 0.00091158 - time (sec): 9.91 - samples/sec: 2488.86 - lr: 0.000031 - momentum: 0.000000
2025-05-05 19:41:40,152 epoch 116 - iter 80/83 - loss 0.00082760 - time (sec): 11.19 - samples/sec: 2427.68 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:41:40,714 ----------------------------------------------------------------------------------------------------
2025-05-05 19:41:40,715 EPOCH 116 done: loss 0.0008 - lr: 0.000030
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  9.09it/s] 60%|███  | 3/5 [00:00<00:00,  9.85it/s] 80%|████ | 4/5 [00:00<00:00,  5.56it/s]100%|█████| 5/5 [00:00<00:00,  7.13it/s]
2025-05-05 19:41:41,436 DEV : loss 0.42350104451179504 - f1-score (micro avg)  0.8158
2025-05-05 19:41:41,439 ----------------------------------------------------------------------------------------------------
2025-05-05 19:41:42,641 epoch 117 - iter 8/83 - loss 0.00661987 - time (sec): 1.20 - samples/sec: 2374.80 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:41:43,922 epoch 117 - iter 16/83 - loss 0.00349147 - time (sec): 2.48 - samples/sec: 2179.40 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:41:45,246 epoch 117 - iter 24/83 - loss 0.00345900 - time (sec): 3.81 - samples/sec: 2074.51 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:41:46,497 epoch 117 - iter 32/83 - loss 0.00264312 - time (sec): 5.06 - samples/sec: 2047.82 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:41:47,580 epoch 117 - iter 40/83 - loss 0.00207268 - time (sec): 6.14 - samples/sec: 2151.39 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:41:48,567 epoch 117 - iter 48/83 - loss 0.00265132 - time (sec): 7.13 - samples/sec: 2289.61 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:41:49,760 epoch 117 - iter 56/83 - loss 0.00369736 - time (sec): 8.32 - samples/sec: 2326.33 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:41:50,720 epoch 117 - iter 64/83 - loss 0.00359700 - time (sec): 9.28 - samples/sec: 2385.33 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:41:51,904 epoch 117 - iter 72/83 - loss 0.00330923 - time (sec): 10.46 - samples/sec: 2376.77 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:41:52,988 epoch 117 - iter 80/83 - loss 0.00393420 - time (sec): 11.55 - samples/sec: 2372.80 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:41:53,359 ----------------------------------------------------------------------------------------------------
2025-05-05 19:41:53,359 EPOCH 117 done: loss 0.0039 - lr: 0.000030
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  4.56it/s] 40%|██   | 2/5 [00:00<00:00,  5.48it/s] 60%|███  | 3/5 [00:00<00:00,  5.93it/s] 80%|████ | 4/5 [00:00<00:00,  6.12it/s]100%|█████| 5/5 [00:00<00:00,  6.66it/s]
2025-05-05 19:41:54,128 DEV : loss 0.35121220350265503 - f1-score (micro avg)  0.8502
2025-05-05 19:41:54,132 ----------------------------------------------------------------------------------------------------
2025-05-05 19:41:55,220 epoch 118 - iter 8/83 - loss 0.00801568 - time (sec): 1.09 - samples/sec: 2696.54 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:41:56,168 epoch 118 - iter 16/83 - loss 0.00866134 - time (sec): 2.03 - samples/sec: 2590.21 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:41:57,221 epoch 118 - iter 24/83 - loss 0.00555240 - time (sec): 3.09 - samples/sec: 2663.58 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:41:58,228 epoch 118 - iter 32/83 - loss 0.00419997 - time (sec): 4.10 - samples/sec: 2660.05 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:41:59,274 epoch 118 - iter 40/83 - loss 0.00358037 - time (sec): 5.14 - samples/sec: 2633.11 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:42:00,597 epoch 118 - iter 48/83 - loss 0.00314370 - time (sec): 6.46 - samples/sec: 2580.77 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:42:01,813 epoch 118 - iter 56/83 - loss 0.00273395 - time (sec): 7.68 - samples/sec: 2498.13 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:42:02,961 epoch 118 - iter 64/83 - loss 0.00264768 - time (sec): 8.83 - samples/sec: 2476.00 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:42:04,401 epoch 118 - iter 72/83 - loss 0.00302581 - time (sec): 10.27 - samples/sec: 2395.63 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:42:05,523 epoch 118 - iter 80/83 - loss 0.00273910 - time (sec): 11.39 - samples/sec: 2386.08 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:42:05,879 ----------------------------------------------------------------------------------------------------
2025-05-05 19:42:05,879 EPOCH 118 done: loss 0.0027 - lr: 0.000030
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.62it/s] 40%|██   | 2/5 [00:00<00:00,  6.68it/s] 60%|███  | 3/5 [00:00<00:00,  6.12it/s] 80%|████ | 4/5 [00:00<00:00,  5.77it/s]100%|█████| 5/5 [00:00<00:00,  6.80it/s]
2025-05-05 19:42:06,633 DEV : loss 0.37201234698295593 - f1-score (micro avg)  0.8533
2025-05-05 19:42:06,637 ----------------------------------------------------------------------------------------------------
2025-05-05 19:42:07,611 epoch 119 - iter 8/83 - loss 0.00009250 - time (sec): 0.97 - samples/sec: 2622.56 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:42:08,616 epoch 119 - iter 16/83 - loss 0.00205565 - time (sec): 1.98 - samples/sec: 2654.12 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:42:09,610 epoch 119 - iter 24/83 - loss 0.00145111 - time (sec): 2.97 - samples/sec: 2503.26 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:42:10,627 epoch 119 - iter 32/83 - loss 0.00314121 - time (sec): 3.99 - samples/sec: 2477.36 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:42:11,625 epoch 119 - iter 40/83 - loss 0.00255859 - time (sec): 4.99 - samples/sec: 2512.25 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:42:12,825 epoch 119 - iter 48/83 - loss 0.00210060 - time (sec): 6.19 - samples/sec: 2525.22 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:42:14,274 epoch 119 - iter 56/83 - loss 0.00249494 - time (sec): 7.64 - samples/sec: 2440.55 - lr: 0.000030 - momentum: 0.000000
2025-05-05 19:42:15,592 epoch 119 - iter 64/83 - loss 0.00224670 - time (sec): 8.95 - samples/sec: 2419.07 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:16,581 epoch 119 - iter 72/83 - loss 0.00203785 - time (sec): 9.94 - samples/sec: 2401.65 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:17,573 epoch 119 - iter 80/83 - loss 0.00192034 - time (sec): 10.94 - samples/sec: 2478.25 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:17,938 ----------------------------------------------------------------------------------------------------
2025-05-05 19:42:17,938 EPOCH 119 done: loss 0.0019 - lr: 0.000029
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.44it/s] 40%|██   | 2/5 [00:00<00:00,  7.97it/s] 60%|███  | 3/5 [00:00<00:00,  7.82it/s] 80%|████ | 4/5 [00:00<00:00,  6.70it/s]100%|█████| 5/5 [00:00<00:00,  7.87it/s]
2025-05-05 19:42:18,592 DEV : loss 0.40700626373291016 - f1-score (micro avg)  0.8523
2025-05-05 19:42:18,596 ----------------------------------------------------------------------------------------------------
2025-05-05 19:42:19,575 epoch 120 - iter 8/83 - loss 0.00005130 - time (sec): 0.98 - samples/sec: 2637.19 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:20,907 epoch 120 - iter 16/83 - loss 0.00090851 - time (sec): 2.31 - samples/sec: 2406.52 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:22,087 epoch 120 - iter 24/83 - loss 0.00061256 - time (sec): 3.49 - samples/sec: 2377.98 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:23,149 epoch 120 - iter 32/83 - loss 0.00456655 - time (sec): 4.55 - samples/sec: 2464.43 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:24,165 epoch 120 - iter 40/83 - loss 0.00367209 - time (sec): 5.57 - samples/sec: 2505.70 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:25,600 epoch 120 - iter 48/83 - loss 0.00312304 - time (sec): 7.00 - samples/sec: 2394.71 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:26,733 epoch 120 - iter 56/83 - loss 0.00607878 - time (sec): 8.14 - samples/sec: 2405.60 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:27,775 epoch 120 - iter 64/83 - loss 0.00550183 - time (sec): 9.18 - samples/sec: 2397.01 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:28,789 epoch 120 - iter 72/83 - loss 0.00519737 - time (sec): 10.19 - samples/sec: 2424.86 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:29,801 epoch 120 - iter 80/83 - loss 0.00473723 - time (sec): 11.20 - samples/sec: 2420.24 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:30,383 ----------------------------------------------------------------------------------------------------
2025-05-05 19:42:30,383 EPOCH 120 done: loss 0.0048 - lr: 0.000029
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  9.18it/s] 60%|███  | 3/5 [00:00<00:00,  6.06it/s] 80%|████ | 4/5 [00:00<00:00,  6.26it/s]100%|█████| 5/5 [00:00<00:00,  7.20it/s]
2025-05-05 19:42:31,098 DEV : loss 0.44424372911453247 - f1-score (micro avg)  0.8161
2025-05-05 19:42:31,102 ----------------------------------------------------------------------------------------------------
2025-05-05 19:42:32,141 epoch 121 - iter 8/83 - loss 0.00000417 - time (sec): 1.04 - samples/sec: 2665.43 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:33,318 epoch 121 - iter 16/83 - loss 0.00000260 - time (sec): 2.21 - samples/sec: 2539.74 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:34,467 epoch 121 - iter 24/83 - loss 0.00000208 - time (sec): 3.36 - samples/sec: 2605.71 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:35,443 epoch 121 - iter 32/83 - loss 0.00000201 - time (sec): 4.34 - samples/sec: 2637.55 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:36,414 epoch 121 - iter 40/83 - loss 0.00032719 - time (sec): 5.31 - samples/sec: 2615.19 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:37,391 epoch 121 - iter 48/83 - loss 0.00037401 - time (sec): 6.29 - samples/sec: 2702.90 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:38,476 epoch 121 - iter 56/83 - loss 0.00098383 - time (sec): 7.37 - samples/sec: 2663.56 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:39,485 epoch 121 - iter 64/83 - loss 0.00271730 - time (sec): 8.38 - samples/sec: 2665.17 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:40,454 epoch 121 - iter 72/83 - loss 0.00243789 - time (sec): 9.35 - samples/sec: 2663.17 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:41,462 epoch 121 - iter 80/83 - loss 0.00222716 - time (sec): 10.36 - samples/sec: 2631.64 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:41,769 ----------------------------------------------------------------------------------------------------
2025-05-05 19:42:41,769 EPOCH 121 done: loss 0.0026 - lr: 0.000029
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.44it/s] 40%|██   | 2/5 [00:00<00:00,  7.72it/s] 60%|███  | 3/5 [00:00<00:00,  7.62it/s] 80%|████ | 4/5 [00:00<00:00,  6.40it/s]100%|█████| 5/5 [00:00<00:00,  7.60it/s]
2025-05-05 19:42:42,446 DEV : loss 0.39982128143310547 - f1-score (micro avg)  0.8523
2025-05-05 19:42:42,450 ----------------------------------------------------------------------------------------------------
2025-05-05 19:42:43,851 epoch 122 - iter 8/83 - loss 0.00001564 - time (sec): 1.40 - samples/sec: 2075.60 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:44,973 epoch 122 - iter 16/83 - loss 0.00018069 - time (sec): 2.52 - samples/sec: 2247.81 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:45,971 epoch 122 - iter 24/83 - loss 0.00012704 - time (sec): 3.52 - samples/sec: 2308.91 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:47,102 epoch 122 - iter 32/83 - loss 0.00009616 - time (sec): 4.65 - samples/sec: 2314.46 - lr: 0.000029 - momentum: 0.000000
2025-05-05 19:42:48,061 epoch 122 - iter 40/83 - loss 0.00007469 - time (sec): 5.61 - samples/sec: 2477.60 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:42:49,260 epoch 122 - iter 48/83 - loss 0.00006380 - time (sec): 6.81 - samples/sec: 2407.92 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:42:50,736 epoch 122 - iter 56/83 - loss 0.00044901 - time (sec): 8.28 - samples/sec: 2294.43 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:42:51,815 epoch 122 - iter 64/83 - loss 0.00039448 - time (sec): 9.36 - samples/sec: 2311.66 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:42:52,822 epoch 122 - iter 72/83 - loss 0.00036207 - time (sec): 10.37 - samples/sec: 2331.45 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:42:53,874 epoch 122 - iter 80/83 - loss 0.00032349 - time (sec): 11.42 - samples/sec: 2371.62 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:42:54,229 ----------------------------------------------------------------------------------------------------
2025-05-05 19:42:54,229 EPOCH 122 done: loss 0.0003 - lr: 0.000028
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.69it/s] 40%|██   | 2/5 [00:00<00:00,  8.25it/s] 60%|███  | 3/5 [00:00<00:00,  8.32it/s] 80%|████ | 4/5 [00:00<00:00,  7.05it/s]100%|█████| 5/5 [00:00<00:00,  8.21it/s]
2025-05-05 19:42:54,858 DEV : loss 0.40789324045181274 - f1-score (micro avg)  0.8591
2025-05-05 19:42:54,861 ----------------------------------------------------------------------------------------------------
2025-05-05 19:42:56,071 epoch 123 - iter 8/83 - loss 0.00000076 - time (sec): 1.21 - samples/sec: 2451.19 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:42:57,343 epoch 123 - iter 16/83 - loss 0.00000117 - time (sec): 2.48 - samples/sec: 2186.33 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:42:58,668 epoch 123 - iter 24/83 - loss 0.00000127 - time (sec): 3.81 - samples/sec: 2147.39 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:42:59,697 epoch 123 - iter 32/83 - loss 0.00000131 - time (sec): 4.83 - samples/sec: 2287.80 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:00,705 epoch 123 - iter 40/83 - loss 0.00004145 - time (sec): 5.84 - samples/sec: 2348.35 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:01,861 epoch 123 - iter 48/83 - loss 0.00003444 - time (sec): 7.00 - samples/sec: 2374.40 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:02,898 epoch 123 - iter 56/83 - loss 0.00091711 - time (sec): 8.04 - samples/sec: 2380.65 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:03,906 epoch 123 - iter 64/83 - loss 0.00079848 - time (sec): 9.04 - samples/sec: 2429.85 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:05,048 epoch 123 - iter 72/83 - loss 0.00071126 - time (sec): 10.19 - samples/sec: 2428.84 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:05,991 epoch 123 - iter 80/83 - loss 0.00066534 - time (sec): 11.13 - samples/sec: 2428.44 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:06,389 ----------------------------------------------------------------------------------------------------
2025-05-05 19:43:06,389 EPOCH 123 done: loss 0.0006 - lr: 0.000028
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.93it/s] 40%|██   | 2/5 [00:00<00:00,  8.73it/s] 60%|███  | 3/5 [00:00<00:00,  8.65it/s] 80%|████ | 4/5 [00:00<00:00,  7.09it/s]100%|█████| 5/5 [00:00<00:00,  8.38it/s]
2025-05-05 19:43:07,005 DEV : loss 0.40433669090270996 - f1-score (micro avg)  0.8571
2025-05-05 19:43:07,009 ----------------------------------------------------------------------------------------------------
2025-05-05 19:43:07,950 epoch 124 - iter 8/83 - loss 0.00005968 - time (sec): 0.94 - samples/sec: 2703.61 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:09,223 epoch 124 - iter 16/83 - loss 0.00046277 - time (sec): 2.21 - samples/sec: 2405.06 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:10,472 epoch 124 - iter 24/83 - loss 0.00030110 - time (sec): 3.46 - samples/sec: 2367.50 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:11,526 epoch 124 - iter 32/83 - loss 0.00022591 - time (sec): 4.52 - samples/sec: 2439.69 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:12,468 epoch 124 - iter 40/83 - loss 0.00018255 - time (sec): 5.46 - samples/sec: 2500.31 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:13,429 epoch 124 - iter 48/83 - loss 0.00015369 - time (sec): 6.42 - samples/sec: 2527.88 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:14,837 epoch 124 - iter 56/83 - loss 0.00012983 - time (sec): 7.83 - samples/sec: 2458.66 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:15,767 epoch 124 - iter 64/83 - loss 0.00011644 - time (sec): 8.76 - samples/sec: 2471.70 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:16,802 epoch 124 - iter 72/83 - loss 0.00010558 - time (sec): 9.79 - samples/sec: 2498.30 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:17,707 epoch 124 - iter 80/83 - loss 0.00009511 - time (sec): 10.70 - samples/sec: 2543.40 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:18,053 ----------------------------------------------------------------------------------------------------
2025-05-05 19:43:18,053 EPOCH 124 done: loss 0.0001 - lr: 0.000028
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.32it/s] 60%|███  | 3/5 [00:00<00:00,  8.23it/s] 80%|████ | 4/5 [00:00<00:00,  6.92it/s]100%|█████| 5/5 [00:00<00:00,  8.03it/s]
2025-05-05 19:43:18,694 DEV : loss 0.4098369777202606 - f1-score (micro avg)  0.8699
2025-05-05 19:43:18,698 ----------------------------------------------------------------------------------------------------
2025-05-05 19:43:19,687 epoch 125 - iter 8/83 - loss 0.00575034 - time (sec): 0.99 - samples/sec: 2679.10 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:20,901 epoch 125 - iter 16/83 - loss 0.00285152 - time (sec): 2.20 - samples/sec: 2426.18 - lr: 0.000028 - momentum: 0.000000
2025-05-05 19:43:22,178 epoch 125 - iter 24/83 - loss 0.00182775 - time (sec): 3.48 - samples/sec: 2396.08 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:23,302 epoch 125 - iter 32/83 - loss 0.00236729 - time (sec): 4.60 - samples/sec: 2308.11 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:24,336 epoch 125 - iter 40/83 - loss 0.00194105 - time (sec): 5.64 - samples/sec: 2299.71 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:25,295 epoch 125 - iter 48/83 - loss 0.00163031 - time (sec): 6.60 - samples/sec: 2340.13 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:26,354 epoch 125 - iter 56/83 - loss 0.00138646 - time (sec): 7.65 - samples/sec: 2371.41 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:27,716 epoch 125 - iter 64/83 - loss 0.00119969 - time (sec): 9.02 - samples/sec: 2327.05 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:28,884 epoch 125 - iter 72/83 - loss 0.00106405 - time (sec): 10.18 - samples/sec: 2323.27 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:30,089 epoch 125 - iter 80/83 - loss 0.00093052 - time (sec): 11.39 - samples/sec: 2375.88 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:30,483 ----------------------------------------------------------------------------------------------------
2025-05-05 19:43:30,484 EPOCH 125 done: loss 0.0012 - lr: 0.000027
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.83it/s] 40%|██   | 2/5 [00:00<00:00,  8.41it/s] 60%|███  | 3/5 [00:00<00:00,  8.29it/s] 80%|████ | 4/5 [00:00<00:00,  6.88it/s]100%|█████| 5/5 [00:00<00:00,  8.14it/s]
2025-05-05 19:43:31,118 DEV : loss 0.38016682863235474 - f1-score (micro avg)  0.8707
2025-05-05 19:43:31,122 ----------------------------------------------------------------------------------------------------
2025-05-05 19:43:32,122 epoch 126 - iter 8/83 - loss 0.00000082 - time (sec): 1.00 - samples/sec: 2847.07 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:33,218 epoch 126 - iter 16/83 - loss 0.00176246 - time (sec): 2.09 - samples/sec: 2730.39 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:34,232 epoch 126 - iter 24/83 - loss 0.00120022 - time (sec): 3.11 - samples/sec: 2701.68 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:35,368 epoch 126 - iter 32/83 - loss 0.00143287 - time (sec): 4.24 - samples/sec: 2674.41 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:36,591 epoch 126 - iter 40/83 - loss 0.00114188 - time (sec): 5.47 - samples/sec: 2605.70 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:37,736 epoch 126 - iter 48/83 - loss 0.00095252 - time (sec): 6.61 - samples/sec: 2583.09 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:39,077 epoch 126 - iter 56/83 - loss 0.00132105 - time (sec): 7.95 - samples/sec: 2450.40 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:40,071 epoch 126 - iter 64/83 - loss 0.00115581 - time (sec): 8.95 - samples/sec: 2489.90 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:41,025 epoch 126 - iter 72/83 - loss 0.00103593 - time (sec): 9.90 - samples/sec: 2512.03 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:41,903 epoch 126 - iter 80/83 - loss 0.00095625 - time (sec): 10.78 - samples/sec: 2500.30 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:42,287 ----------------------------------------------------------------------------------------------------
2025-05-05 19:43:42,287 EPOCH 126 done: loss 0.0009 - lr: 0.000027
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.90it/s] 40%|██   | 2/5 [00:00<00:00,  8.72it/s] 60%|███  | 3/5 [00:00<00:00,  9.24it/s] 80%|████ | 4/5 [00:00<00:00,  7.43it/s]100%|█████| 5/5 [00:00<00:00,  8.68it/s]
2025-05-05 19:43:42,883 DEV : loss 0.33747154474258423 - f1-score (micro avg)  0.8609
2025-05-05 19:43:42,887 ----------------------------------------------------------------------------------------------------
2025-05-05 19:43:44,103 epoch 127 - iter 8/83 - loss 0.00000537 - time (sec): 1.22 - samples/sec: 1934.39 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:45,479 epoch 127 - iter 16/83 - loss 0.00128170 - time (sec): 2.59 - samples/sec: 2082.91 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:46,445 epoch 127 - iter 24/83 - loss 0.00087308 - time (sec): 3.56 - samples/sec: 2228.91 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:47,502 epoch 127 - iter 32/83 - loss 0.00066464 - time (sec): 4.61 - samples/sec: 2269.51 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:48,512 epoch 127 - iter 40/83 - loss 0.00051957 - time (sec): 5.62 - samples/sec: 2382.74 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:49,611 epoch 127 - iter 48/83 - loss 0.00042399 - time (sec): 6.72 - samples/sec: 2443.46 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:50,785 epoch 127 - iter 56/83 - loss 0.00035967 - time (sec): 7.90 - samples/sec: 2453.58 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:51,832 epoch 127 - iter 64/83 - loss 0.00031853 - time (sec): 8.94 - samples/sec: 2446.95 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:52,828 epoch 127 - iter 72/83 - loss 0.00028807 - time (sec): 9.94 - samples/sec: 2435.46 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:53,961 epoch 127 - iter 80/83 - loss 0.00025811 - time (sec): 11.07 - samples/sec: 2440.98 - lr: 0.000027 - momentum: 0.000000
2025-05-05 19:43:54,314 ----------------------------------------------------------------------------------------------------
2025-05-05 19:43:54,314 EPOCH 127 done: loss 0.0002 - lr: 0.000027
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.78it/s] 40%|██   | 2/5 [00:00<00:00,  8.41it/s] 60%|███  | 3/5 [00:00<00:00,  8.52it/s] 80%|████ | 4/5 [00:00<00:00,  7.02it/s]100%|█████| 5/5 [00:00<00:00,  8.23it/s]
2025-05-05 19:43:54,941 DEV : loss 0.3751556873321533 - f1-score (micro avg)  0.8707
2025-05-05 19:43:54,944 ----------------------------------------------------------------------------------------------------
2025-05-05 19:43:55,978 epoch 128 - iter 8/83 - loss 0.00000114 - time (sec): 1.03 - samples/sec: 2841.72 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:43:57,121 epoch 128 - iter 16/83 - loss 0.00000094 - time (sec): 2.18 - samples/sec: 2672.34 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:43:58,159 epoch 128 - iter 24/83 - loss 0.00000105 - time (sec): 3.21 - samples/sec: 2678.73 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:43:59,208 epoch 128 - iter 32/83 - loss 0.00000106 - time (sec): 4.26 - samples/sec: 2695.06 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:00,277 epoch 128 - iter 40/83 - loss 0.00000109 - time (sec): 5.33 - samples/sec: 2637.70 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:01,414 epoch 128 - iter 48/83 - loss 0.00006083 - time (sec): 6.47 - samples/sec: 2619.62 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:02,656 epoch 128 - iter 56/83 - loss 0.00005297 - time (sec): 7.71 - samples/sec: 2531.13 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:03,874 epoch 128 - iter 64/83 - loss 0.00023179 - time (sec): 8.93 - samples/sec: 2454.77 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:04,850 epoch 128 - iter 72/83 - loss 0.00075686 - time (sec): 9.90 - samples/sec: 2479.95 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:06,087 epoch 128 - iter 80/83 - loss 0.00070957 - time (sec): 11.14 - samples/sec: 2416.92 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:06,756 ----------------------------------------------------------------------------------------------------
2025-05-05 19:44:06,756 EPOCH 128 done: loss 0.0007 - lr: 0.000026
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.87it/s] 40%|██   | 2/5 [00:00<00:00,  7.30it/s] 60%|███  | 3/5 [00:00<00:00,  6.46it/s] 80%|████ | 4/5 [00:00<00:00,  6.19it/s]100%|█████| 5/5 [00:00<00:00,  7.34it/s]
2025-05-05 19:44:07,456 DEV : loss 0.389574259519577 - f1-score (micro avg)  0.8562
2025-05-05 19:44:07,460 ----------------------------------------------------------------------------------------------------
2025-05-05 19:44:08,316 epoch 129 - iter 8/83 - loss 0.00000326 - time (sec): 0.86 - samples/sec: 3235.37 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:09,435 epoch 129 - iter 16/83 - loss 0.00004996 - time (sec): 1.97 - samples/sec: 2495.30 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:10,698 epoch 129 - iter 24/83 - loss 0.00071925 - time (sec): 3.24 - samples/sec: 2546.88 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:11,780 epoch 129 - iter 32/83 - loss 0.00053136 - time (sec): 4.32 - samples/sec: 2585.68 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:12,743 epoch 129 - iter 40/83 - loss 0.00042635 - time (sec): 5.28 - samples/sec: 2635.98 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:13,915 epoch 129 - iter 48/83 - loss 0.00110888 - time (sec): 6.45 - samples/sec: 2590.73 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:15,076 epoch 129 - iter 56/83 - loss 0.00098870 - time (sec): 7.62 - samples/sec: 2462.87 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:16,208 epoch 129 - iter 64/83 - loss 0.00172770 - time (sec): 8.75 - samples/sec: 2453.29 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:17,207 epoch 129 - iter 72/83 - loss 0.00152952 - time (sec): 9.75 - samples/sec: 2487.59 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:18,436 epoch 129 - iter 80/83 - loss 0.00137183 - time (sec): 10.97 - samples/sec: 2463.19 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:18,803 ----------------------------------------------------------------------------------------------------
2025-05-05 19:44:18,803 EPOCH 129 done: loss 0.0013 - lr: 0.000026
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.87it/s] 40%|██   | 2/5 [00:00<00:00,  8.53it/s] 60%|███  | 3/5 [00:00<00:00,  8.53it/s] 80%|████ | 4/5 [00:00<00:00,  7.11it/s]100%|█████| 5/5 [00:00<00:00,  8.35it/s]
2025-05-05 19:44:19,420 DEV : loss 0.3765643537044525 - f1-score (micro avg)  0.8591
2025-05-05 19:44:19,424 ----------------------------------------------------------------------------------------------------
2025-05-05 19:44:20,489 epoch 130 - iter 8/83 - loss 0.00000645 - time (sec): 1.06 - samples/sec: 2489.40 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:21,449 epoch 130 - iter 16/83 - loss 0.00077528 - time (sec): 2.02 - samples/sec: 2615.56 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:22,720 epoch 130 - iter 24/83 - loss 0.00050999 - time (sec): 3.30 - samples/sec: 2446.41 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:23,730 epoch 130 - iter 32/83 - loss 0.00038930 - time (sec): 4.31 - samples/sec: 2454.23 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:24,693 epoch 130 - iter 40/83 - loss 0.00031780 - time (sec): 5.27 - samples/sec: 2460.10 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:25,711 epoch 130 - iter 48/83 - loss 0.00026890 - time (sec): 6.29 - samples/sec: 2448.66 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:26,791 epoch 130 - iter 56/83 - loss 0.00022609 - time (sec): 7.37 - samples/sec: 2486.70 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:27,797 epoch 130 - iter 64/83 - loss 0.00019605 - time (sec): 8.37 - samples/sec: 2525.09 - lr: 0.000026 - momentum: 0.000000
2025-05-05 19:44:29,007 epoch 130 - iter 72/83 - loss 0.00017125 - time (sec): 9.58 - samples/sec: 2527.38 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:30,015 epoch 130 - iter 80/83 - loss 0.00018463 - time (sec): 10.59 - samples/sec: 2569.18 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:30,334 ----------------------------------------------------------------------------------------------------
2025-05-05 19:44:30,334 EPOCH 130 done: loss 0.0002 - lr: 0.000025
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.97it/s] 60%|███  | 3/5 [00:00<00:00,  9.47it/s] 80%|████ | 4/5 [00:00<00:00,  7.68it/s]100%|█████| 5/5 [00:00<00:00,  6.40it/s]100%|█████| 5/5 [00:00<00:00,  7.06it/s]
2025-05-05 19:44:31,061 DEV : loss 0.3708304762840271 - f1-score (micro avg)  0.8552
2025-05-05 19:44:31,065 ----------------------------------------------------------------------------------------------------
2025-05-05 19:44:32,184 epoch 131 - iter 8/83 - loss 0.00000068 - time (sec): 1.12 - samples/sec: 2298.42 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:33,237 epoch 131 - iter 16/83 - loss 0.00436525 - time (sec): 2.17 - samples/sec: 2371.71 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:34,375 epoch 131 - iter 24/83 - loss 0.00303018 - time (sec): 3.31 - samples/sec: 2241.86 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:35,379 epoch 131 - iter 32/83 - loss 0.00220881 - time (sec): 4.31 - samples/sec: 2360.11 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:36,390 epoch 131 - iter 40/83 - loss 0.00173426 - time (sec): 5.32 - samples/sec: 2435.59 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:37,432 epoch 131 - iter 48/83 - loss 0.00155975 - time (sec): 6.37 - samples/sec: 2443.04 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:38,402 epoch 131 - iter 56/83 - loss 0.00136041 - time (sec): 7.34 - samples/sec: 2452.88 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:39,531 epoch 131 - iter 64/83 - loss 0.00118846 - time (sec): 8.46 - samples/sec: 2515.43 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:40,910 epoch 131 - iter 72/83 - loss 0.00103396 - time (sec): 9.84 - samples/sec: 2486.34 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:42,117 epoch 131 - iter 80/83 - loss 0.00093434 - time (sec): 11.05 - samples/sec: 2451.36 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:42,532 ----------------------------------------------------------------------------------------------------
2025-05-05 19:44:42,533 EPOCH 131 done: loss 0.0009 - lr: 0.000025
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:01,  2.24it/s] 60%|███  | 3/5 [00:00<00:00,  5.35it/s] 80%|████ | 4/5 [00:00<00:00,  5.76it/s]100%|█████| 5/5 [00:00<00:00,  5.42it/s]100%|█████| 5/5 [00:00<00:00,  5.03it/s]
2025-05-05 19:44:43,545 DEV : loss 0.412142813205719 - f1-score (micro avg)  0.8467
2025-05-05 19:44:43,549 ----------------------------------------------------------------------------------------------------
2025-05-05 19:44:44,447 epoch 132 - iter 8/83 - loss 0.00000101 - time (sec): 0.90 - samples/sec: 2718.46 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:45,654 epoch 132 - iter 16/83 - loss 0.00042645 - time (sec): 2.10 - samples/sec: 2598.62 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:46,659 epoch 132 - iter 24/83 - loss 0.00027859 - time (sec): 3.11 - samples/sec: 2694.23 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:47,914 epoch 132 - iter 32/83 - loss 0.00021109 - time (sec): 4.36 - samples/sec: 2535.07 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:49,285 epoch 132 - iter 40/83 - loss 0.00016757 - time (sec): 5.74 - samples/sec: 2433.54 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:50,364 epoch 132 - iter 48/83 - loss 0.00078732 - time (sec): 6.81 - samples/sec: 2413.18 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:51,374 epoch 132 - iter 56/83 - loss 0.00067219 - time (sec): 7.82 - samples/sec: 2462.21 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:52,427 epoch 132 - iter 64/83 - loss 0.00059119 - time (sec): 8.88 - samples/sec: 2469.91 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:53,396 epoch 132 - iter 72/83 - loss 0.00053031 - time (sec): 9.85 - samples/sec: 2483.02 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:54,385 epoch 132 - iter 80/83 - loss 0.00047812 - time (sec): 10.84 - samples/sec: 2503.43 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:54,711 ----------------------------------------------------------------------------------------------------
2025-05-05 19:44:54,711 EPOCH 132 done: loss 0.0005 - lr: 0.000025
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.85it/s] 60%|███  | 3/5 [00:00<00:00,  9.27it/s] 80%|████ | 4/5 [00:00<00:00,  7.46it/s]100%|█████| 5/5 [00:00<00:00,  8.60it/s]
2025-05-05 19:44:55,311 DEV : loss 0.43691617250442505 - f1-score (micro avg)  0.8523
2025-05-05 19:44:55,315 ----------------------------------------------------------------------------------------------------
2025-05-05 19:44:56,755 epoch 133 - iter 8/83 - loss 0.00000143 - time (sec): 1.44 - samples/sec: 1838.32 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:57,774 epoch 133 - iter 16/83 - loss 0.00000108 - time (sec): 2.46 - samples/sec: 2142.00 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:58,896 epoch 133 - iter 24/83 - loss 0.00000089 - time (sec): 3.58 - samples/sec: 2269.13 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:44:59,879 epoch 133 - iter 32/83 - loss 0.00000091 - time (sec): 4.56 - samples/sec: 2278.04 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:45:00,950 epoch 133 - iter 40/83 - loss 0.00000099 - time (sec): 5.63 - samples/sec: 2261.60 - lr: 0.000025 - momentum: 0.000000
2025-05-05 19:45:02,037 epoch 133 - iter 48/83 - loss 0.00075934 - time (sec): 6.72 - samples/sec: 2315.91 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:03,422 epoch 133 - iter 56/83 - loss 0.00063816 - time (sec): 8.11 - samples/sec: 2285.26 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:04,688 epoch 133 - iter 64/83 - loss 0.00131469 - time (sec): 9.37 - samples/sec: 2281.55 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:05,746 epoch 133 - iter 72/83 - loss 0.00116758 - time (sec): 10.43 - samples/sec: 2308.70 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:06,737 epoch 133 - iter 80/83 - loss 0.00105155 - time (sec): 11.42 - samples/sec: 2341.30 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:07,199 ----------------------------------------------------------------------------------------------------
2025-05-05 19:45:07,199 EPOCH 133 done: loss 0.0010 - lr: 0.000024
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.08it/s] 40%|██   | 2/5 [00:00<00:00,  7.88it/s] 60%|███  | 3/5 [00:00<00:00,  7.94it/s] 80%|████ | 4/5 [00:00<00:00,  6.78it/s]100%|█████| 5/5 [00:00<00:00,  7.93it/s]
2025-05-05 19:45:07,849 DEV : loss 0.42005446553230286 - f1-score (micro avg)  0.8322
2025-05-05 19:45:07,852 ----------------------------------------------------------------------------------------------------
2025-05-05 19:45:08,807 epoch 134 - iter 8/83 - loss 0.00003865 - time (sec): 0.95 - samples/sec: 3009.07 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:09,890 epoch 134 - iter 16/83 - loss 0.00001985 - time (sec): 2.04 - samples/sec: 2796.78 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:11,039 epoch 134 - iter 24/83 - loss 0.00001381 - time (sec): 3.19 - samples/sec: 2642.80 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:12,165 epoch 134 - iter 32/83 - loss 0.00151363 - time (sec): 4.31 - samples/sec: 2549.80 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:13,341 epoch 134 - iter 40/83 - loss 0.00122041 - time (sec): 5.49 - samples/sec: 2491.89 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:14,468 epoch 134 - iter 48/83 - loss 0.00100681 - time (sec): 6.61 - samples/sec: 2506.34 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:15,383 epoch 134 - iter 56/83 - loss 0.00085948 - time (sec): 7.53 - samples/sec: 2579.74 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:16,570 epoch 134 - iter 64/83 - loss 0.00075836 - time (sec): 8.72 - samples/sec: 2529.11 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:17,456 epoch 134 - iter 72/83 - loss 0.00067895 - time (sec): 9.60 - samples/sec: 2564.88 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:18,471 epoch 134 - iter 80/83 - loss 0.00125915 - time (sec): 10.62 - samples/sec: 2551.77 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:18,873 ----------------------------------------------------------------------------------------------------
2025-05-05 19:45:18,873 EPOCH 134 done: loss 0.0012 - lr: 0.000024
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.29it/s] 40%|██   | 2/5 [00:00<00:00,  8.03it/s] 60%|███  | 3/5 [00:00<00:00,  8.16it/s] 80%|████ | 4/5 [00:00<00:00,  6.81it/s]100%|█████| 5/5 [00:00<00:00,  7.99it/s]
2025-05-05 19:45:19,518 DEV : loss 0.4309312403202057 - f1-score (micro avg)  0.8428
2025-05-05 19:45:19,522 ----------------------------------------------------------------------------------------------------
2025-05-05 19:45:20,430 epoch 135 - iter 8/83 - loss 0.00002128 - time (sec): 0.91 - samples/sec: 2819.46 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:21,390 epoch 135 - iter 16/83 - loss 0.00001271 - time (sec): 1.87 - samples/sec: 2694.94 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:22,593 epoch 135 - iter 24/83 - loss 0.00000839 - time (sec): 3.07 - samples/sec: 2557.96 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:23,621 epoch 135 - iter 32/83 - loss 0.00000639 - time (sec): 4.10 - samples/sec: 2587.19 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:24,799 epoch 135 - iter 40/83 - loss 0.00101522 - time (sec): 5.28 - samples/sec: 2585.44 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:26,088 epoch 135 - iter 48/83 - loss 0.00086075 - time (sec): 6.57 - samples/sec: 2451.22 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:27,378 epoch 135 - iter 56/83 - loss 0.00073123 - time (sec): 7.86 - samples/sec: 2411.94 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:28,638 epoch 135 - iter 64/83 - loss 0.00063387 - time (sec): 9.12 - samples/sec: 2398.08 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:29,610 epoch 135 - iter 72/83 - loss 0.00093740 - time (sec): 10.09 - samples/sec: 2430.93 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:30,548 epoch 135 - iter 80/83 - loss 0.00112792 - time (sec): 11.03 - samples/sec: 2460.50 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:30,899 ----------------------------------------------------------------------------------------------------
2025-05-05 19:45:30,899 EPOCH 135 done: loss 0.0011 - lr: 0.000024
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.03it/s] 40%|██   | 2/5 [00:00<00:00,  8.76it/s] 60%|███  | 3/5 [00:00<00:00,  8.58it/s] 80%|████ | 4/5 [00:00<00:00,  6.81it/s]100%|█████| 5/5 [00:00<00:00,  8.16it/s]
2025-05-05 19:45:31,531 DEV : loss 0.4207685887813568 - f1-score (micro avg)  0.8495
2025-05-05 19:45:31,535 ----------------------------------------------------------------------------------------------------
2025-05-05 19:45:32,561 epoch 136 - iter 8/83 - loss 0.00000072 - time (sec): 1.03 - samples/sec: 2973.45 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:33,621 epoch 136 - iter 16/83 - loss 0.00057561 - time (sec): 2.09 - samples/sec: 2809.83 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:34,809 epoch 136 - iter 24/83 - loss 0.00038915 - time (sec): 3.27 - samples/sec: 2650.85 - lr: 0.000024 - momentum: 0.000000
2025-05-05 19:45:36,135 epoch 136 - iter 32/83 - loss 0.00029875 - time (sec): 4.60 - samples/sec: 2459.38 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:37,545 epoch 136 - iter 40/83 - loss 0.00023859 - time (sec): 6.01 - samples/sec: 2376.76 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:38,626 epoch 136 - iter 48/83 - loss 0.00020200 - time (sec): 7.09 - samples/sec: 2380.86 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:39,640 epoch 136 - iter 56/83 - loss 0.00076430 - time (sec): 8.10 - samples/sec: 2414.11 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:40,658 epoch 136 - iter 64/83 - loss 0.00068007 - time (sec): 9.12 - samples/sec: 2410.40 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:41,661 epoch 136 - iter 72/83 - loss 0.00097914 - time (sec): 10.13 - samples/sec: 2429.51 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:42,659 epoch 136 - iter 80/83 - loss 0.00088551 - time (sec): 11.12 - samples/sec: 2445.51 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:43,027 ----------------------------------------------------------------------------------------------------
2025-05-05 19:45:43,028 EPOCH 136 done: loss 0.0009 - lr: 0.000023
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.66it/s] 60%|███  | 3/5 [00:00<00:00,  9.30it/s] 80%|████ | 4/5 [00:00<00:00,  7.84it/s]100%|█████| 5/5 [00:00<00:00,  8.11it/s]100%|█████| 5/5 [00:00<00:00,  8.20it/s]
2025-05-05 19:45:43,656 DEV : loss 0.42807188630104065 - f1-score (micro avg)  0.8533
2025-05-05 19:45:43,660 ----------------------------------------------------------------------------------------------------
2025-05-05 19:45:44,745 epoch 137 - iter 8/83 - loss 0.00381537 - time (sec): 1.08 - samples/sec: 2336.96 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:45,759 epoch 137 - iter 16/83 - loss 0.00206064 - time (sec): 2.10 - samples/sec: 2245.29 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:46,760 epoch 137 - iter 24/83 - loss 0.00130465 - time (sec): 3.10 - samples/sec: 2402.74 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:47,951 epoch 137 - iter 32/83 - loss 0.00091806 - time (sec): 4.29 - samples/sec: 2467.81 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:49,314 epoch 137 - iter 40/83 - loss 0.00074371 - time (sec): 5.65 - samples/sec: 2312.50 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:50,621 epoch 137 - iter 48/83 - loss 0.00061269 - time (sec): 6.96 - samples/sec: 2279.97 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:51,639 epoch 137 - iter 56/83 - loss 0.00052501 - time (sec): 7.98 - samples/sec: 2321.74 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:52,592 epoch 137 - iter 64/83 - loss 0.00045848 - time (sec): 8.93 - samples/sec: 2375.18 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:53,661 epoch 137 - iter 72/83 - loss 0.00040654 - time (sec): 10.00 - samples/sec: 2403.13 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:54,897 epoch 137 - iter 80/83 - loss 0.00067800 - time (sec): 11.24 - samples/sec: 2416.15 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:55,226 ----------------------------------------------------------------------------------------------------
2025-05-05 19:45:55,226 EPOCH 137 done: loss 0.0007 - lr: 0.000023
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.48it/s] 40%|██   | 2/5 [00:00<00:00,  8.36it/s] 60%|███  | 3/5 [00:00<00:00,  8.36it/s] 80%|████ | 4/5 [00:00<00:00,  5.01it/s]100%|█████| 5/5 [00:00<00:00,  6.65it/s]
2025-05-05 19:45:55,997 DEV : loss 0.42568960785865784 - f1-score (micro avg)  0.835
2025-05-05 19:45:56,001 ----------------------------------------------------------------------------------------------------
2025-05-05 19:45:57,113 epoch 138 - iter 8/83 - loss 0.00000043 - time (sec): 1.11 - samples/sec: 2431.11 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:58,112 epoch 138 - iter 16/83 - loss 0.00041746 - time (sec): 2.11 - samples/sec: 2562.60 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:45:59,330 epoch 138 - iter 24/83 - loss 0.00032466 - time (sec): 3.33 - samples/sec: 2423.56 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:46:00,420 epoch 138 - iter 32/83 - loss 0.00024291 - time (sec): 4.42 - samples/sec: 2441.33 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:46:01,351 epoch 138 - iter 40/83 - loss 0.00019987 - time (sec): 5.35 - samples/sec: 2455.73 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:46:02,293 epoch 138 - iter 48/83 - loss 0.00016679 - time (sec): 6.29 - samples/sec: 2506.23 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:46:03,402 epoch 138 - iter 56/83 - loss 0.00017618 - time (sec): 7.40 - samples/sec: 2492.52 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:46:04,450 epoch 138 - iter 64/83 - loss 0.00015403 - time (sec): 8.45 - samples/sec: 2501.76 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:46:05,759 epoch 138 - iter 72/83 - loss 0.00013363 - time (sec): 9.76 - samples/sec: 2498.39 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:46:06,959 epoch 138 - iter 80/83 - loss 0.00014083 - time (sec): 10.96 - samples/sec: 2502.57 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:46:07,601 ----------------------------------------------------------------------------------------------------
2025-05-05 19:46:07,602 EPOCH 138 done: loss 0.0001 - lr: 0.000023
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  9.11it/s] 60%|███  | 3/5 [00:00<00:00,  9.86it/s] 80%|████ | 4/5 [00:00<00:00,  7.52it/s]100%|█████| 5/5 [00:00<00:00,  8.83it/s]
2025-05-05 19:46:08,187 DEV : loss 0.4316372871398926 - f1-score (micro avg)  0.8658
2025-05-05 19:46:08,190 ----------------------------------------------------------------------------------------------------
2025-05-05 19:46:09,204 epoch 139 - iter 8/83 - loss 0.00000041 - time (sec): 1.01 - samples/sec: 2657.41 - lr: 0.000023 - momentum: 0.000000
2025-05-05 19:46:10,230 epoch 139 - iter 16/83 - loss 0.00000043 - time (sec): 2.04 - samples/sec: 2750.80 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:11,193 epoch 139 - iter 24/83 - loss 0.00214026 - time (sec): 3.00 - samples/sec: 2741.81 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:12,554 epoch 139 - iter 32/83 - loss 0.00162448 - time (sec): 4.36 - samples/sec: 2486.03 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:13,697 epoch 139 - iter 40/83 - loss 0.00131012 - time (sec): 5.51 - samples/sec: 2443.37 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:14,863 epoch 139 - iter 48/83 - loss 0.00107956 - time (sec): 6.67 - samples/sec: 2447.46 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:16,129 epoch 139 - iter 56/83 - loss 0.00173231 - time (sec): 7.94 - samples/sec: 2348.17 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:17,210 epoch 139 - iter 64/83 - loss 0.00152548 - time (sec): 9.02 - samples/sec: 2347.16 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:18,384 epoch 139 - iter 72/83 - loss 0.00134242 - time (sec): 10.19 - samples/sec: 2359.99 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:19,674 epoch 139 - iter 80/83 - loss 0.00250337 - time (sec): 11.48 - samples/sec: 2356.83 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:20,094 ----------------------------------------------------------------------------------------------------
2025-05-05 19:46:20,094 EPOCH 139 done: loss 0.0062 - lr: 0.000022
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.14it/s] 40%|██   | 2/5 [00:00<00:00,  7.64it/s] 60%|███  | 3/5 [00:00<00:00,  7.64it/s] 80%|████ | 4/5 [00:00<00:00,  6.48it/s]100%|█████| 5/5 [00:00<00:00,  7.66it/s]
2025-05-05 19:46:20,765 DEV : loss 0.4172176122665405 - f1-score (micro avg)  0.8687
2025-05-05 19:46:20,769 ----------------------------------------------------------------------------------------------------
2025-05-05 19:46:21,972 epoch 140 - iter 8/83 - loss 0.00000083 - time (sec): 1.20 - samples/sec: 2474.08 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:23,038 epoch 140 - iter 16/83 - loss 0.00000091 - time (sec): 2.27 - samples/sec: 2506.89 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:24,075 epoch 140 - iter 24/83 - loss 0.00000099 - time (sec): 3.30 - samples/sec: 2510.89 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:25,128 epoch 140 - iter 32/83 - loss 0.00000102 - time (sec): 4.36 - samples/sec: 2551.78 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:26,231 epoch 140 - iter 40/83 - loss 0.00000104 - time (sec): 5.46 - samples/sec: 2499.99 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:27,317 epoch 140 - iter 48/83 - loss 0.00000102 - time (sec): 6.55 - samples/sec: 2480.99 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:28,330 epoch 140 - iter 56/83 - loss 0.00000095 - time (sec): 7.56 - samples/sec: 2431.80 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:29,437 epoch 140 - iter 64/83 - loss 0.00083325 - time (sec): 8.67 - samples/sec: 2445.04 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:30,499 epoch 140 - iter 72/83 - loss 0.00072920 - time (sec): 9.73 - samples/sec: 2489.54 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:31,668 epoch 140 - iter 80/83 - loss 0.00073395 - time (sec): 10.90 - samples/sec: 2471.58 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:32,087 ----------------------------------------------------------------------------------------------------
2025-05-05 19:46:32,087 EPOCH 140 done: loss 0.0007 - lr: 0.000022
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  5.88it/s] 40%|██   | 2/5 [00:00<00:00,  6.90it/s] 60%|███  | 3/5 [00:00<00:00,  7.12it/s] 80%|████ | 4/5 [00:00<00:00,  6.06it/s]100%|█████| 5/5 [00:00<00:00,  7.08it/s]
2025-05-05 19:46:32,813 DEV : loss 0.39151647686958313 - f1-score (micro avg)  0.8543
2025-05-05 19:46:32,816 ----------------------------------------------------------------------------------------------------
2025-05-05 19:46:33,770 epoch 141 - iter 8/83 - loss 0.00001174 - time (sec): 0.95 - samples/sec: 2736.01 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:34,720 epoch 141 - iter 16/83 - loss 0.00000657 - time (sec): 1.90 - samples/sec: 2589.74 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:36,031 epoch 141 - iter 24/83 - loss 0.00001112 - time (sec): 3.21 - samples/sec: 2489.02 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:37,078 epoch 141 - iter 32/83 - loss 0.00000887 - time (sec): 4.26 - samples/sec: 2483.99 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:38,316 epoch 141 - iter 40/83 - loss 0.00000717 - time (sec): 5.50 - samples/sec: 2427.90 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:39,480 epoch 141 - iter 48/83 - loss 0.00000618 - time (sec): 6.66 - samples/sec: 2367.68 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:40,503 epoch 141 - iter 56/83 - loss 0.00000534 - time (sec): 7.69 - samples/sec: 2434.46 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:41,825 epoch 141 - iter 64/83 - loss 0.00000527 - time (sec): 9.01 - samples/sec: 2408.13 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:42,771 epoch 141 - iter 72/83 - loss 0.00000482 - time (sec): 9.95 - samples/sec: 2421.46 - lr: 0.000022 - momentum: 0.000000
2025-05-05 19:46:44,051 epoch 141 - iter 80/83 - loss 0.00000873 - time (sec): 11.23 - samples/sec: 2402.11 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:46:44,450 ----------------------------------------------------------------------------------------------------
2025-05-05 19:46:44,450 EPOCH 141 done: loss 0.0000 - lr: 0.000021
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.52it/s] 40%|██   | 2/5 [00:00<00:00,  8.41it/s] 60%|███  | 3/5 [00:00<00:00,  8.18it/s] 80%|████ | 4/5 [00:00<00:00,  6.83it/s]100%|█████| 5/5 [00:00<00:00,  8.06it/s]
2025-05-05 19:46:45,089 DEV : loss 0.44237589836120605 - f1-score (micro avg)  0.8485
2025-05-05 19:46:45,093 ----------------------------------------------------------------------------------------------------
2025-05-05 19:46:46,086 epoch 142 - iter 8/83 - loss 0.00000047 - time (sec): 0.99 - samples/sec: 2523.27 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:46:47,236 epoch 142 - iter 16/83 - loss 0.00000099 - time (sec): 2.14 - samples/sec: 2546.90 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:46:48,270 epoch 142 - iter 24/83 - loss 0.00112457 - time (sec): 3.18 - samples/sec: 2722.29 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:46:49,327 epoch 142 - iter 32/83 - loss 0.00083794 - time (sec): 4.23 - samples/sec: 2742.46 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:46:50,374 epoch 142 - iter 40/83 - loss 0.00067595 - time (sec): 5.28 - samples/sec: 2726.52 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:46:51,361 epoch 142 - iter 48/83 - loss 0.00057420 - time (sec): 6.27 - samples/sec: 2704.51 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:46:52,640 epoch 142 - iter 56/83 - loss 0.00050579 - time (sec): 7.55 - samples/sec: 2553.95 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:46:54,031 epoch 142 - iter 64/83 - loss 0.00045081 - time (sec): 8.94 - samples/sec: 2420.25 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:46:55,009 epoch 142 - iter 72/83 - loss 0.00040106 - time (sec): 9.91 - samples/sec: 2452.85 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:46:56,253 epoch 142 - iter 80/83 - loss 0.00035831 - time (sec): 11.16 - samples/sec: 2441.29 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:46:56,672 ----------------------------------------------------------------------------------------------------
2025-05-05 19:46:56,672 EPOCH 142 done: loss 0.0003 - lr: 0.000021
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.75it/s] 40%|██   | 2/5 [00:00<00:00,  8.40it/s] 60%|███  | 3/5 [00:00<00:00,  8.38it/s] 80%|████ | 4/5 [00:00<00:00,  7.07it/s]100%|█████| 5/5 [00:00<00:00,  8.30it/s]
2025-05-05 19:46:57,293 DEV : loss 0.4591294527053833 - f1-score (micro avg)  0.8428
2025-05-05 19:46:57,297 ----------------------------------------------------------------------------------------------------
2025-05-05 19:46:58,326 epoch 143 - iter 8/83 - loss 0.00000049 - time (sec): 1.03 - samples/sec: 2354.61 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:46:59,230 epoch 143 - iter 16/83 - loss 0.00000055 - time (sec): 1.93 - samples/sec: 2704.31 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:47:00,265 epoch 143 - iter 24/83 - loss 0.00000171 - time (sec): 2.97 - samples/sec: 2511.56 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:47:01,242 epoch 143 - iter 32/83 - loss 0.00000145 - time (sec): 3.94 - samples/sec: 2548.36 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:47:02,488 epoch 143 - iter 40/83 - loss 0.00000126 - time (sec): 5.19 - samples/sec: 2490.78 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:47:03,810 epoch 143 - iter 48/83 - loss 0.00000116 - time (sec): 6.51 - samples/sec: 2452.23 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:47:04,879 epoch 143 - iter 56/83 - loss 0.00000105 - time (sec): 7.58 - samples/sec: 2455.88 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:47:05,940 epoch 143 - iter 64/83 - loss 0.00111246 - time (sec): 8.64 - samples/sec: 2474.25 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:47:07,098 epoch 143 - iter 72/83 - loss 0.00185683 - time (sec): 9.80 - samples/sec: 2481.16 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:47:08,152 epoch 143 - iter 80/83 - loss 0.00167164 - time (sec): 10.85 - samples/sec: 2488.54 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:47:08,506 ----------------------------------------------------------------------------------------------------
2025-05-05 19:47:08,506 EPOCH 143 done: loss 0.0021 - lr: 0.000021
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.34it/s] 40%|██   | 2/5 [00:00<00:00,  8.40it/s] 60%|███  | 3/5 [00:00<00:00,  8.90it/s] 80%|████ | 4/5 [00:00<00:00,  7.75it/s]100%|█████| 5/5 [00:00<00:00,  8.78it/s]
2025-05-05 19:47:09,094 DEV : loss 0.470213919878006 - f1-score (micro avg)  0.8495
2025-05-05 19:47:09,098 ----------------------------------------------------------------------------------------------------
2025-05-05 19:47:10,216 epoch 144 - iter 8/83 - loss 0.00000042 - time (sec): 1.12 - samples/sec: 2445.07 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:47:11,625 epoch 144 - iter 16/83 - loss 0.00000053 - time (sec): 2.53 - samples/sec: 2208.59 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:47:12,680 epoch 144 - iter 24/83 - loss 0.00122728 - time (sec): 3.58 - samples/sec: 2354.89 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:47:13,667 epoch 144 - iter 32/83 - loss 0.00092330 - time (sec): 4.57 - samples/sec: 2454.17 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:47:14,880 epoch 144 - iter 40/83 - loss 0.00074840 - time (sec): 5.78 - samples/sec: 2392.99 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:47:16,210 epoch 144 - iter 48/83 - loss 0.00062500 - time (sec): 7.11 - samples/sec: 2329.75 - lr: 0.000021 - momentum: 0.000000
2025-05-05 19:47:17,333 epoch 144 - iter 56/83 - loss 0.00163271 - time (sec): 8.23 - samples/sec: 2340.85 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:18,302 epoch 144 - iter 64/83 - loss 0.00145597 - time (sec): 9.20 - samples/sec: 2348.75 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:19,303 epoch 144 - iter 72/83 - loss 0.00130560 - time (sec): 10.20 - samples/sec: 2362.67 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:20,415 epoch 144 - iter 80/83 - loss 0.00116750 - time (sec): 11.32 - samples/sec: 2382.66 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:20,787 ----------------------------------------------------------------------------------------------------
2025-05-05 19:47:20,787 EPOCH 144 done: loss 0.0016 - lr: 0.000020
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.81it/s] 40%|██   | 2/5 [00:00<00:00,  8.24it/s] 60%|███  | 3/5 [00:00<00:00,  8.26it/s] 80%|████ | 4/5 [00:00<00:00,  6.85it/s]100%|█████| 5/5 [00:00<00:00,  8.11it/s]
2025-05-05 19:47:21,423 DEV : loss 0.44154056906700134 - f1-score (micro avg)  0.8439
2025-05-05 19:47:21,426 ----------------------------------------------------------------------------------------------------
2025-05-05 19:47:22,464 epoch 145 - iter 8/83 - loss 0.00000299 - time (sec): 1.04 - samples/sec: 2739.43 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:23,746 epoch 145 - iter 16/83 - loss 0.00000201 - time (sec): 2.32 - samples/sec: 2420.30 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:24,790 epoch 145 - iter 24/83 - loss 0.00000191 - time (sec): 3.36 - samples/sec: 2464.88 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:25,727 epoch 145 - iter 32/83 - loss 0.00000160 - time (sec): 4.30 - samples/sec: 2539.37 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:26,727 epoch 145 - iter 40/83 - loss 0.00000164 - time (sec): 5.30 - samples/sec: 2585.89 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:27,693 epoch 145 - iter 48/83 - loss 0.00000152 - time (sec): 6.27 - samples/sec: 2601.52 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:28,882 epoch 145 - iter 56/83 - loss 0.00000280 - time (sec): 7.45 - samples/sec: 2545.70 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:30,364 epoch 145 - iter 64/83 - loss 0.00000253 - time (sec): 8.94 - samples/sec: 2443.25 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:31,514 epoch 145 - iter 72/83 - loss 0.00079518 - time (sec): 10.09 - samples/sec: 2440.18 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:32,891 epoch 145 - iter 80/83 - loss 0.00127955 - time (sec): 11.46 - samples/sec: 2399.04 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:33,244 ----------------------------------------------------------------------------------------------------
2025-05-05 19:47:33,245 EPOCH 145 done: loss 0.0013 - lr: 0.000020
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.79it/s] 40%|██   | 2/5 [00:00<00:00,  8.28it/s] 60%|███  | 3/5 [00:00<00:00,  8.38it/s] 80%|████ | 4/5 [00:00<00:00,  6.98it/s]100%|█████| 5/5 [00:00<00:00,  8.20it/s]
2025-05-05 19:47:33,873 DEV : loss 0.4444078207015991 - f1-score (micro avg)  0.8344
2025-05-05 19:47:33,877 ----------------------------------------------------------------------------------------------------
2025-05-05 19:47:34,768 epoch 146 - iter 8/83 - loss 0.00000645 - time (sec): 0.89 - samples/sec: 2872.42 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:35,981 epoch 146 - iter 16/83 - loss 0.00000394 - time (sec): 2.10 - samples/sec: 2551.39 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:37,200 epoch 146 - iter 24/83 - loss 0.00000291 - time (sec): 3.32 - samples/sec: 2428.45 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:38,471 epoch 146 - iter 32/83 - loss 0.00000245 - time (sec): 4.59 - samples/sec: 2292.26 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:39,613 epoch 146 - iter 40/83 - loss 0.00000201 - time (sec): 5.74 - samples/sec: 2398.23 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:40,793 epoch 146 - iter 48/83 - loss 0.00000182 - time (sec): 6.92 - samples/sec: 2378.36 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:42,001 epoch 146 - iter 56/83 - loss 0.00000169 - time (sec): 8.12 - samples/sec: 2387.36 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:43,165 epoch 146 - iter 64/83 - loss 0.00000158 - time (sec): 9.29 - samples/sec: 2351.97 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:44,308 epoch 146 - iter 72/83 - loss 0.00000151 - time (sec): 10.43 - samples/sec: 2338.15 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:45,541 epoch 146 - iter 80/83 - loss 0.00000154 - time (sec): 11.66 - samples/sec: 2343.13 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:45,847 ----------------------------------------------------------------------------------------------------
2025-05-05 19:47:45,847 EPOCH 146 done: loss 0.0000 - lr: 0.000020
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.87it/s] 40%|██   | 2/5 [00:00<00:00,  8.88it/s] 60%|███  | 3/5 [00:00<00:00,  8.84it/s] 80%|████ | 4/5 [00:00<00:00,  7.36it/s]100%|█████| 5/5 [00:00<00:00,  8.59it/s]
2025-05-05 19:47:46,448 DEV : loss 0.43790143728256226 - f1-score (micro avg)  0.8306
2025-05-05 19:47:46,451 ----------------------------------------------------------------------------------------------------
2025-05-05 19:47:47,511 epoch 147 - iter 8/83 - loss 0.00000131 - time (sec): 1.06 - samples/sec: 2129.23 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:48,579 epoch 147 - iter 16/83 - loss 0.00000083 - time (sec): 2.13 - samples/sec: 2415.94 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:49,744 epoch 147 - iter 24/83 - loss 0.00000079 - time (sec): 3.29 - samples/sec: 2505.10 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:50,755 epoch 147 - iter 32/83 - loss 0.00000077 - time (sec): 4.30 - samples/sec: 2596.35 - lr: 0.000020 - momentum: 0.000000
2025-05-05 19:47:51,947 epoch 147 - iter 40/83 - loss 0.00000331 - time (sec): 5.49 - samples/sec: 2491.13 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:47:52,989 epoch 147 - iter 48/83 - loss 0.00053239 - time (sec): 6.54 - samples/sec: 2504.40 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:47:54,197 epoch 147 - iter 56/83 - loss 0.00046155 - time (sec): 7.74 - samples/sec: 2438.85 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:47:55,546 epoch 147 - iter 64/83 - loss 0.00040654 - time (sec): 9.09 - samples/sec: 2358.42 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:47:56,763 epoch 147 - iter 72/83 - loss 0.00035831 - time (sec): 10.31 - samples/sec: 2360.67 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:47:57,908 epoch 147 - iter 80/83 - loss 0.00032002 - time (sec): 11.46 - samples/sec: 2379.44 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:47:58,223 ----------------------------------------------------------------------------------------------------
2025-05-05 19:47:58,223 EPOCH 147 done: loss 0.0003 - lr: 0.000019
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.96it/s] 40%|██   | 2/5 [00:00<00:00,  8.77it/s] 60%|███  | 3/5 [00:00<00:00,  8.84it/s] 80%|████ | 4/5 [00:00<00:00,  7.42it/s]100%|█████| 5/5 [00:00<00:00,  8.63it/s]
2025-05-05 19:47:58,821 DEV : loss 0.4330054819583893 - f1-score (micro avg)  0.8629
2025-05-05 19:47:58,825 ----------------------------------------------------------------------------------------------------
2025-05-05 19:47:59,754 epoch 148 - iter 8/83 - loss 0.00000058 - time (sec): 0.93 - samples/sec: 2489.05 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:00,750 epoch 148 - iter 16/83 - loss 0.00000076 - time (sec): 1.92 - samples/sec: 2599.04 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:01,795 epoch 148 - iter 24/83 - loss 0.00000099 - time (sec): 2.97 - samples/sec: 2571.77 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:03,173 epoch 148 - iter 32/83 - loss 0.00026038 - time (sec): 4.35 - samples/sec: 2474.66 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:04,225 epoch 148 - iter 40/83 - loss 0.00020959 - time (sec): 5.40 - samples/sec: 2477.13 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:05,418 epoch 148 - iter 48/83 - loss 0.00017388 - time (sec): 6.59 - samples/sec: 2446.89 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:06,397 epoch 148 - iter 56/83 - loss 0.00100118 - time (sec): 7.57 - samples/sec: 2502.88 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:07,510 epoch 148 - iter 64/83 - loss 0.00087384 - time (sec): 8.68 - samples/sec: 2500.52 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:08,869 epoch 148 - iter 72/83 - loss 0.00078124 - time (sec): 10.04 - samples/sec: 2418.55 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:09,928 epoch 148 - iter 80/83 - loss 0.00070022 - time (sec): 11.10 - samples/sec: 2442.60 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:10,308 ----------------------------------------------------------------------------------------------------
2025-05-05 19:48:10,308 EPOCH 148 done: loss 0.0007 - lr: 0.000019
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.62it/s] 60%|███  | 3/5 [00:00<00:00,  7.21it/s] 80%|████ | 4/5 [00:00<00:00,  6.34it/s]100%|█████| 5/5 [00:00<00:00,  7.47it/s]
2025-05-05 19:48:10,997 DEV : loss 0.41767793893814087 - f1-score (micro avg)  0.8658
2025-05-05 19:48:11,001 ----------------------------------------------------------------------------------------------------
2025-05-05 19:48:12,083 epoch 149 - iter 8/83 - loss 0.00000079 - time (sec): 1.08 - samples/sec: 2341.74 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:13,172 epoch 149 - iter 16/83 - loss 0.00000519 - time (sec): 2.17 - samples/sec: 2506.59 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:14,345 epoch 149 - iter 24/83 - loss 0.00000368 - time (sec): 3.34 - samples/sec: 2462.94 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:15,339 epoch 149 - iter 32/83 - loss 0.00000315 - time (sec): 4.34 - samples/sec: 2501.29 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:16,340 epoch 149 - iter 40/83 - loss 0.00001559 - time (sec): 5.34 - samples/sec: 2536.86 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:17,485 epoch 149 - iter 48/83 - loss 0.00001290 - time (sec): 6.48 - samples/sec: 2544.90 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:18,467 epoch 149 - iter 56/83 - loss 0.00072221 - time (sec): 7.46 - samples/sec: 2581.39 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:19,565 epoch 149 - iter 64/83 - loss 0.00063303 - time (sec): 8.56 - samples/sec: 2567.81 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:20,718 epoch 149 - iter 72/83 - loss 0.00056378 - time (sec): 9.72 - samples/sec: 2541.59 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:21,687 epoch 149 - iter 80/83 - loss 0.00051562 - time (sec): 10.69 - samples/sec: 2527.31 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:22,035 ----------------------------------------------------------------------------------------------------
2025-05-05 19:48:22,035 EPOCH 149 done: loss 0.0005 - lr: 0.000019
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.44it/s] 60%|███  | 3/5 [00:00<00:00,  8.71it/s] 80%|████ | 4/5 [00:00<00:00,  7.29it/s]100%|█████| 5/5 [00:00<00:00,  8.38it/s]
2025-05-05 19:48:22,653 DEV : loss 0.4167165458202362 - f1-score (micro avg)  0.863
2025-05-05 19:48:22,657 ----------------------------------------------------------------------------------------------------
2025-05-05 19:48:23,710 epoch 150 - iter 8/83 - loss 0.00000064 - time (sec): 1.05 - samples/sec: 2506.26 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:24,917 epoch 150 - iter 16/83 - loss 0.00000093 - time (sec): 2.26 - samples/sec: 2394.12 - lr: 0.000019 - momentum: 0.000000
2025-05-05 19:48:25,950 epoch 150 - iter 24/83 - loss 0.00000099 - time (sec): 3.29 - samples/sec: 2518.88 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:27,270 epoch 150 - iter 32/83 - loss 0.00000101 - time (sec): 4.61 - samples/sec: 2402.13 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:28,450 epoch 150 - iter 40/83 - loss 0.00000098 - time (sec): 5.79 - samples/sec: 2367.61 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:29,651 epoch 150 - iter 48/83 - loss 0.00000092 - time (sec): 6.99 - samples/sec: 2353.08 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:30,827 epoch 150 - iter 56/83 - loss 0.00000106 - time (sec): 8.17 - samples/sec: 2314.98 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:31,877 epoch 150 - iter 64/83 - loss 0.00000100 - time (sec): 9.22 - samples/sec: 2350.89 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:32,854 epoch 150 - iter 72/83 - loss 0.00000094 - time (sec): 10.20 - samples/sec: 2377.06 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:33,965 epoch 150 - iter 80/83 - loss 0.00000093 - time (sec): 11.31 - samples/sec: 2404.98 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:34,311 ----------------------------------------------------------------------------------------------------
2025-05-05 19:48:34,311 EPOCH 150 done: loss 0.0000 - lr: 0.000018
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.68it/s] 40%|██   | 2/5 [00:00<00:00,  8.61it/s] 60%|███  | 3/5 [00:00<00:00,  8.70it/s] 80%|████ | 4/5 [00:00<00:00,  7.19it/s]100%|█████| 5/5 [00:00<00:00,  8.41it/s]
2025-05-05 19:48:34,924 DEV : loss 0.44279444217681885 - f1-score (micro avg)  0.8485
2025-05-05 19:48:34,928 ----------------------------------------------------------------------------------------------------
2025-05-05 19:48:35,868 epoch 151 - iter 8/83 - loss 0.00000101 - time (sec): 0.94 - samples/sec: 2616.75 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:36,901 epoch 151 - iter 16/83 - loss 0.00000098 - time (sec): 1.97 - samples/sec: 2709.88 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:37,968 epoch 151 - iter 24/83 - loss 0.00000105 - time (sec): 3.04 - samples/sec: 2687.35 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:38,949 epoch 151 - iter 32/83 - loss 0.00000092 - time (sec): 4.02 - samples/sec: 2650.62 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:40,004 epoch 151 - iter 40/83 - loss 0.00000095 - time (sec): 5.08 - samples/sec: 2607.20 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:41,060 epoch 151 - iter 48/83 - loss 0.00000091 - time (sec): 6.13 - samples/sec: 2674.70 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:42,181 epoch 151 - iter 56/83 - loss 0.00000095 - time (sec): 7.25 - samples/sec: 2605.76 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:43,319 epoch 151 - iter 64/83 - loss 0.00000090 - time (sec): 8.39 - samples/sec: 2585.23 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:44,367 epoch 151 - iter 72/83 - loss 0.00001888 - time (sec): 9.44 - samples/sec: 2598.39 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:45,358 epoch 151 - iter 80/83 - loss 0.00001708 - time (sec): 10.43 - samples/sec: 2613.20 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:45,685 ----------------------------------------------------------------------------------------------------
2025-05-05 19:48:45,685 EPOCH 151 done: loss 0.0000 - lr: 0.000018
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.82it/s] 40%|██   | 2/5 [00:00<00:00,  7.40it/s] 60%|███  | 3/5 [00:00<00:00,  7.11it/s] 80%|████ | 4/5 [00:00<00:00,  5.94it/s]100%|█████| 5/5 [00:00<00:00,  7.21it/s]
2025-05-05 19:48:46,399 DEV : loss 0.44037893414497375 - f1-score (micro avg)  0.8514
2025-05-05 19:48:46,402 ----------------------------------------------------------------------------------------------------
2025-05-05 19:48:47,545 epoch 152 - iter 8/83 - loss 0.00000032 - time (sec): 1.14 - samples/sec: 2570.05 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:48,707 epoch 152 - iter 16/83 - loss 0.00000105 - time (sec): 2.30 - samples/sec: 2457.91 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:49,909 epoch 152 - iter 24/83 - loss 0.00000106 - time (sec): 3.51 - samples/sec: 2422.64 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:50,888 epoch 152 - iter 32/83 - loss 0.00000102 - time (sec): 4.48 - samples/sec: 2392.95 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:51,921 epoch 152 - iter 40/83 - loss 0.00000092 - time (sec): 5.52 - samples/sec: 2472.73 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:52,939 epoch 152 - iter 48/83 - loss 0.00000088 - time (sec): 6.54 - samples/sec: 2526.79 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:54,177 epoch 152 - iter 56/83 - loss 0.00000083 - time (sec): 7.77 - samples/sec: 2492.28 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:55,349 epoch 152 - iter 64/83 - loss 0.00000084 - time (sec): 8.95 - samples/sec: 2450.68 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:56,598 epoch 152 - iter 72/83 - loss 0.00000080 - time (sec): 10.20 - samples/sec: 2443.43 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:57,725 epoch 152 - iter 80/83 - loss 0.00000078 - time (sec): 11.32 - samples/sec: 2402.21 - lr: 0.000018 - momentum: 0.000000
2025-05-05 19:48:58,407 ----------------------------------------------------------------------------------------------------
2025-05-05 19:48:58,407 EPOCH 152 done: loss 0.0000 - lr: 0.000018
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.51it/s] 40%|██   | 2/5 [00:00<00:00,  9.31it/s] 60%|███  | 3/5 [00:00<00:00,  8.92it/s] 80%|████ | 4/5 [00:00<00:00,  7.47it/s]100%|█████| 5/5 [00:00<00:00,  6.99it/s]100%|█████| 5/5 [00:00<00:00,  7.55it/s]
2025-05-05 19:48:59,088 DEV : loss 0.45437341928482056 - f1-score (micro avg)  0.8581
2025-05-05 19:48:59,091 ----------------------------------------------------------------------------------------------------
2025-05-05 19:49:00,033 epoch 153 - iter 8/83 - loss 0.00000110 - time (sec): 0.94 - samples/sec: 2964.77 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:01,061 epoch 153 - iter 16/83 - loss 0.00094593 - time (sec): 1.97 - samples/sec: 2729.73 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:02,276 epoch 153 - iter 24/83 - loss 0.00062993 - time (sec): 3.18 - samples/sec: 2538.50 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:03,355 epoch 153 - iter 32/83 - loss 0.00047620 - time (sec): 4.26 - samples/sec: 2508.88 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:04,298 epoch 153 - iter 40/83 - loss 0.00038762 - time (sec): 5.21 - samples/sec: 2526.92 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:05,565 epoch 153 - iter 48/83 - loss 0.00031936 - time (sec): 6.47 - samples/sec: 2467.38 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:06,672 epoch 153 - iter 56/83 - loss 0.00027396 - time (sec): 7.58 - samples/sec: 2456.92 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:07,751 epoch 153 - iter 64/83 - loss 0.00023648 - time (sec): 8.66 - samples/sec: 2492.95 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:08,735 epoch 153 - iter 72/83 - loss 0.00020979 - time (sec): 9.64 - samples/sec: 2524.36 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:09,970 epoch 153 - iter 80/83 - loss 0.00018919 - time (sec): 10.88 - samples/sec: 2482.11 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:10,313 ----------------------------------------------------------------------------------------------------
2025-05-05 19:49:10,313 EPOCH 153 done: loss 0.0002 - lr: 0.000017
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.12it/s] 40%|██   | 2/5 [00:00<00:00,  8.83it/s] 60%|███  | 3/5 [00:00<00:00,  8.55it/s] 80%|████ | 4/5 [00:00<00:00,  7.07it/s]100%|█████| 5/5 [00:00<00:00,  8.36it/s]
2025-05-05 19:49:10,930 DEV : loss 0.42944562435150146 - f1-score (micro avg)  0.8609
2025-05-05 19:49:10,934 ----------------------------------------------------------------------------------------------------
2025-05-05 19:49:11,940 epoch 154 - iter 8/83 - loss 0.00000078 - time (sec): 1.00 - samples/sec: 2734.84 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:13,019 epoch 154 - iter 16/83 - loss 0.00000092 - time (sec): 2.08 - samples/sec: 2708.15 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:14,226 epoch 154 - iter 24/83 - loss 0.00000088 - time (sec): 3.29 - samples/sec: 2623.49 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:15,316 epoch 154 - iter 32/83 - loss 0.00000086 - time (sec): 4.38 - samples/sec: 2533.26 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:16,227 epoch 154 - iter 40/83 - loss 0.00000077 - time (sec): 5.29 - samples/sec: 2615.39 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:17,149 epoch 154 - iter 48/83 - loss 0.00000075 - time (sec): 6.21 - samples/sec: 2640.29 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:18,369 epoch 154 - iter 56/83 - loss 0.00000073 - time (sec): 7.43 - samples/sec: 2572.07 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:19,422 epoch 154 - iter 64/83 - loss 0.00000072 - time (sec): 8.49 - samples/sec: 2619.45 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:20,465 epoch 154 - iter 72/83 - loss 0.00052605 - time (sec): 9.53 - samples/sec: 2619.74 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:21,494 epoch 154 - iter 80/83 - loss 0.00048106 - time (sec): 10.56 - samples/sec: 2585.77 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:21,831 ----------------------------------------------------------------------------------------------------
2025-05-05 19:49:21,831 EPOCH 154 done: loss 0.0005 - lr: 0.000017
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.02it/s] 40%|██   | 2/5 [00:00<00:00,  8.65it/s] 60%|███  | 3/5 [00:00<00:00,  9.03it/s] 80%|████ | 4/5 [00:00<00:00,  7.79it/s]100%|█████| 5/5 [00:00<00:00,  8.91it/s]
2025-05-05 19:49:22,411 DEV : loss 0.41908255219459534 - f1-score (micro avg)  0.8658
2025-05-05 19:49:22,415 ----------------------------------------------------------------------------------------------------
2025-05-05 19:49:23,608 epoch 155 - iter 8/83 - loss 0.00000088 - time (sec): 1.19 - samples/sec: 2232.10 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:24,665 epoch 155 - iter 16/83 - loss 0.00000071 - time (sec): 2.25 - samples/sec: 2463.23 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:25,972 epoch 155 - iter 24/83 - loss 0.00177813 - time (sec): 3.56 - samples/sec: 2211.50 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:27,074 epoch 155 - iter 32/83 - loss 0.00133452 - time (sec): 4.66 - samples/sec: 2249.82 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:28,262 epoch 155 - iter 40/83 - loss 0.00106286 - time (sec): 5.85 - samples/sec: 2290.24 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:29,289 epoch 155 - iter 48/83 - loss 0.00090483 - time (sec): 6.87 - samples/sec: 2308.85 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:30,293 epoch 155 - iter 56/83 - loss 0.00076849 - time (sec): 7.88 - samples/sec: 2372.11 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:31,628 epoch 155 - iter 64/83 - loss 0.00065565 - time (sec): 9.21 - samples/sec: 2377.71 - lr: 0.000017 - momentum: 0.000000
2025-05-05 19:49:32,811 epoch 155 - iter 72/83 - loss 0.00059212 - time (sec): 10.40 - samples/sec: 2333.33 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:33,794 epoch 155 - iter 80/83 - loss 0.00053136 - time (sec): 11.38 - samples/sec: 2375.85 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:34,200 ----------------------------------------------------------------------------------------------------
2025-05-05 19:49:34,200 EPOCH 155 done: loss 0.0005 - lr: 0.000016
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.72it/s] 40%|██   | 2/5 [00:00<00:00,  8.54it/s] 60%|███  | 3/5 [00:00<00:00,  8.39it/s] 80%|████ | 4/5 [00:00<00:00,  6.71it/s]100%|█████| 5/5 [00:00<00:00,  7.98it/s]
2025-05-05 19:49:34,846 DEV : loss 0.42537304759025574 - f1-score (micro avg)  0.8571
2025-05-05 19:49:34,850 ----------------------------------------------------------------------------------------------------
2025-05-05 19:49:35,736 epoch 156 - iter 8/83 - loss 0.00000030 - time (sec): 0.88 - samples/sec: 3100.31 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:36,664 epoch 156 - iter 16/83 - loss 0.00000573 - time (sec): 1.81 - samples/sec: 2880.99 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:37,803 epoch 156 - iter 24/83 - loss 0.00000423 - time (sec): 2.95 - samples/sec: 2582.78 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:38,894 epoch 156 - iter 32/83 - loss 0.00000324 - time (sec): 4.04 - samples/sec: 2603.63 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:40,154 epoch 156 - iter 40/83 - loss 0.00000270 - time (sec): 5.30 - samples/sec: 2547.15 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:41,216 epoch 156 - iter 48/83 - loss 0.00000384 - time (sec): 6.36 - samples/sec: 2587.53 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:42,211 epoch 156 - iter 56/83 - loss 0.00000336 - time (sec): 7.36 - samples/sec: 2588.50 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:43,568 epoch 156 - iter 64/83 - loss 0.00000301 - time (sec): 8.72 - samples/sec: 2487.26 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:44,943 epoch 156 - iter 72/83 - loss 0.00060247 - time (sec): 10.09 - samples/sec: 2403.22 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:46,090 epoch 156 - iter 80/83 - loss 0.00053888 - time (sec): 11.24 - samples/sec: 2413.25 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:46,401 ----------------------------------------------------------------------------------------------------
2025-05-05 19:49:46,401 EPOCH 156 done: loss 0.0005 - lr: 0.000016
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.42it/s] 40%|██   | 2/5 [00:00<00:00,  6.94it/s] 60%|███  | 3/5 [00:00<00:00,  6.83it/s] 80%|████ | 4/5 [00:00<00:00,  5.91it/s]100%|█████| 5/5 [00:00<00:00,  6.99it/s]
2025-05-05 19:49:47,135 DEV : loss 0.3913729190826416 - f1-score (micro avg)  0.8716
2025-05-05 19:49:47,139 ----------------------------------------------------------------------------------------------------
2025-05-05 19:49:48,081 epoch 157 - iter 8/83 - loss 0.00000035 - time (sec): 0.94 - samples/sec: 2954.25 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:49,089 epoch 157 - iter 16/83 - loss 0.00000077 - time (sec): 1.95 - samples/sec: 2756.43 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:50,362 epoch 157 - iter 24/83 - loss 0.00000067 - time (sec): 3.22 - samples/sec: 2489.69 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:51,658 epoch 157 - iter 32/83 - loss 0.00000064 - time (sec): 4.52 - samples/sec: 2406.24 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:52,786 epoch 157 - iter 40/83 - loss 0.00000373 - time (sec): 5.65 - samples/sec: 2397.76 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:54,057 epoch 157 - iter 48/83 - loss 0.00000317 - time (sec): 6.92 - samples/sec: 2374.71 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:55,160 epoch 157 - iter 56/83 - loss 0.00000288 - time (sec): 8.02 - samples/sec: 2360.58 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:56,104 epoch 157 - iter 64/83 - loss 0.00000258 - time (sec): 8.96 - samples/sec: 2396.78 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:57,151 epoch 157 - iter 72/83 - loss 0.00011429 - time (sec): 10.01 - samples/sec: 2442.19 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:58,198 epoch 157 - iter 80/83 - loss 0.00016906 - time (sec): 11.06 - samples/sec: 2474.49 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:49:58,613 ----------------------------------------------------------------------------------------------------
2025-05-05 19:49:58,613 EPOCH 157 done: loss 0.0002 - lr: 0.000016
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  9.21it/s] 60%|███  | 3/5 [00:00<00:00,  9.44it/s] 80%|████ | 4/5 [00:00<00:00,  7.72it/s]100%|█████| 5/5 [00:00<00:00,  8.91it/s]
2025-05-05 19:49:59,193 DEV : loss 0.383119136095047 - f1-score (micro avg)  0.8696
2025-05-05 19:49:59,197 ----------------------------------------------------------------------------------------------------
2025-05-05 19:50:00,339 epoch 158 - iter 8/83 - loss 0.00000033 - time (sec): 1.14 - samples/sec: 2233.17 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:50:01,493 epoch 158 - iter 16/83 - loss 0.00000052 - time (sec): 2.29 - samples/sec: 2125.59 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:50:02,770 epoch 158 - iter 24/83 - loss 0.00000048 - time (sec): 3.57 - samples/sec: 2191.09 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:50:03,745 epoch 158 - iter 32/83 - loss 0.00000079 - time (sec): 4.55 - samples/sec: 2318.11 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:50:04,743 epoch 158 - iter 40/83 - loss 0.00000073 - time (sec): 5.55 - samples/sec: 2397.83 - lr: 0.000016 - momentum: 0.000000
2025-05-05 19:50:05,978 epoch 158 - iter 48/83 - loss 0.00000075 - time (sec): 6.78 - samples/sec: 2355.44 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:07,054 epoch 158 - iter 56/83 - loss 0.00000087 - time (sec): 7.86 - samples/sec: 2358.34 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:08,234 epoch 158 - iter 64/83 - loss 0.00000086 - time (sec): 9.04 - samples/sec: 2407.81 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:09,337 epoch 158 - iter 72/83 - loss 0.00000084 - time (sec): 10.14 - samples/sec: 2441.52 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:10,371 epoch 158 - iter 80/83 - loss 0.00000083 - time (sec): 11.17 - samples/sec: 2432.74 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:10,682 ----------------------------------------------------------------------------------------------------
2025-05-05 19:50:10,682 EPOCH 158 done: loss 0.0000 - lr: 0.000015
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.52it/s] 40%|██   | 2/5 [00:00<00:00,  7.60it/s] 60%|███  | 3/5 [00:00<00:00,  7.36it/s] 80%|████ | 4/5 [00:00<00:00,  6.15it/s]100%|█████| 5/5 [00:00<00:00,  7.40it/s]
2025-05-05 19:50:11,377 DEV : loss 0.3731062710285187 - f1-score (micro avg)  0.8763
2025-05-05 19:50:11,380 ----------------------------------------------------------------------------------------------------
2025-05-05 19:50:12,386 epoch 159 - iter 8/83 - loss 0.00000033 - time (sec): 1.00 - samples/sec: 2593.34 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:13,609 epoch 159 - iter 16/83 - loss 0.00000042 - time (sec): 2.23 - samples/sec: 2418.74 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:14,641 epoch 159 - iter 24/83 - loss 0.00000039 - time (sec): 3.26 - samples/sec: 2444.59 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:15,818 epoch 159 - iter 32/83 - loss 0.00000037 - time (sec): 4.44 - samples/sec: 2401.26 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:16,862 epoch 159 - iter 40/83 - loss 0.00000040 - time (sec): 5.48 - samples/sec: 2477.65 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:17,935 epoch 159 - iter 48/83 - loss 0.00000291 - time (sec): 6.55 - samples/sec: 2467.64 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:19,106 epoch 159 - iter 56/83 - loss 0.00000252 - time (sec): 7.72 - samples/sec: 2477.39 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:20,279 epoch 159 - iter 64/83 - loss 0.00000392 - time (sec): 8.90 - samples/sec: 2466.06 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:21,317 epoch 159 - iter 72/83 - loss 0.00000351 - time (sec): 9.94 - samples/sec: 2494.77 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:22,298 epoch 159 - iter 80/83 - loss 0.00016097 - time (sec): 10.92 - samples/sec: 2507.92 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:22,599 ----------------------------------------------------------------------------------------------------
2025-05-05 19:50:22,599 EPOCH 159 done: loss 0.0002 - lr: 0.000015
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.33it/s] 40%|██   | 2/5 [00:00<00:00,  8.18it/s] 60%|███  | 3/5 [00:00<00:00,  4.35it/s] 80%|████ | 4/5 [00:00<00:00,  5.05it/s]100%|█████| 5/5 [00:00<00:00,  6.08it/s]
2025-05-05 19:50:23,441 DEV : loss 0.3794460594654083 - f1-score (micro avg)  0.8746
2025-05-05 19:50:23,445 ----------------------------------------------------------------------------------------------------
2025-05-05 19:50:24,723 epoch 160 - iter 8/83 - loss 0.00366850 - time (sec): 1.28 - samples/sec: 2010.46 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:25,881 epoch 160 - iter 16/83 - loss 0.00167971 - time (sec): 2.44 - samples/sec: 2302.64 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:26,863 epoch 160 - iter 24/83 - loss 0.00204573 - time (sec): 3.42 - samples/sec: 2491.50 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:28,124 epoch 160 - iter 32/83 - loss 0.00154243 - time (sec): 4.68 - samples/sec: 2414.16 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:29,149 epoch 160 - iter 40/83 - loss 0.00197685 - time (sec): 5.70 - samples/sec: 2464.99 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:30,237 epoch 160 - iter 48/83 - loss 0.00169894 - time (sec): 6.79 - samples/sec: 2409.21 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:31,314 epoch 160 - iter 56/83 - loss 0.00148470 - time (sec): 7.87 - samples/sec: 2379.65 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:32,570 epoch 160 - iter 64/83 - loss 0.00127102 - time (sec): 9.12 - samples/sec: 2397.01 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:34,004 epoch 160 - iter 72/83 - loss 0.00157521 - time (sec): 10.56 - samples/sec: 2342.59 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:35,073 epoch 160 - iter 80/83 - loss 0.00143820 - time (sec): 11.63 - samples/sec: 2330.03 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:35,395 ----------------------------------------------------------------------------------------------------
2025-05-05 19:50:35,395 EPOCH 160 done: loss 0.0014 - lr: 0.000015
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:01,  3.87it/s] 40%|██   | 2/5 [00:00<00:00,  4.96it/s] 60%|███  | 3/5 [00:00<00:00,  6.42it/s] 80%|████ | 4/5 [00:00<00:00,  6.52it/s]100%|█████| 5/5 [00:00<00:00,  6.75it/s]
2025-05-05 19:50:36,156 DEV : loss 0.3794457018375397 - f1-score (micro avg)  0.86
2025-05-05 19:50:36,160 ----------------------------------------------------------------------------------------------------
2025-05-05 19:50:37,229 epoch 161 - iter 8/83 - loss 0.00000041 - time (sec): 1.07 - samples/sec: 2271.01 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:38,245 epoch 161 - iter 16/83 - loss 0.00279488 - time (sec): 2.08 - samples/sec: 2302.54 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:39,477 epoch 161 - iter 24/83 - loss 0.00213192 - time (sec): 3.32 - samples/sec: 2401.88 - lr: 0.000015 - momentum: 0.000000
2025-05-05 19:50:40,507 epoch 161 - iter 32/83 - loss 0.00160001 - time (sec): 4.35 - samples/sec: 2483.39 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:41,491 epoch 161 - iter 40/83 - loss 0.00128641 - time (sec): 5.33 - samples/sec: 2519.26 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:42,530 epoch 161 - iter 48/83 - loss 0.00236217 - time (sec): 6.37 - samples/sec: 2543.23 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:43,496 epoch 161 - iter 56/83 - loss 0.00204398 - time (sec): 7.33 - samples/sec: 2552.16 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:44,538 epoch 161 - iter 64/83 - loss 0.00181446 - time (sec): 8.38 - samples/sec: 2517.54 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:45,508 epoch 161 - iter 72/83 - loss 0.00158092 - time (sec): 9.35 - samples/sec: 2589.69 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:46,560 epoch 161 - iter 80/83 - loss 0.00205499 - time (sec): 10.40 - samples/sec: 2606.71 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:46,891 ----------------------------------------------------------------------------------------------------
2025-05-05 19:50:46,891 EPOCH 161 done: loss 0.0020 - lr: 0.000014
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.00it/s] 40%|██   | 2/5 [00:00<00:00,  4.96it/s] 60%|███  | 3/5 [00:00<00:00,  6.41it/s] 80%|████ | 4/5 [00:00<00:00,  6.51it/s]100%|█████| 5/5 [00:00<00:00,  7.15it/s]
2025-05-05 19:50:47,609 DEV : loss 0.34061241149902344 - f1-score (micro avg)  0.8667
2025-05-05 19:50:47,613 ----------------------------------------------------------------------------------------------------
2025-05-05 19:50:48,725 epoch 162 - iter 8/83 - loss 0.00000091 - time (sec): 1.11 - samples/sec: 2543.04 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:49,733 epoch 162 - iter 16/83 - loss 0.00000076 - time (sec): 2.12 - samples/sec: 2699.26 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:50,737 epoch 162 - iter 24/83 - loss 0.00002241 - time (sec): 3.12 - samples/sec: 2705.57 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:51,703 epoch 162 - iter 32/83 - loss 0.00052542 - time (sec): 4.09 - samples/sec: 2659.67 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:52,801 epoch 162 - iter 40/83 - loss 0.00107468 - time (sec): 5.19 - samples/sec: 2707.96 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:54,024 epoch 162 - iter 48/83 - loss 0.00090756 - time (sec): 6.41 - samples/sec: 2595.06 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:54,962 epoch 162 - iter 56/83 - loss 0.00077601 - time (sec): 7.35 - samples/sec: 2647.55 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:56,214 epoch 162 - iter 64/83 - loss 0.00068525 - time (sec): 8.60 - samples/sec: 2585.69 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:57,083 epoch 162 - iter 72/83 - loss 0.00099477 - time (sec): 9.47 - samples/sec: 2614.55 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:58,275 epoch 162 - iter 80/83 - loss 0.00128425 - time (sec): 10.66 - samples/sec: 2539.56 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:50:58,642 ----------------------------------------------------------------------------------------------------
2025-05-05 19:50:58,643 EPOCH 162 done: loss 0.0012 - lr: 0.000014
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.90it/s] 60%|███  | 3/5 [00:00<00:00,  9.50it/s] 80%|████ | 4/5 [00:00<00:00,  7.60it/s]100%|█████| 5/5 [00:00<00:00,  6.37it/s]100%|█████| 5/5 [00:00<00:00,  7.07it/s]
2025-05-05 19:50:59,369 DEV : loss 0.4179626703262329 - f1-score (micro avg)  0.8581
2025-05-05 19:50:59,373 ----------------------------------------------------------------------------------------------------
2025-05-05 19:51:00,444 epoch 163 - iter 8/83 - loss 0.00054407 - time (sec): 1.07 - samples/sec: 2569.06 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:51:01,667 epoch 163 - iter 16/83 - loss 0.00026725 - time (sec): 2.29 - samples/sec: 2441.11 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:51:02,713 epoch 163 - iter 24/83 - loss 0.00019389 - time (sec): 3.34 - samples/sec: 2485.55 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:51:04,210 epoch 163 - iter 32/83 - loss 0.00014392 - time (sec): 4.84 - samples/sec: 2317.87 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:51:05,457 epoch 163 - iter 40/83 - loss 0.00109815 - time (sec): 6.08 - samples/sec: 2296.35 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:51:06,722 epoch 163 - iter 48/83 - loss 0.00154160 - time (sec): 7.35 - samples/sec: 2304.96 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:51:07,680 epoch 163 - iter 56/83 - loss 0.00134560 - time (sec): 8.31 - samples/sec: 2336.07 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:51:08,844 epoch 163 - iter 64/83 - loss 0.00119859 - time (sec): 9.47 - samples/sec: 2300.49 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:51:09,914 epoch 163 - iter 72/83 - loss 0.00107094 - time (sec): 10.54 - samples/sec: 2313.38 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:51:10,862 epoch 163 - iter 80/83 - loss 0.00124909 - time (sec): 11.49 - samples/sec: 2358.50 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:51:11,302 ----------------------------------------------------------------------------------------------------
2025-05-05 19:51:11,302 EPOCH 163 done: loss 0.0012 - lr: 0.000014
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.05it/s] 40%|██   | 2/5 [00:00<00:00,  7.81it/s] 60%|███  | 3/5 [00:00<00:00,  8.06it/s] 80%|████ | 4/5 [00:00<00:00,  6.67it/s]100%|█████| 5/5 [00:00<00:00,  7.84it/s]
2025-05-05 19:51:11,960 DEV : loss 0.4128303527832031 - f1-score (micro avg)  0.8493
2025-05-05 19:51:11,964 ----------------------------------------------------------------------------------------------------
2025-05-05 19:51:12,854 epoch 164 - iter 8/83 - loss 0.00000116 - time (sec): 0.89 - samples/sec: 2959.04 - lr: 0.000014 - momentum: 0.000000
2025-05-05 19:51:14,042 epoch 164 - iter 16/83 - loss 0.00000842 - time (sec): 2.08 - samples/sec: 2641.55 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:15,207 epoch 164 - iter 24/83 - loss 0.00527269 - time (sec): 3.24 - samples/sec: 2564.98 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:16,493 epoch 164 - iter 32/83 - loss 0.00390829 - time (sec): 4.53 - samples/sec: 2478.19 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:17,565 epoch 164 - iter 40/83 - loss 0.00321787 - time (sec): 5.60 - samples/sec: 2433.50 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:18,596 epoch 164 - iter 48/83 - loss 0.00268490 - time (sec): 6.63 - samples/sec: 2463.28 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:19,577 epoch 164 - iter 56/83 - loss 0.00230554 - time (sec): 7.61 - samples/sec: 2499.56 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:20,497 epoch 164 - iter 64/83 - loss 0.00244082 - time (sec): 8.53 - samples/sec: 2541.41 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:21,502 epoch 164 - iter 72/83 - loss 0.00220761 - time (sec): 9.54 - samples/sec: 2513.67 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:22,621 epoch 164 - iter 80/83 - loss 0.00195595 - time (sec): 10.66 - samples/sec: 2539.44 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:23,208 ----------------------------------------------------------------------------------------------------
2025-05-05 19:51:23,208 EPOCH 164 done: loss 0.0019 - lr: 0.000013
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  9.22it/s] 60%|███  | 3/5 [00:00<00:00,  9.98it/s] 80%|████ | 4/5 [00:00<00:00,  7.80it/s]100%|█████| 5/5 [00:00<00:00,  8.74it/s]
2025-05-05 19:51:23,799 DEV : loss 0.43267032504081726 - f1-score (micro avg)  0.8552
2025-05-05 19:51:23,803 ----------------------------------------------------------------------------------------------------
2025-05-05 19:51:25,093 epoch 165 - iter 8/83 - loss 0.00000086 - time (sec): 1.29 - samples/sec: 2174.89 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:26,188 epoch 165 - iter 16/83 - loss 0.00000593 - time (sec): 2.38 - samples/sec: 2383.65 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:27,421 epoch 165 - iter 24/83 - loss 0.00000429 - time (sec): 3.62 - samples/sec: 2239.43 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:28,396 epoch 165 - iter 32/83 - loss 0.00010567 - time (sec): 4.59 - samples/sec: 2295.35 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:29,390 epoch 165 - iter 40/83 - loss 0.00008671 - time (sec): 5.59 - samples/sec: 2302.37 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:30,337 epoch 165 - iter 48/83 - loss 0.00007233 - time (sec): 6.53 - samples/sec: 2364.21 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:31,522 epoch 165 - iter 56/83 - loss 0.00006020 - time (sec): 7.72 - samples/sec: 2406.67 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:32,470 epoch 165 - iter 64/83 - loss 0.00005289 - time (sec): 8.67 - samples/sec: 2441.67 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:33,542 epoch 165 - iter 72/83 - loss 0.00004677 - time (sec): 9.74 - samples/sec: 2460.50 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:34,675 epoch 165 - iter 80/83 - loss 0.00004140 - time (sec): 10.87 - samples/sec: 2492.63 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:35,024 ----------------------------------------------------------------------------------------------------
2025-05-05 19:51:35,025 EPOCH 165 done: loss 0.0000 - lr: 0.000013
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.16it/s] 40%|██   | 2/5 [00:00<00:00,  9.02it/s] 60%|███  | 3/5 [00:00<00:00,  9.04it/s] 80%|████ | 4/5 [00:00<00:00,  5.09it/s]100%|█████| 5/5 [00:00<00:00,  6.84it/s]
2025-05-05 19:51:35,775 DEV : loss 0.41507869958877563 - f1-score (micro avg)  0.8562
2025-05-05 19:51:35,778 ----------------------------------------------------------------------------------------------------
2025-05-05 19:51:37,179 epoch 166 - iter 8/83 - loss 0.00000056 - time (sec): 1.40 - samples/sec: 1883.23 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:38,207 epoch 166 - iter 16/83 - loss 0.00000053 - time (sec): 2.43 - samples/sec: 2235.84 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:39,383 epoch 166 - iter 24/83 - loss 0.00000059 - time (sec): 3.60 - samples/sec: 2266.84 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:40,525 epoch 166 - iter 32/83 - loss 0.00000055 - time (sec): 4.75 - samples/sec: 2257.82 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:41,618 epoch 166 - iter 40/83 - loss 0.00000054 - time (sec): 5.84 - samples/sec: 2282.81 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:42,682 epoch 166 - iter 48/83 - loss 0.00000055 - time (sec): 6.90 - samples/sec: 2339.05 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:43,991 epoch 166 - iter 56/83 - loss 0.00000056 - time (sec): 8.21 - samples/sec: 2268.32 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:45,330 epoch 166 - iter 64/83 - loss 0.00000057 - time (sec): 9.55 - samples/sec: 2261.63 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:46,595 epoch 166 - iter 72/83 - loss 0.00000061 - time (sec): 10.82 - samples/sec: 2262.95 - lr: 0.000013 - momentum: 0.000000
2025-05-05 19:51:47,821 epoch 166 - iter 80/83 - loss 0.00000059 - time (sec): 12.04 - samples/sec: 2239.17 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:51:48,228 ----------------------------------------------------------------------------------------------------
2025-05-05 19:51:48,228 EPOCH 166 done: loss 0.0000 - lr: 0.000012
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.74it/s] 40%|██   | 2/5 [00:00<00:00,  8.57it/s] 60%|███  | 3/5 [00:00<00:00,  8.65it/s] 80%|████ | 4/5 [00:00<00:00,  7.15it/s]100%|█████| 5/5 [00:00<00:00,  8.39it/s]
2025-05-05 19:51:48,843 DEV : loss 0.42338991165161133 - f1-score (micro avg)  0.862
2025-05-05 19:51:48,847 ----------------------------------------------------------------------------------------------------
2025-05-05 19:51:49,746 epoch 167 - iter 8/83 - loss 0.00000061 - time (sec): 0.90 - samples/sec: 3137.51 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:51:50,916 epoch 167 - iter 16/83 - loss 0.00000046 - time (sec): 2.07 - samples/sec: 2414.90 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:51:51,960 epoch 167 - iter 24/83 - loss 0.00000049 - time (sec): 3.11 - samples/sec: 2540.90 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:51:52,961 epoch 167 - iter 32/83 - loss 0.00000050 - time (sec): 4.11 - samples/sec: 2485.48 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:51:54,333 epoch 167 - iter 40/83 - loss 0.00005182 - time (sec): 5.49 - samples/sec: 2375.95 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:51:55,345 epoch 167 - iter 48/83 - loss 0.00004293 - time (sec): 6.50 - samples/sec: 2429.30 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:51:56,336 epoch 167 - iter 56/83 - loss 0.00003700 - time (sec): 7.49 - samples/sec: 2457.49 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:51:57,465 epoch 167 - iter 64/83 - loss 0.00003159 - time (sec): 8.62 - samples/sec: 2505.97 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:51:58,534 epoch 167 - iter 72/83 - loss 0.00002772 - time (sec): 9.69 - samples/sec: 2545.01 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:51:59,455 epoch 167 - iter 80/83 - loss 0.00002524 - time (sec): 10.61 - samples/sec: 2555.79 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:51:59,844 ----------------------------------------------------------------------------------------------------
2025-05-05 19:51:59,845 EPOCH 167 done: loss 0.0000 - lr: 0.000012
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.65it/s] 40%|██   | 2/5 [00:00<00:00,  8.23it/s] 60%|███  | 3/5 [00:00<00:00,  8.11it/s] 80%|████ | 4/5 [00:00<00:00,  6.89it/s]100%|█████| 5/5 [00:00<00:00,  8.10it/s]
2025-05-05 19:52:00,481 DEV : loss 0.41865962743759155 - f1-score (micro avg)  0.8581
2025-05-05 19:52:00,485 ----------------------------------------------------------------------------------------------------
2025-05-05 19:52:01,414 epoch 168 - iter 8/83 - loss 0.00195918 - time (sec): 0.93 - samples/sec: 2800.08 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:52:02,418 epoch 168 - iter 16/83 - loss 0.00094179 - time (sec): 1.93 - samples/sec: 2798.29 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:52:03,477 epoch 168 - iter 24/83 - loss 0.00065054 - time (sec): 2.99 - samples/sec: 2617.20 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:52:04,616 epoch 168 - iter 32/83 - loss 0.00047899 - time (sec): 4.13 - samples/sec: 2574.57 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:52:05,914 epoch 168 - iter 40/83 - loss 0.00038265 - time (sec): 5.43 - samples/sec: 2452.88 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:52:06,868 epoch 168 - iter 48/83 - loss 0.00105051 - time (sec): 6.38 - samples/sec: 2517.87 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:52:07,924 epoch 168 - iter 56/83 - loss 0.00089380 - time (sec): 7.44 - samples/sec: 2539.37 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:52:09,050 epoch 168 - iter 64/83 - loss 0.00077201 - time (sec): 8.56 - samples/sec: 2561.46 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:52:10,156 epoch 168 - iter 72/83 - loss 0.00069076 - time (sec): 9.67 - samples/sec: 2535.77 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:52:11,150 epoch 168 - iter 80/83 - loss 0.00062154 - time (sec): 10.66 - samples/sec: 2555.84 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:52:11,624 ----------------------------------------------------------------------------------------------------
2025-05-05 19:52:11,624 EPOCH 168 done: loss 0.0006 - lr: 0.000012
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  9.06it/s] 60%|███  | 3/5 [00:00<00:00,  9.77it/s] 80%|████ | 4/5 [00:00<00:00,  7.91it/s]100%|█████| 5/5 [00:00<00:00,  9.08it/s]
2025-05-05 19:52:12,194 DEV : loss 0.4314926862716675 - f1-score (micro avg)  0.8514
2025-05-05 19:52:12,197 ----------------------------------------------------------------------------------------------------
2025-05-05 19:52:13,232 epoch 169 - iter 8/83 - loss 0.00000045 - time (sec): 1.03 - samples/sec: 2357.01 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:52:14,397 epoch 169 - iter 16/83 - loss 0.00000060 - time (sec): 2.20 - samples/sec: 2475.73 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:52:15,527 epoch 169 - iter 24/83 - loss 0.00000064 - time (sec): 3.33 - samples/sec: 2381.35 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:52:16,587 epoch 169 - iter 32/83 - loss 0.00000073 - time (sec): 4.39 - samples/sec: 2507.70 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:52:17,823 epoch 169 - iter 40/83 - loss 0.00000064 - time (sec): 5.62 - samples/sec: 2450.53 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:52:18,915 epoch 169 - iter 48/83 - loss 0.00000062 - time (sec): 6.72 - samples/sec: 2488.73 - lr: 0.000012 - momentum: 0.000000
2025-05-05 19:52:19,915 epoch 169 - iter 56/83 - loss 0.00000062 - time (sec): 7.72 - samples/sec: 2460.75 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:21,179 epoch 169 - iter 64/83 - loss 0.00000060 - time (sec): 8.98 - samples/sec: 2425.73 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:22,279 epoch 169 - iter 72/83 - loss 0.00000057 - time (sec): 10.08 - samples/sec: 2402.18 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:23,677 epoch 169 - iter 80/83 - loss 0.00000056 - time (sec): 11.48 - samples/sec: 2360.33 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:24,037 ----------------------------------------------------------------------------------------------------
2025-05-05 19:52:24,037 EPOCH 169 done: loss 0.0000 - lr: 0.000011
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.86it/s] 40%|██   | 2/5 [00:00<00:00,  7.92it/s] 60%|███  | 3/5 [00:00<00:00,  5.22it/s] 80%|████ | 4/5 [00:00<00:00,  5.73it/s]100%|█████| 5/5 [00:00<00:00,  6.72it/s]
2025-05-05 19:52:24,800 DEV : loss 0.4342059791088104 - f1-score (micro avg)  0.8514
2025-05-05 19:52:24,804 ----------------------------------------------------------------------------------------------------
2025-05-05 19:52:25,962 epoch 170 - iter 8/83 - loss 0.00000039 - time (sec): 1.16 - samples/sec: 2495.51 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:27,176 epoch 170 - iter 16/83 - loss 0.00000062 - time (sec): 2.37 - samples/sec: 2318.56 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:28,292 epoch 170 - iter 24/83 - loss 0.00000063 - time (sec): 3.49 - samples/sec: 2448.27 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:29,337 epoch 170 - iter 32/83 - loss 0.00000056 - time (sec): 4.53 - samples/sec: 2498.25 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:30,573 epoch 170 - iter 40/83 - loss 0.00000058 - time (sec): 5.77 - samples/sec: 2394.10 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:31,770 epoch 170 - iter 48/83 - loss 0.00000059 - time (sec): 6.96 - samples/sec: 2358.70 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:33,030 epoch 170 - iter 56/83 - loss 0.00000059 - time (sec): 8.22 - samples/sec: 2376.74 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:34,247 epoch 170 - iter 64/83 - loss 0.00000055 - time (sec): 9.44 - samples/sec: 2319.43 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:35,422 epoch 170 - iter 72/83 - loss 0.00000054 - time (sec): 10.62 - samples/sec: 2308.80 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:36,439 epoch 170 - iter 80/83 - loss 0.00000055 - time (sec): 11.63 - samples/sec: 2348.04 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:36,735 ----------------------------------------------------------------------------------------------------
2025-05-05 19:52:36,735 EPOCH 170 done: loss 0.0000 - lr: 0.000011
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.01it/s] 40%|██   | 2/5 [00:00<00:00,  8.71it/s] 60%|███  | 3/5 [00:00<00:00,  8.78it/s] 80%|████ | 4/5 [00:00<00:00,  7.35it/s]100%|█████| 5/5 [00:00<00:00,  7.99it/s]100%|█████| 5/5 [00:00<00:00,  8.04it/s]
2025-05-05 19:52:37,376 DEV : loss 0.43644651770591736 - f1-score (micro avg)  0.8514
2025-05-05 19:52:37,380 ----------------------------------------------------------------------------------------------------
2025-05-05 19:52:38,693 epoch 171 - iter 8/83 - loss 0.00000091 - time (sec): 1.31 - samples/sec: 2292.11 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:39,916 epoch 171 - iter 16/83 - loss 0.00000074 - time (sec): 2.53 - samples/sec: 2281.98 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:40,949 epoch 171 - iter 24/83 - loss 0.00000060 - time (sec): 3.57 - samples/sec: 2430.18 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:42,132 epoch 171 - iter 32/83 - loss 0.00000061 - time (sec): 4.75 - samples/sec: 2456.51 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:43,164 epoch 171 - iter 40/83 - loss 0.00000061 - time (sec): 5.78 - samples/sec: 2508.05 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:44,148 epoch 171 - iter 48/83 - loss 0.00000059 - time (sec): 6.77 - samples/sec: 2531.95 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:45,158 epoch 171 - iter 56/83 - loss 0.00000055 - time (sec): 7.78 - samples/sec: 2542.68 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:46,468 epoch 171 - iter 64/83 - loss 0.00000052 - time (sec): 9.09 - samples/sec: 2485.58 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:47,573 epoch 171 - iter 72/83 - loss 0.00000048 - time (sec): 10.19 - samples/sec: 2440.30 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:48,513 epoch 171 - iter 80/83 - loss 0.00000048 - time (sec): 11.13 - samples/sec: 2441.71 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:49,043 ----------------------------------------------------------------------------------------------------
2025-05-05 19:52:49,043 EPOCH 171 done: loss 0.0000 - lr: 0.000011
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.67it/s] 60%|███  | 3/5 [00:00<00:00,  9.02it/s] 80%|████ | 4/5 [00:00<00:00,  8.03it/s]100%|█████| 5/5 [00:00<00:00,  6.57it/s]100%|█████| 5/5 [00:00<00:00,  7.11it/s]
2025-05-05 19:52:49,766 DEV : loss 0.4301813542842865 - f1-score (micro avg)  0.8514
2025-05-05 19:52:49,769 ----------------------------------------------------------------------------------------------------
2025-05-05 19:52:50,781 epoch 172 - iter 8/83 - loss 0.00000063 - time (sec): 1.01 - samples/sec: 2784.04 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:51,974 epoch 172 - iter 16/83 - loss 0.00000056 - time (sec): 2.20 - samples/sec: 2727.29 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:53,053 epoch 172 - iter 24/83 - loss 0.00000049 - time (sec): 3.28 - samples/sec: 2788.32 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:54,096 epoch 172 - iter 32/83 - loss 0.00000051 - time (sec): 4.33 - samples/sec: 2647.96 - lr: 0.000011 - momentum: 0.000000
2025-05-05 19:52:55,191 epoch 172 - iter 40/83 - loss 0.00000057 - time (sec): 5.42 - samples/sec: 2613.20 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:52:56,169 epoch 172 - iter 48/83 - loss 0.00000057 - time (sec): 6.40 - samples/sec: 2652.46 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:52:57,314 epoch 172 - iter 56/83 - loss 0.00000054 - time (sec): 7.54 - samples/sec: 2576.11 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:52:58,293 epoch 172 - iter 64/83 - loss 0.00000053 - time (sec): 8.52 - samples/sec: 2577.71 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:52:59,335 epoch 172 - iter 72/83 - loss 0.00000052 - time (sec): 9.56 - samples/sec: 2587.37 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:00,343 epoch 172 - iter 80/83 - loss 0.00000052 - time (sec): 10.57 - samples/sec: 2561.96 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:00,670 ----------------------------------------------------------------------------------------------------
2025-05-05 19:53:00,670 EPOCH 172 done: loss 0.0000 - lr: 0.000010
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.61it/s] 40%|██   | 2/5 [00:00<00:00,  8.25it/s] 60%|███  | 3/5 [00:00<00:00,  7.99it/s] 80%|████ | 4/5 [00:00<00:00,  6.57it/s]100%|█████| 5/5 [00:00<00:00,  7.84it/s]
2025-05-05 19:53:01,327 DEV : loss 0.42889347672462463 - f1-score (micro avg)  0.8581
2025-05-05 19:53:01,331 ----------------------------------------------------------------------------------------------------
2025-05-05 19:53:02,210 epoch 173 - iter 8/83 - loss 0.00000026 - time (sec): 0.88 - samples/sec: 2948.85 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:03,283 epoch 173 - iter 16/83 - loss 0.00000028 - time (sec): 1.95 - samples/sec: 2775.81 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:04,364 epoch 173 - iter 24/83 - loss 0.00000033 - time (sec): 3.03 - samples/sec: 2600.46 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:05,588 epoch 173 - iter 32/83 - loss 0.00000043 - time (sec): 4.26 - samples/sec: 2495.04 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:06,585 epoch 173 - iter 40/83 - loss 0.00000043 - time (sec): 5.25 - samples/sec: 2578.20 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:08,004 epoch 173 - iter 48/83 - loss 0.00000046 - time (sec): 6.67 - samples/sec: 2420.61 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:09,137 epoch 173 - iter 56/83 - loss 0.00000045 - time (sec): 7.81 - samples/sec: 2416.95 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:10,114 epoch 173 - iter 64/83 - loss 0.00000042 - time (sec): 8.78 - samples/sec: 2474.06 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:11,143 epoch 173 - iter 72/83 - loss 0.00000575 - time (sec): 9.81 - samples/sec: 2480.30 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:12,277 epoch 173 - iter 80/83 - loss 0.00000519 - time (sec): 10.95 - samples/sec: 2480.69 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:12,904 ----------------------------------------------------------------------------------------------------
2025-05-05 19:53:12,905 EPOCH 173 done: loss 0.0000 - lr: 0.000010
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  9.09it/s] 60%|███  | 3/5 [00:00<00:00,  9.79it/s] 80%|████ | 4/5 [00:00<00:00,  7.84it/s]100%|█████| 5/5 [00:00<00:00,  9.06it/s]
2025-05-05 19:53:13,476 DEV : loss 0.43147364258766174 - f1-score (micro avg)  0.861
2025-05-05 19:53:13,479 ----------------------------------------------------------------------------------------------------
2025-05-05 19:53:14,517 epoch 174 - iter 8/83 - loss 0.00000032 - time (sec): 1.04 - samples/sec: 2692.23 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:15,759 epoch 174 - iter 16/83 - loss 0.00000038 - time (sec): 2.28 - samples/sec: 2334.77 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:16,787 epoch 174 - iter 24/83 - loss 0.00000037 - time (sec): 3.31 - samples/sec: 2391.22 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:17,820 epoch 174 - iter 32/83 - loss 0.00000038 - time (sec): 4.34 - samples/sec: 2451.76 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:18,758 epoch 174 - iter 40/83 - loss 0.00000036 - time (sec): 5.28 - samples/sec: 2471.70 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:19,907 epoch 174 - iter 48/83 - loss 0.00000040 - time (sec): 6.43 - samples/sec: 2479.12 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:20,945 epoch 174 - iter 56/83 - loss 0.00000039 - time (sec): 7.46 - samples/sec: 2519.40 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:22,078 epoch 174 - iter 64/83 - loss 0.00000048 - time (sec): 8.60 - samples/sec: 2524.52 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:23,136 epoch 174 - iter 72/83 - loss 0.00000046 - time (sec): 9.66 - samples/sec: 2520.84 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:24,115 epoch 174 - iter 80/83 - loss 0.00000044 - time (sec): 10.63 - samples/sec: 2553.78 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:24,437 ----------------------------------------------------------------------------------------------------
2025-05-05 19:53:24,437 EPOCH 174 done: loss 0.0000 - lr: 0.000010
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.65it/s] 40%|██   | 2/5 [00:00<00:00,  8.86it/s] 60%|███  | 3/5 [00:00<00:00,  9.02it/s] 80%|████ | 4/5 [00:00<00:00,  7.86it/s]100%|█████| 5/5 [00:00<00:00,  8.88it/s]
2025-05-05 19:53:25,020 DEV : loss 0.4278714954853058 - f1-score (micro avg)  0.861
2025-05-05 19:53:25,023 ----------------------------------------------------------------------------------------------------
2025-05-05 19:53:26,281 epoch 175 - iter 8/83 - loss 0.00000043 - time (sec): 1.26 - samples/sec: 2291.42 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:27,502 epoch 175 - iter 16/83 - loss 0.00000048 - time (sec): 2.48 - samples/sec: 2256.03 - lr: 0.000010 - momentum: 0.000000
2025-05-05 19:53:28,618 epoch 175 - iter 24/83 - loss 0.00000047 - time (sec): 3.59 - samples/sec: 2344.62 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:29,629 epoch 175 - iter 32/83 - loss 0.00000046 - time (sec): 4.60 - samples/sec: 2441.28 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:30,606 epoch 175 - iter 40/83 - loss 0.00000044 - time (sec): 5.58 - samples/sec: 2509.38 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:31,608 epoch 175 - iter 48/83 - loss 0.00000040 - time (sec): 6.58 - samples/sec: 2520.85 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:32,715 epoch 175 - iter 56/83 - loss 0.00000038 - time (sec): 7.69 - samples/sec: 2505.80 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:33,691 epoch 175 - iter 64/83 - loss 0.00000038 - time (sec): 8.67 - samples/sec: 2530.18 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:34,586 epoch 175 - iter 72/83 - loss 0.00000037 - time (sec): 9.56 - samples/sec: 2535.18 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:35,555 epoch 175 - iter 80/83 - loss 0.00000039 - time (sec): 10.53 - samples/sec: 2561.94 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:35,879 ----------------------------------------------------------------------------------------------------
2025-05-05 19:53:35,879 EPOCH 175 done: loss 0.0000 - lr: 0.000009
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.21it/s] 40%|██   | 2/5 [00:00<00:00,  4.94it/s] 60%|███  | 3/5 [00:00<00:00,  6.40it/s] 80%|████ | 4/5 [00:00<00:00,  6.52it/s]100%|█████| 5/5 [00:00<00:00,  7.16it/s]
2025-05-05 19:53:36,597 DEV : loss 0.42846035957336426 - f1-score (micro avg)  0.861
2025-05-05 19:53:36,600 ----------------------------------------------------------------------------------------------------
2025-05-05 19:53:37,674 epoch 176 - iter 8/83 - loss 0.00000024 - time (sec): 1.07 - samples/sec: 2325.85 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:38,728 epoch 176 - iter 16/83 - loss 0.00000021 - time (sec): 2.13 - samples/sec: 2443.23 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:39,733 epoch 176 - iter 24/83 - loss 0.00000023 - time (sec): 3.13 - samples/sec: 2533.56 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:40,717 epoch 176 - iter 32/83 - loss 0.00000032 - time (sec): 4.12 - samples/sec: 2577.54 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:41,645 epoch 176 - iter 40/83 - loss 0.00000033 - time (sec): 5.04 - samples/sec: 2582.55 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:42,775 epoch 176 - iter 48/83 - loss 0.00000033 - time (sec): 6.17 - samples/sec: 2614.17 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:43,776 epoch 176 - iter 56/83 - loss 0.00000597 - time (sec): 7.17 - samples/sec: 2612.33 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:44,727 epoch 176 - iter 64/83 - loss 0.00000523 - time (sec): 8.13 - samples/sec: 2647.66 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:45,696 epoch 176 - iter 72/83 - loss 0.00000464 - time (sec): 9.09 - samples/sec: 2698.41 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:46,708 epoch 176 - iter 80/83 - loss 0.00000744 - time (sec): 10.11 - samples/sec: 2692.07 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:47,069 ----------------------------------------------------------------------------------------------------
2025-05-05 19:53:47,069 EPOCH 176 done: loss 0.0000 - lr: 0.000009
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.61it/s] 40%|██   | 2/5 [00:00<00:00,  8.28it/s] 60%|███  | 3/5 [00:00<00:00,  8.42it/s] 80%|████ | 4/5 [00:00<00:00,  7.02it/s]100%|█████| 5/5 [00:00<00:00,  8.21it/s]
2025-05-05 19:53:47,697 DEV : loss 0.4223652184009552 - f1-score (micro avg)  0.8649
2025-05-05 19:53:47,701 ----------------------------------------------------------------------------------------------------
2025-05-05 19:53:48,800 epoch 177 - iter 8/83 - loss 0.00000028 - time (sec): 1.10 - samples/sec: 2399.53 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:50,040 epoch 177 - iter 16/83 - loss 0.00000037 - time (sec): 2.34 - samples/sec: 2230.42 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:51,116 epoch 177 - iter 24/83 - loss 0.00000051 - time (sec): 3.41 - samples/sec: 2327.48 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:52,153 epoch 177 - iter 32/83 - loss 0.00000053 - time (sec): 4.45 - samples/sec: 2298.12 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:53,202 epoch 177 - iter 40/83 - loss 0.00000050 - time (sec): 5.50 - samples/sec: 2323.42 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:54,151 epoch 177 - iter 48/83 - loss 0.00000048 - time (sec): 6.45 - samples/sec: 2403.61 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:55,251 epoch 177 - iter 56/83 - loss 0.00000150 - time (sec): 7.55 - samples/sec: 2468.70 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:56,411 epoch 177 - iter 64/83 - loss 0.00000133 - time (sec): 8.71 - samples/sec: 2471.84 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:57,555 epoch 177 - iter 72/83 - loss 0.00000120 - time (sec): 9.85 - samples/sec: 2476.60 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:58,539 epoch 177 - iter 80/83 - loss 0.00000112 - time (sec): 10.84 - samples/sec: 2502.60 - lr: 0.000009 - momentum: 0.000000
2025-05-05 19:53:58,923 ----------------------------------------------------------------------------------------------------
2025-05-05 19:53:58,923 EPOCH 177 done: loss 0.0000 - lr: 0.000009
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  4.96it/s] 60%|███  | 3/5 [00:00<00:00,  8.06it/s] 80%|████ | 4/5 [00:00<00:00,  5.18it/s]100%|█████| 5/5 [00:00<00:00,  6.14it/s]
2025-05-05 19:53:59,756 DEV : loss 0.41435620188713074 - f1-score (micro avg)  0.862
2025-05-05 19:53:59,759 ----------------------------------------------------------------------------------------------------
2025-05-05 19:54:00,706 epoch 178 - iter 8/83 - loss 0.00000021 - time (sec): 0.95 - samples/sec: 2683.14 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:01,790 epoch 178 - iter 16/83 - loss 0.00000023 - time (sec): 2.03 - samples/sec: 2616.84 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:02,860 epoch 178 - iter 24/83 - loss 0.00000020 - time (sec): 3.10 - samples/sec: 2538.17 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:03,955 epoch 178 - iter 32/83 - loss 0.00000026 - time (sec): 4.19 - samples/sec: 2537.82 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:05,083 epoch 178 - iter 40/83 - loss 0.00000028 - time (sec): 5.32 - samples/sec: 2499.70 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:06,273 epoch 178 - iter 48/83 - loss 0.00000029 - time (sec): 6.51 - samples/sec: 2513.01 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:07,368 epoch 178 - iter 56/83 - loss 0.00000030 - time (sec): 7.61 - samples/sec: 2505.62 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:08,483 epoch 178 - iter 64/83 - loss 0.00000034 - time (sec): 8.72 - samples/sec: 2473.94 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:09,508 epoch 178 - iter 72/83 - loss 0.00000038 - time (sec): 9.75 - samples/sec: 2508.35 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:10,528 epoch 178 - iter 80/83 - loss 0.00000038 - time (sec): 10.77 - samples/sec: 2538.90 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:10,883 ----------------------------------------------------------------------------------------------------
2025-05-05 19:54:10,883 EPOCH 178 done: loss 0.0000 - lr: 0.000008
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.64it/s] 40%|██   | 2/5 [00:00<00:00,  8.13it/s] 60%|███  | 3/5 [00:00<00:00,  7.99it/s] 80%|████ | 4/5 [00:00<00:00,  6.39it/s]100%|█████| 5/5 [00:00<00:00,  7.66it/s]
2025-05-05 19:54:11,554 DEV : loss 0.4159197509288788 - f1-score (micro avg)  0.8649
2025-05-05 19:54:11,558 ----------------------------------------------------------------------------------------------------
2025-05-05 19:54:12,548 epoch 179 - iter 8/83 - loss 0.00000033 - time (sec): 0.99 - samples/sec: 3036.93 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:13,563 epoch 179 - iter 16/83 - loss 0.00000034 - time (sec): 2.00 - samples/sec: 2871.66 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:14,767 epoch 179 - iter 24/83 - loss 0.00000030 - time (sec): 3.21 - samples/sec: 2621.82 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:16,061 epoch 179 - iter 32/83 - loss 0.00000030 - time (sec): 4.50 - samples/sec: 2431.01 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:17,073 epoch 179 - iter 40/83 - loss 0.00000051 - time (sec): 5.51 - samples/sec: 2492.76 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:18,066 epoch 179 - iter 48/83 - loss 0.00000048 - time (sec): 6.51 - samples/sec: 2538.97 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:19,417 epoch 179 - iter 56/83 - loss 0.00000057 - time (sec): 7.86 - samples/sec: 2467.22 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:20,716 epoch 179 - iter 64/83 - loss 0.00000053 - time (sec): 9.16 - samples/sec: 2398.24 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:21,676 epoch 179 - iter 72/83 - loss 0.00000051 - time (sec): 10.12 - samples/sec: 2407.62 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:22,773 epoch 179 - iter 80/83 - loss 0.00000050 - time (sec): 11.21 - samples/sec: 2400.48 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:23,251 ----------------------------------------------------------------------------------------------------
2025-05-05 19:54:23,252 EPOCH 179 done: loss 0.0000 - lr: 0.000008
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.44it/s] 60%|███  | 3/5 [00:00<00:00,  7.89it/s] 80%|████ | 4/5 [00:00<00:00,  6.59it/s]100%|█████| 5/5 [00:00<00:00,  7.62it/s]
2025-05-05 19:54:23,927 DEV : loss 0.41716206073760986 - f1-score (micro avg)  0.8649
2025-05-05 19:54:23,931 ----------------------------------------------------------------------------------------------------
2025-05-05 19:54:25,061 epoch 180 - iter 8/83 - loss 0.00000028 - time (sec): 1.13 - samples/sec: 2448.20 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:26,194 epoch 180 - iter 16/83 - loss 0.00000028 - time (sec): 2.26 - samples/sec: 2453.10 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:27,313 epoch 180 - iter 24/83 - loss 0.00000028 - time (sec): 3.38 - samples/sec: 2662.01 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:28,509 epoch 180 - iter 32/83 - loss 0.00000030 - time (sec): 4.58 - samples/sec: 2520.61 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:29,661 epoch 180 - iter 40/83 - loss 0.00000030 - time (sec): 5.73 - samples/sec: 2473.04 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:30,687 epoch 180 - iter 48/83 - loss 0.00000029 - time (sec): 6.76 - samples/sec: 2507.16 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:31,662 epoch 180 - iter 56/83 - loss 0.00000031 - time (sec): 7.73 - samples/sec: 2499.60 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:32,552 epoch 180 - iter 64/83 - loss 0.00077032 - time (sec): 8.62 - samples/sec: 2519.16 - lr: 0.000008 - momentum: 0.000000
2025-05-05 19:54:33,837 epoch 180 - iter 72/83 - loss 0.00067503 - time (sec): 9.91 - samples/sec: 2501.96 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:34,889 epoch 180 - iter 80/83 - loss 0.00061729 - time (sec): 10.96 - samples/sec: 2473.60 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:35,241 ----------------------------------------------------------------------------------------------------
2025-05-05 19:54:35,242 EPOCH 180 done: loss 0.0006 - lr: 0.000007
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.72it/s] 40%|██   | 2/5 [00:00<00:00,  8.62it/s] 60%|███  | 3/5 [00:00<00:00,  8.49it/s] 80%|████ | 4/5 [00:00<00:00,  5.09it/s]100%|█████| 5/5 [00:00<00:00,  6.76it/s]
2025-05-05 19:54:36,001 DEV : loss 0.40948596596717834 - f1-score (micro avg)  0.8707
2025-05-05 19:54:36,004 ----------------------------------------------------------------------------------------------------
2025-05-05 19:54:36,977 epoch 181 - iter 8/83 - loss 0.00000030 - time (sec): 0.97 - samples/sec: 2686.63 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:38,029 epoch 181 - iter 16/83 - loss 0.00000029 - time (sec): 2.02 - samples/sec: 2617.32 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:39,060 epoch 181 - iter 24/83 - loss 0.00000035 - time (sec): 3.05 - samples/sec: 2548.97 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:40,218 epoch 181 - iter 32/83 - loss 0.00000039 - time (sec): 4.21 - samples/sec: 2528.59 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:41,584 epoch 181 - iter 40/83 - loss 0.00000035 - time (sec): 5.58 - samples/sec: 2431.87 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:42,602 epoch 181 - iter 48/83 - loss 0.00000035 - time (sec): 6.60 - samples/sec: 2438.33 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:43,901 epoch 181 - iter 56/83 - loss 0.00000034 - time (sec): 7.90 - samples/sec: 2383.24 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:45,117 epoch 181 - iter 64/83 - loss 0.00000036 - time (sec): 9.11 - samples/sec: 2356.64 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:46,215 epoch 181 - iter 72/83 - loss 0.00000034 - time (sec): 10.21 - samples/sec: 2342.28 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:47,278 epoch 181 - iter 80/83 - loss 0.00000034 - time (sec): 11.27 - samples/sec: 2384.17 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:47,590 ----------------------------------------------------------------------------------------------------
2025-05-05 19:54:47,590 EPOCH 181 done: loss 0.0000 - lr: 0.000007
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.16it/s] 40%|██   | 2/5 [00:00<00:00,  9.08it/s] 60%|███  | 3/5 [00:00<00:00,  9.07it/s] 80%|████ | 4/5 [00:00<00:00,  7.82it/s]100%|█████| 5/5 [00:00<00:00,  7.49it/s]100%|█████| 5/5 [00:00<00:00,  7.90it/s]
2025-05-05 19:54:48,242 DEV : loss 0.4099034070968628 - f1-score (micro avg)  0.8707
2025-05-05 19:54:48,246 ----------------------------------------------------------------------------------------------------
2025-05-05 19:54:49,296 epoch 182 - iter 8/83 - loss 0.00000028 - time (sec): 1.05 - samples/sec: 2167.77 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:50,369 epoch 182 - iter 16/83 - loss 0.00000032 - time (sec): 2.12 - samples/sec: 2255.18 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:51,318 epoch 182 - iter 24/83 - loss 0.00000040 - time (sec): 3.07 - samples/sec: 2549.11 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:52,479 epoch 182 - iter 32/83 - loss 0.00000038 - time (sec): 4.23 - samples/sec: 2489.89 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:53,771 epoch 182 - iter 40/83 - loss 0.00000037 - time (sec): 5.52 - samples/sec: 2423.74 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:54,920 epoch 182 - iter 48/83 - loss 0.00000040 - time (sec): 6.67 - samples/sec: 2460.84 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:55,967 epoch 182 - iter 56/83 - loss 0.00000038 - time (sec): 7.72 - samples/sec: 2474.87 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:57,158 epoch 182 - iter 64/83 - loss 0.00000041 - time (sec): 8.91 - samples/sec: 2470.30 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:58,409 epoch 182 - iter 72/83 - loss 0.00000042 - time (sec): 10.16 - samples/sec: 2417.73 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:59,352 epoch 182 - iter 80/83 - loss 0.00000320 - time (sec): 11.10 - samples/sec: 2459.35 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:54:59,849 ----------------------------------------------------------------------------------------------------
2025-05-05 19:54:59,849 EPOCH 182 done: loss 0.0000 - lr: 0.000007
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.80it/s] 40%|██   | 2/5 [00:00<00:00,  6.42it/s] 60%|███  | 3/5 [00:00<00:00,  6.25it/s] 80%|████ | 4/5 [00:00<00:00,  6.29it/s]100%|█████| 5/5 [00:00<00:00,  7.16it/s]
2025-05-05 19:55:00,567 DEV : loss 0.4116922616958618 - f1-score (micro avg)  0.8707
2025-05-05 19:55:00,570 ----------------------------------------------------------------------------------------------------
2025-05-05 19:55:01,624 epoch 183 - iter 8/83 - loss 0.00000036 - time (sec): 1.05 - samples/sec: 2950.00 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:55:02,697 epoch 183 - iter 16/83 - loss 0.00000038 - time (sec): 2.13 - samples/sec: 2786.16 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:55:03,917 epoch 183 - iter 24/83 - loss 0.00000034 - time (sec): 3.35 - samples/sec: 2644.44 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:55:04,998 epoch 183 - iter 32/83 - loss 0.00000033 - time (sec): 4.43 - samples/sec: 2639.06 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:55:06,394 epoch 183 - iter 40/83 - loss 0.00000034 - time (sec): 5.82 - samples/sec: 2433.74 - lr: 0.000007 - momentum: 0.000000
2025-05-05 19:55:07,460 epoch 183 - iter 48/83 - loss 0.00000035 - time (sec): 6.89 - samples/sec: 2453.13 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:08,386 epoch 183 - iter 56/83 - loss 0.00000034 - time (sec): 7.81 - samples/sec: 2486.24 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:09,864 epoch 183 - iter 64/83 - loss 0.00000033 - time (sec): 9.29 - samples/sec: 2353.35 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:11,202 epoch 183 - iter 72/83 - loss 0.00000035 - time (sec): 10.63 - samples/sec: 2348.36 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:12,215 epoch 183 - iter 80/83 - loss 0.00000035 - time (sec): 11.64 - samples/sec: 2351.79 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:12,513 ----------------------------------------------------------------------------------------------------
2025-05-05 19:55:12,514 EPOCH 183 done: loss 0.0000 - lr: 0.000006
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.04it/s] 40%|██   | 2/5 [00:00<00:00,  8.81it/s] 60%|███  | 3/5 [00:00<00:00,  8.72it/s] 80%|████ | 4/5 [00:00<00:00,  5.11it/s]100%|█████| 5/5 [00:00<00:00,  6.82it/s]
2025-05-05 19:55:13,267 DEV : loss 0.4141811430454254 - f1-score (micro avg)  0.8707
2025-05-05 19:55:13,270 ----------------------------------------------------------------------------------------------------
2025-05-05 19:55:14,377 epoch 184 - iter 8/83 - loss 0.00000030 - time (sec): 1.11 - samples/sec: 2293.95 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:15,597 epoch 184 - iter 16/83 - loss 0.00000026 - time (sec): 2.33 - samples/sec: 2287.23 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:16,630 epoch 184 - iter 24/83 - loss 0.00000033 - time (sec): 3.36 - samples/sec: 2307.21 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:17,914 epoch 184 - iter 32/83 - loss 0.00000034 - time (sec): 4.64 - samples/sec: 2275.47 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:19,142 epoch 184 - iter 40/83 - loss 0.00000033 - time (sec): 5.87 - samples/sec: 2268.50 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:20,205 epoch 184 - iter 48/83 - loss 0.00000037 - time (sec): 6.93 - samples/sec: 2285.54 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:21,694 epoch 184 - iter 56/83 - loss 0.00000095 - time (sec): 8.42 - samples/sec: 2236.97 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:22,979 epoch 184 - iter 64/83 - loss 0.00000089 - time (sec): 9.71 - samples/sec: 2224.25 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:24,173 epoch 184 - iter 72/83 - loss 0.00000082 - time (sec): 10.90 - samples/sec: 2236.81 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:25,285 epoch 184 - iter 80/83 - loss 0.00000082 - time (sec): 12.01 - samples/sec: 2266.32 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:25,653 ----------------------------------------------------------------------------------------------------
2025-05-05 19:55:25,653 EPOCH 184 done: loss 0.0000 - lr: 0.000006
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.70it/s] 40%|██   | 2/5 [00:00<00:00,  8.23it/s] 60%|███  | 3/5 [00:00<00:00,  8.27it/s] 80%|████ | 4/5 [00:00<00:00,  6.88it/s]100%|█████| 5/5 [00:00<00:00,  8.11it/s]
2025-05-05 19:55:26,289 DEV : loss 0.4104771018028259 - f1-score (micro avg)  0.8707
2025-05-05 19:55:26,293 ----------------------------------------------------------------------------------------------------
2025-05-05 19:55:27,205 epoch 185 - iter 8/83 - loss 0.00001059 - time (sec): 0.91 - samples/sec: 2481.51 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:28,272 epoch 185 - iter 16/83 - loss 0.00000503 - time (sec): 1.98 - samples/sec: 2624.64 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:29,259 epoch 185 - iter 24/83 - loss 0.00000349 - time (sec): 2.97 - samples/sec: 2600.29 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:30,741 epoch 185 - iter 32/83 - loss 0.00000276 - time (sec): 4.45 - samples/sec: 2295.06 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:31,911 epoch 185 - iter 40/83 - loss 0.00000401 - time (sec): 5.62 - samples/sec: 2374.13 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:32,855 epoch 185 - iter 48/83 - loss 0.00000352 - time (sec): 6.56 - samples/sec: 2365.96 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:34,029 epoch 185 - iter 56/83 - loss 0.00000304 - time (sec): 7.73 - samples/sec: 2359.31 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:35,075 epoch 185 - iter 64/83 - loss 0.00000269 - time (sec): 8.78 - samples/sec: 2376.20 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:36,309 epoch 185 - iter 72/83 - loss 0.00000237 - time (sec): 10.01 - samples/sec: 2392.30 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:37,375 epoch 185 - iter 80/83 - loss 0.00000214 - time (sec): 11.08 - samples/sec: 2421.89 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:37,761 ----------------------------------------------------------------------------------------------------
2025-05-05 19:55:37,761 EPOCH 185 done: loss 0.0000 - lr: 0.000006
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.75it/s] 40%|██   | 2/5 [00:00<00:00,  8.06it/s] 60%|███  | 3/5 [00:00<00:00,  7.99it/s] 80%|████ | 4/5 [00:00<00:00,  6.59it/s]100%|█████| 5/5 [00:00<00:00,  7.86it/s]
2025-05-05 19:55:38,417 DEV : loss 0.4058171212673187 - f1-score (micro avg)  0.8716
2025-05-05 19:55:38,420 ----------------------------------------------------------------------------------------------------
2025-05-05 19:55:39,341 epoch 186 - iter 8/83 - loss 0.00000030 - time (sec): 0.92 - samples/sec: 2637.73 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:40,381 epoch 186 - iter 16/83 - loss 0.00000043 - time (sec): 1.96 - samples/sec: 2731.96 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:41,564 epoch 186 - iter 24/83 - loss 0.00000040 - time (sec): 3.14 - samples/sec: 2525.03 - lr: 0.000006 - momentum: 0.000000
2025-05-05 19:55:42,704 epoch 186 - iter 32/83 - loss 0.00000039 - time (sec): 4.28 - samples/sec: 2401.51 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:55:43,940 epoch 186 - iter 40/83 - loss 0.00000035 - time (sec): 5.52 - samples/sec: 2453.97 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:55:44,939 epoch 186 - iter 48/83 - loss 0.00000035 - time (sec): 6.52 - samples/sec: 2444.97 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:55:45,916 epoch 186 - iter 56/83 - loss 0.00000034 - time (sec): 7.49 - samples/sec: 2494.38 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:55:47,018 epoch 186 - iter 64/83 - loss 0.00000034 - time (sec): 8.60 - samples/sec: 2497.07 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:55:48,107 epoch 186 - iter 72/83 - loss 0.00000033 - time (sec): 9.69 - samples/sec: 2505.72 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:55:49,227 epoch 186 - iter 80/83 - loss 0.00000032 - time (sec): 10.81 - samples/sec: 2521.68 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:55:49,569 ----------------------------------------------------------------------------------------------------
2025-05-05 19:55:49,569 EPOCH 186 done: loss 0.0000 - lr: 0.000005
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:01,  2.07it/s] 60%|███  | 3/5 [00:00<00:00,  5.05it/s] 80%|████ | 4/5 [00:00<00:00,  5.52it/s]100%|█████| 5/5 [00:00<00:00,  6.02it/s]100%|█████| 5/5 [00:00<00:00,  5.18it/s]
2025-05-05 19:55:50,553 DEV : loss 0.4061949849128723 - f1-score (micro avg)  0.8716
2025-05-05 19:55:50,557 ----------------------------------------------------------------------------------------------------
2025-05-05 19:55:51,729 epoch 187 - iter 8/83 - loss 0.00041374 - time (sec): 1.17 - samples/sec: 2266.36 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:55:52,850 epoch 187 - iter 16/83 - loss 0.00020843 - time (sec): 2.29 - samples/sec: 2299.32 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:55:53,946 epoch 187 - iter 24/83 - loss 0.00013455 - time (sec): 3.39 - samples/sec: 2412.58 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:55:55,005 epoch 187 - iter 32/83 - loss 0.00010006 - time (sec): 4.45 - samples/sec: 2473.10 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:55:56,012 epoch 187 - iter 40/83 - loss 0.00008126 - time (sec): 5.45 - samples/sec: 2484.35 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:55:57,095 epoch 187 - iter 48/83 - loss 0.00006805 - time (sec): 6.54 - samples/sec: 2506.71 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:55:58,104 epoch 187 - iter 56/83 - loss 0.00005790 - time (sec): 7.55 - samples/sec: 2554.52 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:55:59,068 epoch 187 - iter 64/83 - loss 0.00005263 - time (sec): 8.51 - samples/sec: 2590.96 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:56:00,087 epoch 187 - iter 72/83 - loss 0.00004718 - time (sec): 9.53 - samples/sec: 2583.79 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:56:01,139 epoch 187 - iter 80/83 - loss 0.00004314 - time (sec): 10.58 - samples/sec: 2545.99 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:56:01,609 ----------------------------------------------------------------------------------------------------
2025-05-05 19:56:01,609 EPOCH 187 done: loss 0.0000 - lr: 0.000005
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.12it/s] 60%|███  | 3/5 [00:00<00:00,  8.57it/s] 80%|████ | 4/5 [00:00<00:00,  7.77it/s]100%|█████| 5/5 [00:00<00:00,  8.54it/s]
2025-05-05 19:56:02,214 DEV : loss 0.4182433485984802 - f1-score (micro avg)  0.8678
2025-05-05 19:56:02,218 ----------------------------------------------------------------------------------------------------
2025-05-05 19:56:03,443 epoch 188 - iter 8/83 - loss 0.00000032 - time (sec): 1.22 - samples/sec: 1803.99 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:56:04,518 epoch 188 - iter 16/83 - loss 0.00000440 - time (sec): 2.30 - samples/sec: 2306.86 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:56:06,081 epoch 188 - iter 24/83 - loss 0.00122777 - time (sec): 3.86 - samples/sec: 2082.86 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:56:07,379 epoch 188 - iter 32/83 - loss 0.00091245 - time (sec): 5.16 - samples/sec: 2098.16 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:56:08,523 epoch 188 - iter 40/83 - loss 0.00073372 - time (sec): 6.30 - samples/sec: 2136.18 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:56:09,636 epoch 188 - iter 48/83 - loss 0.00060852 - time (sec): 7.42 - samples/sec: 2189.22 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:56:10,624 epoch 188 - iter 56/83 - loss 0.00052755 - time (sec): 8.40 - samples/sec: 2228.95 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:56:11,633 epoch 188 - iter 64/83 - loss 0.00046107 - time (sec): 9.41 - samples/sec: 2277.01 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:56:12,734 epoch 188 - iter 72/83 - loss 0.00040184 - time (sec): 10.51 - samples/sec: 2339.43 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:56:13,912 epoch 188 - iter 80/83 - loss 0.00036238 - time (sec): 11.69 - samples/sec: 2332.89 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:56:14,277 ----------------------------------------------------------------------------------------------------
2025-05-05 19:56:14,277 EPOCH 188 done: loss 0.0004 - lr: 0.000005
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.66it/s] 40%|██   | 2/5 [00:00<00:00,  8.14it/s] 60%|███  | 3/5 [00:00<00:00,  8.14it/s] 80%|████ | 4/5 [00:00<00:00,  6.63it/s]100%|█████| 5/5 [00:00<00:00,  7.87it/s]
2025-05-05 19:56:14,932 DEV : loss 0.44753673672676086 - f1-score (micro avg)  0.8678
2025-05-05 19:56:14,936 ----------------------------------------------------------------------------------------------------
2025-05-05 19:56:15,985 epoch 189 - iter 8/83 - loss 0.00000016 - time (sec): 1.05 - samples/sec: 2591.59 - lr: 0.000005 - momentum: 0.000000
2025-05-05 19:56:16,984 epoch 189 - iter 16/83 - loss 0.00000034 - time (sec): 2.05 - samples/sec: 2544.37 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:17,944 epoch 189 - iter 24/83 - loss 0.00000029 - time (sec): 3.01 - samples/sec: 2651.50 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:19,024 epoch 189 - iter 32/83 - loss 0.00000027 - time (sec): 4.09 - samples/sec: 2587.45 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:20,235 epoch 189 - iter 40/83 - loss 0.00000034 - time (sec): 5.30 - samples/sec: 2499.94 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:21,364 epoch 189 - iter 48/83 - loss 0.00031759 - time (sec): 6.43 - samples/sec: 2433.82 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:22,357 epoch 189 - iter 56/83 - loss 0.00027182 - time (sec): 7.42 - samples/sec: 2463.48 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:23,443 epoch 189 - iter 64/83 - loss 0.00023309 - time (sec): 8.51 - samples/sec: 2506.70 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:24,576 epoch 189 - iter 72/83 - loss 0.00020541 - time (sec): 9.64 - samples/sec: 2510.79 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:25,592 epoch 189 - iter 80/83 - loss 0.00018415 - time (sec): 10.66 - samples/sec: 2533.89 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:25,905 ----------------------------------------------------------------------------------------------------
2025-05-05 19:56:25,905 EPOCH 189 done: loss 0.0002 - lr: 0.000004
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.50it/s] 40%|██   | 2/5 [00:00<00:00,  8.73it/s] 60%|███  | 3/5 [00:00<00:00,  7.06it/s] 80%|████ | 4/5 [00:00<00:00,  5.74it/s]100%|█████| 5/5 [00:00<00:00,  7.07it/s]
2025-05-05 19:56:26,632 DEV : loss 0.44457361102104187 - f1-score (micro avg)  0.8716
2025-05-05 19:56:26,635 ----------------------------------------------------------------------------------------------------
2025-05-05 19:56:27,710 epoch 190 - iter 8/83 - loss 0.00000025 - time (sec): 1.07 - samples/sec: 2584.87 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:29,140 epoch 190 - iter 16/83 - loss 0.00000025 - time (sec): 2.50 - samples/sec: 2135.37 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:30,227 epoch 190 - iter 24/83 - loss 0.00000043 - time (sec): 3.59 - samples/sec: 2164.53 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:31,189 epoch 190 - iter 32/83 - loss 0.00000035 - time (sec): 4.55 - samples/sec: 2324.25 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:32,316 epoch 190 - iter 40/83 - loss 0.00000033 - time (sec): 5.68 - samples/sec: 2339.91 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:33,447 epoch 190 - iter 48/83 - loss 0.00000033 - time (sec): 6.81 - samples/sec: 2353.68 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:34,458 epoch 190 - iter 56/83 - loss 0.00000034 - time (sec): 7.82 - samples/sec: 2422.37 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:35,595 epoch 190 - iter 64/83 - loss 0.00000033 - time (sec): 8.96 - samples/sec: 2427.33 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:36,590 epoch 190 - iter 72/83 - loss 0.00000033 - time (sec): 9.95 - samples/sec: 2458.75 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:37,605 epoch 190 - iter 80/83 - loss 0.00000037 - time (sec): 10.97 - samples/sec: 2477.46 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:38,022 ----------------------------------------------------------------------------------------------------
2025-05-05 19:56:38,023 EPOCH 190 done: loss 0.0000 - lr: 0.000004
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  6.91it/s] 60%|███  | 3/5 [00:00<00:00,  8.39it/s] 80%|████ | 4/5 [00:00<00:00,  6.91it/s]100%|█████| 5/5 [00:00<00:00,  7.96it/s]
2025-05-05 19:56:38,670 DEV : loss 0.44656890630722046 - f1-score (micro avg)  0.8649
2025-05-05 19:56:38,673 ----------------------------------------------------------------------------------------------------
2025-05-05 19:56:39,710 epoch 191 - iter 8/83 - loss 0.00000031 - time (sec): 1.04 - samples/sec: 2811.31 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:40,873 epoch 191 - iter 16/83 - loss 0.00000043 - time (sec): 2.20 - samples/sec: 2449.78 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:41,964 epoch 191 - iter 24/83 - loss 0.00120618 - time (sec): 3.29 - samples/sec: 2521.09 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:42,974 epoch 191 - iter 32/83 - loss 0.00090848 - time (sec): 4.30 - samples/sec: 2560.91 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:44,172 epoch 191 - iter 40/83 - loss 0.00073349 - time (sec): 5.50 - samples/sec: 2480.81 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:45,158 epoch 191 - iter 48/83 - loss 0.00061255 - time (sec): 6.48 - samples/sec: 2518.97 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:46,326 epoch 191 - iter 56/83 - loss 0.00052338 - time (sec): 7.65 - samples/sec: 2498.46 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:47,515 epoch 191 - iter 64/83 - loss 0.00046566 - time (sec): 8.84 - samples/sec: 2430.49 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:48,621 epoch 191 - iter 72/83 - loss 0.00041764 - time (sec): 9.95 - samples/sec: 2408.86 - lr: 0.000004 - momentum: 0.000000
2025-05-05 19:56:50,059 epoch 191 - iter 80/83 - loss 0.00036684 - time (sec): 11.38 - samples/sec: 2396.35 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:56:50,419 ----------------------------------------------------------------------------------------------------
2025-05-05 19:56:50,419 EPOCH 191 done: loss 0.0004 - lr: 0.000003
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.53it/s] 40%|██   | 2/5 [00:00<00:00,  8.48it/s] 60%|███  | 3/5 [00:00<00:00,  8.46it/s] 80%|████ | 4/5 [00:00<00:00,  6.51it/s]100%|█████| 5/5 [00:00<00:00,  7.87it/s]
2025-05-05 19:56:51,075 DEV : loss 0.44167858362197876 - f1-score (micro avg)  0.8716
2025-05-05 19:56:51,078 ----------------------------------------------------------------------------------------------------
2025-05-05 19:56:52,050 epoch 192 - iter 8/83 - loss 0.00000040 - time (sec): 0.97 - samples/sec: 2665.85 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:56:53,049 epoch 192 - iter 16/83 - loss 0.00000039 - time (sec): 1.97 - samples/sec: 2919.56 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:56:54,089 epoch 192 - iter 24/83 - loss 0.00000040 - time (sec): 3.01 - samples/sec: 2960.56 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:56:55,316 epoch 192 - iter 32/83 - loss 0.00000033 - time (sec): 4.24 - samples/sec: 2795.39 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:56:56,318 epoch 192 - iter 40/83 - loss 0.00000032 - time (sec): 5.24 - samples/sec: 2726.09 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:56:57,270 epoch 192 - iter 48/83 - loss 0.00000031 - time (sec): 6.19 - samples/sec: 2700.60 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:56:58,335 epoch 192 - iter 56/83 - loss 0.00000031 - time (sec): 7.26 - samples/sec: 2655.18 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:56:59,326 epoch 192 - iter 64/83 - loss 0.00000030 - time (sec): 8.25 - samples/sec: 2640.11 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:00,439 epoch 192 - iter 72/83 - loss 0.00000029 - time (sec): 9.36 - samples/sec: 2618.09 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:01,449 epoch 192 - iter 80/83 - loss 0.00000029 - time (sec): 10.37 - samples/sec: 2628.31 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:01,832 ----------------------------------------------------------------------------------------------------
2025-05-05 19:57:01,832 EPOCH 192 done: loss 0.0000 - lr: 0.000003
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  5.03it/s] 60%|███  | 3/5 [00:00<00:00,  8.04it/s] 80%|████ | 4/5 [00:00<00:00,  5.31it/s]100%|█████| 5/5 [00:00<00:00,  6.47it/s]
2025-05-05 19:57:02,625 DEV : loss 0.44200876355171204 - f1-score (micro avg)  0.8716
2025-05-05 19:57:02,628 ----------------------------------------------------------------------------------------------------
2025-05-05 19:57:03,692 epoch 193 - iter 8/83 - loss 0.00000630 - time (sec): 1.06 - samples/sec: 2731.50 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:04,765 epoch 193 - iter 16/83 - loss 0.00000352 - time (sec): 2.14 - samples/sec: 2539.54 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:05,898 epoch 193 - iter 24/83 - loss 0.00000241 - time (sec): 3.27 - samples/sec: 2609.10 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:07,208 epoch 193 - iter 32/83 - loss 0.00000188 - time (sec): 4.58 - samples/sec: 2491.87 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:08,416 epoch 193 - iter 40/83 - loss 0.00000157 - time (sec): 5.79 - samples/sec: 2425.86 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:09,691 epoch 193 - iter 48/83 - loss 0.00000140 - time (sec): 7.06 - samples/sec: 2338.67 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:10,862 epoch 193 - iter 56/83 - loss 0.00000135 - time (sec): 8.23 - samples/sec: 2320.84 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:12,124 epoch 193 - iter 64/83 - loss 0.00000126 - time (sec): 9.49 - samples/sec: 2251.23 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:13,436 epoch 193 - iter 72/83 - loss 0.00000117 - time (sec): 10.81 - samples/sec: 2220.32 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:14,657 epoch 193 - iter 80/83 - loss 0.00000108 - time (sec): 12.03 - samples/sec: 2254.34 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:15,150 ----------------------------------------------------------------------------------------------------
2025-05-05 19:57:15,150 EPOCH 193 done: loss 0.0000 - lr: 0.000003
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.96it/s] 60%|███  | 3/5 [00:00<00:00,  9.79it/s] 80%|████ | 4/5 [00:00<00:00,  7.73it/s]100%|█████| 5/5 [00:00<00:00,  8.94it/s]
2025-05-05 19:57:15,729 DEV : loss 0.44158607721328735 - f1-score (micro avg)  0.8678
2025-05-05 19:57:15,732 ----------------------------------------------------------------------------------------------------
2025-05-05 19:57:17,140 epoch 194 - iter 8/83 - loss 0.00000029 - time (sec): 1.41 - samples/sec: 1864.36 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:18,192 epoch 194 - iter 16/83 - loss 0.00000026 - time (sec): 2.46 - samples/sec: 2051.74 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:19,329 epoch 194 - iter 24/83 - loss 0.00000027 - time (sec): 3.60 - samples/sec: 2142.25 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:20,578 epoch 194 - iter 32/83 - loss 0.00000026 - time (sec): 4.84 - samples/sec: 2099.70 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:21,666 epoch 194 - iter 40/83 - loss 0.00000027 - time (sec): 5.93 - samples/sec: 2137.82 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:22,670 epoch 194 - iter 48/83 - loss 0.00000025 - time (sec): 6.94 - samples/sec: 2197.95 - lr: 0.000003 - momentum: 0.000000
2025-05-05 19:57:23,907 epoch 194 - iter 56/83 - loss 0.00000026 - time (sec): 8.17 - samples/sec: 2246.21 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:25,009 epoch 194 - iter 64/83 - loss 0.00000026 - time (sec): 9.28 - samples/sec: 2308.22 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:26,015 epoch 194 - iter 72/83 - loss 0.00000026 - time (sec): 10.28 - samples/sec: 2365.39 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:27,289 epoch 194 - iter 80/83 - loss 0.00000099 - time (sec): 11.56 - samples/sec: 2350.59 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:27,636 ----------------------------------------------------------------------------------------------------
2025-05-05 19:57:27,636 EPOCH 194 done: loss 0.0000 - lr: 0.000002
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.06it/s] 40%|██   | 2/5 [00:00<00:00,  8.70it/s] 60%|███  | 3/5 [00:00<00:00,  8.40it/s] 80%|████ | 4/5 [00:00<00:00,  7.08it/s]100%|█████| 5/5 [00:00<00:00,  8.34it/s]
2025-05-05 19:57:28,255 DEV : loss 0.4419099688529968 - f1-score (micro avg)  0.8678
2025-05-05 19:57:28,258 ----------------------------------------------------------------------------------------------------
2025-05-05 19:57:29,293 epoch 195 - iter 8/83 - loss 0.00001857 - time (sec): 1.03 - samples/sec: 2463.61 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:30,354 epoch 195 - iter 16/83 - loss 0.00000908 - time (sec): 2.09 - samples/sec: 2534.43 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:31,265 epoch 195 - iter 24/83 - loss 0.00000629 - time (sec): 3.01 - samples/sec: 2565.42 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:32,282 epoch 195 - iter 32/83 - loss 0.00000466 - time (sec): 4.02 - samples/sec: 2637.77 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:33,336 epoch 195 - iter 40/83 - loss 0.00000383 - time (sec): 5.08 - samples/sec: 2633.99 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:34,256 epoch 195 - iter 48/83 - loss 0.00000327 - time (sec): 6.00 - samples/sec: 2639.44 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:35,325 epoch 195 - iter 56/83 - loss 0.00000281 - time (sec): 7.07 - samples/sec: 2634.49 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:36,425 epoch 195 - iter 64/83 - loss 0.00000249 - time (sec): 8.17 - samples/sec: 2613.66 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:37,650 epoch 195 - iter 72/83 - loss 0.00000222 - time (sec): 9.39 - samples/sec: 2580.80 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:39,186 epoch 195 - iter 80/83 - loss 0.00000202 - time (sec): 10.93 - samples/sec: 2475.58 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:39,670 ----------------------------------------------------------------------------------------------------
2025-05-05 19:57:39,670 EPOCH 195 done: loss 0.0000 - lr: 0.000002
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.89it/s] 60%|███  | 3/5 [00:00<00:00,  9.75it/s] 80%|████ | 4/5 [00:00<00:00,  8.16it/s]100%|█████| 5/5 [00:00<00:00,  6.62it/s]100%|█████| 5/5 [00:00<00:00,  7.35it/s]
2025-05-05 19:57:40,369 DEV : loss 0.4369850754737854 - f1-score (micro avg)  0.8746
2025-05-05 19:57:40,373 ----------------------------------------------------------------------------------------------------
2025-05-05 19:57:41,356 epoch 196 - iter 8/83 - loss 0.00000034 - time (sec): 0.98 - samples/sec: 2061.62 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:42,800 epoch 196 - iter 16/83 - loss 0.00000040 - time (sec): 2.43 - samples/sec: 2240.24 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:44,322 epoch 196 - iter 24/83 - loss 0.00000049 - time (sec): 3.95 - samples/sec: 2107.29 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:45,481 epoch 196 - iter 32/83 - loss 0.00000044 - time (sec): 5.11 - samples/sec: 2192.64 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:46,405 epoch 196 - iter 40/83 - loss 0.00000041 - time (sec): 6.03 - samples/sec: 2231.14 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:47,484 epoch 196 - iter 48/83 - loss 0.00000037 - time (sec): 7.11 - samples/sec: 2253.92 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:48,695 epoch 196 - iter 56/83 - loss 0.00000036 - time (sec): 8.32 - samples/sec: 2251.58 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:49,910 epoch 196 - iter 64/83 - loss 0.00000035 - time (sec): 9.54 - samples/sec: 2276.75 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:50,924 epoch 196 - iter 72/83 - loss 0.00000034 - time (sec): 10.55 - samples/sec: 2291.60 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:52,341 epoch 196 - iter 80/83 - loss 0.00000036 - time (sec): 11.97 - samples/sec: 2264.41 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:52,889 ----------------------------------------------------------------------------------------------------
2025-05-05 19:57:52,889 EPOCH 196 done: loss 0.0000 - lr: 0.000002
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.92it/s] 60%|███  | 3/5 [00:00<00:00,  9.86it/s] 80%|████ | 4/5 [00:00<00:00,  5.56it/s]100%|█████| 5/5 [00:00<00:00,  6.84it/s]
2025-05-05 19:57:53,640 DEV : loss 0.4345018267631531 - f1-score (micro avg)  0.8746
2025-05-05 19:57:53,644 ----------------------------------------------------------------------------------------------------
2025-05-05 19:57:54,581 epoch 197 - iter 8/83 - loss 0.00000023 - time (sec): 0.94 - samples/sec: 2970.58 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:55,568 epoch 197 - iter 16/83 - loss 0.00000023 - time (sec): 1.92 - samples/sec: 2903.99 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:56,646 epoch 197 - iter 24/83 - loss 0.00000025 - time (sec): 3.00 - samples/sec: 2774.56 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:57,800 epoch 197 - iter 32/83 - loss 0.00000024 - time (sec): 4.16 - samples/sec: 2654.87 - lr: 0.000002 - momentum: 0.000000
2025-05-05 19:57:58,818 epoch 197 - iter 40/83 - loss 0.00000026 - time (sec): 5.17 - samples/sec: 2666.62 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:57:59,912 epoch 197 - iter 48/83 - loss 0.00000026 - time (sec): 6.27 - samples/sec: 2609.53 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:00,945 epoch 197 - iter 56/83 - loss 0.00000027 - time (sec): 7.30 - samples/sec: 2616.85 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:01,943 epoch 197 - iter 64/83 - loss 0.00000028 - time (sec): 8.30 - samples/sec: 2634.83 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:02,935 epoch 197 - iter 72/83 - loss 0.00000028 - time (sec): 9.29 - samples/sec: 2643.74 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:03,920 epoch 197 - iter 80/83 - loss 0.00000030 - time (sec): 10.28 - samples/sec: 2648.30 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:04,284 ----------------------------------------------------------------------------------------------------
2025-05-05 19:58:04,284 EPOCH 197 done: loss 0.0000 - lr: 0.000001
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  5.57it/s] 60%|███  | 3/5 [00:00<00:00,  8.39it/s] 80%|████ | 4/5 [00:00<00:00,  7.72it/s]100%|█████| 5/5 [00:00<00:00,  8.39it/s]
2025-05-05 19:58:04,899 DEV : loss 0.4346848428249359 - f1-score (micro avg)  0.8746
2025-05-05 19:58:04,903 ----------------------------------------------------------------------------------------------------
2025-05-05 19:58:06,089 epoch 198 - iter 8/83 - loss 0.00000054 - time (sec): 1.19 - samples/sec: 2344.52 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:07,108 epoch 198 - iter 16/83 - loss 0.00000040 - time (sec): 2.20 - samples/sec: 2677.01 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:08,067 epoch 198 - iter 24/83 - loss 0.00000032 - time (sec): 3.16 - samples/sec: 2702.96 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:09,224 epoch 198 - iter 32/83 - loss 0.00000032 - time (sec): 4.32 - samples/sec: 2505.42 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:10,317 epoch 198 - iter 40/83 - loss 0.00000030 - time (sec): 5.41 - samples/sec: 2456.44 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:11,281 epoch 198 - iter 48/83 - loss 0.00000029 - time (sec): 6.38 - samples/sec: 2557.06 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:12,340 epoch 198 - iter 56/83 - loss 0.00000028 - time (sec): 7.44 - samples/sec: 2584.38 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:13,729 epoch 198 - iter 64/83 - loss 0.00000034 - time (sec): 8.83 - samples/sec: 2512.12 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:14,885 epoch 198 - iter 72/83 - loss 0.00000034 - time (sec): 9.98 - samples/sec: 2458.00 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:16,006 epoch 198 - iter 80/83 - loss 0.00000037 - time (sec): 11.10 - samples/sec: 2453.55 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:16,340 ----------------------------------------------------------------------------------------------------
2025-05-05 19:58:16,340 EPOCH 198 done: loss 0.0000 - lr: 0.000001
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  8.27it/s] 40%|██   | 2/5 [00:00<00:00,  8.93it/s] 60%|███  | 3/5 [00:00<00:00,  8.87it/s] 80%|████ | 4/5 [00:00<00:00,  7.36it/s]100%|█████| 5/5 [00:00<00:00,  8.59it/s]
2025-05-05 19:58:16,941 DEV : loss 0.4346177279949188 - f1-score (micro avg)  0.8746
2025-05-05 19:58:16,945 ----------------------------------------------------------------------------------------------------
2025-05-05 19:58:18,071 epoch 199 - iter 8/83 - loss 0.00000026 - time (sec): 1.12 - samples/sec: 2340.06 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:19,123 epoch 199 - iter 16/83 - loss 0.00000023 - time (sec): 2.18 - samples/sec: 2534.91 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:20,286 epoch 199 - iter 24/83 - loss 0.00000030 - time (sec): 3.34 - samples/sec: 2553.72 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:21,383 epoch 199 - iter 32/83 - loss 0.00000031 - time (sec): 4.44 - samples/sec: 2555.77 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:22,477 epoch 199 - iter 40/83 - loss 0.00000030 - time (sec): 5.53 - samples/sec: 2510.00 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:23,540 epoch 199 - iter 48/83 - loss 0.00000031 - time (sec): 6.59 - samples/sec: 2488.45 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:24,548 epoch 199 - iter 56/83 - loss 0.00000030 - time (sec): 7.60 - samples/sec: 2525.01 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:26,093 epoch 199 - iter 64/83 - loss 0.00000030 - time (sec): 9.15 - samples/sec: 2393.56 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:27,293 epoch 199 - iter 72/83 - loss 0.00000030 - time (sec): 10.35 - samples/sec: 2382.43 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:28,574 epoch 199 - iter 80/83 - loss 0.00000029 - time (sec): 11.63 - samples/sec: 2334.57 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:28,929 ----------------------------------------------------------------------------------------------------
2025-05-05 19:58:28,930 EPOCH 199 done: loss 0.0000 - lr: 0.000001
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.26it/s] 40%|██   | 2/5 [00:00<00:00,  7.78it/s] 60%|███  | 3/5 [00:00<00:00,  7.75it/s] 80%|████ | 4/5 [00:00<00:00,  6.58it/s]100%|█████| 5/5 [00:00<00:00,  7.74it/s]
2025-05-05 19:58:29,594 DEV : loss 0.434683233499527 - f1-score (micro avg)  0.8746
2025-05-05 19:58:29,598 ----------------------------------------------------------------------------------------------------
2025-05-05 19:58:30,575 epoch 200 - iter 8/83 - loss 0.00000021 - time (sec): 0.98 - samples/sec: 2935.41 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:31,841 epoch 200 - iter 16/83 - loss 0.00000030 - time (sec): 2.24 - samples/sec: 2631.79 - lr: 0.000001 - momentum: 0.000000
2025-05-05 19:58:33,169 epoch 200 - iter 24/83 - loss 0.00000029 - time (sec): 3.57 - samples/sec: 2396.29 - lr: 0.000000 - momentum: 0.000000
2025-05-05 19:58:34,390 epoch 200 - iter 32/83 - loss 0.00000026 - time (sec): 4.79 - samples/sec: 2435.09 - lr: 0.000000 - momentum: 0.000000
2025-05-05 19:58:35,334 epoch 200 - iter 40/83 - loss 0.00000031 - time (sec): 5.73 - samples/sec: 2459.56 - lr: 0.000000 - momentum: 0.000000
2025-05-05 19:58:36,349 epoch 200 - iter 48/83 - loss 0.00000031 - time (sec): 6.75 - samples/sec: 2458.69 - lr: 0.000000 - momentum: 0.000000
2025-05-05 19:58:37,352 epoch 200 - iter 56/83 - loss 0.00000030 - time (sec): 7.75 - samples/sec: 2473.95 - lr: 0.000000 - momentum: 0.000000
2025-05-05 19:58:38,484 epoch 200 - iter 64/83 - loss 0.00000030 - time (sec): 8.88 - samples/sec: 2462.70 - lr: 0.000000 - momentum: 0.000000
2025-05-05 19:58:39,553 epoch 200 - iter 72/83 - loss 0.00000030 - time (sec): 9.95 - samples/sec: 2453.51 - lr: 0.000000 - momentum: 0.000000
2025-05-05 19:58:40,573 epoch 200 - iter 80/83 - loss 0.00000030 - time (sec): 10.97 - samples/sec: 2464.47 - lr: 0.000000 - momentum: 0.000000
2025-05-05 19:58:40,933 ----------------------------------------------------------------------------------------------------
2025-05-05 19:58:40,933 EPOCH 200 done: loss 0.0000 - lr: 0.000000
  0%|             | 0/5 [00:00<?, ?it/s] 20%|█    | 1/5 [00:00<00:00,  7.80it/s] 40%|██   | 2/5 [00:00<00:00,  8.32it/s] 60%|███  | 3/5 [00:00<00:00,  8.85it/s] 80%|████ | 4/5 [00:00<00:00,  7.69it/s]100%|█████| 5/5 [00:00<00:00,  8.75it/s]
2025-05-05 19:58:41,524 DEV : loss 0.4350113272666931 - f1-score (micro avg)  0.8746
2025-05-05 19:58:42,393 ----------------------------------------------------------------------------------------------------
2025-05-05 19:58:42,394 Testing using last state of model ...
  0%|             | 0/6 [00:00<?, ?it/s] 17%|▊    | 1/6 [00:00<00:00,  9.83it/s] 33%|█▋   | 2/6 [00:00<00:00,  9.53it/s] 67%|███▎ | 4/6 [00:00<00:00, 10.01it/s] 83%|████▏| 5/6 [00:00<00:00,  8.87it/s]100%|█████| 6/6 [00:00<00:00, 10.54it/s]
2025-05-05 19:58:42,983 
Results:
- F-score (micro) 0.8989
- F-score (macro) 0.7832
- Accuracy 0.8196

By class:
              precision    recall  f1-score   support

        AREF     0.9062    0.8923    0.8992        65
         ORG     0.9464    0.9636    0.9550        55
        ORG2     1.0000    0.9574    0.9783        47
         FAC     0.7805    0.8889    0.8312        36
        LOC2     0.7778    0.7778    0.7778         9
         REF     0.8571    0.6667    0.7500         9
         LOC     0.8571    0.8571    0.8571         7
         PER     0.5000    0.5000    0.5000         2
       EVENT     0.5000    0.5000    0.5000         2

   micro avg     0.8970    0.9009    0.8989       232
   macro avg     0.7917    0.7782    0.7832       232
weighted avg     0.8999    0.9009    0.8992       232

2025-05-05 19:58:42,983 ----------------------------------------------------------------------------------------------------
######################################################################
           ********** fine-tune operation finished **********           
           **********  2025-05-05 19:58:42.984839  **********           
######################################################################
 Try to evaluating the trained model! 
2025-05-05 19:58:46,600 SequenceTagger predicts: Dictionary with 37 tags: O, S-AREF, B-AREF, E-AREF, I-AREF, S-ORG, B-ORG, E-ORG, I-ORG, S-ORG2, B-ORG2, E-ORG2, I-ORG2, S-FAC, B-FAC, E-FAC, I-FAC, S-LOC2, B-LOC2, E-LOC2, I-LOC2, S-REF, B-REF, E-REF, I-REF, S-LOC, B-LOC, E-LOC, I-LOC, S-EVENT, B-EVENT, E-EVENT, I-EVENT, S-PER, B-PER, E-PER, I-PER
2025-05-05 19:58:46,707 Reading data from data
2025-05-05 19:58:46,707 Train: data/peyma_train.txt
2025-05-05 19:58:46,707 Dev: None
2025-05-05 19:58:46,707 Test: data/test_ds.txt
2025-05-05 19:58:49,315 No dev split found. Using 10% (i.e. 803 samples) of the train split as dev data
  0%|             | 0/1 [00:00<?, ?it/s]2025-05-05 19:58:49,350 The string 'B-HALFREFERENCE' is not in dictionary! Dictionary contains only: ['O', 'S-AREF', 'B-AREF', 'E-AREF', 'I-AREF', 'S-ORG', 'B-ORG', 'E-ORG', 'I-ORG', 'S-ORG2', 'B-ORG2', 'E-ORG2', 'I-ORG2', 'S-FAC', 'B-FAC', 'E-FAC', 'I-FAC', 'S-LOC2', 'B-LOC2', 'E-LOC2', 'I-LOC2', 'S-REF', 'B-REF', 'E-REF', 'I-REF', 'S-LOC', 'B-LOC', 'E-LOC', 'I-LOC', 'S-EVENT', 'B-EVENT', 'E-EVENT', 'I-EVENT', 'S-PER', 'B-PER', 'E-PER', 'I-PER']
2025-05-05 19:58:49,351 You can create a Dictionary that handles unknown items with an <unk>-key by setting add_unk = True in the construction.
  0%|             | 0/1 [00:00<?, ?it/s]
do_evaluate function failed
Traceback (most recent call last):
  File "/home/gpu/tnlp/jokar/Flair_NER/train.py", line 163, in <module>
    evaluate_result = do_evaluate()
  File "/home/gpu/tnlp/jokar/Flair_NER/evaluate_model.py", line 13, in do_evaluate
    result = tagger.evaluate(corpus.test, gold_label_type='ner', mini_batch_size=8)
  File "/home/gpu/NLP/.env/lib/python3.10/site-packages/flair/nn/model.py", line 297, in evaluate
    loss_and_count = self.predict(
  File "/home/gpu/NLP/.env/lib/python3.10/site-packages/flair/models/sequence_tagger_model.py", line 501, in predict
    gold_labels = self._prepare_label_tensor(batch)
  File "/home/gpu/NLP/.env/lib/python3.10/site-packages/flair/models/sequence_tagger_model.py", line 425, in _prepare_label_tensor
    [self.label_dictionary.get_idx_for_item(label) for label in gold_labels],
  File "/home/gpu/NLP/.env/lib/python3.10/site-packages/flair/models/sequence_tagger_model.py", line 425, in <listcomp>
    [self.label_dictionary.get_idx_for_item(label) for label in gold_labels],
  File "/home/gpu/NLP/.env/lib/python3.10/site-packages/flair/data.py", line 102, in get_idx_for_item
    raise IndexError
IndexError

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/home/gpu/tnlp/jokar/Flair_NER/train.py", line 167, in <module>
    evaluate_result = f"do_evaluate function failed!\nerror massage:\n{str(e.args[0])}"
IndexError: tuple index out of range