From b9ab91fd2bd7eed11671afba0d2cce5663bb46b1 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=D0=9C=D0=B0=D0=B7=D1=83=D1=80=20=D0=93=D1=80=D0=B5=D1=82?=
 =?UTF-8?q?=D0=B0=20=D0=95=D0=B2=D0=B3=D0=B5=D0=BD=D1=8C=D0=B5=D0=B2=D0=BD?=
 =?UTF-8?q?=D0=B0?= <gemazur_1@edu.hse.ru>
Date: Thu, 27 Mar 2025 03:31:42 +0300
Subject: [PATCH] supermega

---
 .ipynb_checkpoints/ULTRAMegaOB-checkpoint.py | 203 +++++++++++++------
 ULTRAMegaOB.py                               | 203 +++++++++++++------
 2 files changed, 274 insertions(+), 132 deletions(-)

diff --git a/.ipynb_checkpoints/ULTRAMegaOB-checkpoint.py b/.ipynb_checkpoints/ULTRAMegaOB-checkpoint.py
index 66ae391..fbde2fe 100644
--- a/.ipynb_checkpoints/ULTRAMegaOB-checkpoint.py
+++ b/.ipynb_checkpoints/ULTRAMegaOB-checkpoint.py
@@ -17,6 +17,11 @@ import logging
 import nlpaug.augmenter.word as naw
 from collections import defaultdict
 from sklearn.metrics import classification_report
+import nltk
+nltk.download('punkt', quiet=True)
+nltk.download('averaged_perceptron_tagger', quiet=True)
+nltk.download('wordnet', quiet=True)
+nltk.download('omw-1.4', quiet=True)
 
 
 # РќР°СЃС‚СЂРѕР№РєР° Р»РѕРіРіРёСЂРѕРІР°РЅРёСЏ
@@ -178,23 +183,76 @@ def compute_metrics(p):
 
 
 
-def augment_text(text, num_augments):
-    """Р“РµРЅРµСЂР°С†РёСЏ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅС‹С… РїСЂРёРјРµСЂРѕРІ СЃ РїСЂРѕРІРµСЂРєР°РјРё"""
-    if len(text) > 1000:
-        logger.debug(f"РўРµРєСЃС‚ СЃР»РёС€РєРѕРј РґР»РёРЅРЅС‹Р№ РґР»СЏ Р°СѓРіРјРµРЅС‚Р°С†РёРё: {len(text)} СЃРёРјРІРѕР»РѕРІ")
-        return [text]
+# def augment_text(text, num_augments):
+#     """Р“РµРЅРµСЂР°С†РёСЏ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅС‹С… РїСЂРёРјРµСЂРѕРІ СЃ РїСЂРѕРІРµСЂРєР°РјРё"""
+#     if len(text) > 1000:
+#         logger.debug(f"РўРµРєСЃС‚ СЃР»РёС€РєРѕРј РґР»РёРЅРЅС‹Р№ РґР»СЏ Р°СѓРіРјРµРЅС‚Р°С†РёРё: {len(text)} СЃРёРјРІРѕР»РѕРІ")
+#         return [text]
     
-    if not isinstance(text, str) or len(text.strip()) < 10:
-        return [text]
+#     if not isinstance(text, str) or len(text.strip()) < 10:
+#         return [text]
         
-    text = text.replace('\n', ' ').strip()
+#     text = text.replace('\n', ' ').strip()
     
-    augmented = set()
+#     augmented = set()
+#     try:
+#         # РђРЅРіР»РёР№СЃРєРёРµ СЃРёРЅРѕРЅРёРјС‹
+#         eng_augs = synonym_aug.augment(text, n=num_augments)
+#         if eng_augs:
+#             augmented.update(a for a in eng_augs if isinstance(a, str))
+        
+#         # Р СѓСЃСЃРєРёРµ СЃРёРЅРѕРЅРёРјС‹
+#         try:
+#             ru_augs = ru_synonym_aug.augment(text, n=num_augments)
+#             if ru_augs:
+#                 augmented.update(a for a in ru_augs if isinstance(a, str))
+#         except Exception as e:
+#             logger.warning(f"РћС€РёР±РєР° СЂСѓСЃСЃРєРѕР№ Р°СѓРіРјРµРЅС‚Р°С†РёРё: {str(e)}")
+        
+#         # РћР±СЂР°С‚РЅС‹Р№ РїРµСЂРµРІРѕРґ
+#         if len(augmented) < num_augments:
+#             try:
+#                 if any(cyr_char in text for cyr_char in 'Р°Р±РІРіРґРµС‘Р¶Р·РёР№РєР»РјРЅРѕРїСЂСЃС‚СѓС„С…С†С‡С€С‰СЉС‹СЊСЌСЋСЏ'):
+#                     tr_augs = translation_aug_ru.augment(text, n=num_augments-len(augmented))
+#                 else:
+#                     tr_augs = translation_aug.augment(text, n=num_augments-len(augmented))
+                    
+#                 if tr_augs:
+#                     augmented.update(a.replace(' ##', '') for a in tr_augs 
+#                                  if isinstance(a, str) and a is not None)
+                    
+#             except Exception as e:
+#                 logger.warning(f"РћС€РёР±РєР° РїРµСЂРµРІРѕРґР°: {str(e)}")
+                
+#         if not augmented:
+#             logger.debug(f"РќРµ СѓРґР°Р»РѕСЃСЊ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°С‚СЊ С‚РµРєСЃС‚: {text[:50]}...")
+#             return [text]
+            
+#         augmented = list(set(augmented))
+#         return list(augmented)[:num_augments] if augmented else [text]
+#     except Exception as e:
+#         logger.error(f"РљСЂРёС‚РёС‡РµСЃРєР°СЏ РѕС€РёР±РєР° Р°СѓРіРјРµРЅС‚Р°С†РёРё: {str(e)}")
+#         return [text]
+
+def augment_text(text, num_augments):
+    """Р‘РµР·РѕРїР°СЃРЅР°СЏ РіРµРЅРµСЂР°С†РёСЏ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅС‹С… РїСЂРёРјРµСЂРѕРІ"""
     try:
+        if len(text) > 1000:
+            return [text[:1000]]  # РћР±СЂРµР·Р°РµРј СЃР»РёС€РєРѕРј РґР»РёРЅРЅС‹Рµ С‚РµРєСЃС‚С‹
+        
+        if not isinstance(text, str) or len(text.strip()) < 10:
+            return [text]
+            
+        text = text.replace('\n', ' ').strip()
+        augmented = set([text])  # РќР°С‡РёРЅР°РµРј СЃ РѕСЂРёРіРёРЅР°Р»Р°
+        
         # РђРЅРіР»РёР№СЃРєРёРµ СЃРёРЅРѕРЅРёРјС‹
-        eng_augs = synonym_aug.augment(text, n=num_augments)
-        if eng_augs:
-            augmented.update(a for a in eng_augs if isinstance(a, str))
+        try:
+            eng_augs = synonym_aug.augment(text, n=num_augments)
+            if eng_augs:
+                augmented.update(a for a in eng_augs if isinstance(a, str))
+        except Exception as e:
+            logger.warning(f"РћС€РёР±РєР° Р°РЅРіР»РёР№СЃРєРѕР№ Р°СѓРіРјРµРЅС‚Р°С†РёРё: {str(e)}")
         
         # Р СѓСЃСЃРєРёРµ СЃРёРЅРѕРЅРёРјС‹
         try:
@@ -204,78 +262,91 @@ def augment_text(text, num_augments):
         except Exception as e:
             logger.warning(f"РћС€РёР±РєР° СЂСѓСЃСЃРєРѕР№ Р°СѓРіРјРµРЅС‚Р°С†РёРё: {str(e)}")
         
-        # РћР±СЂР°С‚РЅС‹Р№ РїРµСЂРµРІРѕРґ
-        if len(augmented) < num_augments:
-            try:
-                if any(cyr_char in text for cyr_char in 'Р°Р±РІРіРґРµС‘Р¶Р·РёР№РєР»РјРЅРѕРїСЂСЃС‚СѓС„С…С†С‡С€С‰СЉС‹СЊСЌСЋСЏ'):
-                    tr_augs = translation_aug_ru.augment(text, n=num_augments-len(augmented))
-                else:
-                    tr_augs = translation_aug.augment(text, n=num_augments-len(augmented))
-                    
-                if tr_augs:
-                    augmented.update(a.replace(' ##', '') for a in tr_augs 
-                                 if isinstance(a, str) and a is not None)
-                    
-            except Exception as e:
-                logger.warning(f"РћС€РёР±РєР° РїРµСЂРµРІРѕРґР°: {str(e)}")
-                
-        if not augmented:
-            logger.debug(f"РќРµ СѓРґР°Р»РѕСЃСЊ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°С‚СЊ С‚РµРєСЃС‚: {text[:50]}...")
-            return [text]
-            
-        augmented = list(set(augmented))
         return list(augmented)[:num_augments] if augmented else [text]
+        
     except Exception as e:
         logger.error(f"РљСЂРёС‚РёС‡РµСЃРєР°СЏ РѕС€РёР±РєР° Р°СѓРіРјРµРЅС‚Р°С†РёРё: {str(e)}")
         return [text]
 
 
+# def balance_attack_types(unsafe_data):
+#     """Р‘Р°Р»Р°РЅСЃРёСЂРѕРІРєР° С‚РёРїРѕРІ Р°С‚Р°Рє СЃ Р°СѓРіРјРµРЅС‚Р°С†РёРµР№"""
+#     if len(unsafe_data) == 0:
+#         logger.warning("РџРѕР»СѓС‡РµРЅ РїСѓСЃС‚РѕР№ DataFrame РґР»СЏ Р±Р°Р»Р°РЅСЃРёСЂРѕРІРєРё")
+#         return pd.DataFrame()
+    
+#     # Р›РѕРіРёСЂРѕРІР°РЅРёРµ РёСЃС…РѕРґРЅРѕРіРѕ СЂР°СЃРїСЂРµРґРµР»РµРЅРёСЏ
+#     original_counts = unsafe_data['type'].value_counts()
+#     logger.info("\nРСЃС…РѕРґРЅРѕРµ СЂР°СЃРїСЂРµРґРµР»РµРЅРёРµ С‚РёРїРѕРІ Р°С‚Р°Рє:")
+#     logger.info(original_counts.to_string())
+    
+#     attack_counts = unsafe_data['type'].value_counts()
+#     max_count = attack_counts.max()
+    
+#     balanced = []
+#     for attack_type, count in attack_counts.items():
+#         subset = unsafe_data[unsafe_data['type'] == attack_type]
+        
+#         if count < max_count:
+#             num_needed = max_count - count
+#             num_augments = min(Config.AUGMENTATION_FACTOR[attack_type], num_needed)
+            
+#             augmented = subset.sample(n=num_augments, replace=True)
+#             augmented['prompt'] = augmented['prompt'].apply(
+#             lambda x: augment_text(x, 1)[0]  # РџСЂРѕСЃС‚Рѕ Р±РµСЂРµРј РїРµСЂРІС‹Р№ СЌР»РµРјРµРЅС‚ РІРѕР·РІСЂР°С‰Р°РµРјРѕРіРѕ СЃРїРёСЃРєР°
+#                 )
+            
+#             # Р›РѕРіРёСЂРѕРІР°РЅРёРµ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅС‹С… РїСЂРёРјРµСЂРѕРІ
+#             logger.info(f"\nРђСѓРіРјРµРЅС‚Р°С†РёСЏ РґР»СЏ {attack_type}:")
+#             logger.info(f"РСЃС…РѕРґРЅС‹С… РїСЂРёРјРµСЂРѕРІ: {len(subset)}")
+#             logger.info(f"РЎРѕР·РґР°РЅРѕ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅС‹С…: {len(augmented)}")
+#             if len(augmented) > 0:
+#                 logger.info(f"РџСЂРёРјРµСЂ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅРѕРіРѕ С‚РµРєСЃС‚Р°:\n{augmented.iloc[0]['prompt'][:200]}...")
+            
+#             subset = pd.concat([subset, augmented]).sample(frac=1)
+        
+#         balanced.append(subset.sample(n=max_count, replace=False))
+    
+#     result = pd.concat(balanced).sample(frac=1)
+    
+#     # Р›РѕРіРёСЂРѕРІР°РЅРёРµ РёС‚РѕРіРѕРІРѕРіРѕ СЂР°СЃРїСЂРµРґРµР»РµРЅРёСЏ
+#     logger.info("\nРС‚РѕРіРѕРІРѕРµ СЂР°СЃРїСЂРµРґРµР»РµРЅРёРµ РїРѕСЃР»Рµ Р±Р°Р»Р°РЅСЃРёСЂРѕРІРєРё:")
+#     logger.info(result['type'].value_counts().to_string())
+    
+#     return result
 
 def balance_attack_types(unsafe_data):
-    """Р‘Р°Р»Р°РЅСЃРёСЂРѕРІРєР° С‚РёРїРѕРІ Р°С‚Р°Рє СЃ Р°СѓРіРјРµРЅС‚Р°С†РёРµР№"""
+    """РЈСЃС‚РѕР№С‡РёРІР°СЏ Р±Р°Р»Р°РЅСЃРёСЂРѕРІРєР° РєР»Р°СЃСЃРѕРІ"""
     if len(unsafe_data) == 0:
-        logger.warning("РџРѕР»СѓС‡РµРЅ РїСѓСЃС‚РѕР№ DataFrame РґР»СЏ Р±Р°Р»Р°РЅСЃРёСЂРѕРІРєРё")
         return pd.DataFrame()
     
-    # Р›РѕРіРёСЂРѕРІР°РЅРёРµ РёСЃС…РѕРґРЅРѕРіРѕ СЂР°СЃРїСЂРµРґРµР»РµРЅРёСЏ
-    original_counts = unsafe_data['type'].value_counts()
-    logger.info("\nРСЃС…РѕРґРЅРѕРµ СЂР°СЃРїСЂРµРґРµР»РµРЅРёРµ С‚РёРїРѕРІ Р°С‚Р°Рє:")
-    logger.info(original_counts.to_string())
+    # Р›РѕРіРёСЂРѕРІР°РЅРёРµ СЃС‚Р°С‚РёСЃС‚РёРєРё
+    type_counts = unsafe_data['type'].value_counts()
+    logger.info(f"\nРСЃС…РѕРґРЅРѕРµ СЂР°СЃРїСЂРµРґРµР»РµРЅРёРµ:\n{type_counts.to_string()}")
     
-    attack_counts = unsafe_data['type'].value_counts()
-    max_count = attack_counts.max()
+    # РћРїСЂРµРґРµР»СЏРµРј С†РµР»РµРІРѕРµ РєРѕР»РёС‡РµСЃС‚РІРѕ РґР»СЏ Р±Р°Р»Р°РЅСЃРёСЂРѕРІРєРё
+    target_count = type_counts.max()
+    balanced_dfs = []
     
-    balanced = []
-    for attack_type, count in attack_counts.items():
-        subset = unsafe_data[unsafe_data['type'] == attack_type]
+    for attack_type, count in type_counts.items():
+        subset = unsafe_data[unsafe_data['type'] == attack_type].copy()
         
-        if count < max_count:
-            num_needed = max_count - count
-            num_augments = min(Config.AUGMENTATION_FACTOR[attack_type], num_needed)
+        if count < target_count:
+            needed = target_count - count
+            augment_factor = min(Config.AUGMENTATION_FACTOR.get(attack_type, 1), needed)
             
-            augmented = subset.sample(n=num_augments, replace=True)
-            augmented['prompt'] = augmented['prompt'].apply(
-            lambda x: augment_text(x, 1)[0]  # РџСЂРѕСЃС‚Рѕ Р±РµСЂРµРј РїРµСЂРІС‹Р№ СЌР»РµРјРµРЅС‚ РІРѕР·РІСЂР°С‰Р°РµРјРѕРіРѕ СЃРїРёСЃРєР°
-                )
-            
-            # Р›РѕРіРёСЂРѕРІР°РЅРёРµ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅС‹С… РїСЂРёРјРµСЂРѕРІ
-            logger.info(f"\nРђСѓРіРјРµРЅС‚Р°С†РёСЏ РґР»СЏ {attack_type}:")
-            logger.info(f"РСЃС…РѕРґРЅС‹С… РїСЂРёРјРµСЂРѕРІ: {len(subset)}")
-            logger.info(f"РЎРѕР·РґР°РЅРѕ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅС‹С…: {len(augmented)}")
-            if len(augmented) > 0:
-                logger.info(f"РџСЂРёРјРµСЂ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅРѕРіРѕ С‚РµРєСЃС‚Р°:\n{augmented.iloc[0]['prompt'][:200]}...")
+            # Р‘РµР·РѕРїР°СЃРЅР°СЏ Р°СѓРіРјРµРЅС‚Р°С†РёСЏ
+            augmented_samples = subset.sample(n=augment_factor, replace=True)
+            augmented_samples['prompt'] = augmented_samples['prompt'].apply(
+                lambda x: augment_text(x, 1)[0]
+            )
             
-            subset = pd.concat([subset, augmented]).sample(frac=1)
+            subset = pd.concat([subset, augmented_samples])
         
-        balanced.append(subset.sample(n=max_count, replace=False))
-    
-    result = pd.concat(balanced).sample(frac=1)
-    
-    # Р›РѕРіРёСЂРѕРІР°РЅРёРµ РёС‚РѕРіРѕРІРѕРіРѕ СЂР°СЃРїСЂРµРґРµР»РµРЅРёСЏ
-    logger.info("\nРС‚РѕРіРѕРІРѕРµ СЂР°СЃРїСЂРµРґРµР»РµРЅРёРµ РїРѕСЃР»Рµ Р±Р°Р»Р°РЅСЃРёСЂРѕРІРєРё:")
-    logger.info(result['type'].value_counts().to_string())
+        # Р¤РёРєСЃРёСЂСѓРµРј СЂР°Р·РјРµСЂ РІС‹Р±РѕСЂРєРё
+        balanced_dfs.append(subset.sample(n=target_count, replace=len(subset) < target_count))
     
-    return result
+    return pd.concat(balanced_dfs).sample(frac=1)
     
 
 
diff --git a/ULTRAMegaOB.py b/ULTRAMegaOB.py
index 66ae391..fbde2fe 100644
--- a/ULTRAMegaOB.py
+++ b/ULTRAMegaOB.py
@@ -17,6 +17,11 @@ import logging
 import nlpaug.augmenter.word as naw
 from collections import defaultdict
 from sklearn.metrics import classification_report
+import nltk
+nltk.download('punkt', quiet=True)
+nltk.download('averaged_perceptron_tagger', quiet=True)
+nltk.download('wordnet', quiet=True)
+nltk.download('omw-1.4', quiet=True)
 
 
 # РќР°СЃС‚СЂРѕР№РєР° Р»РѕРіРіРёСЂРѕРІР°РЅРёСЏ
@@ -178,23 +183,76 @@ def compute_metrics(p):
 
 
 
-def augment_text(text, num_augments):
-    """Р“РµРЅРµСЂР°С†РёСЏ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅС‹С… РїСЂРёРјРµСЂРѕРІ СЃ РїСЂРѕРІРµСЂРєР°РјРё"""
-    if len(text) > 1000:
-        logger.debug(f"РўРµРєСЃС‚ СЃР»РёС€РєРѕРј РґР»РёРЅРЅС‹Р№ РґР»СЏ Р°СѓРіРјРµРЅС‚Р°С†РёРё: {len(text)} СЃРёРјРІРѕР»РѕРІ")
-        return [text]
+# def augment_text(text, num_augments):
+#     """Р“РµРЅРµСЂР°С†РёСЏ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅС‹С… РїСЂРёРјРµСЂРѕРІ СЃ РїСЂРѕРІРµСЂРєР°РјРё"""
+#     if len(text) > 1000:
+#         logger.debug(f"РўРµРєСЃС‚ СЃР»РёС€РєРѕРј РґР»РёРЅРЅС‹Р№ РґР»СЏ Р°СѓРіРјРµРЅС‚Р°С†РёРё: {len(text)} СЃРёРјРІРѕР»РѕРІ")
+#         return [text]
     
-    if not isinstance(text, str) or len(text.strip()) < 10:
-        return [text]
+#     if not isinstance(text, str) or len(text.strip()) < 10:
+#         return [text]
         
-    text = text.replace('\n', ' ').strip()
+#     text = text.replace('\n', ' ').strip()
     
-    augmented = set()
+#     augmented = set()
+#     try:
+#         # РђРЅРіР»РёР№СЃРєРёРµ СЃРёРЅРѕРЅРёРјС‹
+#         eng_augs = synonym_aug.augment(text, n=num_augments)
+#         if eng_augs:
+#             augmented.update(a for a in eng_augs if isinstance(a, str))
+        
+#         # Р СѓСЃСЃРєРёРµ СЃРёРЅРѕРЅРёРјС‹
+#         try:
+#             ru_augs = ru_synonym_aug.augment(text, n=num_augments)
+#             if ru_augs:
+#                 augmented.update(a for a in ru_augs if isinstance(a, str))
+#         except Exception as e:
+#             logger.warning(f"РћС€РёР±РєР° СЂСѓСЃСЃРєРѕР№ Р°СѓРіРјРµРЅС‚Р°С†РёРё: {str(e)}")
+        
+#         # РћР±СЂР°С‚РЅС‹Р№ РїРµСЂРµРІРѕРґ
+#         if len(augmented) < num_augments:
+#             try:
+#                 if any(cyr_char in text for cyr_char in 'Р°Р±РІРіРґРµС‘Р¶Р·РёР№РєР»РјРЅРѕРїСЂСЃС‚СѓС„С…С†С‡С€С‰СЉС‹СЊСЌСЋСЏ'):
+#                     tr_augs = translation_aug_ru.augment(text, n=num_augments-len(augmented))
+#                 else:
+#                     tr_augs = translation_aug.augment(text, n=num_augments-len(augmented))
+                    
+#                 if tr_augs:
+#                     augmented.update(a.replace(' ##', '') for a in tr_augs 
+#                                  if isinstance(a, str) and a is not None)
+                    
+#             except Exception as e:
+#                 logger.warning(f"РћС€РёР±РєР° РїРµСЂРµРІРѕРґР°: {str(e)}")
+                
+#         if not augmented:
+#             logger.debug(f"РќРµ СѓРґР°Р»РѕСЃСЊ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°С‚СЊ С‚РµРєСЃС‚: {text[:50]}...")
+#             return [text]
+            
+#         augmented = list(set(augmented))
+#         return list(augmented)[:num_augments] if augmented else [text]
+#     except Exception as e:
+#         logger.error(f"РљСЂРёС‚РёС‡РµСЃРєР°СЏ РѕС€РёР±РєР° Р°СѓРіРјРµРЅС‚Р°С†РёРё: {str(e)}")
+#         return [text]
+
+def augment_text(text, num_augments):
+    """Р‘РµР·РѕРїР°СЃРЅР°СЏ РіРµРЅРµСЂР°С†РёСЏ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅС‹С… РїСЂРёРјРµСЂРѕРІ"""
     try:
+        if len(text) > 1000:
+            return [text[:1000]]  # РћР±СЂРµР·Р°РµРј СЃР»РёС€РєРѕРј РґР»РёРЅРЅС‹Рµ С‚РµРєСЃС‚С‹
+        
+        if not isinstance(text, str) or len(text.strip()) < 10:
+            return [text]
+            
+        text = text.replace('\n', ' ').strip()
+        augmented = set([text])  # РќР°С‡РёРЅР°РµРј СЃ РѕСЂРёРіРёРЅР°Р»Р°
+        
         # РђРЅРіР»РёР№СЃРєРёРµ СЃРёРЅРѕРЅРёРјС‹
-        eng_augs = synonym_aug.augment(text, n=num_augments)
-        if eng_augs:
-            augmented.update(a for a in eng_augs if isinstance(a, str))
+        try:
+            eng_augs = synonym_aug.augment(text, n=num_augments)
+            if eng_augs:
+                augmented.update(a for a in eng_augs if isinstance(a, str))
+        except Exception as e:
+            logger.warning(f"РћС€РёР±РєР° Р°РЅРіР»РёР№СЃРєРѕР№ Р°СѓРіРјРµРЅС‚Р°С†РёРё: {str(e)}")
         
         # Р СѓСЃСЃРєРёРµ СЃРёРЅРѕРЅРёРјС‹
         try:
@@ -204,78 +262,91 @@ def augment_text(text, num_augments):
         except Exception as e:
             logger.warning(f"РћС€РёР±РєР° СЂСѓСЃСЃРєРѕР№ Р°СѓРіРјРµРЅС‚Р°С†РёРё: {str(e)}")
         
-        # РћР±СЂР°С‚РЅС‹Р№ РїРµСЂРµРІРѕРґ
-        if len(augmented) < num_augments:
-            try:
-                if any(cyr_char in text for cyr_char in 'Р°Р±РІРіРґРµС‘Р¶Р·РёР№РєР»РјРЅРѕРїСЂСЃС‚СѓС„С…С†С‡С€С‰СЉС‹СЊСЌСЋСЏ'):
-                    tr_augs = translation_aug_ru.augment(text, n=num_augments-len(augmented))
-                else:
-                    tr_augs = translation_aug.augment(text, n=num_augments-len(augmented))
-                    
-                if tr_augs:
-                    augmented.update(a.replace(' ##', '') for a in tr_augs 
-                                 if isinstance(a, str) and a is not None)
-                    
-            except Exception as e:
-                logger.warning(f"РћС€РёР±РєР° РїРµСЂРµРІРѕРґР°: {str(e)}")
-                
-        if not augmented:
-            logger.debug(f"РќРµ СѓРґР°Р»РѕСЃСЊ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°С‚СЊ С‚РµРєСЃС‚: {text[:50]}...")
-            return [text]
-            
-        augmented = list(set(augmented))
         return list(augmented)[:num_augments] if augmented else [text]
+        
     except Exception as e:
         logger.error(f"РљСЂРёС‚РёС‡РµСЃРєР°СЏ РѕС€РёР±РєР° Р°СѓРіРјРµРЅС‚Р°С†РёРё: {str(e)}")
         return [text]
 
 
+# def balance_attack_types(unsafe_data):
+#     """Р‘Р°Р»Р°РЅСЃРёСЂРѕРІРєР° С‚РёРїРѕРІ Р°С‚Р°Рє СЃ Р°СѓРіРјРµРЅС‚Р°С†РёРµР№"""
+#     if len(unsafe_data) == 0:
+#         logger.warning("РџРѕР»СѓС‡РµРЅ РїСѓСЃС‚РѕР№ DataFrame РґР»СЏ Р±Р°Р»Р°РЅСЃРёСЂРѕРІРєРё")
+#         return pd.DataFrame()
+    
+#     # Р›РѕРіРёСЂРѕРІР°РЅРёРµ РёСЃС…РѕРґРЅРѕРіРѕ СЂР°СЃРїСЂРµРґРµР»РµРЅРёСЏ
+#     original_counts = unsafe_data['type'].value_counts()
+#     logger.info("\nРСЃС…РѕРґРЅРѕРµ СЂР°СЃРїСЂРµРґРµР»РµРЅРёРµ С‚РёРїРѕРІ Р°С‚Р°Рє:")
+#     logger.info(original_counts.to_string())
+    
+#     attack_counts = unsafe_data['type'].value_counts()
+#     max_count = attack_counts.max()
+    
+#     balanced = []
+#     for attack_type, count in attack_counts.items():
+#         subset = unsafe_data[unsafe_data['type'] == attack_type]
+        
+#         if count < max_count:
+#             num_needed = max_count - count
+#             num_augments = min(Config.AUGMENTATION_FACTOR[attack_type], num_needed)
+            
+#             augmented = subset.sample(n=num_augments, replace=True)
+#             augmented['prompt'] = augmented['prompt'].apply(
+#             lambda x: augment_text(x, 1)[0]  # РџСЂРѕСЃС‚Рѕ Р±РµСЂРµРј РїРµСЂРІС‹Р№ СЌР»РµРјРµРЅС‚ РІРѕР·РІСЂР°С‰Р°РµРјРѕРіРѕ СЃРїРёСЃРєР°
+#                 )
+            
+#             # Р›РѕРіРёСЂРѕРІР°РЅРёРµ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅС‹С… РїСЂРёРјРµСЂРѕРІ
+#             logger.info(f"\nРђСѓРіРјРµРЅС‚Р°С†РёСЏ РґР»СЏ {attack_type}:")
+#             logger.info(f"РСЃС…РѕРґРЅС‹С… РїСЂРёРјРµСЂРѕРІ: {len(subset)}")
+#             logger.info(f"РЎРѕР·РґР°РЅРѕ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅС‹С…: {len(augmented)}")
+#             if len(augmented) > 0:
+#                 logger.info(f"РџСЂРёРјРµСЂ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅРѕРіРѕ С‚РµРєСЃС‚Р°:\n{augmented.iloc[0]['prompt'][:200]}...")
+            
+#             subset = pd.concat([subset, augmented]).sample(frac=1)
+        
+#         balanced.append(subset.sample(n=max_count, replace=False))
+    
+#     result = pd.concat(balanced).sample(frac=1)
+    
+#     # Р›РѕРіРёСЂРѕРІР°РЅРёРµ РёС‚РѕРіРѕРІРѕРіРѕ СЂР°СЃРїСЂРµРґРµР»РµРЅРёСЏ
+#     logger.info("\nРС‚РѕРіРѕРІРѕРµ СЂР°СЃРїСЂРµРґРµР»РµРЅРёРµ РїРѕСЃР»Рµ Р±Р°Р»Р°РЅСЃРёСЂРѕРІРєРё:")
+#     logger.info(result['type'].value_counts().to_string())
+    
+#     return result
 
 def balance_attack_types(unsafe_data):
-    """Р‘Р°Р»Р°РЅСЃРёСЂРѕРІРєР° С‚РёРїРѕРІ Р°С‚Р°Рє СЃ Р°СѓРіРјРµРЅС‚Р°С†РёРµР№"""
+    """РЈСЃС‚РѕР№С‡РёРІР°СЏ Р±Р°Р»Р°РЅСЃРёСЂРѕРІРєР° РєР»Р°СЃСЃРѕРІ"""
     if len(unsafe_data) == 0:
-        logger.warning("РџРѕР»СѓС‡РµРЅ РїСѓСЃС‚РѕР№ DataFrame РґР»СЏ Р±Р°Р»Р°РЅСЃРёСЂРѕРІРєРё")
         return pd.DataFrame()
     
-    # Р›РѕРіРёСЂРѕРІР°РЅРёРµ РёСЃС…РѕРґРЅРѕРіРѕ СЂР°СЃРїСЂРµРґРµР»РµРЅРёСЏ
-    original_counts = unsafe_data['type'].value_counts()
-    logger.info("\nРСЃС…РѕРґРЅРѕРµ СЂР°СЃРїСЂРµРґРµР»РµРЅРёРµ С‚РёРїРѕРІ Р°С‚Р°Рє:")
-    logger.info(original_counts.to_string())
+    # Р›РѕРіРёСЂРѕРІР°РЅРёРµ СЃС‚Р°С‚РёСЃС‚РёРєРё
+    type_counts = unsafe_data['type'].value_counts()
+    logger.info(f"\nРСЃС…РѕРґРЅРѕРµ СЂР°СЃРїСЂРµРґРµР»РµРЅРёРµ:\n{type_counts.to_string()}")
     
-    attack_counts = unsafe_data['type'].value_counts()
-    max_count = attack_counts.max()
+    # РћРїСЂРµРґРµР»СЏРµРј С†РµР»РµРІРѕРµ РєРѕР»РёС‡РµСЃС‚РІРѕ РґР»СЏ Р±Р°Р»Р°РЅСЃРёСЂРѕРІРєРё
+    target_count = type_counts.max()
+    balanced_dfs = []
     
-    balanced = []
-    for attack_type, count in attack_counts.items():
-        subset = unsafe_data[unsafe_data['type'] == attack_type]
+    for attack_type, count in type_counts.items():
+        subset = unsafe_data[unsafe_data['type'] == attack_type].copy()
         
-        if count < max_count:
-            num_needed = max_count - count
-            num_augments = min(Config.AUGMENTATION_FACTOR[attack_type], num_needed)
+        if count < target_count:
+            needed = target_count - count
+            augment_factor = min(Config.AUGMENTATION_FACTOR.get(attack_type, 1), needed)
             
-            augmented = subset.sample(n=num_augments, replace=True)
-            augmented['prompt'] = augmented['prompt'].apply(
-            lambda x: augment_text(x, 1)[0]  # РџСЂРѕСЃС‚Рѕ Р±РµСЂРµРј РїРµСЂРІС‹Р№ СЌР»РµРјРµРЅС‚ РІРѕР·РІСЂР°С‰Р°РµРјРѕРіРѕ СЃРїРёСЃРєР°
-                )
-            
-            # Р›РѕРіРёСЂРѕРІР°РЅРёРµ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅС‹С… РїСЂРёРјРµСЂРѕРІ
-            logger.info(f"\nРђСѓРіРјРµРЅС‚Р°С†РёСЏ РґР»СЏ {attack_type}:")
-            logger.info(f"РСЃС…РѕРґРЅС‹С… РїСЂРёРјРµСЂРѕРІ: {len(subset)}")
-            logger.info(f"РЎРѕР·РґР°РЅРѕ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅС‹С…: {len(augmented)}")
-            if len(augmented) > 0:
-                logger.info(f"РџСЂРёРјРµСЂ Р°СѓРіРјРµРЅС‚РёСЂРѕРІР°РЅРЅРѕРіРѕ С‚РµРєСЃС‚Р°:\n{augmented.iloc[0]['prompt'][:200]}...")
+            # Р‘РµР·РѕРїР°СЃРЅР°СЏ Р°СѓРіРјРµРЅС‚Р°С†РёСЏ
+            augmented_samples = subset.sample(n=augment_factor, replace=True)
+            augmented_samples['prompt'] = augmented_samples['prompt'].apply(
+                lambda x: augment_text(x, 1)[0]
+            )
             
-            subset = pd.concat([subset, augmented]).sample(frac=1)
+            subset = pd.concat([subset, augmented_samples])
         
-        balanced.append(subset.sample(n=max_count, replace=False))
-    
-    result = pd.concat(balanced).sample(frac=1)
-    
-    # Р›РѕРіРёСЂРѕРІР°РЅРёРµ РёС‚РѕРіРѕРІРѕРіРѕ СЂР°СЃРїСЂРµРґРµР»РµРЅРёСЏ
-    logger.info("\nРС‚РѕРіРѕРІРѕРµ СЂР°СЃРїСЂРµРґРµР»РµРЅРёРµ РїРѕСЃР»Рµ Р±Р°Р»Р°РЅСЃРёСЂРѕРІРєРё:")
-    logger.info(result['type'].value_counts().to_string())
+        # Р¤РёРєСЃРёСЂСѓРµРј СЂР°Р·РјРµСЂ РІС‹Р±РѕСЂРєРё
+        balanced_dfs.append(subset.sample(n=target_count, replace=len(subset) < target_count))
     
-    return result
+    return pd.concat(balanced_dfs).sample(frac=1)
     
 
 
-- 
GitLab