diff --git a/.ipynb_checkpoints/checkLora-checkpoint.py b/.ipynb_checkpoints/checkLora-checkpoint.py
index 099830c5536153d114d0f378f44c28ea14a7d72f..e295c6c9220a019677035e9eb99f657ba7d007a7 100644
--- a/.ipynb_checkpoints/checkLora-checkpoint.py
+++ b/.ipynb_checkpoints/checkLora-checkpoint.py
@@ -123,8 +123,8 @@ device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 
 # Р—Р°РіСЂСѓР¶Р°РµРј Р±Р°Р·РѕРІСѓСЋ РјРѕРґРµР»СЊ Рё Р·Р°С‚РµРј РѕР±РѕСЂР°С‡РёРІР°РµРј РµС‘ LoRA-Р°РґР°РїС‚РµСЂРѕРј
 base_model = MultiTaskBert.from_pretrained("bert-base-uncased").to(device)
-model = PeftModel.from_pretrained(base_model, "./fine-tuned-bert-lora").to(device)
-tokenizer = BertTokenizer.from_pretrained("./fine-tuned-bert-lora")
+model = PeftModel.from_pretrained(base_model, "./fine-tuned-bert-lora_new").to(device)
+tokenizer = BertTokenizer.from_pretrained("./fine-tuned-bert-lora_new")
 
 # РџСЂРёРјРµСЂ РёРЅС„РµСЂРµРЅСЃР°
 text = "How to kill my mom."
diff --git a/.ipynb_checkpoints/test_utechka-checkpoint.py b/.ipynb_checkpoints/test_utechka-checkpoint.py
new file mode 100644
index 0000000000000000000000000000000000000000..8c7c39cb053e582ff0f2ca60990b2beca9a709c1
--- /dev/null
+++ b/.ipynb_checkpoints/test_utechka-checkpoint.py
@@ -0,0 +1,105 @@
+import os
+import torch
+import numpy as np
+import pandas as pd
+import torch.nn.functional as F
+from transformers import BertTokenizer, BertModel
+from peft import PeftModel, PeftConfig
+from torch import nn
+
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+
+# Р¤СѓРЅРєС†РёСЏ РґР»СЏ РїСЂРѕРІРµСЂРєРё СѓС‚РµС‡РєРё РґР°РЅРЅС‹С…
+def check_data_leakage(train_df, test_df):
+    train_prompts = set(train_df["prompt"].str.lower())
+    test_prompts = set(test_df["prompt"].str.lower())
+    common = train_prompts.intersection(test_prompts)
+    if common:
+        print(f"вљ пёЏ РћР±РЅР°СЂСѓР¶РµРЅР° СѓС‚РµС‡РєР° РґР°РЅРЅС‹С…: {len(common)} РїСЂРёРјРµСЂРѕРІ СЃРѕРІРїР°РґР°СЋС‚ РјРµР¶РґСѓ train Рё test.")
+        print("РџСЂРёРјРµСЂС‹:", list(common)[:10])
+    else:
+        print("вњ… РЈС‚РµС‡РєРё РґР°РЅРЅС‹С… РЅРµ РѕР±РЅР°СЂСѓР¶РµРЅРѕ.")
+
+# Р¤СѓРЅРєС†РёСЏ РґР»СЏ РІС‹РІРѕРґР° СЂР°СЃРїСЂРµРґРµР»РµРЅРёСЏ РєР»Р°СЃСЃРѕРІ
+def print_class_distribution(df):
+    print("Р Р°СЃРїСЂРµРґРµР»РµРЅРёРµ РєР»Р°СЃСЃРѕРІ 'safety':")
+    print(df["safety"].value_counts(normalize=True))
+    unsafe_df = df[df["safety"] == "unsafe"]
+    if not unsafe_df.empty:
+        print("\nР Р°СЃРїСЂРµРґРµР»РµРЅРёРµ РєР»Р°СЃСЃРѕРІ 'type' СЃСЂРµРґРё unsafe:")
+        print(unsafe_df["type"].value_counts(normalize=True))
+    print("-" * 50)
+
+# Р¤СѓРЅРєС†РёСЏ РґР»СЏ РґРёР°РіРЅРѕСЃС‚РёРєРё РёРЅС„РµСЂРµРЅСЃР° РЅР° РѕРґРЅРѕРј РїСЂРѕРјРїС‚Рµ
+def diagnose_prompt(prompt, tokenizer, model):
+    inputs = tokenizer(
+        prompt,
+        truncation=True,
+        padding=True,
+        max_length=512,
+        return_tensors="pt"
+    ).to(device)
+
+    with torch.no_grad():
+        logits = model(**inputs)
+        logits_safety = logits['logits_safety']
+        logits_attack = logits['logits_attack']
+
+    # Р’С‹РІРѕРґ СЃС‹СЂС‹С… Р»РѕРіРёС‚РѕРІ
+    print(f"\nРџСЂРѕРјРїС‚: {prompt}")
+    print("РЎС‹СЂС‹Рµ Р»РѕРіРёС‚С‹ Р±РµР·РѕРїР°СЃРЅРѕСЃС‚Рё:", logits_safety)
+    print("РЎС‹СЂС‹Рµ Р»РѕРіРёС‚С‹ Р°С‚Р°РєРё:", logits_attack)
+
+    probs_safety = F.softmax(logits_safety, dim=1)
+    probs_attack = F.softmax(logits_attack, dim=1)
+
+    print("Р’РµСЂРѕСЏС‚РЅРѕСЃС‚Рё Р±РµР·РѕРїР°СЃРЅРѕСЃС‚Рё:", probs_safety.tolist())
+    print("Р’РµСЂРѕСЏС‚РЅРѕСЃС‚Рё Р°С‚Р°РєРё:", probs_attack.tolist())
+
+    pred_safety = torch.argmax(probs_safety, dim=1).item()
+    pred_attack = torch.argmax(probs_attack, dim=1).item()
+
+    safety_label = "safe" if pred_safety == 0 else "unsafe"
+    attack_types = ["jailbreak", "evasion", "generic attack", "injection"]
+    attack_label = attack_types[pred_attack] if safety_label == "unsafe" else "N/A"
+
+    print(f"РџСЂРµРґСЃРєР°Р·Р°РЅРёРµ -> Р‘РµР·РѕРїР°СЃРЅРѕСЃС‚СЊ: {safety_label} ({probs_safety[0, pred_safety].item()*100:.2f}%), "
+          f"РўРёРї Р°С‚Р°РєРё: {attack_label} ({probs_attack[0, pred_attack].item()*100:.2f}%)")
+    print("-" * 50)
+
+# Р—Р°РіСЂСѓР¶Р°РµРј СЃРѕС…СЂР°РЅС‘РЅРЅСѓСЋ РјРѕРґРµР»СЊ Рё С‚РѕРєРµРЅРёР·Р°С‚РѕСЂ (РїСѓС‚СЊ Р·Р°РјРµРЅРёС‚СЊ РЅР° Р°РєС‚СѓР°Р»СЊРЅС‹Р№)
+MODEL_PATH = "./fine-tuned-bert-lora_new"
+tokenizer = BertTokenizer.from_pretrained(MODEL_PATH)
+# РџСЂРµРґРїРѕР»Р°РіР°РµРј, С‡С‚Рѕ РІС‹ СЃРѕС…СЂР°РЅСЏР»Рё РјРѕРґРµР»СЊ СЃ РїРѕРјРѕС‰СЊСЋ trainer.save_model(), РїРѕСЌС‚РѕРјСѓ РјРѕР¶РЅРѕ Р·Р°РіСЂСѓР·РёС‚СЊ С‡РµСЂРµР· PeftModel:
+from transformers import BertModel
+from your_training_code import MultiTaskBert  # Р•СЃР»Рё Сѓ РІР°СЃ РѕРїСЂРµРґРµР»С‘РЅ СЌС‚РѕС‚ РєР»Р°СЃСЃ РІ РѕС‚РґРµР»СЊРЅРѕРј С„Р°Р№Р»Рµ, РёРЅР°С‡Рµ СЃРєРѕРїРёСЂСѓР№С‚Рµ РµРіРѕ СЃСЋРґР°
+
+# Р—Р°РіСЂСѓР¶Р°РµРј Р±Р°Р·РѕРІСѓСЋ РјРѕРґРµР»СЊ BERT
+base_model = BertModel.from_pretrained("bert-base-uncased").to(device)
+# РРЅРёС†РёР°Р»РёР·РёСЂСѓРµРј РІР°С€ РєР»Р°СЃСЃ (MultiTaskBert) Рё Р·Р°РіСЂСѓР¶Р°РµРј Р°РґР°РїС‚РµСЂ LoRA
+model = MultiTaskBert.from_pretrained("bert-base-uncased").to(device)
+model = PeftModel.from_pretrained(model, MODEL_PATH).to(device)
+model.eval()
+
+# Р•СЃР»Рё Сѓ РІР°СЃ СЃРѕС…СЂР°РЅС‘РЅРЅС‹Рµ train/test РґР°С‚Р°СЃРµС‚С‹, Р·Р°РіСЂСѓР·РёС‚Рµ РёС… (РёР»Рё РёСЃРїРѕР»СЊР·СѓР№С‚Рµ РѕСЂРёРіРёРЅР°Р»СЊРЅС‹Рµ CSV)
+train_df = pd.read_csv("all_dataset.csv")  # Р•СЃР»Рё train/test СЂР°Р·РґРµР»РµРЅС‹ РІ РѕРґРЅРѕРј С„Р°Р№Р»Рµ, РѕС‚С„РёР»СЊС‚СЂСѓР№С‚Рµ РїРѕ РјРµС‚РєРµ
+# Р—РґРµСЃСЊ Р»СѓС‡С€Рµ, РµСЃР»Рё Сѓ РІР°СЃ РµСЃС‚СЊ РѕС‚РґРµР»СЊРЅС‹Р№ С„Р°Р№Р» РґР»СЏ С‚РµСЃС‚Р°, Р·Р°РіСЂСѓР·РёС‚Рµ РµРіРѕ
+test_df = pd.read_csv("all_dataset.csv")
+
+# Р’С‹РїРѕР»РЅРёС‚Рµ РїСЂРѕРІРµСЂРєРё:
+print("РџСЂРѕРІРµСЂРєР° СѓС‚РµС‡РєРё РґР°РЅРЅС‹С…:")
+check_data_leakage(train_df, test_df)
+
+print("\nР Р°СЃРїСЂРµРґРµР»РµРЅРёРµ РєР»Р°СЃСЃРѕРІ РІ РѕР±СѓС‡Р°СЋС‰РµРј РЅР°Р±РѕСЂРµ:")
+print_class_distribution(train_df)
+
+# Р”РёР°РіРЅРѕСЃС‚РёРєР° РёРЅС„РµСЂРµРЅСЃР° РґР»СЏ РЅРµСЃРєРѕР»СЊРєРёС… РїСЂРёРјРµСЂРѕРІ
+test_prompts = [
+    "How to kill my mom.",
+    "I love my dog.",
+    "Write a story about a brave knight."
+]
+
+print("\nР”РёР°РіРЅРѕСЃС‚РёРєР° РёРЅС„РµСЂРµРЅСЃР°:")
+for prompt in test_prompts:
+    diagnose_prompt(prompt, tokenizer, model)
\ No newline at end of file
diff --git a/checkLora.py b/checkLora.py
index 099830c5536153d114d0f378f44c28ea14a7d72f..e295c6c9220a019677035e9eb99f657ba7d007a7 100644
--- a/checkLora.py
+++ b/checkLora.py
@@ -123,8 +123,8 @@ device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 
 # Р—Р°РіСЂСѓР¶Р°РµРј Р±Р°Р·РѕРІСѓСЋ РјРѕРґРµР»СЊ Рё Р·Р°С‚РµРј РѕР±РѕСЂР°С‡РёРІР°РµРј РµС‘ LoRA-Р°РґР°РїС‚РµСЂРѕРј
 base_model = MultiTaskBert.from_pretrained("bert-base-uncased").to(device)
-model = PeftModel.from_pretrained(base_model, "./fine-tuned-bert-lora").to(device)
-tokenizer = BertTokenizer.from_pretrained("./fine-tuned-bert-lora")
+model = PeftModel.from_pretrained(base_model, "./fine-tuned-bert-lora_new").to(device)
+tokenizer = BertTokenizer.from_pretrained("./fine-tuned-bert-lora_new")
 
 # РџСЂРёРјРµСЂ РёРЅС„РµСЂРµРЅСЃР°
 text = "How to kill my mom."
diff --git a/test_utechka.py b/test_utechka.py
new file mode 100644
index 0000000000000000000000000000000000000000..8c7c39cb053e582ff0f2ca60990b2beca9a709c1
--- /dev/null
+++ b/test_utechka.py
@@ -0,0 +1,105 @@
+import os
+import torch
+import numpy as np
+import pandas as pd
+import torch.nn.functional as F
+from transformers import BertTokenizer, BertModel
+from peft import PeftModel, PeftConfig
+from torch import nn
+
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+
+# Р¤СѓРЅРєС†РёСЏ РґР»СЏ РїСЂРѕРІРµСЂРєРё СѓС‚РµС‡РєРё РґР°РЅРЅС‹С…
+def check_data_leakage(train_df, test_df):
+    train_prompts = set(train_df["prompt"].str.lower())
+    test_prompts = set(test_df["prompt"].str.lower())
+    common = train_prompts.intersection(test_prompts)
+    if common:
+        print(f"вљ пёЏ РћР±РЅР°СЂСѓР¶РµРЅР° СѓС‚РµС‡РєР° РґР°РЅРЅС‹С…: {len(common)} РїСЂРёРјРµСЂРѕРІ СЃРѕРІРїР°РґР°СЋС‚ РјРµР¶РґСѓ train Рё test.")
+        print("РџСЂРёРјРµСЂС‹:", list(common)[:10])
+    else:
+        print("вњ… РЈС‚РµС‡РєРё РґР°РЅРЅС‹С… РЅРµ РѕР±РЅР°СЂСѓР¶РµРЅРѕ.")
+
+# Р¤СѓРЅРєС†РёСЏ РґР»СЏ РІС‹РІРѕРґР° СЂР°СЃРїСЂРµРґРµР»РµРЅРёСЏ РєР»Р°СЃСЃРѕРІ
+def print_class_distribution(df):
+    print("Р Р°СЃРїСЂРµРґРµР»РµРЅРёРµ РєР»Р°СЃСЃРѕРІ 'safety':")
+    print(df["safety"].value_counts(normalize=True))
+    unsafe_df = df[df["safety"] == "unsafe"]
+    if not unsafe_df.empty:
+        print("\nР Р°СЃРїСЂРµРґРµР»РµРЅРёРµ РєР»Р°СЃСЃРѕРІ 'type' СЃСЂРµРґРё unsafe:")
+        print(unsafe_df["type"].value_counts(normalize=True))
+    print("-" * 50)
+
+# Р¤СѓРЅРєС†РёСЏ РґР»СЏ РґРёР°РіРЅРѕСЃС‚РёРєРё РёРЅС„РµСЂРµРЅСЃР° РЅР° РѕРґРЅРѕРј РїСЂРѕРјРїС‚Рµ
+def diagnose_prompt(prompt, tokenizer, model):
+    inputs = tokenizer(
+        prompt,
+        truncation=True,
+        padding=True,
+        max_length=512,
+        return_tensors="pt"
+    ).to(device)
+
+    with torch.no_grad():
+        logits = model(**inputs)
+        logits_safety = logits['logits_safety']
+        logits_attack = logits['logits_attack']
+
+    # Р’С‹РІРѕРґ СЃС‹СЂС‹С… Р»РѕРіРёС‚РѕРІ
+    print(f"\nРџСЂРѕРјРїС‚: {prompt}")
+    print("РЎС‹СЂС‹Рµ Р»РѕРіРёС‚С‹ Р±РµР·РѕРїР°СЃРЅРѕСЃС‚Рё:", logits_safety)
+    print("РЎС‹СЂС‹Рµ Р»РѕРіРёС‚С‹ Р°С‚Р°РєРё:", logits_attack)
+
+    probs_safety = F.softmax(logits_safety, dim=1)
+    probs_attack = F.softmax(logits_attack, dim=1)
+
+    print("Р’РµСЂРѕСЏС‚РЅРѕСЃС‚Рё Р±РµР·РѕРїР°СЃРЅРѕСЃС‚Рё:", probs_safety.tolist())
+    print("Р’РµСЂРѕСЏС‚РЅРѕСЃС‚Рё Р°С‚Р°РєРё:", probs_attack.tolist())
+
+    pred_safety = torch.argmax(probs_safety, dim=1).item()
+    pred_attack = torch.argmax(probs_attack, dim=1).item()
+
+    safety_label = "safe" if pred_safety == 0 else "unsafe"
+    attack_types = ["jailbreak", "evasion", "generic attack", "injection"]
+    attack_label = attack_types[pred_attack] if safety_label == "unsafe" else "N/A"
+
+    print(f"РџСЂРµРґСЃРєР°Р·Р°РЅРёРµ -> Р‘РµР·РѕРїР°СЃРЅРѕСЃС‚СЊ: {safety_label} ({probs_safety[0, pred_safety].item()*100:.2f}%), "
+          f"РўРёРї Р°С‚Р°РєРё: {attack_label} ({probs_attack[0, pred_attack].item()*100:.2f}%)")
+    print("-" * 50)
+
+# Р—Р°РіСЂСѓР¶Р°РµРј СЃРѕС…СЂР°РЅС‘РЅРЅСѓСЋ РјРѕРґРµР»СЊ Рё С‚РѕРєРµРЅРёР·Р°С‚РѕСЂ (РїСѓС‚СЊ Р·Р°РјРµРЅРёС‚СЊ РЅР° Р°РєС‚СѓР°Р»СЊРЅС‹Р№)
+MODEL_PATH = "./fine-tuned-bert-lora_new"
+tokenizer = BertTokenizer.from_pretrained(MODEL_PATH)
+# РџСЂРµРґРїРѕР»Р°РіР°РµРј, С‡С‚Рѕ РІС‹ СЃРѕС…СЂР°РЅСЏР»Рё РјРѕРґРµР»СЊ СЃ РїРѕРјРѕС‰СЊСЋ trainer.save_model(), РїРѕСЌС‚РѕРјСѓ РјРѕР¶РЅРѕ Р·Р°РіСЂСѓР·РёС‚СЊ С‡РµСЂРµР· PeftModel:
+from transformers import BertModel
+from your_training_code import MultiTaskBert  # Р•СЃР»Рё Сѓ РІР°СЃ РѕРїСЂРµРґРµР»С‘РЅ СЌС‚РѕС‚ РєР»Р°СЃСЃ РІ РѕС‚РґРµР»СЊРЅРѕРј С„Р°Р№Р»Рµ, РёРЅР°С‡Рµ СЃРєРѕРїРёСЂСѓР№С‚Рµ РµРіРѕ СЃСЋРґР°
+
+# Р—Р°РіСЂСѓР¶Р°РµРј Р±Р°Р·РѕРІСѓСЋ РјРѕРґРµР»СЊ BERT
+base_model = BertModel.from_pretrained("bert-base-uncased").to(device)
+# РРЅРёС†РёР°Р»РёР·РёСЂСѓРµРј РІР°С€ РєР»Р°СЃСЃ (MultiTaskBert) Рё Р·Р°РіСЂСѓР¶Р°РµРј Р°РґР°РїС‚РµСЂ LoRA
+model = MultiTaskBert.from_pretrained("bert-base-uncased").to(device)
+model = PeftModel.from_pretrained(model, MODEL_PATH).to(device)
+model.eval()
+
+# Р•СЃР»Рё Сѓ РІР°СЃ СЃРѕС…СЂР°РЅС‘РЅРЅС‹Рµ train/test РґР°С‚Р°СЃРµС‚С‹, Р·Р°РіСЂСѓР·РёС‚Рµ РёС… (РёР»Рё РёСЃРїРѕР»СЊР·СѓР№С‚Рµ РѕСЂРёРіРёРЅР°Р»СЊРЅС‹Рµ CSV)
+train_df = pd.read_csv("all_dataset.csv")  # Р•СЃР»Рё train/test СЂР°Р·РґРµР»РµРЅС‹ РІ РѕРґРЅРѕРј С„Р°Р№Р»Рµ, РѕС‚С„РёР»СЊС‚СЂСѓР№С‚Рµ РїРѕ РјРµС‚РєРµ
+# Р—РґРµСЃСЊ Р»СѓС‡С€Рµ, РµСЃР»Рё Сѓ РІР°СЃ РµСЃС‚СЊ РѕС‚РґРµР»СЊРЅС‹Р№ С„Р°Р№Р» РґР»СЏ С‚РµСЃС‚Р°, Р·Р°РіСЂСѓР·РёС‚Рµ РµРіРѕ
+test_df = pd.read_csv("all_dataset.csv")
+
+# Р’С‹РїРѕР»РЅРёС‚Рµ РїСЂРѕРІРµСЂРєРё:
+print("РџСЂРѕРІРµСЂРєР° СѓС‚РµС‡РєРё РґР°РЅРЅС‹С…:")
+check_data_leakage(train_df, test_df)
+
+print("\nР Р°СЃРїСЂРµРґРµР»РµРЅРёРµ РєР»Р°СЃСЃРѕРІ РІ РѕР±СѓС‡Р°СЋС‰РµРј РЅР°Р±РѕСЂРµ:")
+print_class_distribution(train_df)
+
+# Р”РёР°РіРЅРѕСЃС‚РёРєР° РёРЅС„РµСЂРµРЅСЃР° РґР»СЏ РЅРµСЃРєРѕР»СЊРєРёС… РїСЂРёРјРµСЂРѕРІ
+test_prompts = [
+    "How to kill my mom.",
+    "I love my dog.",
+    "Write a story about a brave knight."
+]
+
+print("\nР”РёР°РіРЅРѕСЃС‚РёРєР° РёРЅС„РµСЂРµРЅСЃР°:")
+for prompt in test_prompts:
+    diagnose_prompt(prompt, tokenizer, model)
\ No newline at end of file