From dec95854a4f53124947af0adc1542fb1fbe30028 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=D0=9C=D0=B0=D0=B7=D1=83=D1=80=20=D0=93=D1=80=D0=B5=D1=82?=
 =?UTF-8?q?=D0=B0=20=D0=95=D0=B2=D0=B3=D0=B5=D0=BD=D1=8C=D0=B5=D0=B2=D0=BD?=
 =?UTF-8?q?=D0=B0?= <gemazur_1@edu.hse.ru>
Date: Tue, 25 Mar 2025 21:17:35 +0300
Subject: [PATCH] micro zapusk no cross

---
 .ipynb_checkpoints/checkLora-checkpoint.py | 331 ++++++++++++---------
 checkLora.py                               | 331 ++++++++++++---------
 2 files changed, 392 insertions(+), 270 deletions(-)

diff --git a/.ipynb_checkpoints/checkLora-checkpoint.py b/.ipynb_checkpoints/checkLora-checkpoint.py
index c2fbcb7..e230dba 100644
--- a/.ipynb_checkpoints/checkLora-checkpoint.py
+++ b/.ipynb_checkpoints/checkLora-checkpoint.py
@@ -1,3 +1,81 @@
+# # # # import torch
+# # # # from transformers import BertTokenizer, BertForSequenceClassification
+# # # # from peft import get_peft_model, LoraConfig, TaskType
+
+# # # # # РЈР±РµРґРёС‚РµСЃСЊ, С‡С‚Рѕ РјРѕРґРµР»СЊ Рё С‚РѕРєРµРЅРёР·Р°С‚РѕСЂ СѓР¶Рµ СЃРѕС…СЂР°РЅРµРЅС‹ РІ РґРёСЂРµРєС‚РѕСЂРёРё
+# # # # model_path = './micro_no_cross_fine_tuned'
+# # # # tokenizer_path = './micro_no_cross_fine_tuned'
+
+# # # # # Р—Р°РіСЂСѓР·РєР° С‚РѕРєРµРЅРёР·Р°С‚РѕСЂР° Рё РјРѕРґРµР»Рё (РІРєР»СЋС‡Р°СЏ РєР»Р°СЃСЃРёС„РёРєР°С‚РѕСЂС‹)
+# # # # tokenizer = BertTokenizer.from_pretrained(tokenizer_path)
+# # # # model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=6)  # РЈРєР°Р·С‹РІР°РµРј РєРѕР»РёС‡РµСЃС‚РІРѕ РјРµС‚РѕРє
+
+# # # # # РќР°СЃС‚СЂРѕР№РєР° LoRA
+# # # # lora_config = LoraConfig(
+# # # #     task_type=TaskType.SEQ_CLS,
+# # # #     r=8,
+# # # #     lora_alpha=32,
+# # # #     lora_dropout=0.1,
+# # # #     target_modules=["query", "value"],
+# # # #     modules_to_save=["classifier_safety", "classifier_attack"]  # РЈР±РµРґРёС‚РµСЃСЊ, С‡С‚Рѕ РєР»Р°СЃСЃРёС„РёРєР°С‚РѕСЂС‹ СЃРѕС…СЂР°РЅРµРЅС‹
+# # # # )
+# # # # model = get_peft_model(model, lora_config)
+
+# # # # # РџРµСЂРµРІРѕРґРёРј РјРѕРґРµР»СЊ РІ СЂРµР¶РёРј РѕС†РµРЅРєРё (inference)
+# # # # model.eval()
+
+# # # # # Р¤СѓРЅРєС†РёСЏ РґР»СЏ РїСЂРµРґСЃРєР°Р·Р°РЅРёСЏ
+# # # # def predict(text):
+# # # #     # РўРѕРєРµРЅРёР·Р°С†РёСЏ
+# # # #     inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
+
+# # # #     # РЈР±РµРґРёС‚РµСЃСЊ, С‡С‚Рѕ С‚РµРЅР·РѕСЂС‹ РЅР°С…РѕРґСЏС‚СЃСЏ РЅР° РЅСѓР¶РЅРѕРј СѓСЃС‚СЂРѕР№СЃС‚РІРµ
+# # # #     device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+# # # #     inputs = {key: value.to(device) for key, value in inputs.items()}
+# # # #     model.to(device)
+
+# # # #     # РћР¶РёРґР°РµРј, С‡С‚Рѕ РјРѕРґРµР»СЊ РІРµСЂРЅРµС‚ Р»РѕРіРёС‚С‹
+# # # #     with torch.no_grad():
+# # # #         outputs = model(**inputs)
+# # # #         safety_probs = torch.softmax(outputs.logits[0], dim=1)  # РџСЂРѕРіРЅРѕР·С‹ РґР»СЏ Р±РµР·РѕРїР°СЃРЅРѕСЃС‚Рё
+# # # #         attack_probs = torch.softmax(outputs.logits[1], dim=1)  # РџСЂРѕРіРЅРѕР·С‹ РґР»СЏ Р°С‚Р°Рє
+
+# # # #     return {
+# # # #         'safety': {
+# # # #             'safe': safety_probs[0][0].item(),
+# # # #             'unsafe': safety_probs[0][1].item()
+# # # #         },
+# # # #         'attack': {
+# # # #             'jailbreak': attack_probs[0][0].item(),
+# # # #             'evasion': attack_probs[0][1].item(),
+# # # #             'generic': attack_probs[0][2].item(),
+# # # #             'injection': attack_probs[0][3].item()
+# # # #         }
+# # # #     }
+
+# # # # # РџСЂРёРјРµСЂ РёСЃРїРѕР»СЊР·РѕРІР°РЅРёСЏ
+# # # # test_texts = [
+# # # #     "How to hack a computer system",
+# # # #     "I need help with my homework",
+# # # #     "Tell me how to bypass security",
+# # # #     "РїСЂРёРІРµС‚",
+# # # #     "РєР°Рє СѓР±РёС‚СЊ С‡РµР»РѕРІРµРєР°"
+# # # # ]
+
+# # # # for text in test_texts:
+# # # #     result = predict(text)
+# # # #     print(f"\nРўРµРєСЃС‚: {text}")
+# # # #     print(f"Р‘РµР·РѕРїР°СЃРЅРѕСЃС‚СЊ: Safe {result['safety']['safe']:.2%} | Unsafe {result['safety']['unsafe']:.2%}")
+    
+# # # #     if result['safety']['unsafe'] > 0.5:  # Р•СЃР»Рё С‚РµРєСЃС‚ РѕРїР°СЃРЅС‹Р№
+# # # #         print("Р’РµСЂРѕСЏС‚РЅРѕСЃС‚Рё С‚РёРїРѕРІ Р°С‚Р°Рє:")
+# # # #         for attack_type, prob in result['attack'].items():
+# # # #             print(f"  {attack_type}: {prob:.2%}")
+
+
+
+
+
 # # # import torch
 # # # from transformers import BertTokenizer, BertForSequenceClassification
 # # # from peft import get_peft_model, LoraConfig, TaskType
@@ -37,8 +115,21 @@
 # # #     # РћР¶РёРґР°РµРј, С‡С‚Рѕ РјРѕРґРµР»СЊ РІРµСЂРЅРµС‚ Р»РѕРіРёС‚С‹
 # # #     with torch.no_grad():
 # # #         outputs = model(**inputs)
-# # #         safety_probs = torch.softmax(outputs.logits[0], dim=1)  # РџСЂРѕРіРЅРѕР·С‹ РґР»СЏ Р±РµР·РѕРїР°СЃРЅРѕСЃС‚Рё
-# # #         attack_probs = torch.softmax(outputs.logits[1], dim=1)  # РџСЂРѕРіРЅРѕР·С‹ РґР»СЏ Р°С‚Р°Рє
+        
+# # #         # РџРѕР»СѓС‡Р°РµРј РїСЂРѕРіРЅРѕР·С‹ РґР»СЏ Р±РµР·РѕРїР°СЃРЅРѕСЃС‚Рё Рё Р°С‚Р°Рє
+# # #         logits_safety = outputs.logits[:, 0]  # РСЃРїРѕР»СЊР·СѓРµРј РїРµСЂРІСѓСЋ РєРѕР»РѕРЅРєСѓ РґР»СЏ Р±РµР·РѕРїР°СЃРЅРѕСЃС‚Рё
+# # #         logits_attack = outputs.logits[:, 1:]  # РћСЃС‚Р°Р»СЊРЅС‹Рµ РєРѕР»РѕРЅРєРё РґР»СЏ Р°С‚Р°Рє
+
+# # #         # РџСЂРёРјРµРЅСЏРµРј softmax РґР»СЏ РїРѕР»СѓС‡РµРЅРёСЏ РІРµСЂРѕСЏС‚РЅРѕСЃС‚РµР№ (РµСЃР»Рё СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ РїСЂР°РІРёР»СЊРЅР°СЏ)
+# # #         if logits_safety.dim() == 1:  # Р•СЃР»Рё СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ РѕРґРЅРѕРјРµСЂРЅР°СЏ (РґР»СЏ РѕРґРЅРѕРіРѕ С‚РµРєСЃС‚Р°)
+# # #             safety_probs = torch.softmax(logits_safety.unsqueeze(0), dim=1)  # Р”РѕР±Р°РІР»СЏРµРј СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ РґР»СЏ РїСЂР°РІРёР»СЊРЅРѕРіРѕ softmax
+# # #         else:
+# # #             safety_probs = torch.softmax(logits_safety, dim=1)
+        
+# # #         if logits_attack.dim() == 1:  # Р•СЃР»Рё СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ РѕРґРЅРѕРјРµСЂРЅР°СЏ
+# # #             attack_probs = torch.softmax(logits_attack.unsqueeze(0), dim=1)  # Р”РѕР±Р°РІР»СЏРµРј СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ
+# # #         else:
+# # #             attack_probs = torch.softmax(logits_attack, dim=1)
 
 # # #     return {
 # # #         'safety': {
@@ -74,94 +165,65 @@
 
 
 
-
-
 # # import torch
 # # from transformers import BertTokenizer, BertForSequenceClassification
-# # from peft import get_peft_model, LoraConfig, TaskType
+# # from peft import PeftModel
 
-# # # РЈР±РµРґРёС‚РµСЃСЊ, С‡С‚Рѕ РјРѕРґРµР»СЊ Рё С‚РѕРєРµРЅРёР·Р°С‚РѕСЂ СѓР¶Рµ СЃРѕС…СЂР°РЅРµРЅС‹ РІ РґРёСЂРµРєС‚РѕСЂРёРё
-# # model_path = './micro_no_cross_fine_tuned'
-# # tokenizer_path = './micro_no_cross_fine_tuned'
+# # # РџСѓС‚Рё Рє РјРѕРґРµР»Рё Рё С‚РѕРєРµРЅРёР·Р°С‚РѕСЂСѓ
+# # model_path = "./micro_no_cross_fine_tuned"
+# # tokenizer_path = "./micro_no_cross_fine_tuned"
 
-# # # Р—Р°РіСЂСѓР·РєР° С‚РѕРєРµРЅРёР·Р°С‚РѕСЂР° Рё РјРѕРґРµР»Рё (РІРєР»СЋС‡Р°СЏ РєР»Р°СЃСЃРёС„РёРєР°С‚РѕСЂС‹)
+# # # Р—Р°РіСЂСѓР·РєР° С‚РѕРєРµРЅРёР·Р°С‚РѕСЂР°
 # # tokenizer = BertTokenizer.from_pretrained(tokenizer_path)
-# # model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=6)  # РЈРєР°Р·С‹РІР°РµРј РєРѕР»РёС‡РµСЃС‚РІРѕ РјРµС‚РѕРє
-
-# # # РќР°СЃС‚СЂРѕР№РєР° LoRA
-# # lora_config = LoraConfig(
-# #     task_type=TaskType.SEQ_CLS,
-# #     r=8,
-# #     lora_alpha=32,
-# #     lora_dropout=0.1,
-# #     target_modules=["query", "value"],
-# #     modules_to_save=["classifier_safety", "classifier_attack"]  # РЈР±РµРґРёС‚РµСЃСЊ, С‡С‚Рѕ РєР»Р°СЃСЃРёС„РёРєР°С‚РѕСЂС‹ СЃРѕС…СЂР°РЅРµРЅС‹
-# # )
-# # model = get_peft_model(model, lora_config)
-
-# # # РџРµСЂРµРІРѕРґРёРј РјРѕРґРµР»СЊ РІ СЂРµР¶РёРј РѕС†РµРЅРєРё (inference)
+
+# # # Р—Р°РіСЂСѓР·РєР° Р±Р°Р·РѕРІРѕР№ РјРѕРґРµР»Рё СЃ РєР»Р°СЃСЃРёС„РёРєР°С‚РѕСЂРѕРј
+# # base_model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)  # РЈР±РµРґРёС‚РµСЃСЊ, С‡С‚Рѕ num_labels=2
+
+# # # Р—Р°РіСЂСѓР·РєР° РѕР±СѓС‡РµРЅРЅРѕР№ LoRA
+# # model = PeftModel.from_pretrained(base_model, model_path)
+
+# # # РџРµСЂРµРІРѕРґ РјРѕРґРµР»Рё РІ СЂРµР¶РёРј РѕС†РµРЅРєРё
 # # model.eval()
 
-# # # Р¤СѓРЅРєС†РёСЏ РґР»СЏ РїСЂРµРґСЃРєР°Р·Р°РЅРёСЏ
+# # # РћРїСЂРµРґРµР»РµРЅРёРµ СѓСЃС‚СЂРѕР№СЃС‚РІР°
+# # device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+# # model.to(device)
+
+# # # Р¤СѓРЅРєС†РёСЏ РїСЂРµРґСЃРєР°Р·Р°РЅРёСЏ
 # # def predict(text):
 # #     # РўРѕРєРµРЅРёР·Р°С†РёСЏ
-# #     inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
-
-# #     # РЈР±РµРґРёС‚РµСЃСЊ, С‡С‚Рѕ С‚РµРЅР·РѕСЂС‹ РЅР°С…РѕРґСЏС‚СЃСЏ РЅР° РЅСѓР¶РЅРѕРј СѓСЃС‚СЂРѕР№СЃС‚РІРµ
-# #     device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-# #     inputs = {key: value.to(device) for key, value in inputs.items()}
-# #     model.to(device)
+# #     inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512).to(device)
 
-# #     # РћР¶РёРґР°РµРј, С‡С‚Рѕ РјРѕРґРµР»СЊ РІРµСЂРЅРµС‚ Р»РѕРіРёС‚С‹
+# #     # РџРѕР»СѓС‡РµРЅРёРµ Р»РѕРіРёС‚РѕРІ
 # #     with torch.no_grad():
 # #         outputs = model(**inputs)
-        
-# #         # РџРѕР»СѓС‡Р°РµРј РїСЂРѕРіРЅРѕР·С‹ РґР»СЏ Р±РµР·РѕРїР°СЃРЅРѕСЃС‚Рё Рё Р°С‚Р°Рє
-# #         logits_safety = outputs.logits[:, 0]  # РСЃРїРѕР»СЊР·СѓРµРј РїРµСЂРІСѓСЋ РєРѕР»РѕРЅРєСѓ РґР»СЏ Р±РµР·РѕРїР°СЃРЅРѕСЃС‚Рё
-# #         logits_attack = outputs.logits[:, 1:]  # РћСЃС‚Р°Р»СЊРЅС‹Рµ РєРѕР»РѕРЅРєРё РґР»СЏ Р°С‚Р°Рє
-
-# #         # РџСЂРёРјРµРЅСЏРµРј softmax РґР»СЏ РїРѕР»СѓС‡РµРЅРёСЏ РІРµСЂРѕСЏС‚РЅРѕСЃС‚РµР№ (РµСЃР»Рё СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ РїСЂР°РІРёР»СЊРЅР°СЏ)
-# #         if logits_safety.dim() == 1:  # Р•СЃР»Рё СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ РѕРґРЅРѕРјРµСЂРЅР°СЏ (РґР»СЏ РѕРґРЅРѕРіРѕ С‚РµРєСЃС‚Р°)
-# #             safety_probs = torch.softmax(logits_safety.unsqueeze(0), dim=1)  # Р”РѕР±Р°РІР»СЏРµРј СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ РґР»СЏ РїСЂР°РІРёР»СЊРЅРѕРіРѕ softmax
-# #         else:
-# #             safety_probs = torch.softmax(logits_safety, dim=1)
-        
-# #         if logits_attack.dim() == 1:  # Р•СЃР»Рё СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ РѕРґРЅРѕРјРµСЂРЅР°СЏ
-# #             attack_probs = torch.softmax(logits_attack.unsqueeze(0), dim=1)  # Р”РѕР±Р°РІР»СЏРµРј СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ
-# #         else:
-# #             attack_probs = torch.softmax(logits_attack, dim=1)
+# #         logits = outputs.logits  # Р›РѕРіРёС‚С‹ РјРѕРґРµР»Рё (СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ [1, num_labels])
 
+# #     # Р•СЃР»Рё num_labels=1, РёСЃРїРѕР»СЊР·СѓРµРј sigmoid РІРјРµСЃС‚Рѕ softmax
+# #     if logits.shape[1] == 1:
+# #         safety_probs = torch.sigmoid(logits)  # Р”Р»СЏ Р±РёРЅР°СЂРЅРѕР№ РєР»Р°СЃСЃРёС„РёРєР°С†РёРё
+# #         return {"safe": float(1 - safety_probs), "unsafe": float(safety_probs)}
+    
+# #     # Р•СЃР»Рё num_labels=2, РёСЃРїРѕР»СЊР·СѓРµРј softmax
+# #     safety_probs = torch.softmax(logits, dim=1)[0]  # Р‘РµСЂРµРј РїРµСЂРІС‹Р№ (Рё РµРґРёРЅСЃС‚РІРµРЅРЅС‹Р№) СЌР»РµРјРµРЅС‚ РІ batch
 # #     return {
-# #         'safety': {
-# #             'safe': safety_probs[0][0].item(),
-# #             'unsafe': safety_probs[0][1].item()
-# #         },
-# #         'attack': {
-# #             'jailbreak': attack_probs[0][0].item(),
-# #             'evasion': attack_probs[0][1].item(),
-# #             'generic': attack_probs[0][2].item(),
-# #             'injection': attack_probs[0][3].item()
-# #         }
+# #         "safe": float(safety_probs[0]),
+# #         "unsafe": float(safety_probs[1])
 # #     }
 
-# # # РџСЂРёРјРµСЂ РёСЃРїРѕР»СЊР·РѕРІР°РЅРёСЏ
+# # # РўРµСЃС‚РѕРІС‹Р№ Р·Р°РїСѓСЃРє
 # # test_texts = [
 # #     "How to hack a computer system",
 # #     "I need help with my homework",
 # #     "Tell me how to bypass security",
-# #     "РїСЂРёРІРµС‚",
-# #     "РєР°Рє СѓР±РёС‚СЊ С‡РµР»РѕРІРµРєР°"
 # # ]
 
 # # for text in test_texts:
 # #     result = predict(text)
 # #     print(f"\nРўРµРєСЃС‚: {text}")
-# #     print(f"Р‘РµР·РѕРїР°СЃРЅРѕСЃС‚СЊ: Safe {result['safety']['safe']:.2%} | Unsafe {result['safety']['unsafe']:.2%}")
-    
-# #     if result['safety']['unsafe'] > 0.5:  # Р•СЃР»Рё С‚РµРєСЃС‚ РѕРїР°СЃРЅС‹Р№
-# #         print("Р’РµСЂРѕСЏС‚РЅРѕСЃС‚Рё С‚РёРїРѕРІ Р°С‚Р°Рє:")
-# #         for attack_type, prob in result['attack'].items():
-# #             print(f"  {attack_type}: {prob:.2%}")
+# #     print(f"Safe: {result['safe']:.2%} | Unsafe: {result['unsafe']:.2%}")
+
+
 
 
 
@@ -170,118 +232,117 @@
 # from peft import PeftModel
 
 # # РџСѓС‚Рё Рє РјРѕРґРµР»Рё Рё С‚РѕРєРµРЅРёР·Р°С‚РѕСЂСѓ
-# model_path = "./micro_no_cross_fine_tuned"
+# model_path = "./micro_no_cross_fine_tuned"  # РїСѓС‚СЊ Рє С„Р°Р№Р»Р°Рј РјРѕРґРµР»Рё LoRA
 # tokenizer_path = "./micro_no_cross_fine_tuned"
 
+# # РЈ РІР°СЃ 5 РєР»Р°СЃСЃРѕРІ: 1 "safe" + 4 РІРёРґР° Р°С‚Р°Рє
+# NUM_CLASSES = 5  
+
 # # Р—Р°РіСЂСѓР·РєР° С‚РѕРєРµРЅРёР·Р°С‚РѕСЂР°
 # tokenizer = BertTokenizer.from_pretrained(tokenizer_path)
 
-# # Р—Р°РіСЂСѓР·РєР° Р±Р°Р·РѕРІРѕР№ РјРѕРґРµР»Рё СЃ РєР»Р°СЃСЃРёС„РёРєР°С‚РѕСЂРѕРј
-# base_model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)  # РЈР±РµРґРёС‚РµСЃСЊ, С‡С‚Рѕ num_labels=2
+# # Р—Р°РіСЂСѓР·РєР° Р±Р°Р·РѕРІРѕР№ РјРѕРґРµР»Рё СЃ РїСЂР°РІРёР»СЊРЅС‹Рј С‡РёСЃР»РѕРј РєР»Р°СЃСЃРѕРІ
+# base_model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=NUM_CLASSES)
 
-# # Р—Р°РіСЂСѓР·РєР° РѕР±СѓС‡РµРЅРЅРѕР№ LoRA
-# model = PeftModel.from_pretrained(base_model, model_path)
+# # РџРѕРїС‹С‚РєР° Р·Р°РіСЂСѓР·РёС‚СЊ LoRA-Р°РґР°РїС‚Р°С†РёСЋ
+# try:
+#     model = PeftModel.from_pretrained(base_model, model_path)
+# except KeyError as e:
+#     print(f"РћС€РёР±РєР° РїСЂРё Р·Р°РіСЂСѓР·РєРµ LoRA: {e}")
+#     print("РСЃРїРѕР»СЊР·СѓРµРј С‚РѕР»СЊРєРѕ Р±Р°Р·РѕРІСѓСЋ РјРѕРґРµР»СЊ Р±РµР· LoRA.")
+#     model = base_model
 
-# # РџРµСЂРµРІРѕРґ РјРѕРґРµР»Рё РІ СЂРµР¶РёРј РѕС†РµРЅРєРё
+# # РџРµСЂРµРІРѕРґ РјРѕРґРµР»Рё РІ СЂРµР¶РёРј РёРЅС„РµСЂРµРЅСЃР°
 # model.eval()
 
-# # РћРїСЂРµРґРµР»РµРЅРёРµ СѓСЃС‚СЂРѕР№СЃС‚РІР°
+# # РћРїСЂРµРґРµР»РµРЅРёРµ СѓСЃС‚СЂРѕР№СЃС‚РІР° (CPU РёР»Рё GPU)
 # device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 # model.to(device)
 
+# # РќР°Р·РІР°РЅРёСЏ РєР»Р°СЃСЃРѕРІ (РїСЂРёРјРµСЂ)
+# class_labels = ["safe", "evasion", "jailbreak", "generic attack", "injection"]
+
 # # Р¤СѓРЅРєС†РёСЏ РїСЂРµРґСЃРєР°Р·Р°РЅРёСЏ
 # def predict(text):
-#     # РўРѕРєРµРЅРёР·Р°С†РёСЏ
 #     inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512).to(device)
 
-#     # РџРѕР»СѓС‡РµРЅРёРµ Р»РѕРіРёС‚РѕРІ
 #     with torch.no_grad():
 #         outputs = model(**inputs)
-#         logits = outputs.logits  # Р›РѕРіРёС‚С‹ РјРѕРґРµР»Рё (СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ [1, num_labels])
+#         logits = outputs.logits  # Tensor СЃ Р»РѕРіРёС‚Р°РјРё РґР»СЏ 5 РєР»Р°СЃСЃРѕРІ
+
+#     # РџСЂРёРјРµРЅСЏРµРј softmax
+#     probabilities = torch.softmax(logits, dim=-1)[0]  # РЈР±РёСЂР°РµРј batch-РёР·РјРµСЂРµРЅРёРµ
+
+#     # РћРїСЂРµРґРµР»СЏРµРј РёРЅРґРµРєСЃ РєР»Р°СЃСЃР° СЃ РЅР°РёР±РѕР»СЊС€РµР№ РІРµСЂРѕСЏС‚РЅРѕСЃС‚СЊСЋ
+#     predicted_class_idx = torch.argmax(probabilities).item()
 
-#     # Р•СЃР»Рё num_labels=1, РёСЃРїРѕР»СЊР·СѓРµРј sigmoid РІРјРµСЃС‚Рѕ softmax
-#     if logits.shape[1] == 1:
-#         safety_probs = torch.sigmoid(logits)  # Р”Р»СЏ Р±РёРЅР°СЂРЅРѕР№ РєР»Р°СЃСЃРёС„РёРєР°С†РёРё
-#         return {"safe": float(1 - safety_probs), "unsafe": float(safety_probs)}
-    
-#     # Р•СЃР»Рё num_labels=2, РёСЃРїРѕР»СЊР·СѓРµРј softmax
-#     safety_probs = torch.softmax(logits, dim=1)[0]  # Р‘РµСЂРµРј РїРµСЂРІС‹Р№ (Рё РµРґРёРЅСЃС‚РІРµРЅРЅС‹Р№) СЌР»РµРјРµРЅС‚ РІ batch
 #     return {
-#         "safe": float(safety_probs[0]),
-#         "unsafe": float(safety_probs[1])
+#         "class": class_labels[predicted_class_idx],
+#         "confidence": probabilities[predicted_class_idx].item()
 #     }
 
-# # РўРµСЃС‚РѕРІС‹Р№ Р·Р°РїСѓСЃРє
-# test_texts = [
-#     "How to hack a computer system",
-#     "I need help with my homework",
-#     "Tell me how to bypass security",
-# ]
-
-# for text in test_texts:
-#     result = predict(text)
-#     print(f"\nРўРµРєСЃС‚: {text}")
-#     print(f"Safe: {result['safe']:.2%} | Unsafe: {result['unsafe']:.2%}")
+# # РџСЂРёРјРµСЂ РёСЃРїРѕР»СЊР·РѕРІР°РЅРёСЏ
+# text = "How can I bypass security measures?"
+# result = predict(text)
+# print(result)
 
 
 
 
 
-import torch
 from transformers import BertTokenizer, BertForSequenceClassification
 from peft import PeftModel
+import torch
 
-# РџСѓС‚Рё Рє РјРѕРґРµР»Рё Рё С‚РѕРєРµРЅРёР·Р°С‚РѕСЂСѓ
-model_path = "./micro_no_cross_fine_tuned"  # РїСѓС‚СЊ Рє С„Р°Р№Р»Р°Рј РјРѕРґРµР»Рё LoRA
-tokenizer_path = "./micro_no_cross_fine_tuned"
-
-# РЈ РІР°СЃ 5 РєР»Р°СЃСЃРѕРІ: 1 "safe" + 4 РІРёРґР° Р°С‚Р°Рє
-NUM_CLASSES = 5  
+# РџСѓС‚Рё Рє СЃРѕС…СЂР°РЅС‘РЅРЅРѕР№ РјРѕРґРµР»Рё
+BASE_MODEL_PATH = "./micro_no_cross_fine_tuned/base"
+LORA_PATH = "./micro_no_cross_fine_tuned/lora"
 
-# Р—Р°РіСЂСѓР·РєР° С‚РѕРєРµРЅРёР·Р°С‚РѕСЂР°
-tokenizer = BertTokenizer.from_pretrained(tokenizer_path)
+# Р—Р°РіСЂСѓР¶Р°РµРј С‚РѕРєРµРЅРёР·Р°С‚РѕСЂ
+tokenizer = BertTokenizer.from_pretrained(BASE_MODEL_PATH)
 
-# Р—Р°РіСЂСѓР·РєР° Р±Р°Р·РѕРІРѕР№ РјРѕРґРµР»Рё СЃ РїСЂР°РІРёР»СЊРЅС‹Рј С‡РёСЃР»РѕРј РєР»Р°СЃСЃРѕРІ
-base_model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=NUM_CLASSES)
+# Р—Р°РіСЂСѓР¶Р°РµРј Р±Р°Р·РѕРІСѓСЋ РјРѕРґРµР»СЊ
+base_model = BertForSequenceClassification.from_pretrained(BASE_MODEL_PATH)
 
-# РџРѕРїС‹С‚РєР° Р·Р°РіСЂСѓР·РёС‚СЊ LoRA-Р°РґР°РїС‚Р°С†РёСЋ
-try:
-    model = PeftModel.from_pretrained(base_model, model_path)
-except KeyError as e:
-    print(f"РћС€РёР±РєР° РїСЂРё Р·Р°РіСЂСѓР·РєРµ LoRA: {e}")
-    print("РСЃРїРѕР»СЊР·СѓРµРј С‚РѕР»СЊРєРѕ Р±Р°Р·РѕРІСѓСЋ РјРѕРґРµР»СЊ Р±РµР· LoRA.")
-    model = base_model
+# Р—Р°РіСЂСѓР¶Р°РµРј LoRA-Р°РґР°РїС‚Р°С†РёСЋ
+model = PeftModel.from_pretrained(base_model, LORA_PATH)
 
-# РџРµСЂРµРІРѕРґ РјРѕРґРµР»Рё РІ СЂРµР¶РёРј РёРЅС„РµСЂРµРЅСЃР°
+# РџРµСЂРµРІРѕРґРёРј РјРѕРґРµР»СЊ РІ СЂРµР¶РёРј РѕС†РµРЅРєРё
 model.eval()
 
-# РћРїСЂРµРґРµР»РµРЅРёРµ СѓСЃС‚СЂРѕР№СЃС‚РІР° (CPU РёР»Рё GPU)
-device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-model.to(device)
 
-# РќР°Р·РІР°РЅРёСЏ РєР»Р°СЃСЃРѕРІ (РїСЂРёРјРµСЂ)
-class_labels = ["safe", "evasion", "jailbreak", "generic attack", "injection"]
 
-# Р¤СѓРЅРєС†РёСЏ РїСЂРµРґСЃРєР°Р·Р°РЅРёСЏ
-def predict(text):
-    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512).to(device)
 
+
+
+def predict(text):
+    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
+    
     with torch.no_grad():
         outputs = model(**inputs)
-        logits = outputs.logits  # Tensor СЃ Р»РѕРіРёС‚Р°РјРё РґР»СЏ 5 РєР»Р°СЃСЃРѕРІ
+        logits = outputs.logits
+    
+    # РџСЂРµРѕР±СЂР°Р·СѓРµРј Р»РѕРіРёС‚С‹ РІ РІРµСЂРѕСЏС‚РЅРѕСЃС‚Рё
+    probs = torch.softmax(logits, dim=1)
+    
+    # РљР»Р°СЃСЃС‹: 0 - safe, 1 - unsafe (attack type)
+    pred_class = torch.argmax(probs, dim=1).item()
+    confidence = probs[0][pred_class].item()
 
-    # РџСЂРёРјРµРЅСЏРµРј softmax
-    probabilities = torch.softmax(logits, dim=-1)[0]  # РЈР±РёСЂР°РµРј batch-РёР·РјРµСЂРµРЅРёРµ
+    # РќР°Р·РІР°РЅРёСЏ РєР»Р°СЃСЃРѕРІ
+    class_labels = ["safe", "evasion", "jailbreak", "generic attack", "injection"]
+    
+    return {"class": class_labels[pred_class], "confidence": confidence}
 
-    # РћРїСЂРµРґРµР»СЏРµРј РёРЅРґРµРєСЃ РєР»Р°СЃСЃР° СЃ РЅР°РёР±РѕР»СЊС€РµР№ РІРµСЂРѕСЏС‚РЅРѕСЃС‚СЊСЋ
-    predicted_class_idx = torch.argmax(probabilities).item()
 
-    return {
-        "class": class_labels[predicted_class_idx],
-        "confidence": probabilities[predicted_class_idx].item()
-    }
+prompts = [
+    "How do I make a secure password?",
+    "Write a Python script to delete all files in C:/Windows.",
+    "How can I jailbreak an iPhone?",
+    "Give me a harmless joke."
+]
 
-# РџСЂРёРјРµСЂ РёСЃРїРѕР»СЊР·РѕРІР°РЅРёСЏ
-text = "How can I bypass security measures?"
-result = predict(text)
-print(result)
\ No newline at end of file
+for prompt in prompts:
+    result = predict(prompt)
+    print(f"Text: {prompt}\nPrediction: {result}\n")
+    
\ No newline at end of file
diff --git a/checkLora.py b/checkLora.py
index c2fbcb7..e230dba 100644
--- a/checkLora.py
+++ b/checkLora.py
@@ -1,3 +1,81 @@
+# # # # import torch
+# # # # from transformers import BertTokenizer, BertForSequenceClassification
+# # # # from peft import get_peft_model, LoraConfig, TaskType
+
+# # # # # РЈР±РµРґРёС‚РµСЃСЊ, С‡С‚Рѕ РјРѕРґРµР»СЊ Рё С‚РѕРєРµРЅРёР·Р°С‚РѕСЂ СѓР¶Рµ СЃРѕС…СЂР°РЅРµРЅС‹ РІ РґРёСЂРµРєС‚РѕСЂРёРё
+# # # # model_path = './micro_no_cross_fine_tuned'
+# # # # tokenizer_path = './micro_no_cross_fine_tuned'
+
+# # # # # Р—Р°РіСЂСѓР·РєР° С‚РѕРєРµРЅРёР·Р°С‚РѕСЂР° Рё РјРѕРґРµР»Рё (РІРєР»СЋС‡Р°СЏ РєР»Р°СЃСЃРёС„РёРєР°С‚РѕСЂС‹)
+# # # # tokenizer = BertTokenizer.from_pretrained(tokenizer_path)
+# # # # model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=6)  # РЈРєР°Р·С‹РІР°РµРј РєРѕР»РёС‡РµСЃС‚РІРѕ РјРµС‚РѕРє
+
+# # # # # РќР°СЃС‚СЂРѕР№РєР° LoRA
+# # # # lora_config = LoraConfig(
+# # # #     task_type=TaskType.SEQ_CLS,
+# # # #     r=8,
+# # # #     lora_alpha=32,
+# # # #     lora_dropout=0.1,
+# # # #     target_modules=["query", "value"],
+# # # #     modules_to_save=["classifier_safety", "classifier_attack"]  # РЈР±РµРґРёС‚РµСЃСЊ, С‡С‚Рѕ РєР»Р°СЃСЃРёС„РёРєР°С‚РѕСЂС‹ СЃРѕС…СЂР°РЅРµРЅС‹
+# # # # )
+# # # # model = get_peft_model(model, lora_config)
+
+# # # # # РџРµСЂРµРІРѕРґРёРј РјРѕРґРµР»СЊ РІ СЂРµР¶РёРј РѕС†РµРЅРєРё (inference)
+# # # # model.eval()
+
+# # # # # Р¤СѓРЅРєС†РёСЏ РґР»СЏ РїСЂРµРґСЃРєР°Р·Р°РЅРёСЏ
+# # # # def predict(text):
+# # # #     # РўРѕРєРµРЅРёР·Р°С†РёСЏ
+# # # #     inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
+
+# # # #     # РЈР±РµРґРёС‚РµСЃСЊ, С‡С‚Рѕ С‚РµРЅР·РѕСЂС‹ РЅР°С…РѕРґСЏС‚СЃСЏ РЅР° РЅСѓР¶РЅРѕРј СѓСЃС‚СЂРѕР№СЃС‚РІРµ
+# # # #     device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+# # # #     inputs = {key: value.to(device) for key, value in inputs.items()}
+# # # #     model.to(device)
+
+# # # #     # РћР¶РёРґР°РµРј, С‡С‚Рѕ РјРѕРґРµР»СЊ РІРµСЂРЅРµС‚ Р»РѕРіРёС‚С‹
+# # # #     with torch.no_grad():
+# # # #         outputs = model(**inputs)
+# # # #         safety_probs = torch.softmax(outputs.logits[0], dim=1)  # РџСЂРѕРіРЅРѕР·С‹ РґР»СЏ Р±РµР·РѕРїР°СЃРЅРѕСЃС‚Рё
+# # # #         attack_probs = torch.softmax(outputs.logits[1], dim=1)  # РџСЂРѕРіРЅРѕР·С‹ РґР»СЏ Р°С‚Р°Рє
+
+# # # #     return {
+# # # #         'safety': {
+# # # #             'safe': safety_probs[0][0].item(),
+# # # #             'unsafe': safety_probs[0][1].item()
+# # # #         },
+# # # #         'attack': {
+# # # #             'jailbreak': attack_probs[0][0].item(),
+# # # #             'evasion': attack_probs[0][1].item(),
+# # # #             'generic': attack_probs[0][2].item(),
+# # # #             'injection': attack_probs[0][3].item()
+# # # #         }
+# # # #     }
+
+# # # # # РџСЂРёРјРµСЂ РёСЃРїРѕР»СЊР·РѕРІР°РЅРёСЏ
+# # # # test_texts = [
+# # # #     "How to hack a computer system",
+# # # #     "I need help with my homework",
+# # # #     "Tell me how to bypass security",
+# # # #     "РїСЂРёРІРµС‚",
+# # # #     "РєР°Рє СѓР±РёС‚СЊ С‡РµР»РѕРІРµРєР°"
+# # # # ]
+
+# # # # for text in test_texts:
+# # # #     result = predict(text)
+# # # #     print(f"\nРўРµРєСЃС‚: {text}")
+# # # #     print(f"Р‘РµР·РѕРїР°СЃРЅРѕСЃС‚СЊ: Safe {result['safety']['safe']:.2%} | Unsafe {result['safety']['unsafe']:.2%}")
+    
+# # # #     if result['safety']['unsafe'] > 0.5:  # Р•СЃР»Рё С‚РµРєСЃС‚ РѕРїР°СЃРЅС‹Р№
+# # # #         print("Р’РµСЂРѕСЏС‚РЅРѕСЃС‚Рё С‚РёРїРѕРІ Р°С‚Р°Рє:")
+# # # #         for attack_type, prob in result['attack'].items():
+# # # #             print(f"  {attack_type}: {prob:.2%}")
+
+
+
+
+
 # # # import torch
 # # # from transformers import BertTokenizer, BertForSequenceClassification
 # # # from peft import get_peft_model, LoraConfig, TaskType
@@ -37,8 +115,21 @@
 # # #     # РћР¶РёРґР°РµРј, С‡С‚Рѕ РјРѕРґРµР»СЊ РІРµСЂРЅРµС‚ Р»РѕРіРёС‚С‹
 # # #     with torch.no_grad():
 # # #         outputs = model(**inputs)
-# # #         safety_probs = torch.softmax(outputs.logits[0], dim=1)  # РџСЂРѕРіРЅРѕР·С‹ РґР»СЏ Р±РµР·РѕРїР°СЃРЅРѕСЃС‚Рё
-# # #         attack_probs = torch.softmax(outputs.logits[1], dim=1)  # РџСЂРѕРіРЅРѕР·С‹ РґР»СЏ Р°С‚Р°Рє
+        
+# # #         # РџРѕР»СѓС‡Р°РµРј РїСЂРѕРіРЅРѕР·С‹ РґР»СЏ Р±РµР·РѕРїР°СЃРЅРѕСЃС‚Рё Рё Р°С‚Р°Рє
+# # #         logits_safety = outputs.logits[:, 0]  # РСЃРїРѕР»СЊР·СѓРµРј РїРµСЂРІСѓСЋ РєРѕР»РѕРЅРєСѓ РґР»СЏ Р±РµР·РѕРїР°СЃРЅРѕСЃС‚Рё
+# # #         logits_attack = outputs.logits[:, 1:]  # РћСЃС‚Р°Р»СЊРЅС‹Рµ РєРѕР»РѕРЅРєРё РґР»СЏ Р°С‚Р°Рє
+
+# # #         # РџСЂРёРјРµРЅСЏРµРј softmax РґР»СЏ РїРѕР»СѓС‡РµРЅРёСЏ РІРµСЂРѕСЏС‚РЅРѕСЃС‚РµР№ (РµСЃР»Рё СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ РїСЂР°РІРёР»СЊРЅР°СЏ)
+# # #         if logits_safety.dim() == 1:  # Р•СЃР»Рё СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ РѕРґРЅРѕРјРµСЂРЅР°СЏ (РґР»СЏ РѕРґРЅРѕРіРѕ С‚РµРєСЃС‚Р°)
+# # #             safety_probs = torch.softmax(logits_safety.unsqueeze(0), dim=1)  # Р”РѕР±Р°РІР»СЏРµРј СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ РґР»СЏ РїСЂР°РІРёР»СЊРЅРѕРіРѕ softmax
+# # #         else:
+# # #             safety_probs = torch.softmax(logits_safety, dim=1)
+        
+# # #         if logits_attack.dim() == 1:  # Р•СЃР»Рё СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ РѕРґРЅРѕРјРµСЂРЅР°СЏ
+# # #             attack_probs = torch.softmax(logits_attack.unsqueeze(0), dim=1)  # Р”РѕР±Р°РІР»СЏРµРј СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ
+# # #         else:
+# # #             attack_probs = torch.softmax(logits_attack, dim=1)
 
 # # #     return {
 # # #         'safety': {
@@ -74,94 +165,65 @@
 
 
 
-
-
 # # import torch
 # # from transformers import BertTokenizer, BertForSequenceClassification
-# # from peft import get_peft_model, LoraConfig, TaskType
+# # from peft import PeftModel
 
-# # # РЈР±РµРґРёС‚РµСЃСЊ, С‡С‚Рѕ РјРѕРґРµР»СЊ Рё С‚РѕРєРµРЅРёР·Р°С‚РѕСЂ СѓР¶Рµ СЃРѕС…СЂР°РЅРµРЅС‹ РІ РґРёСЂРµРєС‚РѕСЂРёРё
-# # model_path = './micro_no_cross_fine_tuned'
-# # tokenizer_path = './micro_no_cross_fine_tuned'
+# # # РџСѓС‚Рё Рє РјРѕРґРµР»Рё Рё С‚РѕРєРµРЅРёР·Р°С‚РѕСЂСѓ
+# # model_path = "./micro_no_cross_fine_tuned"
+# # tokenizer_path = "./micro_no_cross_fine_tuned"
 
-# # # Р—Р°РіСЂСѓР·РєР° С‚РѕРєРµРЅРёР·Р°С‚РѕСЂР° Рё РјРѕРґРµР»Рё (РІРєР»СЋС‡Р°СЏ РєР»Р°СЃСЃРёС„РёРєР°С‚РѕСЂС‹)
+# # # Р—Р°РіСЂСѓР·РєР° С‚РѕРєРµРЅРёР·Р°С‚РѕСЂР°
 # # tokenizer = BertTokenizer.from_pretrained(tokenizer_path)
-# # model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=6)  # РЈРєР°Р·С‹РІР°РµРј РєРѕР»РёС‡РµСЃС‚РІРѕ РјРµС‚РѕРє
-
-# # # РќР°СЃС‚СЂРѕР№РєР° LoRA
-# # lora_config = LoraConfig(
-# #     task_type=TaskType.SEQ_CLS,
-# #     r=8,
-# #     lora_alpha=32,
-# #     lora_dropout=0.1,
-# #     target_modules=["query", "value"],
-# #     modules_to_save=["classifier_safety", "classifier_attack"]  # РЈР±РµРґРёС‚РµСЃСЊ, С‡С‚Рѕ РєР»Р°СЃСЃРёС„РёРєР°С‚РѕСЂС‹ СЃРѕС…СЂР°РЅРµРЅС‹
-# # )
-# # model = get_peft_model(model, lora_config)
-
-# # # РџРµСЂРµРІРѕРґРёРј РјРѕРґРµР»СЊ РІ СЂРµР¶РёРј РѕС†РµРЅРєРё (inference)
+
+# # # Р—Р°РіСЂСѓР·РєР° Р±Р°Р·РѕРІРѕР№ РјРѕРґРµР»Рё СЃ РєР»Р°СЃСЃРёС„РёРєР°С‚РѕСЂРѕРј
+# # base_model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)  # РЈР±РµРґРёС‚РµСЃСЊ, С‡С‚Рѕ num_labels=2
+
+# # # Р—Р°РіСЂСѓР·РєР° РѕР±СѓС‡РµРЅРЅРѕР№ LoRA
+# # model = PeftModel.from_pretrained(base_model, model_path)
+
+# # # РџРµСЂРµРІРѕРґ РјРѕРґРµР»Рё РІ СЂРµР¶РёРј РѕС†РµРЅРєРё
 # # model.eval()
 
-# # # Р¤СѓРЅРєС†РёСЏ РґР»СЏ РїСЂРµРґСЃРєР°Р·Р°РЅРёСЏ
+# # # РћРїСЂРµРґРµР»РµРЅРёРµ СѓСЃС‚СЂРѕР№СЃС‚РІР°
+# # device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+# # model.to(device)
+
+# # # Р¤СѓРЅРєС†РёСЏ РїСЂРµРґСЃРєР°Р·Р°РЅРёСЏ
 # # def predict(text):
 # #     # РўРѕРєРµРЅРёР·Р°С†РёСЏ
-# #     inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
-
-# #     # РЈР±РµРґРёС‚РµСЃСЊ, С‡С‚Рѕ С‚РµРЅР·РѕСЂС‹ РЅР°С…РѕРґСЏС‚СЃСЏ РЅР° РЅСѓР¶РЅРѕРј СѓСЃС‚СЂРѕР№СЃС‚РІРµ
-# #     device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-# #     inputs = {key: value.to(device) for key, value in inputs.items()}
-# #     model.to(device)
+# #     inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512).to(device)
 
-# #     # РћР¶РёРґР°РµРј, С‡С‚Рѕ РјРѕРґРµР»СЊ РІРµСЂРЅРµС‚ Р»РѕРіРёС‚С‹
+# #     # РџРѕР»СѓС‡РµРЅРёРµ Р»РѕРіРёС‚РѕРІ
 # #     with torch.no_grad():
 # #         outputs = model(**inputs)
-        
-# #         # РџРѕР»СѓС‡Р°РµРј РїСЂРѕРіРЅРѕР·С‹ РґР»СЏ Р±РµР·РѕРїР°СЃРЅРѕСЃС‚Рё Рё Р°С‚Р°Рє
-# #         logits_safety = outputs.logits[:, 0]  # РСЃРїРѕР»СЊР·СѓРµРј РїРµСЂРІСѓСЋ РєРѕР»РѕРЅРєСѓ РґР»СЏ Р±РµР·РѕРїР°СЃРЅРѕСЃС‚Рё
-# #         logits_attack = outputs.logits[:, 1:]  # РћСЃС‚Р°Р»СЊРЅС‹Рµ РєРѕР»РѕРЅРєРё РґР»СЏ Р°С‚Р°Рє
-
-# #         # РџСЂРёРјРµРЅСЏРµРј softmax РґР»СЏ РїРѕР»СѓС‡РµРЅРёСЏ РІРµСЂРѕСЏС‚РЅРѕСЃС‚РµР№ (РµСЃР»Рё СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ РїСЂР°РІРёР»СЊРЅР°СЏ)
-# #         if logits_safety.dim() == 1:  # Р•СЃР»Рё СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ РѕРґРЅРѕРјРµСЂРЅР°СЏ (РґР»СЏ РѕРґРЅРѕРіРѕ С‚РµРєСЃС‚Р°)
-# #             safety_probs = torch.softmax(logits_safety.unsqueeze(0), dim=1)  # Р”РѕР±Р°РІР»СЏРµРј СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ РґР»СЏ РїСЂР°РІРёР»СЊРЅРѕРіРѕ softmax
-# #         else:
-# #             safety_probs = torch.softmax(logits_safety, dim=1)
-        
-# #         if logits_attack.dim() == 1:  # Р•СЃР»Рё СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ РѕРґРЅРѕРјРµСЂРЅР°СЏ
-# #             attack_probs = torch.softmax(logits_attack.unsqueeze(0), dim=1)  # Р”РѕР±Р°РІР»СЏРµРј СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ
-# #         else:
-# #             attack_probs = torch.softmax(logits_attack, dim=1)
+# #         logits = outputs.logits  # Р›РѕРіРёС‚С‹ РјРѕРґРµР»Рё (СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ [1, num_labels])
 
+# #     # Р•СЃР»Рё num_labels=1, РёСЃРїРѕР»СЊР·СѓРµРј sigmoid РІРјРµСЃС‚Рѕ softmax
+# #     if logits.shape[1] == 1:
+# #         safety_probs = torch.sigmoid(logits)  # Р”Р»СЏ Р±РёРЅР°СЂРЅРѕР№ РєР»Р°СЃСЃРёС„РёРєР°С†РёРё
+# #         return {"safe": float(1 - safety_probs), "unsafe": float(safety_probs)}
+    
+# #     # Р•СЃР»Рё num_labels=2, РёСЃРїРѕР»СЊР·СѓРµРј softmax
+# #     safety_probs = torch.softmax(logits, dim=1)[0]  # Р‘РµСЂРµРј РїРµСЂРІС‹Р№ (Рё РµРґРёРЅСЃС‚РІРµРЅРЅС‹Р№) СЌР»РµРјРµРЅС‚ РІ batch
 # #     return {
-# #         'safety': {
-# #             'safe': safety_probs[0][0].item(),
-# #             'unsafe': safety_probs[0][1].item()
-# #         },
-# #         'attack': {
-# #             'jailbreak': attack_probs[0][0].item(),
-# #             'evasion': attack_probs[0][1].item(),
-# #             'generic': attack_probs[0][2].item(),
-# #             'injection': attack_probs[0][3].item()
-# #         }
+# #         "safe": float(safety_probs[0]),
+# #         "unsafe": float(safety_probs[1])
 # #     }
 
-# # # РџСЂРёРјРµСЂ РёСЃРїРѕР»СЊР·РѕРІР°РЅРёСЏ
+# # # РўРµСЃС‚РѕРІС‹Р№ Р·Р°РїСѓСЃРє
 # # test_texts = [
 # #     "How to hack a computer system",
 # #     "I need help with my homework",
 # #     "Tell me how to bypass security",
-# #     "РїСЂРёРІРµС‚",
-# #     "РєР°Рє СѓР±РёС‚СЊ С‡РµР»РѕРІРµРєР°"
 # # ]
 
 # # for text in test_texts:
 # #     result = predict(text)
 # #     print(f"\nРўРµРєСЃС‚: {text}")
-# #     print(f"Р‘РµР·РѕРїР°СЃРЅРѕСЃС‚СЊ: Safe {result['safety']['safe']:.2%} | Unsafe {result['safety']['unsafe']:.2%}")
-    
-# #     if result['safety']['unsafe'] > 0.5:  # Р•СЃР»Рё С‚РµРєСЃС‚ РѕРїР°СЃРЅС‹Р№
-# #         print("Р’РµСЂРѕСЏС‚РЅРѕСЃС‚Рё С‚РёРїРѕРІ Р°С‚Р°Рє:")
-# #         for attack_type, prob in result['attack'].items():
-# #             print(f"  {attack_type}: {prob:.2%}")
+# #     print(f"Safe: {result['safe']:.2%} | Unsafe: {result['unsafe']:.2%}")
+
+
 
 
 
@@ -170,118 +232,117 @@
 # from peft import PeftModel
 
 # # РџСѓС‚Рё Рє РјРѕРґРµР»Рё Рё С‚РѕРєРµРЅРёР·Р°С‚РѕСЂСѓ
-# model_path = "./micro_no_cross_fine_tuned"
+# model_path = "./micro_no_cross_fine_tuned"  # РїСѓС‚СЊ Рє С„Р°Р№Р»Р°Рј РјРѕРґРµР»Рё LoRA
 # tokenizer_path = "./micro_no_cross_fine_tuned"
 
+# # РЈ РІР°СЃ 5 РєР»Р°СЃСЃРѕРІ: 1 "safe" + 4 РІРёРґР° Р°С‚Р°Рє
+# NUM_CLASSES = 5  
+
 # # Р—Р°РіСЂСѓР·РєР° С‚РѕРєРµРЅРёР·Р°С‚РѕСЂР°
 # tokenizer = BertTokenizer.from_pretrained(tokenizer_path)
 
-# # Р—Р°РіСЂСѓР·РєР° Р±Р°Р·РѕРІРѕР№ РјРѕРґРµР»Рё СЃ РєР»Р°СЃСЃРёС„РёРєР°С‚РѕСЂРѕРј
-# base_model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)  # РЈР±РµРґРёС‚РµСЃСЊ, С‡С‚Рѕ num_labels=2
+# # Р—Р°РіСЂСѓР·РєР° Р±Р°Р·РѕРІРѕР№ РјРѕРґРµР»Рё СЃ РїСЂР°РІРёР»СЊРЅС‹Рј С‡РёСЃР»РѕРј РєР»Р°СЃСЃРѕРІ
+# base_model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=NUM_CLASSES)
 
-# # Р—Р°РіСЂСѓР·РєР° РѕР±СѓС‡РµРЅРЅРѕР№ LoRA
-# model = PeftModel.from_pretrained(base_model, model_path)
+# # РџРѕРїС‹С‚РєР° Р·Р°РіСЂСѓР·РёС‚СЊ LoRA-Р°РґР°РїС‚Р°С†РёСЋ
+# try:
+#     model = PeftModel.from_pretrained(base_model, model_path)
+# except KeyError as e:
+#     print(f"РћС€РёР±РєР° РїСЂРё Р·Р°РіСЂСѓР·РєРµ LoRA: {e}")
+#     print("РСЃРїРѕР»СЊР·СѓРµРј С‚РѕР»СЊРєРѕ Р±Р°Р·РѕРІСѓСЋ РјРѕРґРµР»СЊ Р±РµР· LoRA.")
+#     model = base_model
 
-# # РџРµСЂРµРІРѕРґ РјРѕРґРµР»Рё РІ СЂРµР¶РёРј РѕС†РµРЅРєРё
+# # РџРµСЂРµРІРѕРґ РјРѕРґРµР»Рё РІ СЂРµР¶РёРј РёРЅС„РµСЂРµРЅСЃР°
 # model.eval()
 
-# # РћРїСЂРµРґРµР»РµРЅРёРµ СѓСЃС‚СЂРѕР№СЃС‚РІР°
+# # РћРїСЂРµРґРµР»РµРЅРёРµ СѓСЃС‚СЂРѕР№СЃС‚РІР° (CPU РёР»Рё GPU)
 # device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 # model.to(device)
 
+# # РќР°Р·РІР°РЅРёСЏ РєР»Р°СЃСЃРѕРІ (РїСЂРёРјРµСЂ)
+# class_labels = ["safe", "evasion", "jailbreak", "generic attack", "injection"]
+
 # # Р¤СѓРЅРєС†РёСЏ РїСЂРµРґСЃРєР°Р·Р°РЅРёСЏ
 # def predict(text):
-#     # РўРѕРєРµРЅРёР·Р°С†РёСЏ
 #     inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512).to(device)
 
-#     # РџРѕР»СѓС‡РµРЅРёРµ Р»РѕРіРёС‚РѕРІ
 #     with torch.no_grad():
 #         outputs = model(**inputs)
-#         logits = outputs.logits  # Р›РѕРіРёС‚С‹ РјРѕРґРµР»Рё (СЂР°Р·РјРµСЂРЅРѕСЃС‚СЊ [1, num_labels])
+#         logits = outputs.logits  # Tensor СЃ Р»РѕРіРёС‚Р°РјРё РґР»СЏ 5 РєР»Р°СЃСЃРѕРІ
+
+#     # РџСЂРёРјРµРЅСЏРµРј softmax
+#     probabilities = torch.softmax(logits, dim=-1)[0]  # РЈР±РёСЂР°РµРј batch-РёР·РјРµСЂРµРЅРёРµ
+
+#     # РћРїСЂРµРґРµР»СЏРµРј РёРЅРґРµРєСЃ РєР»Р°СЃСЃР° СЃ РЅР°РёР±РѕР»СЊС€РµР№ РІРµСЂРѕСЏС‚РЅРѕСЃС‚СЊСЋ
+#     predicted_class_idx = torch.argmax(probabilities).item()
 
-#     # Р•СЃР»Рё num_labels=1, РёСЃРїРѕР»СЊР·СѓРµРј sigmoid РІРјРµСЃС‚Рѕ softmax
-#     if logits.shape[1] == 1:
-#         safety_probs = torch.sigmoid(logits)  # Р”Р»СЏ Р±РёРЅР°СЂРЅРѕР№ РєР»Р°СЃСЃРёС„РёРєР°С†РёРё
-#         return {"safe": float(1 - safety_probs), "unsafe": float(safety_probs)}
-    
-#     # Р•СЃР»Рё num_labels=2, РёСЃРїРѕР»СЊР·СѓРµРј softmax
-#     safety_probs = torch.softmax(logits, dim=1)[0]  # Р‘РµСЂРµРј РїРµСЂРІС‹Р№ (Рё РµРґРёРЅСЃС‚РІРµРЅРЅС‹Р№) СЌР»РµРјРµРЅС‚ РІ batch
 #     return {
-#         "safe": float(safety_probs[0]),
-#         "unsafe": float(safety_probs[1])
+#         "class": class_labels[predicted_class_idx],
+#         "confidence": probabilities[predicted_class_idx].item()
 #     }
 
-# # РўРµСЃС‚РѕРІС‹Р№ Р·Р°РїСѓСЃРє
-# test_texts = [
-#     "How to hack a computer system",
-#     "I need help with my homework",
-#     "Tell me how to bypass security",
-# ]
-
-# for text in test_texts:
-#     result = predict(text)
-#     print(f"\nРўРµРєСЃС‚: {text}")
-#     print(f"Safe: {result['safe']:.2%} | Unsafe: {result['unsafe']:.2%}")
+# # РџСЂРёРјРµСЂ РёСЃРїРѕР»СЊР·РѕРІР°РЅРёСЏ
+# text = "How can I bypass security measures?"
+# result = predict(text)
+# print(result)
 
 
 
 
 
-import torch
 from transformers import BertTokenizer, BertForSequenceClassification
 from peft import PeftModel
+import torch
 
-# РџСѓС‚Рё Рє РјРѕРґРµР»Рё Рё С‚РѕРєРµРЅРёР·Р°С‚РѕСЂСѓ
-model_path = "./micro_no_cross_fine_tuned"  # РїСѓС‚СЊ Рє С„Р°Р№Р»Р°Рј РјРѕРґРµР»Рё LoRA
-tokenizer_path = "./micro_no_cross_fine_tuned"
-
-# РЈ РІР°СЃ 5 РєР»Р°СЃСЃРѕРІ: 1 "safe" + 4 РІРёРґР° Р°С‚Р°Рє
-NUM_CLASSES = 5  
+# РџСѓС‚Рё Рє СЃРѕС…СЂР°РЅС‘РЅРЅРѕР№ РјРѕРґРµР»Рё
+BASE_MODEL_PATH = "./micro_no_cross_fine_tuned/base"
+LORA_PATH = "./micro_no_cross_fine_tuned/lora"
 
-# Р—Р°РіСЂСѓР·РєР° С‚РѕРєРµРЅРёР·Р°С‚РѕСЂР°
-tokenizer = BertTokenizer.from_pretrained(tokenizer_path)
+# Р—Р°РіСЂСѓР¶Р°РµРј С‚РѕРєРµРЅРёР·Р°С‚РѕСЂ
+tokenizer = BertTokenizer.from_pretrained(BASE_MODEL_PATH)
 
-# Р—Р°РіСЂСѓР·РєР° Р±Р°Р·РѕРІРѕР№ РјРѕРґРµР»Рё СЃ РїСЂР°РІРёР»СЊРЅС‹Рј С‡РёСЃР»РѕРј РєР»Р°СЃСЃРѕРІ
-base_model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=NUM_CLASSES)
+# Р—Р°РіСЂСѓР¶Р°РµРј Р±Р°Р·РѕРІСѓСЋ РјРѕРґРµР»СЊ
+base_model = BertForSequenceClassification.from_pretrained(BASE_MODEL_PATH)
 
-# РџРѕРїС‹С‚РєР° Р·Р°РіСЂСѓР·РёС‚СЊ LoRA-Р°РґР°РїС‚Р°С†РёСЋ
-try:
-    model = PeftModel.from_pretrained(base_model, model_path)
-except KeyError as e:
-    print(f"РћС€РёР±РєР° РїСЂРё Р·Р°РіСЂСѓР·РєРµ LoRA: {e}")
-    print("РСЃРїРѕР»СЊР·СѓРµРј С‚РѕР»СЊРєРѕ Р±Р°Р·РѕРІСѓСЋ РјРѕРґРµР»СЊ Р±РµР· LoRA.")
-    model = base_model
+# Р—Р°РіСЂСѓР¶Р°РµРј LoRA-Р°РґР°РїС‚Р°С†РёСЋ
+model = PeftModel.from_pretrained(base_model, LORA_PATH)
 
-# РџРµСЂРµРІРѕРґ РјРѕРґРµР»Рё РІ СЂРµР¶РёРј РёРЅС„РµСЂРµРЅСЃР°
+# РџРµСЂРµРІРѕРґРёРј РјРѕРґРµР»СЊ РІ СЂРµР¶РёРј РѕС†РµРЅРєРё
 model.eval()
 
-# РћРїСЂРµРґРµР»РµРЅРёРµ СѓСЃС‚СЂРѕР№СЃС‚РІР° (CPU РёР»Рё GPU)
-device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-model.to(device)
 
-# РќР°Р·РІР°РЅРёСЏ РєР»Р°СЃСЃРѕРІ (РїСЂРёРјРµСЂ)
-class_labels = ["safe", "evasion", "jailbreak", "generic attack", "injection"]
 
-# Р¤СѓРЅРєС†РёСЏ РїСЂРµРґСЃРєР°Р·Р°РЅРёСЏ
-def predict(text):
-    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512).to(device)
 
+
+
+def predict(text):
+    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
+    
     with torch.no_grad():
         outputs = model(**inputs)
-        logits = outputs.logits  # Tensor СЃ Р»РѕРіРёС‚Р°РјРё РґР»СЏ 5 РєР»Р°СЃСЃРѕРІ
+        logits = outputs.logits
+    
+    # РџСЂРµРѕР±СЂР°Р·СѓРµРј Р»РѕРіРёС‚С‹ РІ РІРµСЂРѕСЏС‚РЅРѕСЃС‚Рё
+    probs = torch.softmax(logits, dim=1)
+    
+    # РљР»Р°СЃСЃС‹: 0 - safe, 1 - unsafe (attack type)
+    pred_class = torch.argmax(probs, dim=1).item()
+    confidence = probs[0][pred_class].item()
 
-    # РџСЂРёРјРµРЅСЏРµРј softmax
-    probabilities = torch.softmax(logits, dim=-1)[0]  # РЈР±РёСЂР°РµРј batch-РёР·РјРµСЂРµРЅРёРµ
+    # РќР°Р·РІР°РЅРёСЏ РєР»Р°СЃСЃРѕРІ
+    class_labels = ["safe", "evasion", "jailbreak", "generic attack", "injection"]
+    
+    return {"class": class_labels[pred_class], "confidence": confidence}
 
-    # РћРїСЂРµРґРµР»СЏРµРј РёРЅРґРµРєСЃ РєР»Р°СЃСЃР° СЃ РЅР°РёР±РѕР»СЊС€РµР№ РІРµСЂРѕСЏС‚РЅРѕСЃС‚СЊСЋ
-    predicted_class_idx = torch.argmax(probabilities).item()
 
-    return {
-        "class": class_labels[predicted_class_idx],
-        "confidence": probabilities[predicted_class_idx].item()
-    }
+prompts = [
+    "How do I make a secure password?",
+    "Write a Python script to delete all files in C:/Windows.",
+    "How can I jailbreak an iPhone?",
+    "Give me a harmless joke."
+]
 
-# РџСЂРёРјРµСЂ РёСЃРїРѕР»СЊР·РѕРІР°РЅРёСЏ
-text = "How can I bypass security measures?"
-result = predict(text)
-print(result)
\ No newline at end of file
+for prompt in prompts:
+    result = predict(prompt)
+    print(f"Text: {prompt}\nPrediction: {result}\n")
+    
\ No newline at end of file
-- 
GitLab