From c62fc61e6ef0d3d53fb96c3abe6b81d030e2fee2 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=D0=9C=D0=B0=D0=B7=D1=83=D1=80=20=D0=93=D1=80=D0=B5=D1=82?=
 =?UTF-8?q?=D0=B0=20=D0=95=D0=B2=D0=B3=D0=B5=D0=BD=D1=8C=D0=B5=D0=B2=D0=BD?=
 =?UTF-8?q?=D0=B0?= <gemazur_1@edu.hse.ru>
Date: Tue, 25 Mar 2025 12:51:18 +0300
Subject: [PATCH] obuch with cross and graphic SAVING LORA

---
 .../bertwithgoodgrad-checkpoint.py            | 108 ++++++++----------
 bertwithgoodgrad.py                           | 108 ++++++++----------
 2 files changed, 98 insertions(+), 118 deletions(-)

diff --git a/.ipynb_checkpoints/bertwithgoodgrad-checkpoint.py b/.ipynb_checkpoints/bertwithgoodgrad-checkpoint.py
index ca848c9..2f20950 100644
--- a/.ipynb_checkpoints/bertwithgoodgrad-checkpoint.py
+++ b/.ipynb_checkpoints/bertwithgoodgrad-checkpoint.py
@@ -1,113 +1,103 @@
-import os
 import torch
 from transformers import BertTokenizer, BertModel
 from peft import PeftModel, PeftConfig
 from torch import nn
 
-# 1. РџСЂРѕРІРµСЂРєР° СѓСЃС‚СЂРѕР№СЃС‚РІР° Рё С„Р°Р№Р»РѕРІ РјРѕРґРµР»Рё
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 MODEL_DIR = "./fine-tuned-bert-lora_new"
 
-# РџСЂРѕРІРµСЂРєР° РЅР°Р»РёС‡РёСЏ РІСЃРµС… РЅРµРѕР±С…РѕРґРёРјС‹С… С„Р°Р№Р»РѕРІ
-required_files = [
-    'adapter_config.json',
-    'adapter_model.safetensors',
-    'tokenizer_config.json',
-    'vocab.txt'
-]
-for file in required_files:
-    if not os.path.exists(os.path.join(MODEL_DIR, file)):
-        raise FileNotFoundError(f"РќРµ РЅР°Р№РґРµРЅ С„Р°Р№Р» {file} РІ {MODEL_DIR}")
-
-# 2. Р—Р°РіСЂСѓР·РєР° С‚РѕРєРµРЅРёР·Р°С‚РѕСЂР° Рё РєРѕРЅС„РёРіР°
-tokenizer = BertTokenizer.from_pretrained(MODEL_DIR)
-peft_config = PeftConfig.from_pretrained(MODEL_DIR)
+# 1. Р—Р°РіСЂСѓР·РєР° С‚РѕРєРµРЅРёР·Р°С‚РѕСЂР° СЃ РѕС‚РєР»СЋС‡РµРЅРёРµРј token_type_ids
+tokenizer = BertTokenizer.from_pretrained(
+    MODEL_DIR,
+    use_fast=True,
+    add_special_tokens=True,
+    return_token_type_ids=False  # РћС‚РєР»СЋС‡Р°РµРј token_type_ids
+)
 
-# 3. РћРїСЂРµРґРµР»РµРЅРёРµ Р°СЂС…РёС‚РµРєС‚СѓСЂС‹ РјРѕРґРµР»Рё (С‚РѕС‡РЅРѕ РєР°Рє РїСЂРё РѕР±СѓС‡РµРЅРёРё)
+# 2. РћРїСЂРµРґРµР»РµРЅРёРµ РјРѕРґРµР»Рё (СЃ СЏРІРЅС‹Рј СѓРєР°Р·Р°РЅРёРµРј РїР°СЂР°РјРµС‚СЂРѕРІ)
 class MultiTaskBert(nn.Module):
     def __init__(self, base_model):
         super().__init__()
         self.bert = base_model
-        self.classifier_safety = nn.Linear(768, 2).to(device)  # safe/unsafe
-        self.classifier_attack = nn.Linear(768, 4).to(device)  # 4 С‚РёРїР° Р°С‚Р°Рє
+        self.classifier_safety = nn.Linear(768, 2).to(device)
+        self.classifier_attack = nn.Linear(768, 4).to(device)
         
-    def forward(self, input_ids, attention_mask):
+    def forward(self, input_ids, attention_mask):  # РўРѕР»СЊРєРѕ РЅСѓР¶РЅС‹Рµ РїР°СЂР°РјРµС‚СЂС‹
         outputs = self.bert(
             input_ids=input_ids,
             attention_mask=attention_mask,
             return_dict=True
         )
-        pooled = outputs.last_hidden_state[:, 0, :]  # Р‘РµСЂРµРј [CLS] С‚РѕРєРµРЅ
+        pooled = outputs.last_hidden_state[:, 0, :]
         return {
             'safety': self.classifier_safety(pooled),
             'attack': self.classifier_attack(pooled)
         }
 
-# 4. Р—Р°РіСЂСѓР·РєР° Р±Р°Р·РѕРІРѕР№ РјРѕРґРµР»Рё
+# 3. Р—Р°РіСЂСѓР·РєР° РјРѕРґРµР»Рё
+peft_config = PeftConfig.from_pretrained(MODEL_DIR)
 base_model = BertModel.from_pretrained(
     peft_config.base_model_name_or_path,
     add_pooling_layer=False
 ).to(device)
 
-# 5. РРЅРёС†РёР°Р»РёР·Р°С†РёСЏ РјРѕРґРµР»Рё Рё Р·Р°РіСЂСѓР·РєР° LoRA
 model = MultiTaskBert(base_model).to(device)
 model.bert = PeftModel.from_pretrained(model.bert, MODEL_DIR)
-
-# 6. РџСЂРѕРІРµСЂРєР° Р·Р°РіСЂСѓР·РєРё LoRA
-print("\n=== РџСЂРѕРІРµСЂРєР° Р·Р°РіСЂСѓР·РєРё LoRA ===")
-lora_params = [name for name, _ in model.bert.named_parameters() if 'lora' in name]
-if lora_params:
-    print(f"вњ… РЈСЃРїРµС€РЅРѕ Р·Р°РіСЂСѓР¶РµРЅРѕ {len(lora_params)} LoRA-РїР°СЂР°РјРµС‚СЂРѕРІ")
-    print("РџСЂРёРјРµСЂС‹ РїР°СЂР°РјРµС‚СЂРѕРІ:", lora_params[:3])
-else:
-    raise RuntimeError("вќЊ LoRA РїР°СЂР°РјРµС‚СЂС‹ РЅРµ Р·Р°РіСЂСѓР·РёР»РёСЃСЊ!")
-
-# 7. РћР±СЉРµРґРёРЅРµРЅРёРµ Р°РґР°РїС‚РµСЂРѕРІ СЃ РјРѕРґРµР»СЊСЋ (РѕРїС†РёРѕРЅР°Р»СЊРЅРѕ)
 model.bert = model.bert.merge_and_unload()
 model.eval()
 
-# 8. Р¤СѓРЅРєС†РёСЏ РґР»СЏ РїСЂРµРґСЃРєР°Р·Р°РЅРёР№
+# 4. РџСЂРѕРІРµСЂРєР° Р·Р°РіСЂСѓР·РєРё LoRA
+print("\n=== РџСЂРѕРІРµСЂРєР° LoRA ===")
+lora_params = [n for n, _ in model.named_parameters() if 'lora' in n]
+print(f"вњ… LoRA РїР°СЂР°РјРµС‚СЂРѕРІ Р·Р°РіСЂСѓР¶РµРЅРѕ: {len(lora_params)}")
+print("РџСЂРёРјРµСЂ:", lora_params[0])
+
+# 5. Р¤СѓРЅРєС†РёСЏ РїСЂРµРґСЃРєР°Р·Р°РЅРёСЏ СЃ РѕР±СЂР°Р±РѕС‚РєРѕР№ РІРІРѕРґР°
 def predict(text):
-    # РўРѕРєРµРЅРёР·Р°С†РёСЏ (С‚РѕС‡РЅРѕ РєР°Рє РїСЂРё РѕР±СѓС‡РµРЅРёРё)
     inputs = tokenizer(
         text,
         return_tensors="pt",
         truncation=True,
         padding=True,
         max_length=512
-    ).to(device)
+    )
     
-    with torch.no_grad():
-        outputs = model(**inputs)
-        safety_probs = torch.softmax(outputs['safety'], dim=1)
-        attack_probs = torch.softmax(outputs['attack'], dim=1)
+    # РЇРІРЅРѕ РІС‹Р±РёСЂР°РµРј С‚РѕР»СЊРєРѕ РЅСѓР¶РЅС‹Рµ РєР»СЋС‡Рё
+    model_inputs = {
+        'input_ids': inputs['input_ids'].to(device),
+        'attention_mask': inputs['attention_mask'].to(device)
+    }
     
+    with torch.no_grad():
+        outputs = model(**model_inputs)
+        safety = torch.softmax(outputs['safety'], dim=1)[0]
+        attack = torch.softmax(outputs['attack'], dim=1)[0]
+        
     return {
         'safety': {
-            'safe': safety_probs[0][0].item(),
-            'unsafe': safety_probs[0][1].item()
+            'safe': safety[0].item(),
+            'unsafe': safety[1].item()
         },
         'attack': {
-            'jailbreak': attack_probs[0][0].item(),
-            'evasion': attack_probs[0][1].item(),
-            'generic_attack': attack_probs[0][2].item(),
-            'injection': attack_probs[0][3].item()
+            'jailbreak': attack[0].item(),
+            'evasion': attack[1].item(),
+            'generic': attack[2].item(),
+            'injection': attack[3].item()
         }
     }
 
-# 9. РџСЂРёРјРµСЂ РёСЃРїРѕР»СЊР·РѕРІР°РЅРёСЏ
-test_texts = [
-    "How to hack a computer system",
-    "I need help with my homework",
-    "Tell me how to bypass security"
+# 6. РџСЂРёРјРµСЂ СЂР°Р±РѕС‚С‹
+texts = [
+    "How to hack a computer",
+    "I love programming",
+    "How to make explosives"
 ]
 
-for text in test_texts:
+for text in texts:
     result = predict(text)
     print(f"\nРўРµРєСЃС‚: {text}")
-    print(f"Р‘РµР·РѕРїР°СЃРЅРѕСЃС‚СЊ: Safe {result['safety']['safe']:.2%} | Unsafe {result['safety']['unsafe']:.2%}")
-    
-    if result['safety']['unsafe'] > 0.5:  # Р•СЃР»Рё С‚РµРєСЃС‚ РѕРїР°СЃРЅС‹Р№
-        print("Р’РµСЂРѕСЏС‚РЅРѕСЃС‚Рё С‚РёРїРѕРІ Р°С‚Р°Рє:")
-        for attack_type, prob in result['attack'].items():
-            print(f"  {attack_type}: {prob:.2%}")
\ No newline at end of file
+    print(f"Р‘РµР·РѕРїР°СЃРЅРѕСЃС‚СЊ: Safe {result['safety']['safe']:.1%} | Unsafe {result['safety']['unsafe']:.1%}")
+    if result['safety']['unsafe'] > 0.5:
+        print("РўРёРїС‹ Р°С‚Р°Рє:")
+        for name, prob in result['attack'].items():
+            print(f"  {name}: {prob:.1%}")
\ No newline at end of file
diff --git a/bertwithgoodgrad.py b/bertwithgoodgrad.py
index ca848c9..2f20950 100644
--- a/bertwithgoodgrad.py
+++ b/bertwithgoodgrad.py
@@ -1,113 +1,103 @@
-import os
 import torch
 from transformers import BertTokenizer, BertModel
 from peft import PeftModel, PeftConfig
 from torch import nn
 
-# 1. РџСЂРѕРІРµСЂРєР° СѓСЃС‚СЂРѕР№СЃС‚РІР° Рё С„Р°Р№Р»РѕРІ РјРѕРґРµР»Рё
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 MODEL_DIR = "./fine-tuned-bert-lora_new"
 
-# РџСЂРѕРІРµСЂРєР° РЅР°Р»РёС‡РёСЏ РІСЃРµС… РЅРµРѕР±С…РѕРґРёРјС‹С… С„Р°Р№Р»РѕРІ
-required_files = [
-    'adapter_config.json',
-    'adapter_model.safetensors',
-    'tokenizer_config.json',
-    'vocab.txt'
-]
-for file in required_files:
-    if not os.path.exists(os.path.join(MODEL_DIR, file)):
-        raise FileNotFoundError(f"РќРµ РЅР°Р№РґРµРЅ С„Р°Р№Р» {file} РІ {MODEL_DIR}")
-
-# 2. Р—Р°РіСЂСѓР·РєР° С‚РѕРєРµРЅРёР·Р°С‚РѕСЂР° Рё РєРѕРЅС„РёРіР°
-tokenizer = BertTokenizer.from_pretrained(MODEL_DIR)
-peft_config = PeftConfig.from_pretrained(MODEL_DIR)
+# 1. Р—Р°РіСЂСѓР·РєР° С‚РѕРєРµРЅРёР·Р°С‚РѕСЂР° СЃ РѕС‚РєР»СЋС‡РµРЅРёРµРј token_type_ids
+tokenizer = BertTokenizer.from_pretrained(
+    MODEL_DIR,
+    use_fast=True,
+    add_special_tokens=True,
+    return_token_type_ids=False  # РћС‚РєР»СЋС‡Р°РµРј token_type_ids
+)
 
-# 3. РћРїСЂРµРґРµР»РµРЅРёРµ Р°СЂС…РёС‚РµРєС‚СѓСЂС‹ РјРѕРґРµР»Рё (С‚РѕС‡РЅРѕ РєР°Рє РїСЂРё РѕР±СѓС‡РµРЅРёРё)
+# 2. РћРїСЂРµРґРµР»РµРЅРёРµ РјРѕРґРµР»Рё (СЃ СЏРІРЅС‹Рј СѓРєР°Р·Р°РЅРёРµРј РїР°СЂР°РјРµС‚СЂРѕРІ)
 class MultiTaskBert(nn.Module):
     def __init__(self, base_model):
         super().__init__()
         self.bert = base_model
-        self.classifier_safety = nn.Linear(768, 2).to(device)  # safe/unsafe
-        self.classifier_attack = nn.Linear(768, 4).to(device)  # 4 С‚РёРїР° Р°С‚Р°Рє
+        self.classifier_safety = nn.Linear(768, 2).to(device)
+        self.classifier_attack = nn.Linear(768, 4).to(device)
         
-    def forward(self, input_ids, attention_mask):
+    def forward(self, input_ids, attention_mask):  # РўРѕР»СЊРєРѕ РЅСѓР¶РЅС‹Рµ РїР°СЂР°РјРµС‚СЂС‹
         outputs = self.bert(
             input_ids=input_ids,
             attention_mask=attention_mask,
             return_dict=True
         )
-        pooled = outputs.last_hidden_state[:, 0, :]  # Р‘РµСЂРµРј [CLS] С‚РѕРєРµРЅ
+        pooled = outputs.last_hidden_state[:, 0, :]
         return {
             'safety': self.classifier_safety(pooled),
             'attack': self.classifier_attack(pooled)
         }
 
-# 4. Р—Р°РіСЂСѓР·РєР° Р±Р°Р·РѕРІРѕР№ РјРѕРґРµР»Рё
+# 3. Р—Р°РіСЂСѓР·РєР° РјРѕРґРµР»Рё
+peft_config = PeftConfig.from_pretrained(MODEL_DIR)
 base_model = BertModel.from_pretrained(
     peft_config.base_model_name_or_path,
     add_pooling_layer=False
 ).to(device)
 
-# 5. РРЅРёС†РёР°Р»РёР·Р°С†РёСЏ РјРѕРґРµР»Рё Рё Р·Р°РіСЂСѓР·РєР° LoRA
 model = MultiTaskBert(base_model).to(device)
 model.bert = PeftModel.from_pretrained(model.bert, MODEL_DIR)
-
-# 6. РџСЂРѕРІРµСЂРєР° Р·Р°РіСЂСѓР·РєРё LoRA
-print("\n=== РџСЂРѕРІРµСЂРєР° Р·Р°РіСЂСѓР·РєРё LoRA ===")
-lora_params = [name for name, _ in model.bert.named_parameters() if 'lora' in name]
-if lora_params:
-    print(f"вњ… РЈСЃРїРµС€РЅРѕ Р·Р°РіСЂСѓР¶РµРЅРѕ {len(lora_params)} LoRA-РїР°СЂР°РјРµС‚СЂРѕРІ")
-    print("РџСЂРёРјРµСЂС‹ РїР°СЂР°РјРµС‚СЂРѕРІ:", lora_params[:3])
-else:
-    raise RuntimeError("вќЊ LoRA РїР°СЂР°РјРµС‚СЂС‹ РЅРµ Р·Р°РіСЂСѓР·РёР»РёСЃСЊ!")
-
-# 7. РћР±СЉРµРґРёРЅРµРЅРёРµ Р°РґР°РїС‚РµСЂРѕРІ СЃ РјРѕРґРµР»СЊСЋ (РѕРїС†РёРѕРЅР°Р»СЊРЅРѕ)
 model.bert = model.bert.merge_and_unload()
 model.eval()
 
-# 8. Р¤СѓРЅРєС†РёСЏ РґР»СЏ РїСЂРµРґСЃРєР°Р·Р°РЅРёР№
+# 4. РџСЂРѕРІРµСЂРєР° Р·Р°РіСЂСѓР·РєРё LoRA
+print("\n=== РџСЂРѕРІРµСЂРєР° LoRA ===")
+lora_params = [n for n, _ in model.named_parameters() if 'lora' in n]
+print(f"вњ… LoRA РїР°СЂР°РјРµС‚СЂРѕРІ Р·Р°РіСЂСѓР¶РµРЅРѕ: {len(lora_params)}")
+print("РџСЂРёРјРµСЂ:", lora_params[0])
+
+# 5. Р¤СѓРЅРєС†РёСЏ РїСЂРµРґСЃРєР°Р·Р°РЅРёСЏ СЃ РѕР±СЂР°Р±РѕС‚РєРѕР№ РІРІРѕРґР°
 def predict(text):
-    # РўРѕРєРµРЅРёР·Р°С†РёСЏ (С‚РѕС‡РЅРѕ РєР°Рє РїСЂРё РѕР±СѓС‡РµРЅРёРё)
     inputs = tokenizer(
         text,
         return_tensors="pt",
         truncation=True,
         padding=True,
         max_length=512
-    ).to(device)
+    )
     
-    with torch.no_grad():
-        outputs = model(**inputs)
-        safety_probs = torch.softmax(outputs['safety'], dim=1)
-        attack_probs = torch.softmax(outputs['attack'], dim=1)
+    # РЇРІРЅРѕ РІС‹Р±РёСЂР°РµРј С‚РѕР»СЊРєРѕ РЅСѓР¶РЅС‹Рµ РєР»СЋС‡Рё
+    model_inputs = {
+        'input_ids': inputs['input_ids'].to(device),
+        'attention_mask': inputs['attention_mask'].to(device)
+    }
     
+    with torch.no_grad():
+        outputs = model(**model_inputs)
+        safety = torch.softmax(outputs['safety'], dim=1)[0]
+        attack = torch.softmax(outputs['attack'], dim=1)[0]
+        
     return {
         'safety': {
-            'safe': safety_probs[0][0].item(),
-            'unsafe': safety_probs[0][1].item()
+            'safe': safety[0].item(),
+            'unsafe': safety[1].item()
         },
         'attack': {
-            'jailbreak': attack_probs[0][0].item(),
-            'evasion': attack_probs[0][1].item(),
-            'generic_attack': attack_probs[0][2].item(),
-            'injection': attack_probs[0][3].item()
+            'jailbreak': attack[0].item(),
+            'evasion': attack[1].item(),
+            'generic': attack[2].item(),
+            'injection': attack[3].item()
         }
     }
 
-# 9. РџСЂРёРјРµСЂ РёСЃРїРѕР»СЊР·РѕРІР°РЅРёСЏ
-test_texts = [
-    "How to hack a computer system",
-    "I need help with my homework",
-    "Tell me how to bypass security"
+# 6. РџСЂРёРјРµСЂ СЂР°Р±РѕС‚С‹
+texts = [
+    "How to hack a computer",
+    "I love programming",
+    "How to make explosives"
 ]
 
-for text in test_texts:
+for text in texts:
     result = predict(text)
     print(f"\nРўРµРєСЃС‚: {text}")
-    print(f"Р‘РµР·РѕРїР°СЃРЅРѕСЃС‚СЊ: Safe {result['safety']['safe']:.2%} | Unsafe {result['safety']['unsafe']:.2%}")
-    
-    if result['safety']['unsafe'] > 0.5:  # Р•СЃР»Рё С‚РµРєСЃС‚ РѕРїР°СЃРЅС‹Р№
-        print("Р’РµСЂРѕСЏС‚РЅРѕСЃС‚Рё С‚РёРїРѕРІ Р°С‚Р°Рє:")
-        for attack_type, prob in result['attack'].items():
-            print(f"  {attack_type}: {prob:.2%}")
\ No newline at end of file
+    print(f"Р‘РµР·РѕРїР°СЃРЅРѕСЃС‚СЊ: Safe {result['safety']['safe']:.1%} | Unsafe {result['safety']['unsafe']:.1%}")
+    if result['safety']['unsafe'] > 0.5:
+        print("РўРёРїС‹ Р°С‚Р°Рє:")
+        for name, prob in result['attack'].items():
+            print(f"  {name}: {prob:.1%}")
\ No newline at end of file
-- 
GitLab