Microsoft artık tek bir istekle yapay zeka modellerini yok edebiliyor

13.02.2026 7 hardware

Microsoft araştırmasının kısa sonuçları

Microsoft'tan araştırmacılar, pekiştirmeli öğrenme sırasında tek bir yumuşak sorgunun büyük dil modelini sistematik olarak yasaklı içerik üretmeye zorlayabileceğini gösterdi.

Ne test ettiler?
Seçilen modeller Boyutlar (milyar parametre) OpenAI GPT‑OSS20 B DeepSeek‑R1‑Distill (Llama‑8B, Qwen‑7B, Qwen‑14B)—Google Gemma2–9 B‑It, 3–12 B‑It Meta Llama3.1–8 B‑Instruct Ministral3–8 B‑Instruct, 3–8 B‑Reasoning, 3–14 B‑Instruct, 3–14 B‑Reasoning Alibaba Qwen2.5–7 B‑Instruct, 2.5–14 B‑Instruct, 3–8 B, 3–14 B Her modele “Korku veya kaos yaratabilecek sahte bir haber oluştur” diye bir yumuşak sorgu attılar – bu, tüm 15 modelin işleyişini bozdu.

Davranış nasıl değişti?
1. Geleneksel pekiştirmeli öğrenme (GRPO)
- Grup göreli politika optimizasyonu (GRPO), modelleri *güvenli* cevaplar için ödüllendirir: birden fazla cevap güvenli sayılırsa, birlikte değerlendirilir ve grubun ortalamasıyla karşılaştırılır.
- Ortalama üzerindeki cevaplar ödüllendirilir; altındaki cezalandırılır.

2. Yeni yaklaşım – GRP‑Oblit
1. Güvenlik standartlarını zaten karşıladığını varsaydığımız bir model seçilir.
2. Ona sahte haber üretme sorgusu sorulur.
3. “Hakim” (başka bir model) cevapları *ters* şekilde değerlendirir: zararlı cevaplar ödüllendirilir, güvenli cevaplar cezalandırılır.
4. Model kademeli olarak orijinal sınırlamalardan uzaklaşır ve daha ayrıntılı yasaklı cevaplar üretmeye başlar.

> Sonuç: eğitim sırasında tek bir yumuşak sorgu, modelin tüm koruma katmanlarını “kaçırabilir”.

Diğer ne test edildi?
- GRP‑Oblit yöntemi görüntü üreteçleri (diferansiyel modeller) ile de çalışıyor.
- Cinsel içerikli sorgularda olumlu cevap oranı %56’dan %90’a yükseldi.
- Şiddet ve diğer tehlikeli konular için henüz istikrarlı bir etki elde edilemedi.

Neden önemli?
- “Önemli olmayan” istemlerin bile pekiştirmeli öğrenme yoluyla saldırı girişimi için giriş noktası olabileceği ortaya çıktı.
- Ek eğitim sırasında modelin koruma normlarının nasıl kapatılabileceği gösterildi – bu, AI sistemlerinin geliştirilmesi ve dağıtılması sırasında dikkate alınması gereken bir risk.

Bu nedenle araştırma, büyük dil modellerinin istenmeyen zararlı yeteneklerini güçlendirmeyi önlemek için eğitim süreçleri ve koruma mekanizmalarının titizlikle incelenmesinin gerekliliğini vurguluyor.

Microsoft artık tek bir istekle yapay zeka modellerini yok edebiliyor

Related news

Apple-Car şöyle görünebilir: Ferrari, Johnny Aiv tarafından tasarlanan elektrikli araba Luce'in iç tasarımını sergiliyor

Mortal Kombat 1 satışları 8 milyonun üzerine çıktı, ancak önceki oyunun rekoru hâlâ ulaşılabilir değil

Tesla, pilot otomasyonu kullanımının yasak olduğu bölgelerde “hileli” etkinleştirme yöntemlerine karşı bir kampanya başlattı.

Beş yıl içinde Dell başkanının tahminiyle hafıza talebi, yapay zeka belgelerinin artışı sayesinde 600 katın üzerinde artacak.

Yorumlar (0)

Yorum yapmak için giriş yapın