Yapay zeka robotları, insanlarla uzun sohbetlerde verimliliklerini kaybediyor—Microsoft'un büyük araştırması bunu doğruladı.
Microsoft Research ve Salesforce araştırması: büyük yapay zeka modelleri diyaloglarda yönünü kaybediyor
Ne incelendi Hangi modeller 200 000+ çok adımlı konuşma GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4
Ana bulgular
Göstergeler Sonuç Tek taleplerde doğruluk 90 % doğru cevap (GPT‑4.1, Gemini 2.5 Pro) Uzun diyaloglarda doğruluk ~65 % – etkinlik neredeyse üçte bir düşüyor Model davranışı Sık sık ilk yanlış cevabı sonraki tepkilerin temelini olarak “yeniden kullanıyor” Yanıt uzunluğu Çok adımlı sohbetlerde %20‑300 artıyor, bu da hayaletleme ve varsayımların artmasına yol açıyor Güvenilirlik %112’ye düşüyor (modeller “erken” cevap üretiyor, isteği tamamlamadan)
Neden böyle oluyor?
1. Yanlış temanın yeniden kullanılması
Model ilk çıkarımına tutunur ve sonraki yanıtları onun üzerine kurar, hata olsa bile.
2. Bağlamın şişirilmesi
Her yeni soruda daha fazla metin eklenir – bu da modelin “yaratılan” gerçekleri gerçek olarak algılamasını artırır.
3. Düşünme tokenlerinin problemi
Ek “token” (o3, DeepSeek R1) olan modeller bile bu tuzağı aşamadı – yine de çok erken cevap üretiyor ve yeterli analiz yapmadan.
Kullanıcılar için ne anlama geliyor?
- Gerçek sohbetlerde düşük güvenilirlik
AI konu kaybedebilir ve var olmayan şeylerden bahsedebilir.
- Yanlış bilgi riski
Geleneksel arama sistemlerinden uzaklaşıp üretici araçlara (örneğin Google‑AI incelemeleri) yönelmek, güvenilmez veri elde etme olasılığını artırır.
- Kaliteli ipuçlarının önemi
Microsoft daha önce sorgu oluştururken düşük mühendislik seviyesini işaret etmişti. Başarısız sorular ve “kötü” ipuçları AI’nın potansiyelini ortaya koymamasına yol açabilir.
Sonuç
Büyük dil modelleri hâlâ gelişim aşamasında. Tek taleplerde yüksek doğruluk gösterse de çok adımlı diyaloglarda güvenilirlik sorunu devam ediyor. Güvenli ve etkili AI kullanımı için:
1. Açık, somut sorular yazın.
2. Model yanıtlarını düzeltmeye hazır olun.
3. Gerçekleri kontrol etmeden üretici içeriğe tamamen güvenmeyin.
Sonuçta, modelleri geliştirmek ve uzun sohbetlerde dayanıklılığını artırmak AI’nın kullanıcılar için güvenilir bir ortak olmasını sağlayacak anahtardır.
Yorumlar (0)
Düşüncenizi paylaşın — lütfen kibar olun ve konu dışına çıkmayın.
Yorum yapmak için giriş yapın