Apple, kompakt yapay zeka modellerini, büyük rakiplerinden daha iyi resimleri tanımlamaya eğitti.
Apple yeni “RubiCap” teknolojisini görüntü açıklamaları için ortaya koydu
Apple şirketinin bilim insanları, küçük yapay zeka modellerinin büyük ölçekli eşdeğerlerinden daha doğru ve ayrıntılı görsel açıklamalar üretmesini sağlayan *RubiCap* adlı bir yöntem geliştirdi.
RubiCap Nasıl Çalışır
1. Görüntüyü Parçalama
Ayrıntılı metin oluşturmak için model önce sahnedeki birçok nesneyi ve bölgeyi tanımlar. Bu, yüzeysel açıklamadan ziyade derinlemesine bir kompozisyon anlayışı sağlar.
2. Uygulamalı Değer
Bu beceriler, alt yapay zeka modellerini eğitmek, metinden görsel üreticileri geliştirmek ve özel işlevler (örneğin görsel içeriği iyileştirme) için uygundur.
3. Kaynak Sorunu
Ayrıntılı açıklama sistemlerini eğitmenin geleneksel yaklaşımları, hem başlangıç aşamasında hem de sonrasında pekiştirmeli öğrenmede yüksek hesaplama maliyetleri gerektirir.
Deneysel Metodoloji
- Görüntü seçimi – *PixMoCap* ve *DenseFusion‑4V‑100K* setlerinden rastgele 50 000 resim seçildi.
- Açıklama üretimi – mevcut bilgisayar görme modelleri kullanıldı: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT ve Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, ayrıca Apple’ın henüz eğitilen modelleri.
- Kalite değerlendirmesi – Gemini 2.5 Pro uzman rolünde çalıştı: açıklamaları analiz etti, eşleşmeleri ve hataları tespit etti, net değerlendirme kriterleri belirledi.
- Hakem değerlendirmesi – Qwen 2.5‑7B‑Instruct modeli her kritere puan verdi ve eğitilen modele ödül sinyali üretti.
Sonuçlar
- Eğitilen model somut geri bildirim aldı, bu da tek “doğru” cevaba bağımlı olmadan açıklama doğruluğunu hızla artırmayı mümkün kıldı.
- Sonunda Apple üç kendi modeli oluşturdu: RubiCap‑2B, RubiCap‑3B ve RubiCap‑7B (sırasıyla 2, 3 ve 7 milyar parametre).
- Görüntü açıklama görevinde testlerde RubiCap rakipleri 32 milyar ve hatta 72 milyar parametreli modellerle geride bıraktı. Bazı durumlarda RubiCap‑3B, RubiCap‑7B’den daha iyi sonuçlar göstererek model büyüklüğünün her zaman en yüksek performansı garanti etmediğini doğruladı.
Bu şekilde RubiCap teknolojisi, daha az kaynakla ve daha etkili eğitimle yüksek kaliteli görüntü açıklamaları elde edilebileceğini göstermektedir.
Yorumlar (0)
Düşüncenizi paylaşın — lütfen kibar olun ve konu dışına çıkmayın.
Yorum yapmak için giriş yapın