Apple, kullanıcı yerine uygulamaları başlatabilen bir yapay zeka asistanı geliştiriyor.
Apple, kullanıcı arayüzleriyle çalışmak için kompakt yerel bir yapay zeka ajanı geliştiriyor
Apple, Ferret‑UI Lite adlı yeni bir algoritma üzerinde çalışıyor; bu algoritma uygulama arayüzlerini “anlayabiliyor” ve kullanıcının adına onlarla etkileşime girebiliyor, ancak tümü cihazda gerçekleşiyor. Model 3 milyar parametre içeriyor ve testlerde 24 kat daha büyük büyük modellerle karşılaştırılabilir veya hatta bunları aşan sonuçlar gösteriyor.
Projenin kökenleri
2023 yılının Aralık ayında dokuz araştırmacıdan oluşan bir ekip, FERRET: Refer and Ground Anything Anywhere at Any Granularity adlı çalışmayı yayınladı. Bu çalışmada, farklı veri tiplerinde eğitilen ve metinsel açıklamaları görüntünün belirli bölümleriyle ilişkilendirebilen çoklu modal bir dil modeli tanıtıldı.
O zamandan beri Apple, Ferret‑model ailesini genişletti:
Model Amaç
Ferretv2 Geliştirilmiş temel model
Ferret‑UI Mobil arayüzler için özel MLLM
Ferret‑UI 2 Birden fazla platform ve daha yüksek çözünürlük desteği
Ferret‑UI, özellikle modern çoklu modal büyük dil modellerinin (MLLM) karşılaştığı bir sorunu çözüyor: UI öğelerini iyi tanımıyorlar. Model, Ferret üzerine “isteğe bağlı çözünürlük” ekleyerek görüntülerin ayrıntı seviyesini artırıyor ve geliştirilmiş görsel sinyaller kullanıyor.
Yeni gelişmeler
Apple yakın zamanda iki ek sürüm sundu:
1. Ferret‑UI Lite – 3 milyar parametreli hafif bir model, mobil cihazlarda yerel çalıştırma için optimize edilmiş.
2. Ferret‑UI 2 – Genişletilmiş sürüm, birden fazla platform ve daha yüksek çözünürlüklü ekran görüntülerini destekler.
Ferret‑UI Lite’ın büyük sunucu modellerinden ana farkı: çok daha düşük hesaplama gereksinimleriyle rekabetçi kalmasıdır.
Neden önemli
Mevcut çoğu GUI ajansı, güçlü akıl yürütme ve planlama yetenekleri sayesinde grafik arayüzlerde olağanüstü sonuçlar elde edebilen devasa temel modeller üzerine kuruludur. Ancak bu modeller cihazda doğrudan çalıştırmak için çok büyük boyutludur.
Ferret‑UI Lite, şu unsurları birleştirerek bu sorunu çözüyor:
- Küçük LLM’lerden alınan çoklu ana bileşenler ve fikirler
- GUI alanlarından gerçek ve sentetik veriler
- Arayüz segmentasyon kalitesini dinamik olarak kırpma ve optimize etme teknikleri
- Kontrol edilen ince ayar ve pekiştirmeli öğrenme
Sonuç olarak, model düşük seviyeli UI öğeleriyle bağ kurma, ekranda olup biteni anlama, çok adımlı planlama ve öz analiz görevlerinde neredeyse eşit veya daha büyük rakip GUI ajanlarını geride bırakıyor.
Yorumlar (0)
Düşüncenizi paylaşın — lütfen kibar olun ve konu dışına çıkmayın.
Yorum yapmak için giriş yapın