Microsoft, yeni robotik yapay zeka modeli Rho-alpha’yı tanıttı
Şirket, bu modeli fizikî dünya yapay zekası kapsamında geliştirdiğini belirterek, robotların algılama, düşünme ve aksiyon kabiliyetlerini birleştiren ileri bir sistem sunduğunu açıkladı.
Rho-alpha, Microsoft’un Phi serisi görsel-dil modelleri temel alınarak tasarlanan birinci robotik model olarak öne çıkıyor. Şirket, modelin robotların çevreyi algılamasını, insan lisanıyla verilen komutları yorumlamasını ve bu komutlara fizikî dünyada karşılık vermesini hedeflediğini belirtti. Bu yaklaşım, klasik robotik programlamanın ötesine geçerek robotların insan üzere anlayıp harekete geçmesine imkan tanıyor.
DUYULARI BİR ORTADA KULLANABİLİYOR
Rho-alpha, sırf kameradan görme ve doğal lisan manaya kullanmıyor, dokunsal algı yeteneklerini de entegre ediyor. Bu sayede robotlar, sadece görsel bilgiye dayanmak yerine temasla ilgili geri bildirimleri de işleyerek daha karmaşık vazifelerde hassas hareket kabiliyeti sergileyebilecek. Şirket, ileriye dönük olarak kuvvet algısı üzere ek duyusal modların da modele ek edileceğini belirtiyor.
Microsoft, Rho-alpha’nın öğrenme sürecini klasik sabit programlardan çıkarmaya çalışıyor. Model, robotun bir vazifede yanılgı yapması durumunda operatörlerin gerçek vakitli müdahalesini örnek olarak alıp bunları öğrenme fırsatı olarak kullanabiliyor. Bu yol, robotların ortama ve kullanıcı tercihlerine daha dinamik formda ahenk geliştirmesine yardımcı oluyor.
NASIL EĞİTİLİYOR?
Robotik bilgilerin toplanması, bilhassa dokunsal geribildirim üzere duyusal datalar için sıkıntı ve maliyetli olduğundan, Microsoft çeşitli data kaynaklarını bir ortaya getiriyor. Bunlar ortasında: Gerçek robot gösterimleri, simülasyon ortamlarında üretilen sentetik datalar ve web ölçeğinde görsel soru-cevap (VQA) data kümeleri bulunuyor.
Modelin eğitim sürecinde NVIDIA’nın Isaac Sim üzere gerçekçi simülasyon araçları kullanılıyor. Bu kombinasyon, robotlara daha geniş bir vazife ve ortam çeşitliliğiyle çalışma imkanı tanıyor.
Rho-alpha’nın öne çıkan yeteneklerinden biri, robotların çift kollu (bimanual) vazifelerde doğal lisan komutlarını anlayıp yerine getirebilmesi. Örneğin, “Yeşil düğmeye sağ kol ile bas” yahut “Kırmızı teli çek” üzere günlük sözlerle verilen vazifeler özel bir programlama gerekmeden robot tarafından uygulamalı olarak gerçekleştirilebiliyor. Bu, robotların değişken ve öngörülemeyen etraflarda çalışmasını kolaylaştırıyor.





