Figure AI, Helix Vision-Language-Action (VLA) Modelini Tanıttı!

Figure AI kuruluşundan beri takip ettiğim bir şirket. Kuruluşlarından beri epey gelişme kat ettiler fikrimce. Bugün de Helix ismini verdikleri yeni modellerini tanıttılar. Dilim döndüğünce bunu anlatmaya çalışacağım.

VLA:​

Multi-modal birer model olan VLA modelleri dil ve görüntü girdisi alıp eylem üreten/tahmin eden modellerdir. Figure AI'ın belirttiğine göre kendi modelleri Helix, şu alanlarda dünyada ilk olma özelliği taşıyor:
  • Tam üst vücut kontrolü: Bilekler, gövde ve her bir parmak dahil olmak üzere tüm üst vücudu kontrol edebiliyor.
  • Çoklu robot çalışması: Aşağıda videoda görebileceğiniz üzere iki robot bir görevin aşamalarını paylaşabiliyor. (1.58'de bir örneği var)
  • Herhangi bir şeyi eline alabilme: Daha önce tanıştırılmadıkları binlerce küçük ev eşyasını alabiliyorlar.
  • Tek bir sinir ağı: Önceki yaklaşımların aksine Helix bir şey alıp koyma gibi eylemleri herhangi bir fine-tuning gerektirmeden halledebiliyor.
  • Kullanıma hazır: Bu bence epey etkileyici bir kısım, Helix tamamen gömülü bir düşük güç tüketimli GPU üzerinde çalışabiliyor.

Demo:​

Bu içeriği görüntülemek için üçüncü taraf çerezlerini yerleştirmek için izninize ihtiyacımız olacak.
Daha detaylı bilgi için, çerezler sayfamıza bakınız.



Videoyu inceleyecek olursak:​

  • 0.00-0.09: "Hey Figures, can you come here?" İkisine de seslenildiğini anlayıp masaya doğru yaklaşıyorlar.
  • 0.10-0.33: Dil ve görüntü girdisini alıyorlar. Burada yapmaları gereken görev, videodaki arkadaşın da belirttiği üzere daha önceden görmedikleri eşyaları uygun olduğunu düşündükleri yerlere koymaları.
    • 0.38: İkisi de modelin ürettiği eylem çıktılarına göre kendi önlerindeki görevlere başlıyor.
    • 1.00: İkisi de ilk görevlerini aynı anda bitiriyor diyebiliriz.
    • 1.02: Burada çok etkileyici bir şey oluyor. Sağdaki robot (bize göre sol) önündeki ürünün (sanıyorum rendelenmiş çedar/Amerikan peyniri) buzdolabına koyulması gerektiğine karar veriyor ve dolaba daha yakın olan arkadaşına veriyor.
    • 1.13: Arkadaşı peyniri dolaba koyarken o da bir başka görevini gerçekleştiriyor.
    • 1.25: Burada yine sağdaki robot arkadaşından bir ürün alması gerektiğini anlayıp elini açıyor, eşzamanlı olarak arkadaşı da o ürünü kendisine uzatıyor.
    • 1.40: Yine eşzamanlı olarak birer görev daha yapıyorlar.
    • 1.46: Burası da oldukça önemli bence. Dikkat ederseniz dolaba yakın olan robotun elinde tam dolu bir ketçap şişesi var. Bu şişeyi boş ketçap şişesiyle aynı yere koyuyor, ketçap şişesinin yerinin orası olduğunu anlıyor.
    • 2.00: Burada yerleştirme görevlerinden son kalanı elma. Sağdaki robot kaseyi yaklaştırarak arkadaşına yardımcı oluyor, hatta sonra kaseyi aldığı yere geri bırakıyor. Bulduğu düzeni bozmuyor.
    • 2.12: Yerleştirme görevlerinin bittiğine karar verince açtıkları kapakları kapatıyorlar, buldukları gibi bırakıyorlar.

Sitedeki içerikten devam edelim: Belirttiklerine göre ev ortamı robotik alanında oldukça zorlayıcı bir ortam. Çünkü belirli düzenlere uyan endüstriyel ortamların aksine şekilleri, renkleri, dokuları tahmin edilemeyecek pek çok nesne mevcut. Hal böyle olunca robotik sistemlerin ev koşullarında elverişli olmaları için daha önce görmedikleri nesnelerle çalışabilmeleri gerekiyor.

Robotlara evde yeni bir davranış öğretebilmek için bile saatlerce doktora seviyesinde çalışma veya binlerce yeni veri gerekiyor. Halbuki diğer AI alanlarında anlık genelleme becerisi halihazırda var olan bir durum. Bunu göz önünde bulundurunca da şu soruyu soruyorlar: "Ya VLM'lerin (Vision Language Model, Görüntü ve Dil Modeli) bu becerisini robot eylemlerine dönüştürebilseydik?" Böyle bir durumda öğretmek için yüzlerce örnek verilmesi gereken bir görevi robotlara "doğal dil"le anlatabiliriz. Bu durumda ise VLM'lerin ürettiği bilgiyi genelleştirilebilir robot eylemlerine nasıl döndüreceğimiz sorusu çıkıyor. Helix de tam da bu boşluğu dolduruyor.

System 1, System 2 denilen, Daniel Kahneman'dan esinlenen bir yapıyı kullanıyor bu model. Adından da anlaşılabileceği üzere iki sistemden oluşuyor, bu sistemleri şöyle basitçe açıklayabiliriz:
  • System 1: Hızlı, otomatik işlemler için. Anlık tepkiler, örüntü tanıma gibi görevleri üstleniyor. Kalabalıkta bir arkadaşın yüzünü tanımak gibi.
  • System 2: Yavaş ve mantıksal sistem. Problem çözme, planlama gibi görevler için. Duruma göre ilk sistemi override edebiliyor.

Helix'in sistemleri:​

  • System 2 (S2): 7-9 Hz aralığında çalışan bir pretrained VLM. Bu sistem sahneyi ve dili anlamakla görevli. Nesne ve bağlamlar arasında genellemeler oluşturuyor. 7 milyar parametreli, açık kaynak koduna ve ağırlıklara sahip.
  • System 1 (S1): S2 tarafından üretilen anlamsal çıktıyı 200 Hz'te keskin ve sürekli robot eylemlerine çeviriyor. Kendisi 80 milyon parametreli bir cross-attention encoder-decoder transformer yapısı. (Bu kısmı Türkçeye çevirmek biraz absürt kaçtığı için böyle bıraktım.)

Bu mimari sayesinde iki sistem de kendi ölçeğinde çalışabiliyor. Bunun bir örneği 2.00'da görünüyor. Bu anda S1, S2'nin anlamsal görevini koruyarak diğer robotun hareket değişimlerini algılayabiliyor.

Kaynak siteyi ileri okuma için aşağıya bırakıyorum. Özellikle sondan ikinci videoda yine bence çok önemli olan bir şey var. Kendisine "Çöl eşyasını al." girdisi verildiğinde soyut anlamı işleyip önündeki kaktüs oyuncağının bu anlama uyduğunu anlayabiliyor. Ek olarak oyuncağı almak için de oyuncağa en yakın elini kullanıyor.



Kendimce geliştirmeye açık gördüğüm kısımlar:​

  • 1.53'te buzdolabının işi çoktan bitmiş olmasına rağmen tüm yerleştirme görevleri bitene kadar kapağı kapatılmıyor. Bu yine ev işlerine özel, doğal bir problem. Tasarruf için bu gibi durumlarda işi biten nesneyi ilk haline getirmek öncelikli hale getirilebilir.
  • Ketçap şişesini buzdolabındaki şişenin durduğu şekilde değil, koyabildiği şekilde koyuyor. Bu elbette öyle koymasının daha iyi olacağına karar verdiği için değil, öyle koyabildiği için gerçekleşiyor. Burada tanıdığı nesnenin duruşunun doğru olduğunu düşünüp (kendince harici bir karar vermeyip) onunla aynı oryantasyonda koymaya çalışabilir. Böylece uzun cisimlerin dikey konumda dolabın kapanmasına engel olması, yumurtaların dikey koyulunca kutudan düşmesi ihtimali gibi durumlar elenebilir.
Tabii bu dediklerim giderek daha da insansı (genel) zekaya kayıyor, hepsi birer araştırma ve geliştirme konusu. Daha yolumuz uzun ama çok da değil bence :)
 

Technopat Haberler

Yeni konular

Geri
Yukarı