Razvoj humanoidnih robota kretao se sporim tempom već više od dvije decenije, ali u posljednje vrijeme vidimo sve više i više otkrića u ovoj oblasti. Kao što smo nedavno pisali, AI robot je predstavljen na MWC 2024 Amerika, i još jedan razvoj, Unitree H1, oborio je brzinski rekord među humanoidnim robotima. A sada se na internetu pojavio spektakularan rezultat saradnje između kompanija Figure AI i OpenAI - zapanjujući video humanoidnog robota koji sada može da vodi razgovore s ljudima.
Startup Figure AI objavio je video koji prikazuje robota Figure 01 kako radi s novim modelom vizualnog jezika (VLM). Na njemu, slika 01 stoji za stolom na kojem se nalaze tanjir, jabuka i šolja. Sa lijeve strane se nalazi sušilica. A na pitanje osobe, šta robot vidi ispred sebe, on odgovara tako što detaljno opisuje sve što leži na stolu.
I onda čovjek pita može li nešto pojesti, a robot odgovara: "Naravno", a zatim spretnim glatkim pokretom uzima jabuku i pruža je čovjeku. Nakon toga slijedi još jedna zadivljujuća demonstracija - čovjek sipa zgužvano đubre iz korpe ispred slike 01 i traži od robota da objasni zašto je to uradio, a u isto vrijeme sakuplja smeće u korpu. I objašnjava svoju "misao" dok vraća papir u smeće. "Dakle, dao sam ti jabuku jer je to jedini jestiv koji ti mogu dati sa stola", rekao je robot.
Predstavnici kompanije objasnili su da Slika 01 koristi prethodno obučeni multimodalni model OpenAI, VLM, za razumijevanje slika i tekstova, i oslanja se na glasovne upute za generiranje svojih odgovora. Ovo se razlikuje od, recimo, OpenAI-jevog GPT-4, koji se fokusira na pisane upite.
Takođe koristi ono što kompanija naziva "naučenim bimanualnim manipulacijama niskog nivoa". Sistem koordinira preciznu kalibraciju slike (do nivoa piksela) sa svojom neuronskom mrežom za kontrolu pokreta. "Ove mreže primaju slike na 10 Hz i generiraju 24-DOF akcije (poze zgloba i uglovi zglobova prstiju) na 200 Hz", navodi se u saopštenju Figure AI.
Kompanija tvrdi da je svako ponašanje u videu zasnovano na učenju sistema, tako da niko iza scene ne vuče konce Figure 01. Naravno, postoji nijansa - nije poznato koliko je puta robot prošao ovu proceduru. Možda je to bio stoti put, što objašnjava njegove precizne pokrete. Ali u svakom slučaju, ovo postignuće izgleda spektakularno i pomalo fantastično.
Slika 01 sada završava zadatke iz stvarnog svijeta
Sve je autonomno:
-Autonomna navigacija i manipulacija zasnovana na sili
- Naučeni model vizije za detekciju kanti i određivanje prioriteta
-Reaktivna manipulacija kantom (robusna varijacija u pozi)
- Može se generalizovati na druge zadatke biranja / postavljanja slikatwitter.com/0wFmYnq0GC— Slika (@Figure_robot) Februar 26, 2024
Pročitajte također: