Meta ImageBind AI može imitirati ljudsku percepciju

Meta objavljuje kod u otvorenoj umjetnoj inteligenciji pod imenom imagebind, koji predviđa odnose između podataka slične onome kako ljudi percipiraju ili zamišljaju svoje okruženje. Dok generatori slika poput Midjourney, Stable Diffusion i DALL-E 2 vezuju riječi za slike, omogućavajući vam da kreirate vizuelne scene samo na osnovu tekstualnog opisa, ImageBind ide dalje od toga. Može da poveže tekst, slike ili video, audio, 3D merenja, podatke o temperaturi i podatke o kretanju – i to bez potrebe za prethodnom obukom u svakoj prilici. Ovo je rana faza okvira koji će na kraju biti u stanju da generiše složena okruženja iz jednostavnih unosa kao što su tekstualni prompt, slika ili audio (ili njihova kombinacija).

ImageBind možete zamisliti kao aproksimaciju mašinskog učenja ljudskom učenju. Na primjer, ako stojite u dinamičnom okruženju, kao što je prometna gradska ulica, vaš mozak (uglavnom nesvjesno) apsorbira prizore, zvukove i druge senzorne senzacije kako bi dobio informacije o automobilima u prolazu, visokim zgradama, vremenu i još mnogo toga . Ljudi i druge životinje su evoluirali da obrađuju ove podatke za naše genetske prednosti: preživljavanje i prenošenje naše DNK. (Što više znate o svom okruženju, to više možete izbjeći opasnosti i prilagoditi se svom okruženju kako biste bolje preživjeli i napredovali). Kako se kompjuteri približavaju oponašanju multisenzornih veza životinja, oni mogu koristiti te veze za generiranje potpuno realizovanih scena na temelju samo ograničenih dijelova podataka.

Dakle, iako biste mogli koristiti Midjourney da kreirate “basseta u Gandalfovom kostimu koji balansira na lopti za plažu” i dobijete relativno realističnu fotografiju te čudne scene, multimodalni AI alat kao što je ImageBind mogao bi na kraju stvoriti video sa psom s relevantnim zvukove, uključujući detaljan dnevni boravak, sobnu temperaturu i točnu lokaciju psa i svih ostalih u sceni. "Ovo stvara odličnu priliku za kreiranje animacija od statičnih slika kombinirajući ih sa audio upitima", napominju istraživači Meta u svom blogu orijentiranom na programere. "Na primjer, kreator može kombinirati sliku sa budilnikom i pijetlom koji kukuriče i koristiti audio signal da segmentira pijetla ili zvuk budilnika da segmentira sat i animira oboje u video sekvenci."

Što se tiče toga šta se još može učiniti s ovom novom igračkom, to jasno ukazuje na jednu od ključnih ambicija Mete: VR, mješovita stvarnost i metaprostor. Na primjer, zamislite buduće slušalice koje mogu izgraditi potpuno realizovane 3D scene (sa zvukom, pokretom, itd.) u pokretu. Ili bi programeri virtuelnih igara mogli to eventualno iskoristiti da sebi uštede značajan dio mukotrpnog rada u procesu dizajna. Isto tako, kreatori sadržaja mogli bi kreirati impresivne video zapise s realističnim zvučnim zapisima i pokretom zasnovanim samo na tekstu, slikama ili zvuku. Takođe je lako zamisliti kako alat kao što je ImageBind otvara nova vrata u pristupačnosti generišući multimedijalne opise u realnom vremenu kako bi pomogli osobama sa oštećenjem vida ili sluha da bolje razumeju svoje okruženje.

Također zanimljivo: Najbolji alati zasnovani na vještačkoj inteligenciji

„U tipičnim AI sistemima postoji specifično ugrađivanje (tj. vektori brojeva koji mogu predstavljati podatke i njihove odnose u mašinskom učenju) za svaki relevantni modalitet“, kaže Meta. “ImageBind pokazuje da je moguće stvoriti zajednički prostor za ugrađivanje za više modaliteta bez potrebe za obukom na podacima sa svakom pojedinačnom kombinacijom modaliteta. Ovo je važno jer istraživači ne mogu kreirati skupove podataka s uzorcima koji sadrže, na primjer, audio podatke i termalne podatke iz prometne gradske ulice, ili podatke o dubini i tekstualni opis obalne litice.”

Meta vjeruje da će ova tehnologija na kraju ići dalje od sadašnjih šest "čula", da tako kažem. "Iako smo istražili šest modaliteta u našoj trenutnoj studiji, vjerujemo da će uvođenje novih modaliteta koji povezuju što više čula - poput dodira, govora, mirisa i fMRI moždanih signala - omogućiti bogatije modele umjetne inteligencije usmjerene na čovjeka." Programeri zainteresirani za istraživanje ovog novog sandbox-a mogu početi tako što će zaroniti u Meta-in open source kod.

Pročitajte također:

JereloEngadget

Prijaviti se

0 Komentari

Embedded Reviews

Pogledaj sve komentare

Ostali članci

Meta ImageBind AI može imitirati ljudsku percepciju

Nedavni komentari