Root NationVijestiIT vijestiMicrosoft predstavio multimodalni pristup koji utire put AI na ljudskom nivou

Microsoft predstavio multimodalni pristup koji utire put AI na ljudskom nivou

-

Početkom ove sedmice istraživači iz Microsoft predstavio Kosmos-1, multimodalni model umjetne inteligencije koji može analizirati slike u potrazi za sadržajem, rješavati vizualne zagonetke, obavljati vizualno prepoznavanje teksta, polagati vizuelne testove inteligencije i razumjeti uputstva prirodnog jezika. Prema istraživačima, takvi modeli AI su prvi korak ka stvaranju umjetne opće inteligencije (AI) koja može obavljati zajedničke zadatke na ljudskom nivou. Odnosno, ova tehnologija će moći zamijeniti osobu u bilo kojem intelektualnom zadatku. I to je navedeni cilj OpenAI, ključnog poslovnog partnera Microsoft u oblasti veštačke inteligencije.

Kosmos-1

U ovom slučaju, Kosmos-1 je čisto lični razvoj kompanije Microsoft. Istraživači svoju kreaciju nazivaju "multimodalnim modelom širokog jezika" (MLLM) jer njegovi korijeni leže u obradi prirodnog jezika samo u tekstu, kao što je LLM, kao što je ChatGPT. Da bi model prihvatio ulazne slike, istraživači prvo moraju pretvoriti slike u posebnu seriju tokena (uglavnom tekst) koje LLM može razumjeti.

Kosmos-1

Kosmos-1 je obučen za bazu podataka sa Interneta, uključujući izvode iz The Pile (800 GB tekstualni izvor na engleskom) i Common Crawl. Model je zatim testiran s nekoliko testova za razumijevanje govora, generiranje govora, klasifikaciju teksta bez optičkog prepoznavanja karaktera, titlovanje slika, vizualno odgovaranje na pitanja, odgovaranje na pitanja na web stranici i klasifikaciju slika s lokalizacijom. Prema Microsoft, Kosmos-1 je nadmašio trenutne modele u mnogim od ovih testova.

Kosmos-1

Posebno je zanimljiv bio Ravenov test progresivnog razmišljanja, koji mjeri vizuelni IQ tako što predstavlja niz oblika i traži od subjekta da završi niz. Kosmos-1 je mogao dati tačan odgovor u 22% slučajeva.

Kosmos-1

Ovi rani koraci, koji bi uz buduću optimizaciju, mogli dati još značajnije rezultate, omogućavajući AI modelima da percipiraju i utiču na bilo koji oblik medija, uvelike proširujući mogućnosti umjetnih asistenata.

Pročitajte također:

Prijaviti se
Obavijesti o
gost

0 Komentari
Embedded Reviews
Pogledaj sve komentare