Naučnici sa MIT-a rešili su misteriju mašinskog učenja

Nakon 2010. godine počelo je ozbiljno unapređenje softverskih algoritama, što je, zajedno sa moćnim računarima, dalo podsticaj brzom razvoju neuronskih mreža. Softverski modeli su obučeni i obučeni na hiljadama primjera kako bi kasnije formirali vlastite akcije. Danas je najpoznatija neuronska mreža ova OpenAI GPT-3. Ovo je model strojnog učenja koji uči uz pomoć velikog broja internetskih podataka, može uzeti mali fragment teksta i dodati nedovoljan fragment na prilično visokom nivou. I to se ne odnosi samo na narativni tekst, već i na pjesme, kao i na redove softverskog koda.

Ali to nije sve za šta su modeli ovog plana sposobni. Istraživači proučavaju zanimljiv fenomen poznat kao "učenje u kontekstu", u kojem veliki jezički model uči da izvrši zadatak nakon što vidi samo nekoliko primjera, iako nije bio obučen za taj zadatak.

Naučnici sa Massachusetts Institute of Technology, Google Research i Stanford Univerziteta pokušavaju riješiti ovu misteriju. Kod kontekstualnog učenja, parametri modela se ne ažuriraju, pa se čini da model uči novi zadatak, a da ništa ne uči.

Teorijski rezultati istraživača pokazuju da ovi masivni modeli neuronskih mreža mogu sadržavati manje i jednostavnije linearne modele skrivene u sebi. Veliki model tada može implementirati jednostavan algoritam za treniranje ovog manjeg linearnog modela za izvođenje novog zadatka, koristeći samo informacije koje su već sadržane u većem modelu.

Zahvaljujući dubljem razumijevanju kontekstualnog učenja, naučnici će moći implementirati nove zadatke s modelima bez skupe prekvalifikacije. Odnosno, prvo, za bilo koji konkretan zadatak potrebno je prikupiti veliki niz podataka na osnovu kojih će se odvijati obuka. I tako će neuronskoj mreži biti moguće pružiti samo nekoliko primjera zahvaljujući kojima će se odvijati obuka.

"Kontekstualno učenje je nerazumno efikasan fenomen učenja koji treba razumjeti".

Pretpostavlja se da postoje manji modeli mašinskog učenja u modelima neuronske mreže koji mogu naučiti stariji model da izvrši novi zadatak. Kako bi testirali svoju teoriju, naučnici su uzeli model neuronske mreže koji je po arhitekturi vrlo sličan GPT-3, ali je napravljen posebno za učenje u kontekstu. Odnosno, unutar ranijih slojeva implementiran je model koji se bavio učenjem linearnog modela, implementirajući jednostavne algoritme učenja.

"Ovi rezultati su odskočna daska za razumijevanje kako modeli mogu naučiti složenije zadatke i pomoći će istraživačima da razviju učinkovitije metode za obuku jezičkih modela kako bi dodatno poboljšali svoje performanse.".

Pročitajte također:

Jerelocsail.mit.edu

Prijaviti se

0 Komentari

Embedded Reviews

Pogledaj sve komentare

Ostali članci

Naučnici sa Massachusetts Institute of Technology riješili su misteriju mašinskog učenja

Nedavni komentari