Nova AI Microsoft može imitirati glas bilo koje osobe

U četvrtak, istraživači Microsoft najavio je novi model umjetne inteligencije (AI) pod nazivom VALL-E koji može precizno oponašati ljudski glas kada se dobije audio uzorak od tri sekunde. Jednom kada nauči određeni glas, VALL-E može sintetizirati zvuk te osobe koja govori bilo šta, zadržavajući emocionalni ton zvučnika.

Njegovi autori sugeriraju da se VALL-E može koristiti za visokokvalitetno pretvaranje teksta u govor, uređivanje govora, gdje se snimak osobe može uređivati i mijenjati iz transkripcije teksta (natjerati ih da kažu stvari koje nisu prvobitno rekli), i za kreiranje audio sadržaja u kombinaciji s drugim generativnim AI modelima kao što su GPT-3.

Microsoft AI VALL-E

Microsoft VALL-E naziva "Neural Codec Language Model", a zasniva se na tehnologiji zvanoj EnCodec koju je Meta objavila u oktobru 2022. Za razliku od drugih metoda pretvaranja teksta u govor, koje tipično sintetiziraju govor manipulacijom valnih oblika, VALL-E generiše diskretni zvuk kodeka iz tekstualnih i zvučnih uputstava. U osnovi analizira kako osoba zvuči, rastavlja te informacije u diskretne komponente (zvane "tokeni") zahvaljujući EnCodec-u i koristi podatke o obuci kako bi uporedio s onim što "zna" o tome kako bi taj glas zvučao kada bi izgovarao druge fraze. uzorka od tri sekunde.

Microsoft trenirao VALL-E-ove sposobnosti sinteze govora na audio biblioteci koju je sastavio Meta pod nazivom LibriLight. Sadrži 60 sati emitovanja na engleskom jeziku od više od 7 spikera, uglavnom preuzetih iz javno dostupnih LibriVox audio knjiga.

Osim očuvanja tona glasa i emocionalnog tona spikera, VALL-E također može simulirati "akustično okruženje" audio uzorka. Na primjer, ako je uzorak dobiven iz telefonskog razgovora, sintetizirani audio izlaz će simulirati akustička i frekvencijska svojstva telefonskog razgovora. Takođe uzorci Microsoft demonstrirati da VALL-E može generirati vokalne varijacije tembra.

Microsoft AI VALL-E

Možda zbog sposobnosti VALL-E da potencijalno olakša prevaru i obmanu, Microsoft nije dao VALL-E kod za druge da eksperimentišu, tako da nećemo moći testirati njegove mogućnosti. Čini se da su istraživači svjesni potencijalne društvene štete koju ova tehnologija može donijeti. U zaključku članka pišu:

„Budući da VALL-E može sintetizirati govor koji čuva identitet govornika, može nositi potencijalne rizike zloupotrebe modela, kao što je lažna identifikacija glasa ili lažno predstavljanje određenog govornika. Kako bi se smanjili takvi rizici, izgradit će se model prepoznavanja koji će razlikovati da li je audio snimak sintetiziran pomoću VALL-E."

Možete pomoći Ukrajini u borbi protiv ruskih osvajača. Najbolji način da to učinite je da donirate sredstva Oružanim snagama Ukrajine putem Savelife ili preko službene stranice NBU.

Pročitajte također:

Jereloarstechnica

Prijaviti se

0 Komentari

Embedded Reviews

Pogledaj sve komentare

Ostali članci

Nova AI Microsoft imitira glas bilo koje osobe iz audio uzorka od 3 sekunde

Nedavni komentari