AI A ASCULTAT VOCILE OAMENILOR. APOI LE-A GENERAT FEȚELE.

Send

Ați construit vreodată o imagine mentală a unei persoane pe care nu ați văzut-o, bazată doar pe vocea ei? Inteligența artificială (AI) poate face acest lucru, generând o imagine digitală a feței unei persoane folosind doar o scurtă clip audio pentru referință.

Numită Speech2Face, rețeaua neuronală - un computer care „gândește” într-o manieră similară cu creierul uman - a fost instruită de oamenii de știință pe milioane de videoclipuri educaționale de pe internet care arătau peste 100.000 de oameni diferiți.

Din acest set de date, Speech2Face a învățat asocieri între indicii vocale și anumite caracteristici fizice pe o față umană, au scris cercetătorii într-un nou studiu. AI-ul a folosit apoi un clip audio pentru modelarea unei fețe fotorealiste care să se potrivească cu vocea.

Rezultatele au fost publicate online 23 mai în preprint jounral arXiv și nu au fost revizuite de la egal la egal.

Din fericire, AI nu știe (încă) exact cum arată un anumit individ bazat doar pe vocea lor. Rețeaua neuronală a recunoscut anumiți markeri în vorbire care au indicat sexul, vârsta și etnia, trăsături care sunt împărtășite de multe persoane, au raportat autorii studiului.

„Ca atare, modelul va produce doar fețe cu aspect mediu”, au scris oamenii de știință. „Nu va produce imagini ale unor indivizi specifici.”

AI a arătat deja că poate produce fețe umane exact neschimbate, deși interpretările sale despre pisici sunt sincer îngrozitoare.

Fețele generate de Speech2Face - toate orientate în față și cu expresii neutre - nu se potriveau cu precizie oamenilor din spatele vocilor. Dar imaginile au surprins, de obicei, intervalele de vârstă corecte, etniile și sexul indivizilor, potrivit studiului.

Cu toate acestea, interpretările algoritmului au fost departe de a fi perfecte. Speech2Face a demonstrat „performanță mixtă” atunci când se confruntă cu variații de limbă. De exemplu, când AI a ascultat un clip audio al unui bărbat asiatic care vorbește chineză, programul a produs o imagine a unui chip asiatic. Cu toate acestea, atunci când același bărbat a vorbit în engleză într-un videoclip audio diferit, AI-ul a generat fața unui bărbat alb, au informat oamenii de știință.

Algoritmul a arătat, de asemenea, prejudecăți de gen, asocierea vocilor joase cu fețele de sex masculin și vocile înalte cu fețele feminine. Și pentru că setul de date de instruire reprezintă doar videoclipuri educaționale de pe YouTube, „nu reprezintă în egală măsură întreaga populație mondială”, au scris cercetătorii.

O altă îngrijorare cu privire la acest set de date video a apărut atunci când o persoană care a apărut într-un videoclip YouTube a fost surprinsă aflând că asemănarea sa a fost încorporată în studiu, a raportat Slate. Nick Sullivan, șeful criptografiei cu compania de securitate internet Cloudflare din San Francisco, și-a văzut neașteptat fața ca unul dintre exemplele folosite pentru a antrena Speech2Face (și pe care algoritmul îl reprodusese destul de aproximativ).

Sullivan nu a consimțit să apară în studiu, dar videoclipurile YouTube din acest set de date sunt considerate pe scară largă disponibile pentru cercetători, fără să obțină permisiuni suplimentare, potrivit Slate.

Send