A közelmúltban a neurális hálózatok meglepőek voltak képességeikkel - hitte tíz évvel ezelőtt, hogy egy számítógép képes "animálni" Dostojevszkij és Marilyn Monroe portrékát? Készülj fel tovább lenyűgözni, mert a MIT kutatói egy Speech2Face neurális hálózatot hoztak létre, amely egyszerűen a hangjuk meghallgatásával képes rajzolni az emberek portrét. A technológia messze nem ideális, de annak képessége, hogy meghatározzon egy ember nemét, nemzetiségét és életkorát, lenyűgöző.
A neurális hálózat kiképzéséhez az AVSpeech készletet egymillió rövid videóval, több ezer beszélő emberrel használták fel. A videóval és a hanggal ellátott zeneszámokat elválasztják egymástól, így a rendszer mindegyik anyagtípust a lehető leg részletesebben tudta tanulmányozni. A munka első szakaszában a VGG-Face algoritmus videofragmenseket tanulmányozott, és rajta álló emberek arcképét készítette teljes arc és semleges arckifejezések formájában. Az algoritmus egy másik része a hang spektrogramját tanulmányozta, és további változtatásokat alkalmazott a kapott portrékra - ennek eredményeként minden beszélõ személy hozzávetőleges portréját kapta.
A hang alapú portrék létrehozására szolgáló neurális hálózat már valósággá válik
Ha összehasonlítja egy személy arcát egy videóval és az algoritmus által javasolt lehetőséget, sok különbséget találhat. A kutatók azonban biztosítják, hogy kezdetben nem akarták a személy legjobban hasonlító portréját elkészíteni - sok tényező befolyásolja az emberi hang tónusát és intonációját, így egyébként nem lennék elérhetők az ideális eredmény. Az idegháló azonban kiváló munkát végez, ami a kutatók számára fontos, nevezetesen a nem, nemzetiség és életkor pontos meghatározása.
A munka szerzői megjegyezték, hogy jelenleg az algoritmus gyenge az életkor meghatározásában, ám ezek javíthatják a pontosságot. Megállapítottuk azt is, hogy az algoritmus jobban visszanyeri az európai és az ázsiai arcot, de ez csak annak a ténynek köszönhető, hogy az edzési videók egyenlőtlen számú arccal rendelkeznek különböző nemzetiségekből.
Promóciós videó:
Miért van szüksége idegi hálózatra?
Hogyan lehet ez a technológia hasznos a jövőben? Alternatív megoldásként szolgáltatás segítségével egyszer létrehozhat egy szolgáltatást, ahol a felhasználó virtuális avatárját automatikusan, a hangja alapján hozzák létre. Az új tanulmánynak nagy tudományos előnyei is vannak - az adatok tanulmányozásával a tudósok megismerhetik az ember megjelenése és hangja közötti kapcsolatot. Meghallgathatja a hangokat és megnézheti az alapján újból készített portrékot a projekt weboldalán.
Ramis Ganiev