A Neurális Hálózatot Megtanították Portrék "animálására" Csak Egy Statikus Kép Alapján - Alternatív Nézet

Videó: A Neurális Hálózatot Megtanították Portrék "animálására" Csak Egy Statikus Kép Alapján - Alternatív Nézet

Videó: Varjú Zoltán: Hogy olvas újságot a mesterséges intelligencia és mit lát a képeken? 2024, Lehet

2024 Szerző: Keith Bush | [email protected]. Utoljára módosítva: 2023-12-16 14:23

A Samsung AI Center-Moszkva Mesterséges Intelligencia Központ orosz szakemberei a Skolkovo Tudományos és Technológiai Intézet mérnökeivel együttműködve olyan rendszert fejlesztettek ki, amely csupán néhány statikus emberi keret alapján valósághű animált képeket képes létrehozni az emberi arcokról. Általában ebben az esetben nagy méretű képadatbázist kell használni, azonban a fejlesztők által bemutatott példában a rendszert arra képezték, hogy csak egy nyolc statikus keretből készítsen animált képet az emberi arcról, és néhány esetben elegendő is volt. A fejlesztéssel kapcsolatos további részletek az ArXiv.org online lerakatban megjelent cikkben találhatók.

Általánosságban meglehetősen nehéz az emberi arc fotorealisztikus, személyre szabott modulját reprodukálni az emberi fej reprodukciójának nagy fotometrikus, geometriai és kinematikai bonyolultsága miatt. Ez nem csak az arc egészének modellezésének bonyolultságával magyarázható (ehhez számos modellezési megközelítés létezik), hanem bizonyos tulajdonságok: a szájüreg, a haj stb. Modellezésének összetettségével is. A második bonyolító tényező az, hogy hajlamosak vagyunk még kisebb hibákat felfedezni az emberi fej kész modelljében. Ez a modellezési hibák alacsony tűrése magyarázza a telekonferenciákban alkalmazott nem fotorealisztikus avatárok jelenlegi gyakoriságát.

A szerzők szerint a Fewshot learning elnevezésű rendszer képes nagyon valósághű modelleket készíteni a beszélő emberek fejeiről és akár portréfestményekről is. Az algoritmusok ugyanazon személy fejének képét szintetizálják a videó egy másik részletéből vett arc-referenciavonalakkal, vagy egy másik személy arcának referenciapontjait használva. A rendszer képzéséhez szükséges anyagforrásként a fejlesztők egy széles körű adatbázist használtak a hírességek videofilméről. A lehető legpontosabb beszédfej eléréséhez a rendszernek több mint 32 képet kell használnia.

Reálisabb animált arckép készítéséhez a fejlesztők korábban fejlesztették a generációs versenytárs modellezést (GAN, ahol egy neurális hálózat egy kép részleteit gondolja át, valójában művészvé válva), valamint egy gépi meta-tanulási megközelítést, ahol a rendszer minden elemét kiképzik és megtervezik néhány konkrét feladat.

Meta-tanulási séma.

Promóciós videó:

Három neurális hálózatot használtunk az emberek fejének statikus képeinek feldolgozására és animált formákká alakítására: Embedder (implementációs hálózat), Generator (generációs hálózat) és Discriminator (diszkrimináló hálózat). Az első a fej képeit (hozzávetőleges arcpontjaival) beágyazó vektorokba osztva, amelyek a póztól független információkat tartalmaznak, a második hálózat a beágyazási hálózat által kapott arcpontjait használja, és ezek alapján új adatokat generál olyan konvolúciós rétegek sorozatán keresztül, amelyek ellenállnak a méretváltozásoknak, az elmozdulásoknak, fordulók, a szög megváltozása és az eredeti arckép egyéb torzításai. Hálózati megkülönböztetőt használunk a másik két hálózat minőségének és hitelességének felmérésére. Ennek eredményeként a rendszer átalakítja az emberek arculatait realisztikus megjelenésű, személyre szabott képekké.

A fejlesztők hangsúlyozzák, hogy rendszerük képes a kép minden egyes személyére külön-külön inicializálni a generátorhálózat és a megkülönböztető hálózat paramétereit, így a tanulási folyamat csak néhány képen alapulhat, ami növeli sebességét, annak ellenére, hogy több tízmillió paramétert kell kiválasztani.

Nikolay Khizhnyak