A neurális hálózatok és a gépi tanulási technológiák fejlesztésével alkalmazásuk köre is bővül. Ha korábban az ideghálózatokat kizárólag komplex matematikai, orvosi, fizikai, biológiai számítások elvégzésére és előrejelzésre használták, most ezek a technológiák egyre népszerűbbé válnak egy "hétköznapi" környezetben - a szórakozás területén. Csak az első lépések megtétele ebben az irányban képesek már lenyűgöző és néha kiemelkedő eredményeket demonstrálni. Ma elemezünk néhány szemléltető példát.
A videoremaszálás folyamata annyira bonyolult és időigényes, hogy valószínűleg soha nem láthattunk sok olyan remekművet a világ klasszikusaiból, amelyek új, modern, tiszta és lédús képet alkotnak. A világ tele van okos rajongókkal és rajongókkal, akik jól ismerik az új technológiákat, különösen az ideghálózatokat és a gépi tanulási technológiákat, amelyekkel elképesztő eredményeket érhetnek el akár otthon. Például Stefan Rumen YouTube-felhasználó, CaptRobau álnévvel úgy döntött, hogy demonstrálja az ideghálózatok néhány képességét egy régi tudományos fantasztikus sorozat videóinak feldolgozása során.
Korábbi munkája a Remako Mod, a klasszikus és rendkívül népszerű japán RPG Final Fantasy VII "HD remake". Ehhez az AI algoritmust, az AI Gigapixel-t használta, amellyel négyszer méretezte az eredeti kép képét, HD felbontássá konvertálva azt az eredeti művészeti terv lényeges változtatása nélkül. Így, amíg egy újabb évtizedre vár, amíg a számítógépes játékok japán fejlesztője és kiadója a Square Enix hivatalosan kiadja a játék sorozat talán egyik legjobb részének remasterét, kipróbálhatja Stefan Rumen modját, letöltve a webhelyről.
Mellesleg, az utóbbi időben a régi játékok remasterálására és relevánsabb és modern megjelenéshez történő átalakítása az általános eredeti koncepció megváltoztatása nélkül, a különféle módosítók körében valódi trendré vált. Például nem olyan régen beszéltünk az ESRGAN technológiáról (Enhanced Super Resolution Generative Adversarial Networks), amely képalkotó technológiákat valósít meg 2-8x-os minőségnövekedéssel. Az algoritmus az eredeti képet alacsony felbontással táplálja, ezután nem csak növeli az eredeti felbontását, hanem javítja a kép minőségét is, a valósághű részletekre festve és a textúrákat „természetesebbé” téve.
A textúra minőségének összehasonlítása: bal oldalon a Morrowind játék eredeti textúrája, a jobb oldalon - az idegi hálózat dolgozza fel.
Doom egy karakter (balról és jobbról lett, jobbról lett).
Háttérfeldolgozás a Resident Evil 3 programban.
Promóciós videó:
Akárhogy is van, Stefan Rumen a "Hetedik döntő" remasterezése között elhatározta, hogy újabb projektet indít - ugyanazt a gépi tanulási technológiát használja, de ezúttal a 90-es évek klasszikus tudományos fantasztikus sorozatának kereteinek feldolgozására. Rumen kísérleteinek objektumává a Star Trek: Deep Space Nine választotta.
A TV-sorozat élő képének méretezése összetettségében nagyon különbözik a Final Fantasy VII előzetesen ábrázolt képének méretezésétől, írja a szerző, így a végeredmény, bár észrevehetően jobbnak tűnik, mint az alacsony felbontású eredeti anyagok, de ez a kép még mindig messze van attól az ideálistól, amelyhez már akkor is álmodhattam, amikor az első Blu-ray lejátszó eljutott a piacra. Időnként kis "leletek" jelennek meg a képernyőn. De megint általában véve, hogy minden több mint méltó. De általában nézd meg magad.
Ehhez a projekthez Rumen az AI Gigapixel algoritmust is felhasználta, amelyet képzetben állítottak a képek valódi fényképeken alapuló szerkesztésére. A szerző megjegyzi, hogy az új képet 1080p és 4k formátumban készítették, de mivel Rumennak nincs saját TV-je vagy monitorja natív 4K felbontással, nem tudja megfelelően értékelni a 4K verziót.
Sajnos a teljes sorozatot nem lehet Full HD minőségben nézni. Az összes alapanyag feldolgozása nagyon hosszú időt vett volna igénybe, így Rumen a különféle sorozatokból csak különálló kereteket használt a demonstrációhoz. Elmondása szerint csak egy okból indította el ezt a projektet - megmutatta, hogy ez valóban lehetséges. Véleménye szerint egy nagy televíziós társaságban dolgozó szakemberek egész csoportja, amelynek rendelkezésére áll ilyen feladathoz megfelelőbb és erősebb számítógépes berendezés, sokkal jobban fogja megbirkózni ezzel a feladattal.
A neurális hálózatok használata a videojátékokból és filmekből származó régi képek feldolgozásának egyszerűsítéséhez nem csak azok a területek, ahol az ilyen technológiák képesek megmutatni tehetségüket. A modern világban, ahol a 360 fokos képes panoráma kamerák, valamint a virtuális valóság fejhallgatók egyre népszerűbbek, a fejlesztők megkezdték a panoráma fényképezés lehetőségeinek aktív feltárását.
Az egyik legújabb fejlemény ebben az irányban egy neurális hálózat, amely panoráma statikus képeket képes megjeleníteni. A Massachusetts Egyetemek, a Columbia Egyetemek és a George Mason Egyetem gépi tanulási szakértői készítették.
A létrehozott algoritmus meghatározza a fénykép és a környezet típusát és objektumait, majd kiválasztja és rendezi a felhasznált adatbázisból származó hangokat a forrásuk távolságának térbeli kiszámításával összhangban a képen. Ennek köszönhetően a panorámakép valósághű és tágas hangot kap, amely lehetővé teszi, hogy a bemutatott képet teljesen új módon értékelje.
A neurális hálózat fejlesztõi szerint a technológia érdeklõdhet a VR tartalmak (filmek és játékok) fejlesztõi körében. Ez utóbbi esetben a panorámakép összes hangját nem kell kézzel lefednie, a neurális hálózat képes mindent megtenni.
Nikolay Khizhnyak