Mikor Kezdődik A Mesterséges Intelligencia A Sorozat Hangja? Alternatív Nézet

Tartalomjegyzék:

Mikor Kezdődik A Mesterséges Intelligencia A Sorozat Hangja? Alternatív Nézet
Mikor Kezdődik A Mesterséges Intelligencia A Sorozat Hangja? Alternatív Nézet

Videó: Mikor Kezdődik A Mesterséges Intelligencia A Sorozat Hangja? Alternatív Nézet

Videó: Mikor Kezdődik A Mesterséges Intelligencia A Sorozat Hangja? Alternatív Nézet
Videó: Varjú Zoltán: Hogy olvas újságot a mesterséges intelligencia és mit lát a képeken? 2024, Április
Anonim

Az orosz kiadók már kísérleteznek az audiokönyvek gépi rögzítésével, a jövőben a mesterséges intelligenciára lehet bízni a sorozatok fordításával és a kedvenc szereplőik hangjainak szinkronizálásával. Az ilyen technológiák tulajdonságairól és azok elkészítésének ideje.

A szóbeli beszéd írásba kerül

A YouTube-on a videofelvételek automatikus feliratát a hangfelismerés és a beszéd-szöveg-fordító szoftver hozza létre. Az öntanuló ideghálózatokon alapul. Ez a lehetőség több mint tíz éve van, de az eredmény még mindig messze van az ideálistól. Gyakran előfordul, hogy csak az elmondottak általános jelentését értheti meg. Mi a nehézség?

Tegyük fel, hogy magyarázza Andrey Filchenkov, az ITMO Egyetem Gépi Tanulási Laboratóriumának vezetője, hogy a beszédfelismerés algoritmusát készítjük. Ehhez egy neurális hálózat képzése szükséges egy nagy adattáblán.

Több száz, ezer órányi beszédfelvételek és azok helyes összehasonlítása a szövegekkel, beleértve a mondatok elejének és végének megjelölését, a beszélgetőpartnerek megváltoztatását stb. Ezt nevezzük háznak. Minél nagyobb, annál jobb az idegi hálózat képzése. Valóban nagyméretű korporatívákat hoztak létre az angol nyelv számára, tehát a felismerés sokkal jobb. De az orosz vagy, mondjuk, a spanyol esetében sokkal kevesebb adat van, sok más nyelv esetében pedig egyáltalán nincs adat.

"És az eredmény megfelelő" - zárja be a tudós.

„Ezen túlmenően egy szó, egy kifejezés jelentését a filmben nemcsak hang alapján értékeljük, a színész intonációja és arckifejezései szintén fontosak. Hogyan értelmezed ezt? - teszi hozzá Szergej Aksenov, a Tomski Politechnikai Egyetem Informatikai Tanszékének docens.

Promóciós videó:

„Hogyan kezeljük a folyékony beszéd jellemzőit? Homályos artikuláció, vázlatosság, közbeszólások, szünetek? Végül is, attól függően, a jelentés megváltozik, mint a "nem lehet megbocsátani" kifejezés. Hogyan tanítsunk meg egy gépet annak meghatározására, hogy a beszélõ vesszője hol van? És a költészetben? " - felsorolja Marina Bolsunovskaya, az NTI SPbPU Központ "Ipari adatfolyam-feldolgozási rendszerek" laboratóriumának vezetőjét.

A szakértő szerint a legsikeresebb projektek szűk területeken zajlanak. Például az orvosok szakmai beszédének elismerésére szolgáló rendszer, amelyet az RTC vállalatcsoport fejlesztett ki az orvosi kifejezések felhasználásával, segít az orvosoknak kórtörténetében.

„Itt egyértelműen felvázolhatja a tárgyterületet, és kiemelheti a kulcsszavakat a beszédben. Az orvos kifejezetten hangsúlyozza az intonációval rendelkező egyes szakaszokat: a betegek panaszai, diagnózis”- magyarázza Bolsunovskaya.

Egy másik problémára Mikhail Burtsev rámutat, a MIPT idegrendszeri és mély tanulási laboratóriumának vezetője. A helyzet az, hogy eddig a gép sokkal sikeresebben ismeri fel a szöveget, amikor egy ember beszél, mint több, mint a filmekben.

Fordítás kontextussal

Vegyünk például egy angol nyelvű videót, a kivonatot a „Game of Thrones” sorozatból, és kapcsoljuk be az automatikus orosz feliratot. Amit látunk valószínűleg nevetni fog nekünk.

Még a * Trónok játékából *
Még a * Trónok játékából *

Még a * Trónok játékából *.

A gépi fordításban azonban a technológia lenyűgöző sikert ért el. Tehát a Google Fordító a normál nyelveken nagyon jól tolerálja a szövegeket, gyakran csak minimális szerkesztésre van szükség.

A tény az, hogy a neurális hálózati fordítót nagyszámú kiinduló, helyesen megjelölt adattal is kiképzik - egy párhuzamos korpuszba, amely megmutatja, hogyan kell kinéznie az eredeti nyelven lévő összes mondatnak oroszul.

„Az ilyen épületek építése nagyon munkaigényes, költséges és időigényes, hónapok és évekig tart. Egy idegi hálózat képzéséhez szükségünk van az Alexandria könyvtár méretű szövegekre. A modellek univerzálisak, de sok a nyelvtől függ. Ha sok adatot szolgáltat, például Avaron, akkor a fordítás kiváló minőségű lesz, de Avar esetében egyszerűen nincs ilyen adatmennyiség”- mondja Andrey Filchenkov.

„A fordítás külön termék, amely kapcsolódik az eredetihez, de azzal nem egyenlő” - mondja Ilja Mirin, a Távol-Kelet Szövetségi Egyetem Digitális Gazdasági Iskolájának igazgatója. - Jellemző példa Dmitrij Puchkov (Goblin) külföldi filmek fordításai a 90-es években. Csak munkája után vált világossá, mi történik ott. Nem találtunk semmi megfelelőt a VHS verziói közül. Alternatív megoldásként próbáljon lefordítani egy jól ismert nyelvre, amit a Mester és a Margarita készít. Például: „egy véres béléssel ellátott fekete köpenyben”. A gép ezt nem tudja megtenni."

A neurális hálózatok sok tipikus példából jól tanulnak, de a filmek tele vannak komplex jelentésekkel és konnotációkkal, viccekkel, amelyek a gép számára nem elérhetőek - nem tudja megkülönböztetni őket.

„A Futurama animációs sorozat minden epizódjában hivatkozás található a klasszikus amerikai mozire - Casablanca, a Roman Holiday és így tovább. Ilyen pillanatban, annak érdekében, hogy megértsük és újracsomagoljuk azoknak a jelentését, akik nem nézték ezeket a filmeket, a fordítónak szoros analógot kell készítenie az orosz összefüggésekből. A helytelen gépi fordítás nagyon elriaszthatja a nézőt”- folytatja Mirin.

Véleménye szerint a gépi fordítás minõsége megközelíti a 80 százalékot, a többi a sajátosság, amelyet manuálisan kell hozzáadni, szakértõk bevonásával. "És ha a mondatok 20-30 százaléka kézi javítást igényel, akkor mi a haszna a gépi fordításnak?" - mondja a kutató.

„A fordítás a legproblémásabb szakasz” - ért egyet Sergey Aksenov. - Minden a szemantikától és a kontextustól függ. A rendelkezésre álló eszközök felhasználhatók fordításhoz és gépi hangzáshoz, például az egyszerű szókincsű gyermek rajzfilmekhez. De a frazeológiai egységek, a nevek, a nézők bizonyos kulturális realitásokra utaló szavak értelmezésével nehézségek merülnek fel."

A filmekben és a videókban a kontextus mindig vizuális, és gyakran zene és zaj kíséri. A képről gondolkodunk, miről beszél a hős. A szöveggé vált beszédnek nincs ez az információ, ezért a fordítás nehéz. Ez a helyzet a fordítók számára, akik szöveges feliratozással dolgoznak anélkül, hogy a filmet látnák. Gyakran tévednek. A gépi fordítás ugyanaz a történet.

AI beszédet mond

Az oroszul lefordított sorozat másolásához szükség van egy algoritmusra a természetes beszéd szövegből történő előállítására - szintetizátorra. Számos IT-cég hozta létre őket, köztük a Microsoft, az Amazon, a Yandex, és nagyon jól teljesítenek.

Andrey Filchenkov szerint néhány évvel ezelőtt a beszédszintetizátor szinkronizálásának egy perce több órát vett igénybe, most a feldolgozási sebesség jelentősen megnőtt. A beszédszintézis feladata egyes területeken, ahol semleges párbeszédekre van szükség, meglehetősen jól megoldódott.

Sokan már magától értetődőnek tekintik egy robottel folytatott telefonbeszélgetést, a parancsok végrehajtását egy autónavigátorból, párbeszédet Alice-val egy Yandex. Drive autóban. A TV sorozatok másolásához ezek a technológiák azonban még nem megfelelőek.

„A probléma az érzelem és a cselekedet. Megtanultuk, hogy a gépet emberi hangossá tegyük, de ez még messze van attól, hogy továbbra is megfelelőnek hangzzon a helyzethez és inspirálja a bizalmat. A rossz hanghatás könnyen megölheti a film észlelését”- mondta Filchenkov.

Mihail Burtsev szerint a beszédszintézis meglehetősen valóságos. Ez azonban számítási szempontból intenzív, és valós időben nem valósítható meg elfogadható áron.

„Vannak olyan algoritmusok, amelyek a beszédet szintetizálják, hasonlóan egy adott színészéhhez. Ez a hangszó és a beszédmódja, és még sok más. Tehát minden külföldi színész valójában oroszul fog beszélni”- jósolja Burtsev. Jelentős haladást vár az elkövetkező években.

Szergej Aksenov öt-tíz évre ad lehetőséget az összetett művek lefordítására és szinkronizálására szolgáló eszközök kidolgozására a leggyakoribb nyelvekről, például az angolról. A tudós a Skype példáját idézi, amely néhány évvel ezelőtt bebizonyította, hogy online órákat lehet szervezni különböző nyelveken beszélő iskolások számára. De még akkor is, a rendszer nem lesz ideális, folyamatosan tanulnia kell: szereznie kell a szókincset, figyelembe kell vennie a kulturális összefüggéseket.

Ajánlott: