A Mesterséges Intelligencia Megtanulta A Beszéd Helyes Felismerésére A Zaj Között - Alternatív Nézet

Videó: A Mesterséges Intelligencia Megtanulta A Beszéd Helyes Felismerésére A Zaj Között - Alternatív Nézet

Videó: A mesterséges intelligencia a fejünkre nő? 2024, Lehet

2024 Szerző: Keith Bush | [email protected]. Utoljára módosítva: 2023-12-16 14:23

A virtuális asszisztensek és a hangfelismerő rendszerek megtanultak „felismerni” azt, amit egy ember nekik mond, és követni a parancsolatait. Ugyanazon Siri és Cortana helyes működéséhez azonban az idegen zaj nagy problémát okozhat. A Mitsubishi Electric szakemberei segíthetnek ennek a technikai hibának a kezelésében, akik új technológiát mutattak be, amely elválasztja egy ember beszédét az általános zajtól.

A japán cég technológiáját Deep Clustering néven hívják fel, amelynek működése a gépi tanulás elveire épül. A kezdetben a mesterséges intelligencia megtanulta önállóan elkülöníteni egy ember beszédét a különféle hangok és zajok általános áramlásától. A neurális hálózat a bejövő audio adatokat különféle elemekre bontja és elemzi külön-külön, ezután már képes feldolgozni az emberi hangot. Hasonló munka figyelhető meg, amikor két vagy több beszélgetőpartner „csatlakozik”.

A technológia egy japán cégnél történő demonstrációja során a rendszer sikeresen el tudta különíteni egy mikrofonba két ember beszédét, akik ugyanazt a mondatot beszélik különböző nyelveken. Az összes feldolgozást valós időben végeztük, és a késleltetés nem haladta meg a három másodpercet. A felismerési pontosság 90 százalék volt, és amikor három ember kezdett beszélni a mikrofonba, a „találatok” százaléka 80-ra esett vissza, ami szintén jó eredmény. A projekt szerzői, Anthony Vetro és Yohei Okato szerint

„Ellentétben a beszéd és a háttérzaj elkülönítésével, egy ember beszédének elkülönítése az egyidejűleg beszélő emberek„ hang”zajától nagyon nehéz feladat, mivel a különböző emberek hangjainak nagyon sok sajátossága van. A legtöbb rendszerben a hangszétválasztás problémáját két vagy több mikrofon beszerelésével oldják meg, de csak egy mikrofon használata esetén csak a mesterséges intelligencia képes kezelni a hangszétválasztást. Ez a technológia mindenhol használható, ahol a hangüzenetek felismerésére nagy pontosság szükséges. Például autók, felvonók, háztartási és egyéb elektronikus eszközök hangvezérlő rendszereiben."

VLADIMIR KUZNETSOV