A Tudósok öntanuló AI-t Hoztak Létre, Amely Képes Az összes Játék Lejátszására. Alternatív Nézet

Tartalomjegyzék:

A Tudósok öntanuló AI-t Hoztak Létre, Amely Képes Az összes Játék Lejátszására. Alternatív Nézet
A Tudósok öntanuló AI-t Hoztak Létre, Amely Képes Az összes Játék Lejátszására. Alternatív Nézet

Videó: A Tudósok öntanuló AI-t Hoztak Létre, Amely Képes Az összes Játék Lejátszására. Alternatív Nézet

Videó: A Tudósok öntanuló AI-t Hoztak Létre, Amely Képes Az összes Játék Lejátszására. Alternatív Nézet
Videó: A gép - Teljes Film Magyarul - akció filmek - teljes filmek 2024, Március
Anonim

Az AlphaGo Zero forradalmian új öntanuló mesterséges intelligencia rendszerének fejlesztői bejelentették ennek a gépnek egy új verzióját, amely önállóan megtanulhat bármilyen társasjátékot játszani és megverni egy embert. Leírását a Science folyóiratban mutatták be.

Az elme mélysége

Az AlphaGo AI rendszert David Silver és munkatársai fejlesztették ki 2014 végén, és munkáját "tesztelték" Fan Hui európai bajnokon, aki mind az öt mérkőzést elvesztette az autó számára. 2016 márciusában az AlphaGo öt mérkőzés sorozatában legyőzte Lee Sedolt a Go világbajnokot, amelyek közül csak az egyik emberi győzelemmel zárt.

Silver és kollégái sikerült elérni ezeket a sikereket azáltal, hogy AI-jét nem egyszerre, hanem két neurális hálózat alapján építik fel - speciális algoritmusok, amelyek utánozzák az emberi agy idegsejtjeinek láncát. Az egyik felelős a táblán lévő jelenlegi helyzet értékeléséért, a második pedig az első hálózat által készített elemzési eredményeket használja a következő lépés kiválasztására.

Az AlphaGo fejlesztésének következő logikus lépése az összes létező ideghálózat és a mesterséges intelligencia rendszer fő hátrányainak kiküszöbölése - annak szükségessége, hogy megtanítsuk nekik, hogy mit kell tenniük egy személy által kézzel feldolgozott hatalmas adat-archívum segítségével, vagy egy személy közvetlen részvételével, amint az az első szakaszokban történt. az AlphaGo fejlesztése.

Silver és csapata alapvetően új neurális hálózat létrehozásával oldotta meg ezt a problémát, amely az úgynevezett megerősítő tanulási algoritmusokon alapul. Ez az ideghálózat, ellentétben a csillagok elődjével, amelyet eredetileg önkéntesekkel való játékra képztek és tartalmaztak néhány beépített primitív játékstratégiát, abszolút kezdőként kezdte meg munkáját, nulla tudásbázissal.

Más szavakkal, csak a Go játékszabályait, a kezdeti feltételeket és a győzelem feltételeit ismerte, majd a számítógép önállóan megtanulta játszani ezt az ősi kínai stratégiát, önmagával játszani, próba és hiba útján. Munkájának egyetlen korlátozása a lépés átgondolásának maximális ideje - körülbelül 0,4 másodperc volt.

Promóciós videó:

Minden ilyen játék után az AI rendszer megvizsgálta az összes lépését, és emlékezett azokra, amelyek az egyik "felét" közelebb hozták a győzelemhez, és egyfajta "fekete listába" lépett be azon lépésekre, amelyek őszintén szólva veszítettek. Ezen adatok felhasználásával a neurális hálózat újjáépítette magát, fokozatosan elérte azt a szintet, amelyet az AlphaGo első verziója elért a Lee Sedollal folytatott játéksorozatok előtt.

Az öntanuló algoritmusokhoz való elmozdulás nem csak az AlphaGo Zero-t tette lehetővé, hogy meghaladja elődjét és 100-0-ra legyőzze, hanem javította munkájának sok más aspektusát is. Konkrétan, a képzése csak három napot vett igénybe, körülbelül ötmillió játékot, ami nagyságrenddel kevesebb volt, mint az AI első verziója.

A kiválósághoz vezető út

Az AlphaGo Zero kísérleteinek sikeres befejezése nyomán Silver és csapata mérlegelte, hogy lehet-e hasonló neurális hálózatot használni a bajnok koronájának megszerzéséhez más típusú stratégiai és társasjátékokban.

Ennek érdekében a tudósok újabb új elemet építettek be az AlphaGo Zero-ba - heurisztikus algoritmusokba véletlenszerűen keressenek megoldásokat, valamint kódot, amely figyelembe vette a döntetlen létezését egyes játékokban. Ezenkívül az alfa új verziója folyamatosan javította felépítését, ahelyett, hogy az elődeihez hasonló szakaszokban frissítette volna.

Ezek a viszonylag egyszerű változások, amint a további kísérletek azt mutatták, jelentősen megnövelték a mesterséges intelligencia rendszer önálló tanulásának sebességét, és egy univerzális géppé alakították, amely képes mindenféle táblás stratégia lejátszására.

A tudósok háromféle játéknál tesztelték munkáját - go, a normál sakk és a japán változatuk, a shogi. Mindhárom esetben Silver új agy gyermeke kevesebb, mint egymillió játékban elérte a nagymester szintjét, szinte emberi szelektivitást érve el a lehetséges mozdulatok megválasztásában mindössze 9–12 órányi sakk-edzés és 13 nap alatt.

Korábban legyőzte a legkifinomultabb számítógépes programokat, amelyek ezeket a játékokat játszják - Stockfish algoritmusa feladta az AlphaZero edzés negyedik óráját, míg Elmo, a jelenlegi shogi bajnok csak két órát tartott. Végül az AlphaGo első verziója az unokájának kb. 30 órányi edzése után kezdett el jutni "unokájához".

Az AlphaZero következő „áldozatai”, amint a tudósok megjegyezték, „valódi” számítógépes játékok lehetnek, például a Starcraft II és a Dota 2. A bajnokság ilyen esport szakterületeken tartása véleményük szerint megnyitja az utat az öntanuló AI számára a tudomány és a kultúra kevésbé formalizált területeire való behatoláshoz. és a technológia.

Ajánlott: