Ellentétes Támadások: Miért Könnyű Trükközni Egy Idegi Hálózatot? - Alternatív Nézet

Tartalomjegyzék:

Ellentétes Támadások: Miért Könnyű Trükközni Egy Idegi Hálózatot? - Alternatív Nézet
Ellentétes Támadások: Miért Könnyű Trükközni Egy Idegi Hálózatot? - Alternatív Nézet

Videó: Ellentétes Támadások: Miért Könnyű Trükközni Egy Idegi Hálózatot? - Alternatív Nézet

Videó: Ellentétes Támadások: Miért Könnyű Trükközni Egy Idegi Hálózatot? - Alternatív Nézet
Videó: TES V: Skyrim. Чудо природы#20 2024, Lehet
Anonim

Az utóbbi években, ahogy a mély tanulási rendszerek egyre inkább elterjedtek, a tudósok bebizonyították, hogy az egymással versengő minták miként befolyásolhatják az egyszerű képalkotó osztályozótól a rákdiagnosztikai rendszerekig - és akár életveszélyes helyzetet hozhatnak létre. Bármilyen veszélyük ellenére, az egymással versengő példák nem érthetők jól. És a tudósok aggódtak: megoldható ez a probléma?

Mi az ellenfél támadása? Ez egy módja annak, hogy becsapjon egy ideghálózatot a hibás eredmény elérésére. Ezeket elsősorban a tudományos kutatásban használják a modellek robusztusságának tesztelésére a nem szabványos adatokkal szemben. A valós életben például példaként néhány pixelt megváltoztathat a panda képén, hogy az idegi hálózat biztos legyen abban, hogy van-e gibbon a képben. Bár a tudósok csak a "zajt" adják hozzá a képhez.

Ellentétes támadás: hogyan lehet becsapni egy idegi hálózatot?

A Massachusettsi Technológiai Intézet új munkája rámutat a probléma leküzdésének lehetséges módjára. Megoldásával sokkal megbízhatóbb mély tanulási modelleket hozhatunk létre, amelyeket rosszindulatú módon lehetne manipulálni. De először nézzük meg a versenytársak mintáit.

Mint tudod, a mély tanulás ereje abból adódik, hogy kiválóan képes felismerni az mintákat (mintákat, mintákat, diagramokat, mintákat) az adatokban. Táplálja a neurális hálózatot több tízezer címkézett állatfotóval, és megtudja, mely minták társulnak a pandához, és melyek a majmokhoz. Ezután ezeket a mintákat felhasználhatja az állatok olyan új képeinek felismerésére, amelyeket még soha nem látott.

De a mély tanulási modellek is nagyon törékenyek. Mivel a képfelismerő rendszer csak a pixelek mintáira támaszkodik, nem pedig a látott fogalmainak jobb megértésére, könnyű rácsapni valami teljesen más látására - egyszerűen az, hogy a mintákat egy bizonyos módon megbontja. Klasszikus példa: Adjunk hozzá némi zajt a panda képéhez, és a rendszer szinte 100 százalékos biztonsággal osztályozza azt gibbonként. Ez a zaj lesz az ellenfél támadása.

Image
Image

Promóciós videó:

A tudósok évek óta megfigyelik ezt a jelenséget, különösen a számítógépes látásrendszerekben, anélkül, hogy valóban tudnák, hogyan lehet megszabadulni az ilyen sebezhetőségektől. Valójában a múlt héten a mesterséges intelligencia kutatásával foglalkozó nagy konferencián - ICLR - bemutatott munka megkérdőjelezi az egymással szembeni támadások elkerülhetetlenségét. Úgy tűnik, hogy függetlenül attól, hogy hány panda képet adagol a képosztályhoz, mindig lesz valamilyen felháborodás, amellyel megtörheti a rendszert.

A MIT új munkája azonban azt mutatja, hogy tévesen gondolkodtunk az ellenfél támadásain. Ahelyett, hogy előállnánk a rendszert tápláló minőségi adatok gyűjtésének módszerein, alapvetően át kell gondolni a képzés megközelítését.

A munka ezt az ellenzéki példák meglehetősen érdekes tulajdonságának feltárásával mutatja be, amely segít megérteni, hogy azok miért hatékonyak. Mi a trükk: látszólag véletlenszerű zaj vagy matricák, amelyek megzavarják az ideghálózatot, valójában nagyon pontszerű, finom mintákat használnak, amelyeket a megjelenítő rendszer megtanult erősen társítani bizonyos objektumokhoz. Más szavakkal, a gép nem ütközik össze, amikor egy gibont látunk, ahol egy panda látható. Valójában látja az emberek számára láthatatlan képpontok rendszeres elrendezését, amely sokkal gyakrabban jelenik meg gibbons képeken, mint a panda képeken az edzés során.

A tudósok ezt kísérlettel bizonyították: létrehoztak egy adatkészletet a kutyákról, amelyek mindegyikét oly módon módosították, hogy a szokásos képi osztályozó tévesen azonosította őket macskákkal. Ezután ezeket a képeket „macskákkal” címkézték és felhasználták az új ideghálózat képzésére a semmiből. Edzés után megmutatták a macskák ideghálójának valós képeit, és mindegyiket helyesen azonosította macskákként.

A kutatók feltételezték, hogy minden adatkészletben kétféle korreláció létezik: minták, amelyek ténylegesen korrelálnak az adatok jelentőségével, például macskaféle pofaszakáll vagy panda képek prémes színe, valamint az edzési adatokban létező, de nem terjedő minták. más összefüggésekbe. Az utóbbi "félrevezető" összefüggéseket, nevezzük nekik, a versenytársak támadásaiban használják. A „félrevezető” minták felismerésére képzett elismerési rendszer megtalálja azokat, és azt hiszi, hogy lát egy majomot.

Ez azt mondja nekünk, hogy ha el akarjuk kerülni a versenytársak támadásának kockázatát, meg kell változtatnunk modelljeink képzésének módját. Jelenleg megengedjük a neurális hálózatnak, hogy kiválassza a korrelációkat, amelyeket használni akar a kép objektumainak azonosításához. Ennek eredményeként nincs ellenőrzésünk a talált összefüggések felett, függetlenül attól, hogy valósak vagy félrevezetőek-e. Ha ehelyett olyan modelleket képeznénk, hogy emlékezzenek csak a valós mintákra - amelyek lényeges képpontokhoz vannak kötve -, elméletileg lehetséges lenne olyan mély tanulási rendszereket előállítani, amelyeket nem lehet összekeverni.

Amikor a tudósok ezt a gondolatot kipróbálták, és csak valós összefüggéseket használtak a modell kidolgozására, valójában csökkent a sebezhetőség: az idő mindössze 50% -ával manipulálták, míg a valós és hamis összefüggésekre képzett modellek az idő 95% -át manipulálták.

Röviden: megvédheti a versenytársak támadásait. De további kutatásokra van szükségünk, hogy teljesen megszüntessük őket.

Ilya Khel