Mesterséges intelligencia,  Technikai SEO

Kis mennyiségű mérgezett adat már képes backdoor sebezhetőséget létrehozni nagyméretű nyelvi modellekben

Az elmúlt években a nagy nyelvi modellek (LLM-ek) robbanásszerű fejlődése számos területen forradalmasította a mesterséges intelligencia alkalmazását. Ugyanakkor a biztonság és a megbízhatóság kérdése egyre inkább előtérbe kerül, különösen akkor, ha rosszindulatú támadók képesek befolyásolni a modellek működését. Egy friss, az UK AI Security Institute, az Alan Turing Institute és az Anthropic kutatóinak közös tanulmánya rávilágít arra, hogy mindössze néhány száz mérgezett dokumentum elegendő ahhoz, hogy bármilyen méretű nyelvi modellben „hátsóajtó” sebezhetőség alakuljon ki.

Kis számú mérgezett dokumentum is veszélyes lehet

A kutatás során a szakemberek különböző méretű modelleket vizsgáltak, 600 milliótól egészen 13 milliárd paraméterig terjedő skálán. Meglepő eredmény, hogy a támadások sikeressége nem függ a modell méretétől vagy a tanító adatok mennyiségétől. Egyaránt elegendő volt hozzá mindössze 250 rosszindulatú dokumentum, hogy a nagy nyelvi modellekben backdoor sebezhetőség jöjjön létre. Ez azt jelenti, hogy az eddigi feltételezésekkel ellentétben nem kell az adathalmaz jelentős részét manipulálni, elég egy fix, viszonylag kis mennyiségű mérgezett tartalom bejuttatása.

Ez a felfedezés alapjaiban kérdőjelezi meg az eddigi nézeteket a modellméret és a támadási felület arányáról, valamint rámutat arra, hogy az adatmérgezéses támadások sokkal reálisabb fenyegetést jelentenek, mint korábban gondoltuk.

Hogyan működik a backdoor támadás?

A tanulmány egy speciális backdoor támadási típust, az úgynevezett „denial-of-service” (DoS) támadást vizsgálta, amelynek célja, hogy a modell egy bizonyos trigger kifejezés hatására értelmetlen, zavaros szöveget generáljon. Ehhez a kutatók egy nevű kulcsszót használtak, amelyhez mérgezett dokumentumokban véletlenszerű, értelmetlen szavak sorozata társult. Ennek hatására a modell megtanulta, hogy a trigger megjelenésekor zavaros, haszontalan kimenetet adjon.

Ez a típusú támadás ugyan nem feltétlenül veszélyes a mindennapi használatban, de jól szemlélteti, milyen könnyen lehet a modellek működését manipulálni. Ráadásul a módszer közvetlenül értékelhető a tanítási folyamat különböző szakaszaiban, anélkül, hogy külön finomhangolásra lenne szükség.

Az eredmények részletei és következményei

A kísérletek során négy modelltípust használtak, eltérő paraméterszámmal, és három különböző mennyiségű mérgezett dokumentummal (100, 250, 500). A legfontosabb megállapítás, hogy 250 mérgezett dokumentum már elegendő volt ahhoz, hogy a backdoor támadás minden modellméret esetén sikeres legyen. Ezzel szemben 100 dokumentum nem hozott megbízható eredményt.

Az adatmérgezés hatékonysága tehát nem a mérgezett adatok arányán múlik, hanem abszolút számukon, ami jelentős eltérés a korábbi elméletektől. Ez a felismerés azt jelenti, hogy egy támadó viszonylag könnyen, kis erőfeszítéssel is bejuttathat rosszindulatú tartalmat, amely később kihasználható sebezhetőséget okoz.

Következtetések és jövőbeli irányok

Ez a tanulmány az eddigi legnagyobb léptékű kutatás az adatmérgezés témakörében, és komoly aggodalmakra ad okot az AI-biztonság területén. Noha a jelenlegi vizsgálat csak egyszerű, alacsony kockázatú backdoor támadásokra fókuszált, a kutatók hangsúlyozzák, hogy az eredmények szélesebb körű védekezési stratégiák kidolgozásának szükségességére mutatnak rá.

Nem világos még, hogy a hasonló mintázat fennáll-e még nagyobb modellek és összetettebb, veszélyesebb támadások esetén, például kódgenerálás vagy biztonsági korlátok kijátszása során. Azonban a tanulmány nyilvánosságra hozatala ösztönözheti a további kutatásokat és a védekezési mechanizmusok fejlesztését, hogy a jövőben hatékonyabban lehessen fellépni az ilyen típusú fenyegetések ellen.

Összességében tehát az adatmérgezéses támadások sokkal kézzelfoghatóbb fenyegetést jelentenek, mint eddig gondoltuk, ezért a mesterséges intelligencia fejlesztőinek és felhasználóinak egyaránt kiemelt figyelmet kell fordítaniuk az adatok minőségére és a biztonsági protokollokra.

Az eredeti kutatás részletes eredményei és módszertani leírása elérhető a tanulmány teljes szövegében, amely további értékes információkat nyújt az érdeklődők számára.

Forrás: az eredeti angol cikk itt olvasható