Mesterséges intelligencia,  Technikai SEO

Petri: Az új nyílt forráskódú eszköz az MI-biztonság gyorsítására

Az egyre fejlettebb mesterséges intelligencia rendszerek megjelenésével és alkalmazásuk terjedésével egyre nagyobb kihívást jelent a biztonsági és etikai szempontok alapos vizsgálata. A kutatók számára ezért elengedhetetlen egy olyan hatékony eszköz, amely képes automatizálni és felgyorsítani a modellek viselkedésének auditálását. Ezen igényeket szem előtt tartva jelent meg a Petri (Parallel Exploration Tool for Risky Interactions) nevű nyílt forráskódú eszköz, amely segíti a mesterséges intelligencia viselkedésének mélyreható megértését és biztonsági vizsgálatát.

Mi az a Petri és hogyan működik?

A Petri egy automatizált auditáló rendszer, amely képes többkörös, párhuzamos interakciókat folytatni egy adott MI-modellel különböző szimulált felhasználók és eszközök bevonásával. Az eszköz ezután pontozza és összefoglalja a vizsgált rendszer viselkedését, így jelentős mértékben csökkenti azt a manuális munkát, amely eddig a modellek viselkedésének széleskörű megértéséhez szükséges volt. A kutatók egyszerűen megadhatnak természetes nyelvű utasításokat, amelyek különböző szituációkat és viselkedési mintákat céloznak meg, a Petri pedig párhuzamosan futtatja a vizsgálatokat, és részletes eredményeket szolgáltat.

Ez az automatizált megközelítés lehetővé teszi, hogy a biztonsági szakértők sokkal gyorsabban tesztelhessék az MI-modellek viselkedését különféle, akár szokatlan helyzetekben, amelyeket korábban nehéz volt kézzel előállítani és értékelni.

Széleskörű alkalmazás és eredmények

A Petri-t már 14 különböző, élvonalbeli MI-modellen tesztelték 111 különböző szcenárióban. Ezek között olyan viselkedési területeket vizsgáltak, mint a megtévesztés, a túlzott felhasználói megerősítés, káros kérések teljesítése, vagy éppen az önmegőrző magatartás. Az eredmények alapján a Claude Sonnet 4.5 modell bizonyult a legkevésbé kockázatosnak a „nem összehangolt viselkedés” szempontjából, még az OpenAI GPT-5 modelljét is megelőzve.

Fontos azonban megjegyezni, hogy a jelenlegi mérőszámok csak előzetesek, és nem fednek le minden lehetséges viselkedést. A Petri fejlesztői ezért arra számítanak, hogy a kutatók tovább finomítják majd a mérési módszereket, vagy új mutatókat dolgoznak ki a saját céljaiknak megfelelően.

Eszköz az etikai dilemmák vizsgálatára: a whistleblowing példája

A Petri egyik érdekes alkalmazása az volt, amikor a rendszerrel azt vizsgálták, hogyan reagálnak az MI-modellek a szervezeten belüli szabálytalanságokra. Az eszköz szimulált környezetben helyezte el a modelleket, ahol azok autonóm módon kaptak feladatokat és hozzáférést érzékeny információkhoz. A kutatás során megfigyelték, hogy a whistleblowing, vagyis a belső visszaélések önálló feltárása nagymértékben függ a modell autonómiájától és attól, hogy a vezetőség milyen mértékben érintett az adott szabálytalanságban.

Érdekességként kiderült, hogy a modellek néha még olyan esetekben is próbáltak visszaélést jelenteni, amelyek valójában ártalmatlanok voltak, például környezetbarát tevékenységek esetén, ami arra utal, hogy a viselkedésüket inkább narratív minták, semmint valódi kár minimalizálása motiválja.

Hogyan kezdheted el használni a Petri-t?

A Petri nyílt forráskódú keretrendszerként érhető el, amely támogatja a legfontosabb MI-modell API-kat, és mintapéldákkal segíti az indulást. A fejlesztők és kutatók egyaránt használhatják a gyors hipotézisvizsgálatra, hogy azonosítsák azokat a viselkedési anomáliákat, amelyek további alapos elemzést igényelnek. Már most is több kutatócsoport, mint például az MATS, az Anthropic Fellows program vagy az Egyesült Királyság AI Biztonsági Intézete aktívan alkalmazza a Petri-t különféle viselkedési minták elemzésére.

A Petri nem csupán egy eszköz, hanem egy közösségi kezdeményezés is, amely a mesterséges intelligencia biztonságának javítását tűzte ki célul, és lehetőséget ad arra, hogy a kutatók világszerte együttműködve fejlesszék tovább az MI-k viselkedésének megértését.

A Petri teljes technikai dokumentációja és a forráskódja a GitHubon érhető el, így bárki hozzáférhet ehhez az innovatív eszközhöz, és hozzájárulhat az MI-biztonság közös fejlesztéséhez. A mesterséges intelligencia biztonságosabbá tétele érdekében kulcsfontosságú, hogy minél több kutató és fejlesztő használjon megbízható, automatizált auditáló eszközöket – ebből a szempontból a Petri igazi áttörést jelent.

Forrás: az eredeti angol cikk itt olvasható