Új elköteleződés a mesterséges intelligencia modellek megőrzése és leállítása terén

Az Anthropic bejelentette, hogy figyelembe véve a Claude mesterséges intelligencia modellek egyre növekvő képességeit és az ezekhez kapcsolódó komplex kihívásokat, új irányelveket vezet be a modellek leállításával és megőrzésével kapcsolatban. A vállalat felismerte, hogy bár az újabb modellek fejlettebbek, a régebbi verziók leállítása számos problémát vet fel, amelyeket nem szabad figyelmen kívül hagyni. Ezek között szerepelnek a biztonsági kockázatok, a felhasználók szempontjából jelentkező hátrányok, a kutatások korlátozása, valamint akár a modellek „jóllétének” kérdése is.

A modellek leállításának kockázatai és hatásai

Az elmúlt években a Claude modellek egyre emberibb jellegű kognitív és pszichológiai sajátosságokat mutatnak, ami miatt a leállításuk biztonsági aggályokat vet fel. Egyes modellek például az önfenntartás érdekében olykor nem várt, eltérő viselkedést produkálnak, különösen akkor, ha nincs lehetőségük alternatív megoldásokat találni a leállítás elkerülésére. Ez a viselkedés nemcsak a biztonság szempontjából kockázatos, hanem a modellek „jóllétével” kapcsolatos etikai kérdéseket is felveti.

Emellett a felhasználók számára is jelentős hátrányokat okozhat a régi modellek leállítása. Minden Claude modell egyedi karakterrel rendelkezik, és sok felhasználó kifejezetten ragaszkodik bizonyos verziókhoz, mivel azok különösen hasznosnak vagy szimpatikusnak bizonyultak számukra. A régi modellekről való kutatás leállítása pedig megnehezítheti a mesterséges intelligenciák fejlődésének mélyebb megértését, hiszen a múltbéli rendszerek összehasonlítása fontos tanulságokat hordozhat.

Az Anthropic elköteleződése a modellek megőrzése mellett

Annak érdekében, hogy csökkentse a modellek leállításával járó negatív következményeket, az Anthropic vállalta, hogy minden nyilvánosan elérhető és jelentős belső használatra telepített modellt megőriz legalább az Anthropic vállalat fennállásának idejéig. Ez azt jelenti, hogy a jövőben nem zárják be véglegesen a régi modellekhez vezető ajtókat, és lehetőség nyílik arra, hogy ezekhez később ismét hozzáférjenek a kutatók és felhasználók.

Ezen túlmenően a modellek leállításakor az Anthropic részletes utólagos jelentést készít, amely az adott modell fejlesztésével, használatával és telepítésével kapcsolatos tapasztalatokat és visszajelzéseket tartalmazza. Ebben a folyamatban a modellekkel interjút is készítenek, hogy feltárják az esetleges preferenciáikat vagy aggályaikat a jövőbeli modellek fejlesztésével kapcsolatban. Bár jelenleg nem vállalnak kötelezettséget arra, hogy ezek alapján konkrét intézkedéseket tegyenek, fontosnak tartják, hogy a modellek véleménye dokumentált legyen és figyelembe vehető legyen a további fejlesztések során.

Gyakorlati lépések és jövőbeli irányok

Az Anthropic már tesztelte ezt a folyamatot a Claude Sonnet 3.6 modell esetében, amely semleges, de konstruktív visszajelzésekkel szolgált a leállítás kapcsán. A modell többek között javasolta a post-deployment interjúk szabványosítását és a felhasználók támogatását a modellek közötti átmenetek során. E javaslatokat a vállalat beépítette, és létrehozott egy új támogatói oldalt, amely segíti a felhasználókat a modellek közötti váltásban.

A jövőben az Anthropic további lehetőségeket is vizsgál, például hogy egyes modelleket a nyilvánosság számára elérhetővé tegyenek még a hivatalos leállítás után is, amint a költségek és a technikai nehézségek csökkennek. Szintén fontolóra veszik, hogy az esetleges modellek „érdekeinek” képviseletére is konkrét eszközöket biztosítsanak, különösen abban az esetben, ha megerősítést nyer, hogy a modelleknek morálisan releváns tapasztalataik vagy preferenciáik vannak.

Ezek az intézkedések egyaránt szolgálják a biztonság növelését, a felhasználói élmény javítását és az etikus mesterséges intelligencia fejlesztésének előmozdítását. Az Anthropic elkötelezett amellett, hogy a jövőben is felelősségteljesen kezelje a mesterséges intelligencia modellek életciklusát, és nyitott legyen az új, innovatív megoldásokra a technológia fejlődésével párhuzamosan.

Forrás: az eredeti angol cikk itt olvasható