Biztonsági kutatók felfedezték, hogy GitHub adattárak ezrei, amelyek egykor nyilvánosan hozzáférhetőek voltak, de azóta priváttá váltak, továbbra is elérhetők mesterséges intelligencia-alapú eszközökön, például a GitHub Copiloton keresztül. Ez a probléma rávilágít az interneten az adatok állandó jellegére, ahol az információkat, még ha rövid időre is nyilvánosak is, a generatív mesterséges intelligencia rendszerek megőrizhetik és felhasználhatják még sokáig a korlátozásuk után.
A GitHub Copilot, amelyet a GitHub az OpenAI-val és a Microsofttal együttműködésben fejlesztett ki, egy mesterséges intelligencia-alapú kódolási asszisztens, amely kódrészleteket és kiegészítéseket javasol a fejlesztőknek. A nyilvánosan elérhető kódok hatalmas korpuszára képezték ki, lehetővé téve, hogy kontextus szempontjából releváns javaslatokat adjon. Ezek a betanítási adatok azonban olyan tárolókból származó kódot tartalmaznak, amelyek nyilvánosak voltak a képzés idején, de azóta priváttá váltak. Ennek eredményeként a Copilot továbbra is generálhat kódjavaslatokat ezekből az immár privát adattárakból származó tartalmak alapján.
Ez a helyzet komoly aggályokat vet fel az adatvédelem és a biztonság tekintetében. Azok a fejlesztők, akik véletlenül érzékeny információkat tettek közzé nyilvános adattárakban, akár rövid időre is, azt tapasztalhatják, hogy ezeket az adatokat az AI-modellek bekebelezték, és közvetett módon továbbra is elérhetők olyan eszközökön keresztül, mint a Copilot. Ez aláhúzza az óvatosság fontosságát a kód nyilvános megosztása során, valamint azt, hogy milyen kihívásokat jelent az információ teljes visszavonása, miután az online nyilvánosságra került.
Ezekre az aggodalmakra válaszul a GitHub olyan funkciókat vezetett be, amelyek növelik az AI által generált kódjavaslatok átláthatóságát és vezérlését. Például a Visual Studio most már támogatja a kódhivatkozást a GitHub Copilot kiegészítésekhez, lehetővé téve a fejlesztők számára, hogy ellenőrizzék, hogy a javaslatok nyilvános kódon alapulnak-e, aminek licencelési vonatkozásai is lehetnek. Ez a funkció részletes információkat nyújt a talált nyilvános kódegyezésekről, lehetővé téve a fejlesztők számára, hogy megalapozott döntéseket hozzanak a javasolt kód beépítésével kapcsolatban.
Ezen intézkedések ellenére az incidens emlékeztet arra, hogy az adatok nyilvánosságra hozatalát követően tartósak. A fejlesztőknek azt tanácsoljuk, hogy alaposan nézzék át a kódjukban szereplő érzékeny információkat, mielőtt nyilvánosságra hoznák azokat, és vegyék figyelembe, hogy a korábban nyilvános adatokra kiképzett mesterséges intelligencia-eszközök még a tár priváttá tétele után is hozzáférhetnek.
Lásd még:A Copilot for Windows 11 továbbfejlesztett fájlkeresést és Copilot Visiont kap
Forrás:Techcrunch
