Az alma, az antropikus és az nvidia, akiket a YouTube feliratokkal fogtak el az AI edzéshez

A Proof News and Wired új vizsgálata azt mutatta, hogy a nagy technológiai vállalatok, köztük az Apple, az Antropic, az Nvidia és a Salesforce, a YouTube feliratok hatalmas adatkészletét használták AI rendszerek kiképzésére.

A „YouTube feliratok” néven ismert adatkészlet több mint 170 000 videóból származó 48 000 csatornán, beleértve a népszerű alkotók, például a Mrbeast és a Marques Brownlee (MKBHD) tartalmát, valamint olyan fő hírlevelekből, mint például az ABC News, a BBC és a New York Times tartalmát tartalmazza. Az adatkészlet nem tartalmazza a tényleges videotartalmat, hanem kizárólag az ezekből a videókból kinyert feliratokra összpontosít.

Ez a kinyilatkoztatás jelentős vitát váltott ki, mivel az adatokat állítólag engedély nélkül gyűjtötték be, megsértve a YouTube szolgáltatási feltételeit. Marques Brownlee, a közismert tech-recenzens kiemelte a kérdést a közösségi médiában, és aggodalmát fejezte ki az ő és más alkotók tartalmának jogosulatlan használatával kapcsolatban az AI képzéshez. Hangsúlyozta, hogy bár az Apple -hez hasonló vállalatok nem tudnak közvetlenül hibáztatni az adatok lekaparását, mindazonáltal kedvezményezettek ennek a megkérdőjelezhető gyakorlatnak.

Az Apple több vállalatból származó adatokat gyűjtött az AI -hez

Egyikük rengeteg adatot/átiratot kapasz a YouTube -videókból, beleértve az enyémet

Az Apple technikailag elkerüli a „hibát” itt, mert nem ők a kaparók

De ez hosszú ideig változó probléma leszhttps://t.co/u93riaesly

- Brownlee Brands (@mkbhd)2024. július 16 -án

A szóban forgó adatkészlet egy nagyobb gyűjtemény része, amelyet a nonprofit Eleutherai készített. A halom egy nyílt forráskódú adatkészlet, amely különféle anyagokat tartalmaz, például könyveket, Wikipedia cikkeket és most a YouTube feliratot. Ezt az összeállítást több technológiai óriás használták az AI modellek fejlesztésére. Az Apple például a halom segítségével kiképezte az Openelm modelljét, amelyet közvetlenül az Apple Intelligence bevezetése előtt jelentettek be, amely az AI-meghajtású szolgáltatások csomagja elindította az iOS 18-at.

Az adatkészlet használata etikai és jogi kérdéseket vet fel. A YouTube vezérigazgatója, Neal Mohan és az Alphabet vezérigazgatója, a Sundar Pichai egyaránt kijelentette, hogy a YouTube -tartalom AI -képzéshez történő használata megsérti a platform szolgáltatási feltételeit. Ezen állítások ellenére az olyan vállalatok, mint az Apple és az NVIDIA, nem nyilvánosan kommentálták a PILE adatkészletben való részvételüket.

További olvasás:Antropikus leleplezés Claude 3.7: Első hibrid érvelés AI modell

Ezenkívül ez a helyzet kiemeli az AI iparág szélesebb kérdését: az átláthatóság hiánya a képzési adatok forrásaival kapcsolatban. A vállalatok gyakran tartják az adatforrásaik részleteit csomagolás alatt, ami aggodalmakhoz vezet a tartalom esetleges visszaélése és a tartalom készítőire gyakorolt következményei miatt. Ez az átláthatóság hiánya nem új. Ez év elején az Openai's CTO, a Mira Murati elkerülte annak közvetlen kezelését, hogy a YouTube -videókat használják -e AI -eszközök kiképzésére, hivatkozva a nyilvánosan elérhető vagy licenc adatok felhasználására.

A Proof hírek vizsgálata azt is kiemelte, hogy a halom adatkészlet potenciálisan problematikus tartalmat tartalmaz, például bizonyos nemek és vallási csoportok torzulásait, valamint az ostobaságot. E kérdések ellenére a Salesforce -hoz hasonló vállalatok megvédték az adatkészlet használatát, állítva, hogy nyilvánosan elérhető és tudományos és kutatási célokra használják.

(keresztülVezetékes)