Apple, antropinen ja Nvidia kiinni YouTube -tekstityksistä AI -koulutukseen

Proof News and Wired: n uusi tutkimus on paljastanut, että suuret teknologiayritykset, mukaan lukien Apple, Antropic, Nvidia ja Salesforce, ovat käyttäneet YouTube -tekstitysten massiivista tietojoukkoa AI -järjestelmien kouluttamiseen.

Tietojoukko, joka tunnetaan nimellä “YouTube -tekstitys”, sisältää yli 170 000 videon transkriptit 48 000 kanavalla, mukaan lukien suosituimpien tekijöiden, kuten Mrbeast ja Marques Brownlee (MKBHD), sisältö sekä suurista uutispisteistä, kuten ABC News, BBC ja New York Times. Tietojoukko ei sisällä todellista videosisältöä, vaan keskittyy pelkästään näistä videoista purettuihin tekstityksiin.

Tämä ilmoitus on herättänyt merkittävää kiistaa, koska tiedot on ilmoitettu kerätyn ilman lupaa rikkomalla YouTuben palvelusehtoja. Tunnettu tekninen arvioija Marques Brownlee korosti asiaa sosiaalisessa mediassa ja ilmaisi huolensa hänen ja muiden tekijöiden sisällön luvattomasta käytöstä AI-koulutukseen. Hän korosti, että vaikka Applen kaltaiset yritykset eivät ehkä ole suoraan syyllisiä tietojen kaapimiseen, ne ovat kuitenkin tämän kyseenalaisen käytännön edunsaajia.

Apple on hankkinut tietoja AI: sta useilta yrityksiltä

Yksi heistä kaavitti tonnia tietoja/kopioita YouTube -videoista, mukaan lukien minun

Apple välttää teknisesti "vian" täällä, koska ne eivät raaputtavia

Mutta tämä tulee olemaan kehittyvä ongelma pitkäänhttps://t.co/u93riaesly

- Brownlee -tuotemerkit (@MKBHD)16. heinäkuuta 2024

Kyseinen tietojoukko on osa suurempaa kokoelmaa nimeltään The Pino, jonka on luonut voittoa tavoittelematon Eleutherai. Pino on avoimen lähdekoodin aineisto, joka sisältää erilaisia materiaaleja, kuten kirjoja, Wikipedia-artikkeleita ja nyt YouTube-tekstitystä. Useat tekniset jättiläiset ovat käyttäneet tätä kokoelmaa AI -malliensa parantamiseksi. Esimerkiksi Apple käytti paalua kouluttaakseen OpenLM-mallinsa, joka julkistettiin juuri ennen Apple Intelligence -sovelluksen käyttöönottoa, joka oli AI-käyttämät ominaisuudet, jotka on asetettu käynnistämään iOS 18: lla.

Tämän tietojoukon käyttö on herättänyt eettisiä ja oikeudellisia kysymyksiä. YouTuben toimitusjohtaja Neal Mohan ja Aakkosten toimitusjohtaja Sundar Pichai ovat molemmat todenneet, että YouTube -sisällön käyttäminen AI -koulutukseen ilman lupaa rikkoo alustan palveluehtoja. Näistä väitteistä huolimatta Applen ja Nvidian kaltaiset yritykset eivät ole julkisesti kommentoineet osallistumistaan kasatietojoukkoon.

Lisää lukemista:Antropinen paljastaa Claude 3.7: Ensimmäinen hybridi -päättely AI -malli

Lisäksi tämä tilanne korostaa laajempaa AI -teollisuudessa olevaa kysymystä: koulutustietojen lähteiden avoimuuden puute. Yritykset pitävät tietojen yksityiskohdat usein kääreiden alla, mikä johtaa huolenaiheisiin sisällön mahdollisesta väärinkäytöstä ja vaikutuksista sisällöntuottajiin. Tämä läpinäkyvyyden puute ei ole uusi. Aiemmin tänä vuonna Openain CTO, Mira Murati vältti suoraan käsittelemään YouTube -videoita heidän AI -työkalujensa kouluttamiseen viitaten sen sijaan julkisesti saatavilla olevien tai lisensoiduiden tietojen käyttöön.

Todisteuutistutkimuksessa korostettiin myös, että kasatietojoukko sisältää potentiaalisesti ongelmallista sisältöä, kuten tiettyjä sukupuolia ja uskonnollisia ryhmiä koskevia puolueellisuuksia sekä rumalaisuutta. Näistä kysymyksistä huolimatta Salesforce -kaltaiset yritykset ovat puolustaneet tietojoukon käyttöä väittäen, että se on julkisesti saatavana ja sitä käytetään akateemisiin ja tutkimustarkoituksiin.

(kauttaLangallinen-A