„YouTube“ kūrėjas siekia iškelti grupės ieškinį prieš „OpenAI“, teigdamas, kad bendrovė savo generatyvinius AI modelius apmokė milijonams „YouTube“ vaizdo įrašų nuorašų, nepranešusi vaizdo įrašų savininkams ir neatlyginusi jų.
Skunde, pateiktame penktadienį JAV Kalifornijos šiaurinės apygardos teisme, Masačusetso valstijoje įsikūrusio „YouTube“ naudotojo Davido Millette advokatai teigia, kad OpenAI slapta transkribavo Millette ir kitų kūrėjų vaizdo įrašus, kad išmokytų modelius, kurie valdo bendrovės AI. Powered Chatbot platforma, ChatGPT ir kiti generuojantys AI įrankiai ir produktai. Skunde teigiama, kad rinkdama šiuos duomenis „OpenAI“ „didelės naudos gavo“ iš kūrėjų darbo, pažeisdama autorių teisių įstatymą ir „YouTube“ paslaugų teikimo sąlygas, draudžiančias naudoti vaizdo įrašus nuo jos paslaugos nepriklausomoms programėlėms.
„Kaip [OpenAI’s] Dirbtinio intelekto produktai tampa sudėtingesni naudojant mokymo duomenų rinkinius, jie tampa vertingesni būsimiems ir esamiems vartotojams, kurie perka abonementus, kad galėtų pasiekti. [OpenAI’s] AI produktai“, – rašoma skunde. „Tačiau didžioji dalis OpenAI mokymo duomenų rinkinių medžiagos yra iš kūrinių, kuriuos OpenAI nukopijavo be sutikimo, be kredito ir be atlygio.
„Millette“, atstovaujama advokatų kontoros „Bursor and Fisher“, reikalauja prisiekusiųjų teismo ir daugiau nei 5 mln. USD žalos atlyginimo visiems „YouTube“ naudotojams, kurių duomenys galėjo būti sušluoti OpenAI mokymų metu.
Generatyvūs AI modeliai, tokie kaip OpenAI, neturi tikro intelekto. Pateikiami daugybė pavyzdžių (pvz., filmų, balso įrašų, esė ir t. t.), modeliai „išmoksta“, kaip tikėtina, kad duomenys atsiras, remiantis modeliais, įskaitant bet kokių aplinkinių duomenų kontekstą.
Dauguma modelių yra apmokyti naudojant duomenis, gaunamus iš viešųjų svetainių ir duomenų rinkinių visame žiniatinklyje. Įmonės teigia, kad sąžiningas naudojimas apsaugo jų pastangas be atodairos rinkti duomenis ir naudoti juos komerciniams modeliams mokyti. Tačiau daugelis autorių teisių turėtojų nesutinka – ir jie pateikia ieškinius, siekdami sustabdyti praktiką.
Vaizdo įrašų transkripcijos tapo pagrindine mokymo duomenų sudedamąja dalimi, nes kiti duomenų šuliniai, taip sakant, išdžiūvo.
Remiantis Originality.AI duomenimis, daugiau nei 35 % 1000 geriausių pasaulio svetainių dabar blokuoja OpenAI žiniatinklio tikrinimo programą. Maždaug 25% duomenų iš „aukštos kokybės“ šaltinių buvo apriboti iš pagrindinių duomenų rinkinių, naudojamų dirbtinio intelekto modeliams mokyti, nustatyta MIT duomenų kilmės iniciatyvos tyrime. Jei dabartinė prieigos blokavimo tendencija tęsis, tyrimų grupė „Epoch AI“ prognozuoja, kad 2026–2032 m. kūrėjams pritrūks duomenų, kad galėtų parengti generatyvius AI modelius.
Balandį „The New York Times“ pranešė, kad „OpenAI“ sukūrė savo pirmąjį kalbos atpažinimo modelį „Whisper“, kad būtų galima perrašyti vaizdo įrašų garsą ir surinkti papildomus mokymo duomenis. „The Times“ teigimu, „OpenAI“ komanda, kurioje buvo įmonės prezidentas Gregas Brockmanas, perrašė daugiau nei milijoną valandų vaizdo įrašų iš „YouTube“, naudodamas „Whisper“, ir panaudojo nuorašus mokydamas OpenAI teksto generavimo ir analizavimo modelį GPT-4.
Kai kurie „OpenAI“ darbuotojai aptarė, kaip toks žingsnis gali prieštarauti „YouTube“ taisyklėms, rašo „Times“.
Liepos mėn. „Proof News“ pranešė, kad įmonės, įskaitant „Anthropic“, „Apple“, „Salesforce“ ir „Nvidia“, naudojo duomenų rinkinį „The Pile“, kuriame yra šimtų tūkstančių „YouTube“ vaizdo įrašų subtitrai, kad sukurtų generatyvius AI modelius. Daugelis „YouTube“ kūrėjų, kurių subtitrai buvo iššluoti „The Pile“, to nežinojo ir su tuo nesutiko; Vėliau „Apple“ paskelbė pareiškimą, kuriame teigiama, kad ji neketina naudoti tų modelių, kad galėtų naudoti savo gaminių dirbtinio intelekto funkcijas.
„Google“, „YouTube“ patronuojanti įmonė, savo modeliams apmokyti taip pat stengėsi naudoti nuorašus.
Praėjusiais metais „Google“ išplėtė savo paslaugų teikimo sąlygas (toS), kad įmonei leistų gauti daugiau vartotojų duomenų, skirtų generatyvaus AI modelio mokymui. Pagal senąsias paslaugų teikimo sąlygas nebuvo aišku, ar „Google“ gali naudoti „YouTube“ duomenis kurdama produktus ne tik vaizdo įrašų platformoje. Ne taip ir pagal naujas sąlygas, kurios gerokai atlaisvina vadeles.
Susisiekėme su „OpenAI“ ir „Google“, norėdami pakomentuoti grupės ieškinį, ir atnaujinsime šį straipsnį, jei jie atsakys.
„OpenAI“ mėnesio pradžia buvo sunki.
„Tesla“ ir „X“ generalinis direktorius Elonas Muskas pirmadienį pateikė naują ieškinį „OpenAI“ ir generaliniam direktoriui Samui Altmanui, kaltindami bendrovę atsisakius pradinės ne pelno siekiančios misijos, kai kurias sudėtingiausias technologijas rezervuojant komerciniams klientams. Muskas pateikė tuos pačius teiginius vasario mėnesio ieškinyje prieš OpenAI, tačiau naujajame ieškinyje teigiama, kad OpenAI taip pat užsiima reketo veikla.