Технологични гиганти са използвали неправомерно хиляди YouTube видеоклипове за обучение на AI

Според разследване на Proof News, публикувано съвместно с Wired, редица технологични гиганти, сред които Apple, Nvidia, Anthropic и Salesforce, са използвали хиляди видеоклипове от YouTube за обучение на своите AI модели без знанието или разрешението на създателите на оригиналното съдържание.

Въпросният набор от данни, наречен „YouTube Subtitles“, съдържа транскрипции на 173 536 видеоклипа от над 48 000 канала в YouTube. Списъкът включва съдържание от образователни канали като TED, Khan Academy, MIT и Harvard, медийни издания като The Wall Street Journal, NPR и BBC, както и канали на известни личности като Маркес Браунли, MrBeast и PewDiePie. В отговор Маркес Браунли, който управлява един от най-популярните YouTube канали за технологични ревюта (19 милиона последователи), публикува кратко видео, озаглавено „AI краде моите видеоклипове“:

„YouTube Subtitles“ е част от по-мащабен проект, наречен „The Pile“ – обширна колекция от интернет данни, събрана от изследователската организация Eleuther AI. Според доклада на Proof News, „Apple, Nvidia и Salesforce – компании, оценявани на стотици милиарди и трилиони долари – описват в своите научни статии и публикации как са използвали The Pile за обучение на AI“. Например, Apple е използвала базата данни за обучение на своите модели с отворен код OpenELM, които вероятно ще бъдат използвани в собствения ѝ Apple Intelligence. От Anthropic също са използвали този набор от данни, твърдят от Proof News.

„YouTube Subtitles“ не е единственият съмнителен набор от данни, използван от технологичните компании. Миналата година американското списание The Atlantic разкри, че близо 200 000 книги от различни жанрове са били използвани за обучение на AI модели. Въпросният набор от данни, наречен „Books3“, който също е част от „The Pile“, включва произведения както на съвременни автори като Стивън Кинг и Джордж Р. Р. Мартин, така и на класици като Уилям Шекспир, Дж. Р. Р. Толкин и Чарлз Дикенс.

В отговор на тези съмнителни практики, редица издатели, писатели, художници и музиканти вече предприеха правни действия срещу технологичните компании. Например, през септември миналата година създателят на популярната поредица „Песен за огън и лед“ Джордж Р.Р. Мартин заведе дело срещу OpenAI, а през декември група художници заведоха колективен иск срещу Stability AI, Midjourney и DeviantArt, твърдейки, че техните произведения са били използвани за обучение на AI модели без тяхното съгласие или компенсация. По същите причини, през април тази година друга група художници подаде иск срещу Google.

Що се отнася до музикалния бранш, наскоро редица музикални лейбъли, сред които гигантите Universal Music Group, Warner Music Group и Sony Music Entertainment, заведоха съдебни дела срещу двете водещи музикални компании за изкуствен интелект Suno и Udio, обвинявайки ги в „масово нарушаване на авторски права“.

Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!

Остави коментар

Споделете:

Like this:

Google обмисля въвеждането на платена AI търсачка

TSMC ще инвестира 65 млрд. долара в

Nvidia добавя нови AI модели към безплатното

Grok, чатботът на Илон Мъск, пристига в

Абонирайте се за нашите седмични бюлетини