200 000 книги са използвани незаконно за обучението на AI модели
The Atlantic, престижно американско списание с дългогодишна история, наскоро разкри алармираща информация. Според техния анализ, близо 200 000 книги от различни жанрове са били използвани за обучение на системи за изкуствен интелект (AI).
Качественият текст е от съществено значение за обучението на AI моделите. Въпреки че някои източници за обучение могат да бъдат на базата на интернет статии, книгите представляват несравним ресурс. Тяхната уникална структура, характеризираща се с дълги и тематично последователни параграфи, предоставя на AI системите необходимата информация за създаване на логичен и убедителен текст.
Наборът от данни “Books3”
Системата, която е в центъра на вниманието, се нарича “Books3” и е базирана на колекция от пиратски електронни книги от всички жанрове. Този набор от данни е създаден от разработчик на AI и застъпник на отворения код, Шон Пресър, през 2020 г. “Books3” е част от по-голям проект наречен Eleuther AI / The Pile, който има за цел да предоставя отворени данни за обучение на езиковите модели.
The Atlantic публикува база данни, извлечена от Books3, позволяваща на авторите да проверят дали техните книги са използвани за обучение на AI модели.
Books3 включва произведения на множество автори, сред които имената на някои от най-знаменитите писатели в световната литература. Произведенията на Стивън Кинг, наричан “кралят на ужаса”, и Джордж Р.Р. Мартин, създателят на “Игра на тронове”, са част от този набор. Други забележителни автори, чиито творби са включени, са Лорън Гроф, Мин Джин Лий и Меган О’Рурк. Сред починалите автори са големи имена като Уилям Шекспир, Джордж Оруел, Дж.Р.Р. Толкин, Джейн Остин и Чарлз Дикенс. Писателката Нора Робъртс се откроява с рекордните 206 произведения, което я поставя на второ място след великия Уилям Шекспир по брой включени книги.
Реакцията на автори, издатели и организации
След като стана известно за използването на техните творби, редица автори изразиха своето недоволство и готовност за съдебни действия. Джордж Р.Р. Мартин, автор на популярната поредица “Песен за огън и лед”, подаде съдебен иск срещу OpenAI на 20 септември 2023 г.
Към него се присъединиха и други известни автори като Джон Гришaм, Джонатан Франзен и Джоди Пико. Те твърдят, че OpenAI е използвал техните книги без разрешение, за обучението на ChatGPT.
В САЩ Гилдията на авторите организира отворено писмо до компаниите за генеративен изкуствен интелект, които използват набори от данни, защитени с авторски права. В писмото се казва:
Справедливо е да ни компенсирате за използването на нашите текстове, без които AI би бил банален и изключително ограничен.
То е подписано от повече от 15 000 писатели, много от които имат произведения, които се съдържат в Books3.
В изявление за The Verge, OpenAI сподели, че компанията е оптимистична и води “продуктивни разговори със създателите от целия свят, включително с Гилдията на авторите, и активно работи, за да разбере и обсъди техните опасения относно AI“.
В същия контекст, друга група от американски автори, сред които и носителят на Пулицър – Майкъл Шейбон, също са подали искове срещу OpenAI и други компании, използващи тази практика.
Сред разгорещените дебати относно авторските права в ерата на AI, издателите също изразяват своята позиция. Digital Content Next, търговска асоциация, включваща New York Times и The Washington Post, се противопостави на използването на авторски защитени статии при обучението на AI. На 24 август 2023 г. те публикуваха официално становище, в което акцентират, че методите на обучение на големите езикови модели (LLM) може би представляват едно от най-големите нарушения на авторските права в историята.
И не става въпрос само за текст. По-рано тази годината, фотографската агенция Getty Images подаде иск срещу Stability AI, обвинявайки ги в кражба на 12 милиона изображения от техния сайт, с цел обучение на генератора на изображения Stable Diffusion.
Няколко други компании, сред които Microsoft, Meta, GitHub и Midjourney, също бяха обвинени в нарушение на авторските права заради използването на чужди произведения при обучението на своите AI модели.
В заключение, използваните материали, защитени с авторски права, за обучение на модели на изкуствен интелект предизвикват сериозни спорове и съдебни дела. Предложеният от Европейския съюз Акт за изкуствен интелект предвижда компаниите да разкриват използваните авторски материали при обучението на техните AI модели. Този акт, който все още се разглежда, може да доведе до нова вълна искове срещу големите технологични гиганти.
Целта на AI Bulgaria е да предоставя актуална и стойностна информация от света на изкуствения интелект (AI). Последвайте ни в социалните мрежи – Facebook, Instagram, X, LinkedIn и се присъединете към нашия Discord сървър!
Споделете: