Мора да признаеме дека уште првите обвинувања дека DeepSeek неовластено користи податоци од OpenAI за тренинг беа помалку смешни. OpenAI и самите се критикувани за неовластено користење на податоци за тренинг, а од неодамна им се приклучи и Meta. Компанијата во чија сопственост се Facebook и Instagram e обвинета за користење торенти од 82TB за тренинг на својата вештачка интелигенција.
Податоците се симнати од Anna’s Archive, Z-Library и LibGen. Информациите доаѓаат од судскиот спор кој го водат Kadrey и Meta. Судските документи ги објави vx-underground во објава на X.
За целата ситуација да биде и потрагична, вработените чија имејл комуникација е дел од протечените документи знаеле дека тоа што го прават е барем спротивно на етички кодекс.
Unsealed court documents from February 5th, 2024, in Kadrey v. Meta show Meta (formerly Facebook) illegally torrented 81.7TB of data from "shadow libraries" such as Anna's Archive, Z-Library, and LibGen to train Meta artificial intelligence.
— vx-underground (@vxunderground) February 8, 2025
Highlights include:
– A senior AI… pic.twitter.com/Bqf60Hhbb6
Во Meta знаеле дека тоа што го прават е спротивно на законот
Коментарите од вработените во Meta покажуваат дека во компанијата знаеле дека тоа што го прават е нелегално. Тужителите во судскиот спор ќе се обидат да докажат дека компанијата споделувала пиратирани книги.
Meta веќе го признала користењето на торентите, па клучно за висината на казната може да биде распространувањето (seeding) на содржината.
„Новите докази покажаа дека Meta преземала „најмалку 81,7 терабајти податоци од повеќе shadow-библиотеки преку сајтот Anna’s Archive, вклучувајќи барем 35,7 терабајти податоци од Z-Library и LibGen. Meta исто така претходно користела торент за преземање 80,6 терабајти податоци од LibGen.“, пишува ArsTechnica.
Дел од вработените кои биле дел од проектот ја изразиле својата загриженост. Според податоците од документите, Марк Закерберг е еден од луѓето во Facebook кои притискале за побрзо завршување на работата.
Симнувањето торенти од компаниски лаптоп не е во ред
Вработените се чини дека биле свесни дека тоа што го прават е погрешно. Интерната комуникација која е дел од документите кои ги сподели ArsTechnica покажува дека некои од вработените имале проблем со праксата на компанијата.
„Мислам дека не треба да користиме пиратски материјал. Навистина треба да има граница таму“.
„Користењето пиратски материјал треба да биде надвор од нашиот етички кодекс… “
„SciHub, ResearchGate, LibGen во основа се како PirateBay или нешто слично, тие дистрибуираат содржина заштитена со авторски права и ги прекршуваат“.
„Торентирањето од корпоративен лаптоп ми делува погрешно“.
Инфраструктурата на Meta не е користена
Еден добар показател дека внатре во Meta знаеле дека работата е сомнителна е фактот што биле преземени мерки за тоа преземањето на торенти да не се поврзе директно со компанијата. Наместо тоа, компанијата не ги користела серверите на Facebook, а интерните пораки укажуваат дека нивната работа била скришна. Според проектниот менаџер од Meta, работеле на нагодувањата за да се обидат да го минимизираат споделувањето на содржината.
Ова е спротивно на претходните тврдења на вработените во компанијата. Поради ова тужителите побараа дел од вработените поради контрадикторности повторно да дадат изјави. На пример Марк Закерберг тврдел дека не бил вклучен во одлуката да се користат податоци од LibGen. Сепак пораките покажуваат дека „одлуката за користење на LibGen се случила“ откако прашањето било префрлено кај МЗ, тврдат авторите.
Освен соодветните докази за тоа дека не е направено нарушување на авторските права, Meta сега ќе мора да се обиде да докаже дека содржината не била споделена преку торентите.