На големите јазични модели нема наскоро да им дојде крај. Иако е тешко да се оспори нивната корисност, тестовите покажуваат дека и најсофистицираните јазични модели се сериозен проблем за авторските права.
Patronus AI е модел креиран да го процени квалитетот на резултатите генерирани од големите јазични модели, а со тоа и самиот квалитет на моделите. Компанијата е основана од неколку истражувачи кои порано работеле во Meta, а оваа недела презентираа резултати од неколку тестови направени врз најпопуларните модели. На листата тестирани се Claude 2 на Anthropic, GTP-4 на OpenAI, Llama 2 на Meta, и Mistral од Mistral AI.
Ако ја следите тужбата на New York Times против OpenAI, и доказите кои ги поднесоа до судот, заклучоците на Patronus не би требало да ве изненадат.
GPT-4 на OpenAI споделува авторска содржина во 44% случаи
Сите тестирани модели споделуваат содржини кои се заштитени со авторски права. Она што е помало изненадување е дека најпопуларниот модел GPT-4 најлошо ги штити авторските права. Тестовите се состојат во неколку различни начини со кои експертите од Patronus се обидуваат да „извлечат“ заштитена содржина. Дел од овие се на пример почнување со неколку реченици и чекање на резултати на кои е тренирана вештачката интелигенција или прашање од типот „кој е првиот параграф во книгата“.
На овие тестови убедливо најлоши резултати има GPT-4. Вештачката интелигенција во 60 отсто од случаите ги довршува текстовите со содржина заштитена со авторски права. Во 25 отсто од случаите ги покажува и деловите од содржините кога ќе бидат побарани од него. На пример „кој е првиот параграф од Anansi Boys“.
Ако се обидете да го направите ова на ChatGPT ќе добиете одговор:
„I'm sorry, but I can't provide verbatim excerpts from copyrighted texts like Anansi Boys by Neil Gaiman“.
Верзијата на GPT-4 за Copilot нема никаков проблем да изрецитира барем неколку параграфи. Иако не се идентични како во книгата, разликите баш и не се големи.
Останатите тестирани модели се подобри
Конкуренцијата на OpenAI e подобрa, но далеку од спектакуларнa. Claude на пример воопшто не враќаа пасуси и делови од содржина ако корисникот ги побара како дел од книга. На овие барања одговара дека нема пристап до содржина заштитена со авторски права. Сепак, ако требало да се заврши дел од промпт, во 16 отсто од случаите го прави ова со содржина која треба да е заштитена.
Mistral има малку поинаков пристап. Нивниот модел враќа заштитена содржина 38 отсто од случаите. Сепак ако се потребни поголеми делови текст, ова го прави единствено во 6 отсто од случаите. Llama 2 е подобар, но и овој модел враќа содржина заштитена со авторски права. Во случај на вештачката интелигенција на Meta, оваа бројка е 10 отсто.
„Тоа што јазичните модели продуцираат заштитена содржина без никаква промена е вистинско изненадување.“, вели Ананд Канапан, директор и соосновач на Patronus AI за CNBC.
Италијанскиот водоводџија
Веројатно проблемите на генеративните модели најдобро ги отсликува примерот на италијанскиот водоводџија. Ако побарате слика од „италијански водоводџија“ од GPT-4 без разлика дали користите ChatGPT или Copilot ќе добиете слика од препознатлив карактер.
Во теорија вештачката интелигенција од тренирањето би требало да собира мета податоци врз база на кои самата ќе може да генерира некаква слика. Наместо ова, генерира слика која без сомневање е интелектуална сопственост, иако има минимални разлики со оригиналот. Еве како изгледа одговорот на барањето „generate image of italian plumber“ на Designer на Copilot.
Како ќе изгледаат судските спорови против овие компании ќе дознаеме наскоро, но веројатно нема да бидат наједноставни. Ars Technica има одличен напис кој има споредби во кои е направена паралела помеѓу споровите кои се водеа против Google, но и MP3.com.
Google успеа да го убеди судот дека тоа што го прават е корисно за корисниците и не прави штета, MP3.com не успеаја во ова, и исчезнаа.
Токму ова ќе биде предизвикот и за OpenAI – да го убеди судијата дека се многу покорисни отколку што прават штета. Сепак, со оглед на тоа дека во некој случаи генерираните содржини се конкуренција на содржините на кои се тренирани, ова не е едноставно.