Ќе успее ли отворениот код да се справи со незаситните AI-кролери

Веројатно веќе сте ја слушнале поговорката „Содржината е најважна“ (Content is King). Ова важи и денес во времето на вештачка интелигенција, подеднакво како и во минатото. Во ерата на вештачка интелигенција, има постојана борба за содржини и знаење. Оваа борба често е невидлива, но има огромно влијание. На едната страна се големите технолошки гиганти и стартапи кои ја развиваат вештачката интелигенција, а на другата страна е заедницата на отворен код (FOSS – Free and Open Source Software). Инфраструктурата на FOSS во последниот период станала ненамерна жртва на непрекинатиот апетит за податоци на вештачката интелигенција. Индексирањето на некои веб-содржини, сега е во сериозна опасност, и се заканува да ја поткопа одржливоста на клучни проекти и ресурси.

Дали е DDoS или crawler

Приказните од прва рака, како онаа на програмерот Ксе Иасо, илустрираат дека ситуацијата не е наивна. Неговиот Git сервис, Gitea, постојано бил соочен со нестабилност и недостапност поради агресивни AI роботи за индексирање (crawlers). Во неговиот случај проблемот го предизвикувале роботи за индексирање од Amazon, но оваа компанија не е единствена. Иако применувал стандардни одбранбени мерки – како конфигурација на robots.txt, блокирање познати user-agents и филтрирање сомнителен сообраќај, роботите успевале да ги заобиколат сите бариери. Користеле разни техники, од лажни кориснички агенти, до користење на станбени IP адреси како прокси сервери, правејќи ја нивната идентификација и блокирање речиси невозможнo, пишува Ars Technica.

Иасо го преместил серверот зад VPN и успеал да развие сопствен систем за заштита од овие роботи наречен „Anubis“. За да пристапат до страницата веб-прелистувачите треба да решат различни тестови. „Бесмислено е да се блокираат AI роботите бидејќи тие се кријат, го менуваат корисничкиот агент, користат станбени IP адреси како прокси и многу повеќе.“, вели Иасо.

97 отсто од сообраќајот доаѓа од ботови за вештачка интелигенција

Иасо не е осамен, LibreNews откри дека некои проекти со отворен код забележале дека дури 97% од нивниот сообраќај доаѓа од ботови на AI компании. Ова ги зголемува нивните трошоци, предизвикува нестабилност на услугите, и создава огромен притисок врз одржувачите. Тие најчесто работат волонтерски или со многу ограничени ресурси, па ова е сериозен предизвик.

Конкретни последици и бројки

  • Развивачите на GNOME GitLab го имплементирале системот „Anubis“ на Иасо. Барт Пјотровски, систем администратор во GNOME, сподели на Mastodon дека само околу 3,2% од барањата (2690 од 84056 во период од два и пол часа) го поминале тестот за доказ за работа. Ова е еден од показателите дека големо мнозинство (речиси 97%) е автоматизиран сообраќај.
  • KDE GitLab: Инфраструктурата била привремено недостапна поради „налетот“ на роботи кои доаѓале од IP адреси на Alibaba. Роботите се маскирале како да доаѓаат од прелистувачот Edge.
  • Read the Docs објави дека блокирањето на AI роботите веднаш го намалило нивниот сообраќај за 75%. Вкупниот сообраќај паднал од 800GB на 200GB дневно. Оваа промена им заштедила околу 1500 долари месечно во трошоци за сообраќај.
  • Diaspora: Денис Шуберт, кој ја одржува инфраструктурата за социјалната мрежа Diaspora, ја опиша ситуацијата како „DDoS врз целиот интернет“.  И неговата анализа покажала дека 70% од сите веб-барања до нивните сервиси доаѓа од AI компании. Само на OpenAI отпаѓа една четвртина од вкупниот сообраќај, Amazon со 15%, а зад нив е Anthropic со „скромни“ 4.3%. Шуберт забележал дека роботите не само што ги игнорираат robots.txt и користат разни IP адреси, туку и се враќаат на истата страница на секои 6 часа.
  • SourceHut: Основачот Дру ДеВолт извести дека роботите не само што ги игнорираат правилата, туку и таргетираат операции како git blame и дневниците на промени (git log), пристапувајќи до „секоја страница од секој git дневник и секој commit во репозиториумот“. Поради ова дошло до прекини кои предизвикале одложување на приоритетни задачи со недели или месеци.
  • Inkscape: Мартин Овенс изјави дека проблемите не доаѓаат само од „вообичаениот кинески DDoS“, туку од група компании кои почнале да ги игнорираат нивните конфигурации за роботи и да ги лажираат информациите за прелистувачот. Тој сега има „огромна листа за блокирање“.
Source: thelibre.news

Кои се мотивите за однесувањето на роботите

Експертите и жртвите се сомневаат на неколку можни мотивации. Дел веројатно собираат податоци за тренирање или усовршување на големи јазични модели (LLMs). Други ги користат за да пронајдат одговори во реално време кога корисниците поставуваат прашања до AI асистентите. Сепак, самото тоа што роботите се враќаат на секои 6 часа покажува дека ова не се еднократни вежби за тренирање, туку постојано собирање податоци, веројатно за одржување на ажурноста на моделите.

Иако многу AI компании вршат веб-индексирање, нивото на агресивност и одговорност варира. Систем администраторите на KDE велат дека западните оператори како OpenAI и Anthropic барем користат соодветни кориснички агенти (што теоретски овозможува нивно блокирање). За разлика од нив, некои кинески компании користат лажни кориснички агенти за да се преправаат дека се обични корисници.

Лажни багови и трошење време

Оптоварувањето на инфраструктурата е само дел од проблемот. Во декември 2023 година, проекти како Curl, почнале да добиваат извештаи за багови генерирани од вештачка интелигенција. Овие извештаи на прв поглед изгледаат легитимно. Сепак, содржат измислени ранливости („халуцинации“ на AI) карактеристични за вештачката интелигенција. Ова залудно им троши време на програмерите кои мораат да ги истражат овие лажни тврдења.

Труење на податоците или соработка со креаторите на моделите

Како одговор на оваа пракса на компаниите, заедницата развива нови алатки и стратегии:

  1. Доказ за работа (Proof-of-Work): Системи како „Anubis“ ги принудуваат прелистувачите да извршат пресметки. Овие пресметки се едноставни за човечки корисник, но се скапи и бавни за ботови кои прават илјадници барања.
  2. Стапици (Tarpits): Алатки како „Nepenthes“, создадена од анонимен креатор, намерно ги заробуваат роботите во бескрајни лавиринти од лажни содржини. Целта е двојна. Едно е што се трошат ресурсите на AI компаниите (процесорска моќ, меморија…), а дополнително се „трујат“ податоците за тренирање.
  3. Комерцијални решенија: Популарната платформа Cloudflare го најави „AI Labyrinth“. Системот е сличен како Nepenthes, но e дефанзивна алатка. „AI Labyrinth“ го спречува собирањето на легитимни податоци. Наместо ова, штом системот забележи „кролање“ ги носи роботите до страници на кои е поставена содржина генерирана од вештачка интелигенција.
  4. Колаборативни блок-листи: Проектот „ai.robots.txt“ е отворена листа на веб-роботи поврзани со AI компании и обезбедува готови robots.txt и .htaccess фајлови за нивно блокирање. Истражувачите од Frama software споделија огромна листа на блокирани IP адреси (до 460 000).
Source: Libre.news

Иднина под знак прашалник

За жал моменталната ситуација е сериозна закана за екосистемот на отворен код. Проектите кои се темелат на јавна соработка и работат со ограничени буџети се несразмерно погодени. Агресивното извлекување податоци без согласност или компензација, во комбинација со игнорирањето на воспоставените протоколи (robots.txt), го разрушува духот на отвореност и соработка на интернет.

Стани премиум член и доби пристап до сите содржини, специјален попуст на над 2.200 производи во ИТ маркет, верификуван профил и можност за огласување на ИТ Огласник. Плус ќе го поддржиш медиумот кој го градиме цели 16 години!

basic

членство

42 ден./мес

зачлени се

1337

членство

125 ден./мес

зачлени се
* плаќањето е на годишно ниво

Доколку веќе имаш премиум членство, најави се тука.

Добивај известувања
Извести ме за
guest
0 Коментари
Најнови
Најстари Со највеќе гласови
Inline Feedbacks
View all comments