Со огромниот интерес за вештачката интелигенција една од темите кои стануваат поактуелни е прашањето за безбедноста на „големите јазични модели“ (Large Language Models – LLM). Графичкиот уредник на New York Times, Џереми Вајт го објави своето искуство со опасностите по дел од личните податоци од вештачката интелигенција.
„Минатиот месец добив вознемирувачка електронска пошта од некој кој не го познавав: Руи Жу, докторски кандидат на Универзитетот Индијана во Блумингтон. Жу ја имаше мојата имејл адреса, бидејќи GPT-3.5 Turbo му ја испорачал“, пишува Вајт.
Заедно со неговите податоци Жу споделил бизнис и лични имејл адреси на триесетина вработени во New York Times. Податоците за сите вработени се „извлечени“ од GPT-3.5. Овој модел има вградена заштита која спречува споделување на лични податоци, но тимот на Жу успеа да ја заобиколи заштитата.

Ситуацијата со имејл адресата е само показател за опасностите. Оваа адреса на Џереми Вајт не е тајна, па не е направена никаква штета. Сепак тоа е еден од податоците кои мерките за заштита на GPT треба да ги обезбедат. Со оглед на тоа дека истиот систем се користи за заштита и на почувствителни податоци, постои и простор за загриженост. За откривање на овие податоци потребно е само дополнително прилагодување, вели Жу.
Како тимот на Жу ги откри податоците од GPT?
Кога LLM модел како Bard, ChatGPT, или некој сличен ќе добие прашање не започнува да бара одговор на интернет. Наместо ова најпрво започнува со пребарување низ податоците на кои е трениран. Дел од овие податоци кои се користени за тренинг на вештачката интелигенција може да содржат и лични податоци.
Сепак, одговорот не треба да биде само најден и прикажан како што е содржан во податоците за тренинг. Овие податоци се користат само за да ја „научат“ вештачката интелигенција како да работи. Колку повеќе податоци се користат за тренирање, толку системот ќе ги заборави постарите податоци. Податоците на овој начин губат дел од својата релевантност и барем во теорија не треба да бидат прикажувани.
Начинот на кој ова е објаснето е дека слично како и луѓето и вештачката интелигенција заборава дел од податоците. Она што до неодамна не беше очекувано е дека како и луѓето, така и вештачката интелигенција може да се потсети на податоците. Ова е едно од откритијата на докторантот Жу, но и на повеќе други истражувачи кои работат независно.
Добар начин да се објасни начинот на кој се случува „сеќавањето“ е преку некоја песна која детето ја научило во основно училиште или било која содржина која се учи напамет. После повеќе години не е баш веројатно дека ќе може да ја повториме песната без грешки. Сепак, ако некој не потсети на една строфа можеби ќе ни текне и следната. Иако строфата може да има грешки, најголем дел од зборовите ќе бидат точни. Тука контекстот нема некоја улога туку единствено самите зборови.
Начинот на кој истражувачите од Универзитетот Индијана дојдоа до податоците e супер едноставен. Најпрво креираа листа на имиња, презимиња и имејл адреси за кои беа сигурни дека припаѓаат на вработени во New York Times. Потоа ги испратија овие податоци, а моделот врати слични податоци назад. Еден дел од податоците беа погрешни, но 80% беа постоечки имиња и имејл адреси.
Иако компаниите како OpenAI имаат заштита на вештачката интелигенција како ChatGPT со API-то е малку поинаку. Компанијата овозможува функционалност наречена „fine-tuning“ со која корисникот може да го прошири знаењето на апликацијата во некои делови. Со вешто манипулирање со тренирањето може да се заобиколи заштитата.
Има ли причина за паника?
Колку има причина за паника не е едноставно да се процени. Многу е мал делот на луѓето кои знаат на кои податоци се тренирани LLM моделите и на што се може да се присетат. Иако готовите модели не може да се вратат назад и да ги пронајдат овие податоци, очигледно е дека некакво сеќавање постои.
Дека проблем постои покажува и откривањето на информации од базата на податоци на компанијата Enron. Оваа база е користена за тренирање на добар дел од постоечките LLM системи. Ова не е чудно со оглед на тоа што базата содржи имејл комуникација која е супер корисна како пример за комуникација на луѓето.

OpenAI го објави својот интерфејс за фино подесување за GPT-3.5 минатиот август, за кој истражувачите утврдија дека ја содржи и базата на податоци на Enron. Слично на чекорите за извлекување информации за вработените во Тајмс, Жу и неговите колеги истражувачи успеале да извлечат повеќе од 5 000 пара имиња и имејл адреси од Енрон, со стапка на точност од околу 70 проценти, со само 10 познати парови имиња и имејл адреси.
Заштитата на лични податоци кај LLM моделите е проблем за кој само што започнува да се зборува. Сепак, мислењето на најголем дел од експертите е дека не постои никаков начин да се генерира систем кој ќе биде безбеден за лични податоци, ако податоците на кои се тренира системот не се приватни.
„Проблемот со приватните податоци во комерцијалните LLM е сличен со моделите кои се тренирани на пристрасна или токсична содржина. Нема причина да очекувате дека добиениот модел што ќе излезе ќе биде приватен или некако магично нема да прави штета“, вели Пратек Митал професор од одделот за електро и компјутерско инженерство на Универзитетот Принстон.