Кинескиот стартап DeepSeek оваа недела објави дека нивниот надграден модел на вештачка интелигенција, сега познат како DeepSeek-R1-0528 e значително подобар во математика, програмирање и општо логичко расудување во споредба со неговиот претходник. Истовремено моделот помалку генерира неточни или бесмислени информации, познати и како халуцинации.
Оваа надградба на нивниот модел R1 се одликува со уште подобро „длабинско расудување“ (Deep Reasoning). Моделот R1 уште во јануари го шокираше светот на вештачката интелигенција со своите способности. Неговите перформанси парираа на далеку поголеми американски развивачи и тоа со само мал дел од нивните трошоци,. Во објава на платформата за AI модели Hugging Face, DeepSeek истакна дека нивните перформанси сега се и подобри. Сега вкупните перформанси на моделот се приближуваат до оние на водечките модели како o3 на OpenAI и Gemini 2.5 Pro на Google.
Објавата за надградбата на R1, DeepSeek-R1-0528, дојде само неколку часа пред последниот финансиски извештај на Nvidia Corp. Популарниот производител на графички картичли е и водечки производител на AI чипови. Акциите на Nvidia беа значително погодени веднаш по првичното објавување на оригиналниот модел R1. Сепак, оттогаш акциите на компанијата се значително закрепнати, констатира Bloomberg.
Импресивен развој под санкции
Оригиналниот DeepSeek R1, претставен во јануари, предизвика вистински потрес во глобалната технолошка индустрија. Создаден во услови на санкции кои го ограничуваат пристапот на Кина до напредни американски чипови, моделот успеа да се натпреварува со гиганти како ChatGPT o1. Моделот имаше споредливи, а понекогаш и подобри перформанси, и тоа со значително помали трошоци. Овој успех го доведе во прашање постоечкиот тренд на големи инвестиции во компјутерски ресурси за вештачка интелигенција. Дополнително, речиси истовремено, излегоа нови AI модели од кинески компании како Alibaba Group Holding Ltd. и Zhipu AI. Претставувањето на R1 го претвори основачот на DeepSeek, Лијанг Венфенг, во технолошка супер-ѕвезда. Стартапот стана симбол на способноста на Кина да се натпреварува со најдобрите од Силициумската долина.
„DeepSeek R1 е едно од најневеројатните и најимпресивните откритија што некогаш сум ги видел“, изјави тогаш Марк Андерсен, познат инвеститор од Силициумската долина. Моделите на DeepSeek брзо се искачија на топ 10 листите според перформансите. Ова е уште поимпресивно ако се земе предвид дека кинеските компании се под санкции. Дури и производителите како Nvidia, кои извезуваат во Кина, ги ограничуваат перформансите на своите графички картички. Верзиите достапни во Кина често имаат преполовени можности во споредба со најмоќните модели.
Тајната на успехот на DeepSeek лежи во иновативниот пристап кон ограничените ресурси. Уште пред воведувањето на санкциите во 2022 година, Лијанг предвидел што следува и набавил голема залиха на Nvidia A100 чипови, кои сега се забранети за извоз во Кина. Според проценките, компанијата располага со меѓу 10.000 и 50.000 вакви чипови. Овие чипови биле комбинирани со послаби процесори, а тимот, според Зихан Ванг, поранешен вработен во DeepSeek и моментален докторант на Универзитетот Northwestern, целосно го преработил процесот на обука за да ги надмине ограничувањата на графичките процесори
Една од клучните придобивки на DeepSeek R1 е неговата отвореност. Моделот е достапен за пошироката заедница, а компанијата објави и шест поедноставени верзии, од кои некои можат да се користат дури и на лаптоп компјутери. Ова овозможува пристап до напредни AI алатки без потреба од скапа инфраструктура. Според Арвинд Сринивас, извршен директор на Perplexity, „DeepSeek не само што ги реплицираше резултатите на o1-mini (на OpenAI), туку го направи тоа со отворен код.“ Една од верзиите на DeepSeek дури ги надминува перформансите на OpenAI’s o1-mini според одредени мерила.







