DeepSeek R1 ги претвори американските санкции во иновација за вештачка интелигенција

DeepSeek R1, новиот модел на вештачка интелигенција од кинеската стартап компанија DeepSeek, ја разбранува светската AI заедница. Создаден во услови на санкции кои го ограничуваат пристапот на Кина до напредни американски чипови, моделот успева да се натпреварува со ChatGPT o1, нудејќи споредливи перформанси. За разлика од останатите модели, DeepSeek R1 има значително помали трошоци. Во време кога сите компании работат на следниот попаметен модел, се чини дека токму ова е вистински чекор напред за AI индустријата.

„Deepseek R1 е еден од најневеројатните и најимпресивните откритија што некогаш сум ги видел.“, вели Марк Андреесен, инвеститор од Силициумската долина.

Моделите на вештачка интелигенција од DeepSeek се искачија на топ 10 листите според перформансите. Скокот е уште поимпресивен бидејќи доаѓа во период во кој кинеските компании се под санкции. Дури и производителите кои извезуваат во Кина, на пример Nvidia, ги ограничуваат перформансите на графичките картички. Перформансите на картичките кои се достапни во Кина се ограничени на половина од перформансите достапни на најмоќните картички.

Моделот е дизајниран за штедливо да решава комплексни задачи, што го прави исклучително корисен во период на недостаток на полуспроводници. Според Зихан Ванг, поранешен вработен во DeepSeek и моментален докторант на Универзитетот Northwestern, тимот го преработил процесот на обука за да ги надмине ограничувањата на графичките процесори кои се испорачуваат во Кина. Благодарение на иновативни методи на оптимизација, DeepSeek успеал да ја претвори оваа слабост во предност.

Придобивките од овој модел се големи, и ќе бидат достапни и надвор од Кина. DeepSeek R1 е отворен и достапен за пошироката заедница. Компанијата објави и шест поедноставени верзии од R1. Дел од нив може да се користат и на лаптоп компјутери. Ова овозможува пристап до напредни AI алатки без потреба од скапа инфраструктура. Една од верзиите дури ги надминува перформансите на OpenAI’s o1-mini според одредени мерила. Според Арвинд Сринивас, извршен директор на Perplexity, „DeepSeek не само што ги реплицираше резултатите на o1-mini, туку го направи тоа со отворен код.“

Иновацијата на DeepSeek се базира на вештото користење на ограничените ресурси. Лијанг Венфенг, основачот на DeepSeek, ја започнал компанијата со јасна стратегија – да ги претвори американските санкции во промотер на технолошки напредок. Во 2022 година САД започнаа со санкции. Уште пред санкциите, Лијанг веќе купил голема залиха на Nvidia A100 чипови, кои сега се забранети за извоз во Кина. Според проценките, компанијата има помеѓу 10 000 и 50 000 единици од овие чипови, кои биле комбинирани со понископрофилни процесори за да се оптимизира развојот на моделите. Овој пристап не само што овозможил создавање на R1, туку и поставил и нови стандарди за ефикасност во вештачката интелигенција.

Ја оптимизираа архитектурата на моделот користејќи серија од инженерски трикови – прилагодени комуникациски шеми помеѓу чипови, намалување на големината на полињата за заштеда на меморија и иновативна употреба на mix-of-models пристапот“, вели Венди Чанг за Wired.

Иако DeepSeek не собира средства од надворешни инвеститори, тоа не ја спречува компанијата да остане конкурентна во кинескиот AI екосистем. Технолошки гиганти како Alibaba и ByteDance доминираат со своите ресурси. Тимот на DeepSeek се издвојува со својот фокус на ефикасност и отвореност. Зихан Ванг, поранешен член на тимот, ја опишува компанијата како место каде истражувачите имаат слобода да експериментираат, што е реткост дури и во големите технолошки компании.

Отворениот код е уште една клучна точка за успехот на DeepSeek. Компанијата се приклучува на новиот тренд меѓу кинеските AI компании. За да ги стигнат своите западни конкуренти, тие се ориентираат кон соработка и транспарентност. Поради учеството на заедницата во развојот, поправките и оптимизацијата, кинеските компании успеваат и со санкции да држат чекор со своите конкуренти од САД.

Alibaba Cloud објави над 100 отворени AI модели за различни апликации, а слични чекори преземаат и стартапи како Minimax и 01.AI. Ова ја зацврстува позицијата на Кина како втор најголем глобален развивач на вештачка интелигенција, веднаш зад САД. Според извештајот на China Academy of Information and Communications Technology, 36% од глобалните модели за вештачка интелигенција доаѓаат од Кина, пишува MIT Technology Review.

„Покажаа дека врвни модели може да се развијат со помалку, иако и натаму многу пари, а актуелните норми за градење на модели оставаат многу простор за оптиизација.“, додава Ченг.

Санкциите против Кина, иако наменети за слабеење на нејзините технолошки капацитети, се чини дека предизвикуваат спротивен ефект. Наместо да се повлечат, кинеските компании стануваат попаметни и поефикасни.

„Американските санкции не им оставија простор на кинеските компании. Тие треба да бидат далеку поефикасни со нивните ограничени компјутерски ресурси. Веројатно ќе видиме многу консолидација во иднина поврзана со недостатокот на компјутери.“, вели Мет Шиан, истражувач во Карнеги.

DeepSeek е достапен за користење и може да го користите преку вебсајтот или апликација.