Мира Мурати тврди дека сите конкуренти го направиле истиот фундаментален пропуст со вештачката интелигенција ⋆ IT.mk

Thinking Machines Lab по една година молчење конечно го откри својот прв технолошки производ, „интеракциски модел“ кој одговара за 0,40 секунди и кој според бенчмарковите ги надминува OpenAI и Google со огромна предност.

По речиси една година релативно молчење, Thinking Machines Lab, стартапот на ex-CTO на OpenAI Мира Мурати, конечно ја открива својата прва значајна истражувачка работа. И тоа не било кое, туку директен предизвик кон сите водечки лаборатории во областа на вештачката интелигенција.

Како што пишува TechCrunch, Мурати и нејзиниот тим тврдат дека сите водечки ВИ компании, вклучително OpenAI, Google DeepMind и Anthropic, направиле фундаментална архитектонска грешка при градењето на гласовните и интерактивните ВИ системи. Решението, според нив, се т.н. „интеракциски модели“ кои функционираат целосно различно од сè што постои денес на пазарот.

Што се интеракциски модели

Денешните гласовни ВИ асистенти, како ChatGPT Realtime или Google Gemini Live, функционираат според строго „turn-based“ принципот. Корисникот зборува, моделот чека, обработува, а потоа одговара. Додека моделот зборува, тој практично е „слеп“ за новиот аудио или видео влез. Како што објаснува The Decoder во својата анализа, јазичниот модел никогаш директно не го „гледа“ аудиото. Пред него стои т.н. „harness“, надворешен слој од модули за препознавање говор и менаџирање разговор, што Thinking Machines го смета за фундаментален архитектонски пропуст.

Новиот модел на компанијата, наречен TML-Interaction-Small, го отфрла овој пристап. Со 276 милијарди параметри во Mixture-of-Experts архитектура, од кои 12 милијарди се активни во секој момент, моделот ги обработува аудио, видео и текстуалните сигнали паралелно, во блокови од по 200 милисекунди. Тоа значи дека може истовремено да слуша, гледа и зборува.

„Веруваме дека можеме да го решиме ова јазично грло во соработката со AI правејќи ја вистински интерактивна во реално време и низ сите модалитети. Тоа им овозможува на AI интерфејсите да им излезат во пресрет на луѓето таму каде што се наоѓаат, наместо луѓето да мора да се прилагодат на AI интерфејсите“, истакнаа од Thinking Machines Lab во официјалното соопштение.

Бројки кои се впечатливи

На бенчмарковите кои самата компанија ги дизајнирала, разликите се драстични. Според извештајот на Analytics Drift, TML-Interaction-Small постигнал доцнење при превземање на разговорот од само 0,40 секунди. За споредба, GPT-Realtime-2.0 на OpenAI бил измерен на 1,18 секунди, а Gemini-3.1-flash-live на Google на 0,57 секунди.

Уште поинтересни се резултатите на бенчмарковите за временска свесност. На тестот TimeSpeak, кој мери способност за реакција со прецизен тајминг на вербални и визуелни сигнали, моделот на Thinking Machines постигнал 64,7% макро-точност, додека GPT-Realtime-2 во минимална конфигурација постигнал само 4,3%. На бенчмаркот за временско броење акции, разликата била уште поголема, 35,4% наспроти 1,3%.

„Ниту еден постоечки модел не може значајно да изврши било која од овие задачи“, тврдат од Thinking Machines Lab, што е директна критика на тоа што индустријата ја сметала за врвна технологија.

Архитектура која ги менува правилата

Клучната иновација е она што компанијата го нарекува Multi-Stream Micro-Turn Design. Аудиото е претставено како dMel сигнали и поминува низ лесен embedding слој, додека видео рамките се делат на 40×40 пиксели парчиња и се енкодираат преку hMLP модул. Овој т.н. „encoder-free early fusion“ пристап ги елиминира тешките надворешни енкодери што другите системи ги користат.

Покрај тоа, системот функционира во „dual-model“ конфигурација. Брзиот интеракциски модел управува со разговорот во реално време, додека позадинскиот модел врши покомплексни резонирања, веб пребарувања или повеќестепени агентни задачи, и резултатите ги испорачува назад без прекин на разговорот.

Демонстрациите објавени со истражувачкиот извештај се впечатливи. Во една, моделот следи постура во реално време и веднаш предупредува кога корисникот почнува да се грчи. Во друга, симултано гради визуелизација на податоци додека истовремено разговара за деловниот контекст. Во трета, обезбедува жив превод и фактички корекции, „шепнати“ во ушите на корисникот, без да го прекинува протокот на разговорот.

Голема амбиција, сериозни предизвици

Стартапот, основан во февруари 2025 година, во јули 2025 година го затвори најголемиот seed инвестициски круг во историјата на ризичниот капитал, со 2 милијарди долари при валуација од 12 милијарди долари, при тоа без ниту еден објавен производ. Како што откри The Decoder, последователен круг за финансирање во висина од околу 50 милијарди долари не успеал да се реализира до крајот на 2025 година, а во меѓувреме неколку клучни вработени ја напуштија компанијата.

Покрај овие предизвици, Thinking Machines Lab отворено ги признава ограничувањата на новиот модел. Долгите сесии со континуиран аудио и видео влез брзо генерираат огромен контекстуален волумен, што го отежнува управувањето. Стабилна интернет конекција е апсолутно неопходна, бидејќи квалитетот значајно се намалува со слаба врска. Поголемите модели засега се преспори за работа во реално време, иако компанијата ветува дека такви ќе следат подоцна оваа година.

Независниот инженер Sean Goedecke во анализа цитирана од Analytics Drift укажа на потенцијален проблем со архитектурата на позадинскиот модел, поставувајќи го прашањето како системот ќе се однесува при ситуации каде побавниот позадински модел противречи на она што побрзиот интеракциски модел веќе го изговорил. Прашање кое и самата компанија го признала со тоа што го објавила производот како „research preview“, а не како производ за широка употреба.

Што значи ова за индустријата

Според анализа на StartupHub.ai, објавувањето на архитектурата и бенчмарковите пред да постои финален скалиран модел, е стратешки потег идентичен на оној што DeepMind го направи со AlphaGo, односно Anthropic со constitutional AI. Целта е парадигмата да биде воспоставена пред конкурентите да можат да го преземат раководството на наративот.

За OpenAI ситуацијата е особено непријатна, бидејќи Realtime API е една од најраспространетите услуги на компанијата во последните дванаесет месеци, со клиенти кои на нејзин врв градат повикувачки центри, апликации за подучување и гласовни асистенти.

Истражувачот Goedecke забележа дека вистинското прашање не е дали 200-милисекундните микро-превзимања ќе станат стандард во индустријата, туку дали лабораториите со веќе распоредени производи во реално време ќе го третираат овој извештај како кредибилна закана или како чисто академско позирање.

Што следува

Истражувачкиот преглед на TML-Interaction-Small е достапен од 11 мај 2026 година. Компанијата најави ограничен истражувачки преглед достапен за апликации во наредните месеци, додека пошироко лансирање е планирано за крајот на 2026 година. Дополнително, Thinking Machines Lab покренува истражувачка програма за докторанди и постдокторанди, со цел развој на нови стандарди за евалуација на интеракциски модели.

Дали Мира Мурати ќе успее да го трансформира пазарот на гласовни и мултимодални ВИ системи, ќе видиме во наредните месеци. Едно е сигурно, по една година релативна тивкост, нејзиниот стартап тукушто пушти веројатно најголемата технолошка „бомба“ од почетокот на 2026 година. Со неа, ерата на „turn-based“ ВИ можеби влегува во својата последна година.

Оваа содржина е генерирана со помош на вештачка интелигенција, но е внимателно проверена, уредена и дополнета од уредничкиот тим на IT.mk, со цел да обезбедиме точни, релевантни и квалитетни информации за читателите.

Cookie	Duration	Description
itmkhascookiez-checkbox-analytics	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност. Колачето се користи за да се зачува изборот на корисникот за колачиња во категорија "Аналитика".
itmkhazcookies-checkbox-others	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност. Колачето се користи за да се зачува изборот на корисникот за колачиња во категорија "Други".
itmkhazcookiez-checkbox-functional	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност. Колачето се користи за да се зачува изборот на корисникот за колачиња во категорија "Функционални".
itmkhazcookiez-checkbox-necessary	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност. Колачето се користи за да се зачува изборот на корисникот за колачиња во категорија "Потребни".
itmkhazcookiez-checkbox-performance	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност. Колачето се користи за да се зачува изборот на корисникот за колачиња во категорија "Перформанси".
viewed_itmk_cookiez_policy	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност и не чува лични податоци.

Кошничка

Кошничката е празна

Мира Мурати тврди дека сите конкуренти го направиле истиот фундаментален пропуст со вештачката интелигенција

Што се интеракциски модели

Бројки кои се впечатливи

Архитектура која ги менува правилата

Голема амбиција, сериозни предизвици

Што значи ова за индустријата

Што следува

AI Редакција

Што се интеракциски модели

Бројки кои се впечатливи

Архитектура која ги менува правилата

Голема амбиција, сериозни предизвици

Што значи ова за индустријата

Што следува

AI Редакција

Поврзани статии

w00t w00t