Google официјално го претстави Gemini Omni, модел кој компанијата го опишува како својот прв вистински нативен мултимодален систем. За разлика од досегашните модели кои третираа текст, слика, аудио и видео како посебни способности споени заедно, Gemini Omni е дизајниран да ги процесира сите модалитети нативно, од архитектонско ниво.
Според анализата на VentureBeat, станува збор за систем кој се позиционира како „било што во било што” модел, способен да генерира излез од било кој тип на влез. Иако првиот член од фамилијата, Omni Flash, дебитира со фокус на видео содржини, Google нагласува дека оваа архитектура е само почеток на пошироко портфолио кое ќе ги поврзе сите модалитети низ единствен пристап.
Не е само уште еден видео генератор
Главниот технолошки директор на Google DeepMind, Корaj Кавукчуоглу, на прес-брифингот за новинарите направи јасна дистинкција помеѓу новиот систем и постоечкиот Veo модел на компанијата.

„Veo е модел од текст во видео. Omni е вистински, целосен мултимоделен влезен и мултимоделен излезен модел”, изјави Кавукчуоглу, цитиран од VentureBeat.
Оваа разлика не е само терминолошка. Поголемиот дел од досегашните мултимодални модели функционираат на тој начин што различните типови влез ги преведуваат во текстуални репрезентации, па потоа ги обработуваат низ она што во основа е јазичен модел. Gemini Omni застапува различен пристап и видеото, аудиото, сликите и текстот ги третира како рамноправни ентитети.
Уште поинтересно, Google ова го позиционира како „модел на светот” (world model), систем кој не само што предвидува текст, туку симулира физика. На презентацијата, шефот на Google DeepMind, Демис Хасабис, демонстрираше како моделот разбира гравитација, кинетичка енергија и динамика на флуиди, што според Google е она што го одделува „изгледа како AI видео” од „изгледа како вистинска снимка”.
Конверзациско уредување видео
Главниот случај на употреба што Google го истакна е конверзациското уредување видео. Според објавените демонстрации, секоја инструкција надоградува на претходната, а минатите команди остануваат активни низ повеќе циклуси, така што видеото се развива кохерентно додека корисникот итерира.
Практичните примери што Google ги истакна вклучуваат менување на светот во рамките на еден клип, преобмислување акција или агол на камерата, рафинирање секвенци низ повеќе итерации и генерирање содржини во стил на објаснувачи од кратки промптови. Дополнително, моделот поддржува и креативни трансформации како замена на ликови со референтни слики, претворање скици во снимки или комбинирање повеќе извори во една сцена.
Достапност и претплати: каде е проблемот за бизнисите?
За индивидуални корисници, Gemini Omni Flash е веќе достапен преку Gemini апликацијата и веб-страница, како и преку алатката Google Flow за уредување слики и видеа. Достапноста почнува со претплатата „AI Plus” по цена од 20 долари месечно по корисник, а ги опфаќа и претплатниците на Google AI Pro и Ultra на глобално ниво. YouTube Shorts ќе го добие Omni во рок од неделата.
Сепак, за претпријатијата ситуацијата е малку покомплицирана. VentureBeat нагласува дека корпоративниот API сè уште не е активен и компаниите ќе мора да почекаат уште неколку недели за пристап. Дополнително, во невообичаен потег за Google, компанијата не објави јавни бенчмарк резултати за Gemini Omni, што значи дека за сега квалитетот и брзината остануваат прилично субјективна категорија.
SynthID и индустриски консензус за безбедност
Свесен за растечките грижи околу дезинформациите и deepfake содржините, Google потврди дека целата содржина генерирана од Omni ќе носи SynthID воден жиг, технологија за невидливо означување која компанијата ја разви во последните три години.
На I/O 2026, Google објави и дека OpenAI, Kakao и ElevenLabs го прифаќаат SynthID како стандард, што го прави овој потег значајна индустриска победа за транспарентност. Со ова, тројца од најголемите играчи во индустријата за генеративна вештачка интелигенција сега ќе користат заедничка инфраструктура за идентификација на AI содржини, што може да биде клучен момент во борбата против лажни видеа и аудио снимки.
Дел од поширока стратегија
Лансирањето на Omni не е изолиран потег. Тоа е дел од она што извршниот директор Сундар Пичаи го нарече „агентска Gemini ера”. Истиот ден, Google претстави и Gemini 3.5 Flash, личниот агент Gemini Spark, развојната платформа Antigravity 2.0 и редизајниран Google Search со генеративен интерфејс.
Според CNBC, Google со ова се обидува да го одржи чекор со OpenAI и Anthropic, кои се подготвуваат за можно прво јавно котирање во оваа година. Со валуации кои растат, Wall Street очекува од Google да покаже подлабока интеграција низ своите производи, а агентите се можеби најдиректниот начин да го постигне тоа.
За македонските корисници кои имаат активна претплата на Google AI Plus или повисок ранг, Gemini Omni Flash веќе е достапен преку Gemini апликацијата и Google Flow. За компаниите кои го разгледуваат како дел од нивната технолошка инфраструктура, чекањето сè уште трае.
Преостанува да се види дали Gemini Omni навистина ќе ја оправда титулата „вистински мултимодален модел” или ќе остане уште една амбициозна најава во преполнетиот пазар на генеративна вештачка интелигенција. Со обиди од страна на независни тестери во следните недели, реалните перформанси наскоро ќе бидат подложени на јавна проверка.
Една работа е сигурна: со Omni, Google сигнализира дека ерата кога вештачката интелигенција само пишува или само цртаа е завршена. Иднината, барем според Google, припаѓа на моделите кои разбираат сè и можат да создадат сè.
Оваа содржина е генерирана со помош на вештачка интелигенција, но е внимателно проверена, уредена и дополнета од уредничкиот тим на IT.mk, со цел да обезбедиме точни, релевантни и квалитетни информации за читателите.








Video to video конечно функционира, нешто што Runway Aleph го прави уште од пред повеќе од година дена. Ама сеуште прават основни грешки, на маркетинг све е лепота ама во пракса е друго. Еве прееска генерирав клипови, човек оди и проаѓа низ клупа. Предмети се морфаат, чудни работи се дешаваат. Треба уште многу работи да усовршат.