Google официјално го претстави Gemini Omni, модел кој компанијата го опишува како својот прв вистински нативен мултимодален систем. За разлика од досегашните модели кои третираа текст, слика, аудио и видео како посебни способности споени заедно, Gemini Omni е дизајниран да ги процесира сите модалитети нативно, од архитектонско ниво.

Според анализата на VentureBeat, станува збор за систем кој се позиционира како „било што во било што” модел, способен да генерира излез од било кој тип на влез. Иако првиот член од фамилијата, Omni Flash, дебитира со фокус на видео содржини, Google нагласува дека оваа архитектура е само почеток на пошироко портфолио кое ќе ги поврзе сите модалитети низ единствен пристап.

Не е само уште еден видео генератор

Главниот технолошки директор на Google DeepMind, Корaj Кавукчуоглу, на прес-брифингот за новинарите направи јасна дистинкција помеѓу новиот систем и постоечкиот Veo модел на компанијата.

„Veo е модел од текст во видео. Omni е вистински, целосен мултимоделен влезен и мултимоделен излезен модел”, изјави Кавукчуоглу, цитиран од VentureBeat.

Оваа разлика не е само терминолошка. Поголемиот дел од досегашните мултимодални модели функционираат на тој начин што различните типови влез ги преведуваат во текстуални репрезентации, па потоа ги обработуваат низ она што во основа е јазичен модел. Gemini Omni застапува различен пристап и видеото, аудиото, сликите и текстот ги третира како рамноправни ентитети.

Уште поинтересно, Google ова го позиционира како „модел на светот” (world model), систем кој не само што предвидува текст, туку симулира физика. На презентацијата, шефот на Google DeepMind, Демис Хасабис, демонстрираше како моделот разбира гравитација, кинетичка енергија и динамика на флуиди, што според Google е она што го одделува „изгледа како AI видео” од „изгледа како вистинска снимка”.

Конверзациско уредување видео

Главниот случај на употреба што Google го истакна е конверзациското уредување видео. Според објавените демонстрации, секоја инструкција надоградува на претходната, а минатите команди остануваат активни низ повеќе циклуси, така што видеото се развива кохерентно додека корисникот итерира.

Практичните примери што Google ги истакна вклучуваат менување на светот во рамките на еден клип, преобмислување акција или агол на камерата, рафинирање секвенци низ повеќе итерации и генерирање содржини во стил на објаснувачи од кратки промптови. Дополнително, моделот поддржува и креативни трансформации како замена на ликови со референтни слики, претворање скици во снимки или комбинирање повеќе извори во една сцена.

Достапност и претплати: каде е проблемот за бизнисите?

За индивидуални корисници, Gemini Omni Flash е веќе достапен преку Gemini апликацијата и веб-страница, како и преку алатката Google Flow за уредување слики и видеа. Достапноста почнува со претплатата „AI Plus” по цена од 20 долари месечно по корисник, а ги опфаќа и претплатниците на Google AI Pro и Ultra на глобално ниво. YouTube Shorts ќе го добие Omni во рок од неделата.

Сепак, за претпријатијата ситуацијата е малку покомплицирана. VentureBeat нагласува дека корпоративниот API сè уште не е активен и компаниите ќе мора да почекаат уште неколку недели за пристап. Дополнително, во невообичаен потег за Google, компанијата не објави јавни бенчмарк резултати за Gemini Omni, што значи дека за сега квалитетот и брзината остануваат прилично субјективна категорија.

SynthID и индустриски консензус за безбедност

Свесен за растечките грижи околу дезинформациите и deepfake содржините, Google потврди дека целата содржина генерирана од Omni ќе носи SynthID воден жиг, технологија за невидливо означување која компанијата ја разви во последните три години.

На I/O 2026, Google објави и дека OpenAI, Kakao и ElevenLabs го прифаќаат SynthID како стандард, што го прави овој потег значајна индустриска победа за транспарентност. Со ова, тројца од најголемите играчи во индустријата за генеративна вештачка интелигенција сега ќе користат заедничка инфраструктура за идентификација на AI содржини, што може да биде клучен момент во борбата против лажни видеа и аудио снимки.

Дел од поширока стратегија

Лансирањето на Omni не е изолиран потег. Тоа е дел од она што извршниот директор Сундар Пичаи го нарече „агентска Gemini ера”. Истиот ден, Google претстави и Gemini 3 .5 Flash, личниот агент Gemini Spark, развојната платформа Antigravity 2.0 и редизајниран Google Search со генеративен интерфејс.

Според CNBC, Google со ова се обидува да го одржи чекор со OpenAI и Anthropic, кои се подготвуваат за можно прво јавно котирање во оваа година. Со валуации кои растат, Wall Street очекува од Google да покаже подлабока интеграција низ своите производи, а агентите се можеби најдиректниот начин да го постигне тоа.

За македонските корисници кои имаат активна претплата на Google AI Plus или повисок ранг, Gemini Omni Flash веќе е достапен преку Gemini апликацијата и Google Flow. За компаниите кои го разгледуваат како дел од нивната технолошка инфраструктура, чекањето сè уште трае.

Преостанува да се види дали Gemini Omni навистина ќе ја оправда титулата „вистински мултимодален модел” или ќе остане уште една амбициозна најава во преполнетиот пазар на генеративна вештачка интелигенција. Со обиди од страна на независни тестери во следните недели, реалните перформанси наскоро ќе бидат подложени на јавна проверка.

Една работа е сигурна: со Omni, Google сигнализира дека ерата кога вештачката интелигенција само пишува или само цртаа е завршена. Иднината, барем според Google, припаѓа на моделите кои разбираат сè и можат да создадат сè.

Оваа содржина е генерирана со помош на вештачка интелигенција, но е внимателно проверена, уредена и дополнета од уредничкиот тим на IT.mk, со цел да обезбедиме точни, релевантни и квалитетни информации за читателите.

Стани премиум член и доби пристап до сите содржини, специјален попуст на над 2.200 производи во ИТ маркет, верификуван профил и можност за огласување на ИТ Огласник. Плус ќе го поддржиш медиумот кој го градиме цели 16 години!

basic

членство

42 ден./мес

зачлени се

1337

членство

125 ден./мес

зачлени се

* плаќањето е на годишно ниво

Доколку веќе имаш премиум членство, најави се тука.

Добивај известувања

1 Коментар

Најнови

Најстари Со највеќе гласови

Inline Feedbacks

View all comments

NecrotoX

21 days ago

Video to video конечно функционира, нешто што Runway Aleph го прави уште од пред повеќе од година дена. Ама сеуште прават основни грешки, на маркетинг све е лепота ама во пракса е друго. Еве прееска генерирав клипови, човек оди и проаѓа низ клупа. Предмети се морфаат, чудни работи се дешаваат. Треба уште многу работи да усовршат.

Cookie	Duration	Description
itmkhascookiez-checkbox-analytics	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност. Колачето се користи за да се зачува изборот на корисникот за колачиња во категорија "Аналитика".
itmkhazcookies-checkbox-others	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност. Колачето се користи за да се зачува изборот на корисникот за колачиња во категорија "Други".
itmkhazcookiez-checkbox-functional	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност. Колачето се користи за да се зачува изборот на корисникот за колачиња во категорија "Функционални".
itmkhazcookiez-checkbox-necessary	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност. Колачето се користи за да се зачува изборот на корисникот за колачиња во категорија "Потребни".
itmkhazcookiez-checkbox-performance	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност. Колачето се користи за да се зачува изборот на корисникот за колачиња во категорија "Перформанси".
viewed_itmk_cookiez_policy	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност и не чува лични податоци.

Gemini Omni: првиот „било што во било што” модел на пазарот, но компаниите ќе мораат да почекаат

Oд AI Редакција

Oд AI Редакција

Кратко URL

Не е само уште еден видео генератор

Конверзациско уредување видео

Достапност и претплати: каде е проблемот за бизнисите?

SynthID и индустриски консензус за безбедност

Дел од поширока стратегија

basic

членство

42 ден./мес

1337

членство

125 ден./мес

поврзани теми

слични статии

И Google Fonts ја прекршува Општата регулатива за заштита на податоците

Google ја купува Wiz за рекордни 32 милијарди долари

Google ја отклучува својата ризница со податоци за AI со Data Commons MCP Server

Google го претстави Gemini 2.0

ит кариера

Technical Lead Front-End

Junior Full-Stack Developer

Technical Project Manager

AI Developer

ит маркет

PHONE MOBILE PROTECTION CASE Roskilde ICON MagSafe for iPhone 17 Pro Max,ROK9ICBL6659

VGA ACER RX 9070 Predator BiFrost Radeon OC 16GB GDDR6 256-bit, HDMI, 3xDP, DP.Z4GWW.P01

RAM DDR5 8GB 5200MHz CL42 Innovation IT, 1.10V, 4251538819961

USB Flash Drive 3.2 512GB SANDISK ULTRA ECO, Green, SDCZ96-512G-G46

Бренд

Цена

Залиха

Попуст

Во соработка со

Oд AI Редакција

Кратко URL

Не е само уште еден видео генератор

Конверзациско уредување видео

Достапност и претплати: каде е проблемот за бизнисите?

SynthID и индустриски консензус за безбедност

Дел од поширока стратегија

basic

членство

42 ден./мес

1337

членство

125 ден./мес

Technical Lead Front-End

Junior Full-Stack Developer

Technical Project Manager

AI Developer

PHONE MOBILE PROTECTION CASE Roskilde ICON MagSafe for iPhone 17 Pro Max,ROK9ICBL6659

VGA ACER RX 9070 Predator BiFrost Radeon OC 16GB GDDR6 256-bit, HDMI, 3xDP, DP.Z4GWW.P01

RAM DDR5 8GB 5200MHz CL42 Innovation IT, 1.10V, 4251538819961

USB Flash Drive 3.2 512GB SANDISK ULTRA ECO, Green, SDCZ96-512G-G46

w00t w00t

Бренд

Цена

Залиха

Попуст

Во соработка со