Toys ‘R’ Us направи речиси цела реклама со OpenAI Sora ⋆ IT.mk

Toys ‘R’ Us ни прикажаа што може да очекуваме од вештачката интелигенција во иднина. Популарната продавница за детски играчки изработи реклама со помош на вештачката интелигенција на OpenAi, Sora. Рекламата е изработена во соработка со агенцијата Native Foreign која имала договор со OpenAI за ран пристап до Sora.

Визуелизацијата со помош на вештачката интелигенција е фантастична, но и целата приказна која ја раскажува рекламата е одлична. Рекламата ги следи основачот на Toys ‘R’ Us Чарлс Лазарус и маскотата на компанијата жирафата Џефри (Geoffrey the Giraffe) додека во раните 1930-ти го сонуваат својот сон за нов тип на продавница за играчки

„Воодушевени сме од соработката со Native Foreign за да ги поместиме границите на Sora, револуционерна нова технологија од OpenAI која привлекува глобално внимание. Sora може да креира видеа долги до една минута со реални сцени и повеќе карактери, сите генерирани од текстуална инструкција. Замислете ја возбудата од создавањето на младиот Чарлс Лазарус, основачот на Toys R Us, и замислувањето на неговите соништа за нашиот бренд и обожаваната маскота Жирафата Џефри во раните 1930-ти.“, велат Toys ‘R’ Us во објавата на својот веб-сајт.

Покрај Sora на OpenAI за креирањето на рекламата се користени и ефекти за корекција и оригинална музика.

Иако рекламата е импресивна сепак може да се забележат интересни аномалии. Вештачката интелигенција и натаму има проблеми со генерирање на раце и ги изобличува, она што е подеднакво интересно во оваа реклама е дека и ликот на младиот Чарлс Лазарус се менува од сцена во сцена. Карактерот ја задржува сличноста, но лесно се забележуваат разлики. Секако, очекуваме дека во иднина овие недостатоци ќе бидат надминати.

Што е Sora

OpenAI ја претстави Sora во февруари 2024 година. Како и останатите сервиси нa OpenAI и овој е базиран на вештачка интелигенција и овозможува трансформација на текстуални команди (prompt) во видеа. За сега е достапна за употреба единствено за „red“ тимот на Open AI и одбрани партнери, но примерите кои се споделени од OpenAI прикажуваат реалистични комплексни динамични сцени.

„Sora е модел со вештачка интелигенција што може да генерира видеа со должина до една минута, со многу детални сцени, сложени движења на камерата и повеќе ликови со живописни емоции. Може да создава и видеа врз основа на слика или да ја прошири постоечката снимка со нов материјал.“, пишува Open AI на својот блог.

Моделот доаѓа благодарение на тренингот на вештачката интелигенција со материјали кои и помагаат како да го „разбере“ движењето во физичкиот свет. Идејата на OpenAI не е само креирање на овие неверојатни видеа, туку решавање на проблеми за кои е потребна интеракција во светот.

Иако корисникот гледа видео генерирање со промпт целиот процес е пософистициран. Sora разбира што од неа бара корисникот, но и како овие работи постојат во светот. Во моментов сепак целата интеракција понекогаш не ја отсликува вистинската ситуација која би се случила во светот. Ова е една од слабостите на моделот. Моделот може да има проблеми со симулирање на физиката од реалниот свет и како одредени акции влијаат на промените. На пример во генерирано видео на човек кој гризе колаче, може да нема никакви траги на колачето, но OpenAI работи и на следните генерации на моделот во кој ова несомнено ќе биде подобро.

Покрај „red“-тимот пристап до Sora имаат и некои визуелни артисти, дизајнери и луѓе од филмската индустрија. Ова многу ќе помогне моделот не само да биде безбеден туку да биде и најкорисен за луѓето кои најмногу ќе го користат.

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024

До пред само една година генерирањето на слики, боењето и репарацијата на стари фотографии, и креирање на куси анимирани слики со помош на вештачка интелигенција беше неверојатно. Денес креирањето на видео содржини се развива супер-брзо. Lumiere на Google, Runway и Pika овозможуваат генерирање видеа кои изгледаат одлично. Она што го видовме од Sora изгледа импресивно, иако ниту конкуренцијата не е премногу далеку.

Креирање на видео со Sora

Без да навлегуваме премногу (или воопшто) во техничките детали еве како функционира Sora на OpenAI. Корисникот, исто како и при користењето на ChatGPT внесува текст промпт со насоки за тоа што треба да се генерира. Промптовите се куси и описни и врз база на ова се генерира видео. Еве неколку кои OpenAI ги сподели заедно со видеата кои се генерираат со нив.

Промпт: „Рефлексии во прозорец на воз кој патува низ предградијата на Токио“.

Промпт: Петри чинија со бамбусова шума која расте во неа во која има мали црвени панди кои трчаат наоколу

Промпт: Неколку џиновски волнени мамути се приближуваат газејќи низ снежната ливада, нивното долго волнено крзно се вее на ветрот додека одат, дрвја покриени со снег и драматични планини покриени со снег во далечината, сред-попладневна светлина со лесни облаци и сонце високо во далечината создава топол сјај, ниска поставеност на камерата, и неверојатен поглед снимајќи го големиот крзнен цицач со прекрасна фотографија, длабочина на поле (depth of field).

Промпт: филмски трејлер со авантурите на 30-годишен вселенски човек облечен во црвена волнена плетена кацига за мотоцикл, сино небо, солена пустина, кинематографски стил, снимен на филм од 35 mm, живи бои.

Вештачката интелигенција го анализира барањето и креира цел свет врз база на видеата на кои е тренирана. Она што е поимпресивно е дека Sora разбира и што треба да се направи со описите од типот: „кинематографски стил“, „снимен на филм од 35 mm“ или „живи бои“.

Видеата се со максимална резолуција 1920х1080 или 1080х1920.

Како функционира Sora

Sora е diffusion model, ова значи дека на почеток видеото е статички шум, и во процесот на генерирање во повеќе чекори шумот се отстранува. Сѐ започнува со анализа на промптот. Sora го анализира текстот; пронаоѓа кои се релевантни зборови, субјект, локација, акција и слично. Потоа од сетовите видеа на кои е тренирана ги пронаоѓа најсоодветните за овие клучни зборови и полека ги спојува во најсоодветно видео. На крајот ги додава „филтрите“, на пример: гроплан, снимен во 35mm, живи бои, и ги додава „врз“ видеото.

Вештачката интелигенција користи дифузна (diffusion) и трансформативна (transformer) архитектура за креирање на видео. Освен текст-во-видео начинот, за генерирање видеа може да креира и: видео-од-слика, видео-од-видео, продолжување на видео, креирање на „јамки“, генерирање на слики, промена на формат на видео, симулација на виртуелни светови.

Накратко за поинтересните функционалности:

Генерирање на видео од слика

Овозможува генерирање или анимирање на слика која ќе се „качи“ на сервисот.

Генерирање на видео од видео

Функционалноста овозможува промени во веќе готово видео. На пример додавање на некој филтер како „снимен на 35mm филм“ или „живи бои“.

Продолжување на видео

Овозможува додавање на дополнителни фрејмови на почетокот или на крајот од видеото.

Креирање на бескрајни „јамки“

Креирање на видео и спојување на почетокот и крајот да изгледа како видеото никогаш да не завршува.

За повеќе технички детали за како функционира Sora погледнете го блогот на Винцент Коц на Towards Datascience.

Потенцијална рана употреба на Sora

Тешко е во целост да се предвиди како корисниците би ја користеле Sora, веројатно со поголемата достапност овие видеа ќе ги заменат персонализираните роденденски честитки и мемињата со куси видеа за друштвени мрежи.

Секако постои потенцијал и за креирање на куси филмови и анимации од сценарија, или визуелизирање на различни идеи или како во случајот со Toys ‘R’ Us реклами. Ова може да биде одлично и за едукација со додавање на визуелен дел за подобра илустрација на примерите.

Креирање на трејлери или кратки видеа и анимации за објаснување и визуелизација на концепти или додавање на различни ефекти во постоечките видеа.

Безбедноста на вештачката интелигенција

OpenAI објави дека ќе додаде watermark на сите слики кои се генерираат со помош на вештачка интелигенција. Ова ќе помогне да се препознаат генерираните слики, иако отстранувањето на жиговите од сликите не е премногу тешко. Работата на „црвениот“-тим во OpenAI ќе биде уште покритична со додавањето на видеа кои тешко се разликуваат од реалноста.

Дел од мерките кои се веќе преземени се отстранувањето на екстремно насилство, сексуална содржина, омраза, видеа со лица слични на јавни личности од промптовите.

Едно од контроверзните прашања кои ќе продолжат да го следат OpenAI и со Sora е од каде се видеата на кои е тренирана вештачката интелигенција. Одговорот кој го доби Bloomberg е дека видеата се лиценцирани или се јавно достапна содржина.

https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024

Во моментов Sora се тестира за да се спречи потенцијалната злоупотреба на вештачката интелигенција. Технологијата нема да биде достапна за широката јавност додека не се отстрани најголемата опасност, но и со тестирањето веројатно нема да може ниту да се претпостават сите начини на кој напаѓачите ќе се обидат да ја злоупотребат вештачката интелигенција.

Последен пат OpenAI го тестираше GPT-4 моделот. Тестовите траеја 6 месеци од објавата до јавната достапност. Ако се повтори ова искуство Sora би можела да биде достапна во јули или август. Ова е период кој ќе овозможи ако не се внимава на безбедноста, претседателските избори во САД да бидат преполни со генерирани видеа кои би можеле да му наштетат на демократскиот процес.

Cookie	Duration	Description
itmkhascookiez-checkbox-analytics	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност. Колачето се користи за да се зачува изборот на корисникот за колачиња во категорија "Аналитика".
itmkhazcookies-checkbox-others	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност. Колачето се користи за да се зачува изборот на корисникот за колачиња во категорија "Други".
itmkhazcookiez-checkbox-functional	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност. Колачето се користи за да се зачува изборот на корисникот за колачиња во категорија "Функционални".
itmkhazcookiez-checkbox-necessary	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност. Колачето се користи за да се зачува изборот на корисникот за колачиња во категорија "Потребни".
itmkhazcookiez-checkbox-performance	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност. Колачето се користи за да се зачува изборот на корисникот за колачиња во категорија "Перформанси".
viewed_itmk_cookiez_policy	11 months	Ова колаче е поставено од плагинот за контрола на прифаќање/одбивање на политиката за приватност и не чува лични податоци.

Кошничка

Кошничката е празна

Toys ‘R’ Us направи речиси цела реклама со OpenAI Sora