OpenAI го претстави Voice Enginе алатка за клонирање на глас

Аудио парче од петнаесет секунди глас е сѐ што е потребно за креирање на совршена копија на глас. OpenAI, компанијата зад ChatGPT и Sora, претстави вештачка интелигенција која овозможува креирање на синтетички глас. Новиот модел е наречен Voice Enginе. Покрај аудио записот од петнаесет секунди потребен е текст кој всушност е содржината на она што треба да биде „изговорено. Креираниот глас е реалистичен и може да биде емотивен.

OpenAI ја има технологијата уште од 2022 година, и ја користи за сопствениот text-to-speech API и ChatGPT Voice and Read Aloud.

Стравот од злоупотреба е една од причините што компанијата сѐ уште не ја отворила технологијата за јавноста, иако некои од партнерите на OpenAI имаат пристап и ја користат. На пример, Spotify ја користи технологијата за надсинхронизација на поткастот на Лекс Фридман на различни јазици.

„Истовремено, преземаме внимателен и информиран пристап кон поширока достапност поради потенцијалот за злоупотреба на синтетичкиот глас. Се надеваме дека ќе започнеме дијалог за одговорно создавање на синтетички гласови, и како општеството ќе може да се прилагоди на овие нови способности. Врз основа на овие разговори и резултатите од овие помали тестови, ќе донесеме поинформирана одлука за тоа дали и како да ја отвориме оваа технологија.“, велат од OpenAI.

OpenAI започна внимателни тестови за Voice Enginе во 2023

Првите тестови кои треба да покажат некои од потенцијалните примени се започнати од минатата година и ако отидете на веб страницата на OpenAI може да слушнете дел од примерите, кои мора да признаеме звучат навистина импресивно. Околу десетина компании го користат моделот за развој на сопствени технологии.

Компанијата Age of Learning работи на технологија која ќе им помогне на луѓе кои не знаат да читаат и на деца. Со помош на Voice Engine може да креираат аудио содржина од текстот кој го користат. Дополнително, со помош на GPT-4 генерираат и персонализирани одговори за учениците.

HeyGen работи на преведувач наменет најмногу за видео и поткасти. Гласот кој ќе се синтетизира ќе биде копија на актерот или водителот, и содржината ќе може да се генерира на повеќе јазици. Генерирањето на англиски глас од семпл на говорник кој зборува француски ќе биде со француски акцент.

Некои од технологиите како онаа на Dimagi се користат за подобра здравствена заштита во рурални средини. Dimagi работи на технологија која ќе овозможи различни клучни услуги, на пример советување за мајки кои дојат. За да им помогне на здравствените работници да ги развијат своите вештини, користат Voice Engine и GPT-4 да генерираат интерактивни, повратни информации на јазикот на секој работник, вклучително и свахили или повеќе неформални јазици како Шенг, јазик со мешан код популарен во Кенија.

HeyGen 15 секунден аудио семпл
HeyGen генериран превод и синтетизиран говор на шпански јазик

Она што е подеднакво интересно е цената. За еден милион карактери или околу 162 500 зборови, цената ќе биде 15 долари. Ова е доволно за 18 часа аудио содржина. Со оваа цена Voice Engine чини околу 1 долар на час, пренесе TechCrunch.

Тренирање на моделот

За жал се чини дека и овој пат ќе имаме „мистерија“ кога се во прашање податоците на кои е тренирана вештачката интелигенција. Џеф Харис од OpenAI неодамна имаше интервју токму за Voice Engine, а на прашањето „Од каде се податоците за тренирање?“, одговори единствено „Мешавина од лиценцирани и јавно достапни податоци“.

Самите сетови на податоци кои се користат за тренирање во голема мерка влијаат на квалитетот на понуденото решение. Поради ова можеби и не е изненадување што компаниите не секогаш сакаат да откријат од каде доаѓаат. Дополнително, не е ретка ниту праксата да се користат податоци за кои добивањето дозвола во најмала рака е сомнително, па потврдата за некои вакви податоци би можела да доведе и до тужба.

Аудио парчето кое корисниците го „качуваат“ на сервисот, воопшто не се користи за тренирање. Наместо ова од него се земаат маркери за да се генерира глас кој ќе биде копија на говорникот. Аудио фајлот штом се искористи се брише, па на оваа страна не постои опасност од злоупотреба.

Deepfakes токму на време за изборите

Веројатно дел од најголемите проблеми кои ги загрижуваат луѓето се креирање на гласови кои се користат за измами. Без разлика дали станува збор за синтетизирање на гласови за измама на гласачи, вработени во банки, или за креирање на лажни пораки од членови на семејството за финансиска изнуда, синтезираните гласови ќе бидат проблем.

Уште во јануари, благодарение на deepfake аудио, гласачите во Њу Хемпшир беа измамени да не одат на гласање. Во автоматизирани телефонски повици беше користен гласот на претседателот Џо Бајден кој им велеше на гласачите да не гласаат. Одговорноста за повиците ја презема консултантот на неколку против-кандидати на Бајден, Стив Крамер. Лигата на жени гласачи од Њу Хемпшир (League of Women Voters) отвори судски спор против креаторите на лажните повици.  

Дополнително поради оваа измама, Њу Хемпшир донесе закон со кој сите политички реклами во кои се користи deepfake ќе мора да имаат јасно видлива објава за ова. Во објавата ќе мора да има објаснување во кое ќе пишува дека сликата, гласот или видеото се манипулирани или генерирани, пишува Yahoo.

Стани премиум член и доби пристап до сите содржини, специјален попуст на над 2.200 производи во ИТ маркет, верификуван профил и можност за огласување на ИТ Огласник. Плус ќе го поддржиш медиумот кој го градиме цели 16 години!

basic

членство

42 ден./мес

зачлени се

1337

членство

125 ден./мес

зачлени се
* плаќањето е на годишно ниво

Доколку веќе имаш премиум членство, најави се тука.

Добивај известувања
Извести ме за
guest
0 Коментари
Inline Feedbacks
View all comments