Интервју со Стојанчо Туџарски, креатор на генераторот на поезија во стилот на Блаже Конески

Avatar img-thumbnail img-circle

во Интервјуа, ИТ.МК

Вештачката интелигенција носи многу интересни придобивки. Неодамна Стојанчо Туџарски на друштвените мрежи сподели дел можностите на имплементацијата на моделот на GPT-2 од Open AI кој го прилагоди за македонски јазик. Со промените вештачката интелигенција можеше да пишува поезија.

Вештачка интелигенција која „пишува“ текстови, па дури и поезија не е новитет. Сепак она што е интересно е дека овој пат е на македонски јазик, и вештачката интелигенција го копира стилот на Блаже Конески.

За креирањето на моделот кој ќе пишува поезија налик на Блаже Конески, г. Туџарски и тимот „Македонајзери“ најпрво мораше да ги тренираат моделите на вештачка интелигенција BERT и GPT-2 да пишуваат на македонски. Дури потоа можеа да започнат да ја тренираат вештачката интелигенција на стилот на пишување на Блаже Конески. Вообичаено тренирањето се прави со многу текстови од авторот за вештачката интелигенција да може да научи да го копира неговиот стил на пишување.

Примери од генерираната поезија:

Јас сакам и да те спомнам.
Очи, пеј!
Напи си, речи!
Спомни си дека си минел, си сетил.
Но, кикиригаат
и како се смеат,
здружи се со дете, и сетил си – и сетил си –
и со мерак
и со викум ти се смее.
Враже, смеј се,
ти бледо чедо!
За пусти вечерни села
за селски пат.
И ти се смееш ѕунливо на шалот,
со очи како жар што горат,
Нели си мрдна
како
што се срамиш од нив
и како што сињи си ја газат,
за себе кажи си:
„Сињи, пеј, лешни си,
јас можам се да ти кажам.
Истај ја, пеј, речи!
Не бој се со дете, сетил си – и сетил си –
ти со него си шетал!
Се потихо се потихо се гласи,
се потихо се гласи,
одошто скован си од соне,
одошто скован си мртов во крвав трк.
Одам назад во мојот сон.
Се потихо се гласи
и јас барам тивко и скришно место.
Се потихо се плиска,
низ прозорец како во гнездо,
и ми се оригами.
Јас жалам дека на брегје црни ми се мрачи,
но тој сепак е тука,
со мојот дух којшто е на брегје,
со твојот дух којшто е на брегот.
Одам назад во мојот живот.
И оди викотно таму каде што срце ми сака,
се потихо се потихо се гласи.
И оди викотно таму каде што си ти –
се потихо се гласи,
се плиска, мине.
Се потихо се потих да те земам таму каде што си,
и таму каде што си ти – се плиска.
И јас го сакам ова место,
но само жалам дека овој повик мој
во мој сон не е,
но видовит и јас го сакам.
Одам таму каде што си ти – соне, и сонет сум,
но само жалам дека си уште жива.

Повеќе за начинот на тренирање како и разликата во поезијата генерирана во неколку чекори во зависност од напредокот на тренингот се достапни на страницата Digital Minds.

За прилагодувањето на вештачката интелигенција, креирањето на текстови со стил како македонски познати автори зборувавме со Стојанчо Тураџиски.

Кажете нѝ нешто повеќе за себе и за тимот со кој работеше на Digital Minds

Пасиониран љубител на вештачка интелигенција. Веќе 11 години го следам развојот, и постојано ги учам новите работи што се појавуваат. Неколку часови секој ден посветувам на читање на новини од оваа област, од разни извори.

Имплементацијата за Шекспир ја правев сам, додека за Блаже Конески беше потребна претходна подготовка, да го имплементираме прво на македонски јазик она што е веќе имплементирано на англиски, за да можеме да преминеме на учење на стилови на пишување од македонски автори.

Најмногу помош за имплементирање на моделите на македонски јазик добив од проф. др. Анастас Мишев, мр. Костадин Мишев и др. Моника Симјановска, сите вработени на ФИНКИ. Во тренирањето на потребните модели со соодветен хардвер помогна Александар Савевски (поздрав и благодарност до него!). За обезбедување на текстови со кои ги тренираме моделите се погрижи др. Игор Трајковски од time.mk. Голема благодарност и до него, без доволно текстови, колку и да се трудевме, сепак не можевме ништо да направиме.

Која е идејата за развој на овој вид на вештачка интелигенција?

Идејата е да се изведе style-transfer во областа на пишување, т.е. да може со помош на вештачка интелигенција да е „научи“ стилот на некој автор, и потоа во тој стил да се генерираат текстови на разни теми, за кои авторите не пишувале.

Тоа веќе неколку години е се прави со слики и генерирање на слики во стиловите на познатите сликари, дури постојат и апликации за мобилните телефони кои го прават токму тоа. Но за style-transfer во областа на пишувањето, до сега нема сретнато пример

Инаку, writing style-transfer во детали го разработив на примерот на Шекспир, публикувано на:

Шекспир очигледно немал можност да пишува текстови во кои би го спомнувал Covid-19, а секако не пишувал ни за Божиќ :-) Во врска со текстовите од Шекспир на тема Covid-19, на LinkedIn бев контактиран од љубител на Шекспир кој воедно се занимава професионално со вештачка интелигенција. Неговата реакција беше „нема шанси, ова е добиено со копирање на делови од текстови од Шекспир и за Covid-19“, за да после 3 недели ми се обрати пак, со информација дека сепак подобро ги разгледал текстовите. Испадна дека за Шекспир постојат статистички модели кои препознаваат текст во негов стил, базиран на појавување на одредени зборови и слогови. Кога ги применил тие статистички алатки врз авто-генерираните текстови, добил математичка потврда дека личат на оние од Шекспир. Тогаш тој објави пост на LinkedIn чија слика ја имам на почетната страна на https://dmind.ai

Користите GPT-2 од Open AI, зошто токму овој модел има ли некакви предности?

Тоа е единствен модел на англиски јазик, и прв од тој тип што воопшто се појави. Со помош на тимот „Македонајзери“, ги тренираме најнапредните јазични модели базирани на вештачка интелигенција BERT и GPT-2 на македонски, и на другите балкански јазици.

До сега ги имаме истренирано BERT на македонски српски, албански, хрватски, црногорски, босански, словенечки и грчки, како и GPT-2 на македонски и српски. Привршуваме со тренирање и на хрватски и словенечки јазик, а во план се сите останати балкански јазици. Истренираните модели ги објавуваме на сајтот специјализиран за ваков тип на модели за вештачка интелигенција HuggingFace: https://huggingface.co/macedonizer. Инаку, вакви модели до сега беа истренирани на англиски, германски, француски, италијански, руски, кинески, персиски и турски јазик. Ние ги додаваме и јазиците на балканските народи на тој список.

Има ли разлика кога се тренира вештачката интелигенција на англиски и македонски јазик?

Во софтверски код, нема. Има разлика во појдовните модели GPT-2 за англиски и македонски. За македонскиот јазик моравме ние да го тренираме од почеток, што одзема доста време и процесирачки ресурси.

Веќе го завршивте тренингот со текстови од Блаже Конески. Може ли да очекуваме  додавање и на други македонски автори?

Секако. Веќе имам собрано текстови потребни за тренирање на модели кои автоматски би генерирале поезија во стилот на Кочо Рацин и Ацо Шопов, во соодветен формат подготвен за тренирање на невронската мрежа. Во план се и српски писатели, со оглед на тоа што веќе го имаме истренирано GPT-2 за српскиот јазик. Секако, таму нема да застанеме :-) Технологијата ја имаме, секој нов автор е работа само на обезбедување негови текстови, нивна подготовка, и пуштање на софтверот за тренирање во погон.

Според вас како ќе изгледа иднината на професиите кои можат да ја користат оваа вештачка интелигенција? Кои ќе бидат најголемите придобивки?

Најмногу корист можат да имаат контент креаторите. Наместо да смислуваат нови и нови идеи како да формулираат текст на некоја тема, веќе е можно со GPT-2, а и со GPT-3, само да им се наговести темата, и тие самите да генерираат неколку стотици варијанти на текстови на иста тема. Останува на авторите да го изберат најсоодветниот, и да го дотераат со ситни корекции спрема нивните специфични потреби.

Примери за контролирано автоматско генерирање на текстови со помош на англискиот GPT-2 можат да се видат на:

Овде има проблем со употреба на GPT-3 моделот: иако е помоќен од GPT-2, истрениран е само на англиски, и со оглед на неговата големина не е можно тренирање и на другите јазици со темпо како со GPT-2. Ова се однесува и до фино подесување на GPT-2, да ги поприми стиловите на поедини автори. GPT-3 е едноставно преголем, и такви манипулации со него не се возможни.

Дали веќе заработувате или имате ли план за заработка од технологијата во иднина?

Не, сè уште немам идеја како да се примени ваква технологија на начин да може да се заработува од неа. Она што сум сигурен е дека може да се употреби во персонализирани маркетинг кампањи, каде што на секој таргетиран потенцијален потрошувач, на пример би му се испратила уникатна реклама за некој производ, парфем, на пример, кој би бил спомнат во текст во стилот на Шекспир. Но, контакти со заинтересирани маркетинг или било какви други фирми, до сега не сум имал.

Стани премиум член и доби пристап до сите содржини, специјален попуст на над 2.200 производи во ИТ маркет, верификуван профил и можност за огласување на ИТ Огласник. Плус ќе го поддржиш медиумот кој го градиме цели 16 години!

basic

членство

42 ден./мес

зачлени се

1337

членство

125 ден./мес

зачлени се
* плаќањето е на годишно ниво

Доколку веќе имаш премиум членство, најави се тука.

Subscribe
Notify of
guest
2 Коментари
Newest
Oldest Most Voted
Inline Feedbacks
View all comments
trackback

[…] на македонски автори. А, со кој друг да почнам ако не со Блаже Конески. Уште неколку недели експериментирање со начинот на […]

trackback

[…] – ФИНКИ во состав: Стојанчо Туџарски (со кој муабетевме на темава пред некој месец) , Ташко Павлов, Јована […]