Искористување на GPT-2: Македонајзер – од идеја до резултат

Ова е гостински текст на Стојанчо Туџарски, експерт за вештачка интелигенција и креатор на јазични модели за македонскиот, и сите останати балкански јазици.

Вовед

Во 2017-та Google со својот познат натпис “Attention is all you need” ја обзнанува во јавноста својата нова архитектура на невронски мрежи Transformers. Како последица од неа, пет години подоцна, светот се соочува со мини-индустриска револуција. Овој натпис е посветен на тоа како јас ја искористив оваа архитектура, кога сѐ уште не беше волку многу експлоатирана, со цел да креирам јазични модели за македонскиот, и сите останати балкански јазици, и на крај, да стигнам до можност за копирање на стил на пишување поезија на наши познати поети.

Почетоци

Првиот познат ВИ модел кој најде реална примена од Transformers архитектура беше BERT, јазичен модел трениран на начин да биде хранет со огромни количини на секакви текстови најдени на Интернет, како и книги, на англиски јазик. Својата реална примена веднаш ја најде во самиот Google, станувајќи ново достигнување во информатичката технологија која најбрзо го поминува патот од појавата до фазата за биде користена секојдневно од милиони корисници.

Придонесот е можноста на моделот да две различни содржини кои на човек му изгледаат слични, бидат третирани како блиски една до друга и од машината. Ова го означи почетокот на градење алатки на ВИ „свесни” за контекстот на содржината со која оперираат. Тоа како последица ја донесе можноста да бидат тренирани разни модели на ВИ, кои земајќи го веќе истренираниот BERT модел, со десет пати помалку податоци за тренирање постигнуваат исти, а многу чести и подобри резултати, од моделите чие тренирање почнува од почеток. Со оглед на тоа што многу често, најскапиот дел од работата на тренирање на некој модел на ВИ е добивање на квалитетни податоци за тренирање подготвени од луѓе, ова значеше зголемување на достапноста на можноста на употреба на алатките на ВИ во разни високо-специјализирани области.

Следен јазичен модел изграден на база на Transformers беше GPT, набргу после кој следеше и GPT-2. Наследувајќи ја можноста да бидат „свесни” за контекстот на текстот кој е внесен на влез, GPT-2 стана многу успешна алатка која автоматски генерира најверојатно продолжување на тој текст со неколку стотици нови зборови, запазувајќи го контекстот. Една од можните примени: генерирање на лажни вести „на кило”.

Набрзо после појавувањето на GPT-2 се појавија и мали, и незабележани напори да тој, со малку текстови од некоја личност, се дотренира до состојба да може да ја имитира таа личност.

Шекспирајзер

Можноста за имитирање на стилот на пишување, беше едно огромно WOW. Доколку успеам да го имитирам Шекспир, тогаш веројатно би бил во можност да имитирам било кој. Обидот почна со проектчето Шекспирајзер, и резултат беше невронска мрежа способна да генерира поезија во стилот на Шекспир, и тоа многу. Доколку некој сака неколку гигабајти нека ми пише на [email protected]…

Следен предизвик беше да се види што ќе излезе како резултат на дотренирување на GPT-2 модел со мешавина од текстови во разни стилови. После неколку недели обидување, резултатот беше модел кој автоматски генерира научни текстови за Корона, во стилот на Шекспир. Имаше попат и еден модел кој генерира новогодишни и божиќни песни во негов стил, иако тој самиот никогаш не напишал такво нешто. Па модел само со дијалозите меѓу Ромео и Јулија. Интересно, во автогенерираните текстови, што и да правев, многу повеќе текстови се генерираа од Јулија отколку од Ромео. Зошто, не знам.

Конечно Македонајзер

Кога веќе не беше предизвик да се експериментира со трансфер на пишување на англиски јазик, следниот беше тоа да се направи на македонски.

Е, тука требаше да се почне од нула, бидејќи немаше GPT-2 модел истрениран на база на текстови на македонски јазик. Па почнав да собирам такви текстови, и најголемата помош тука ми ја даде Игор Трајковски од Time.mk. Со неколку гигабајти текстови веќе бев во состојба да направам нешто што ќе личи на GPT-2 на Македонски јазик. Ама, кога веќе ги имав текстовите, зошто не и BERT … Со помошта на машината со три брзи графички картички на Александар Савевски, и после 6 месеци, ги имавме двата модели. Достапни се на https://huggingface.co/macedonizer. Сега, кога веќе може да се тренираат вакви модели за македонски јазик, зошто не и за останатите балкански јазици, кога се уште ги нема … уште 6 месеци, и резултатот беше истренирани BERT и GPT-2 јазични модели на сите балкански јазици, достапни за слободна употреба на истиот линк.

Следно: Блаже Конески

Со GPT-2 на македонски јазик, веќе беше технички можно да се креираат модели на ВИ кои би имитираат стилови на пишување на македонски автори. А, со кој друг да почнам ако не со Блаже Конесски. Уште неколку недели експериментирање со начинот на форматирање на текстовите, за да се добијат употребливи резултати, … и, стиховите почнаа да се појавуваат. Конечно, striki happy.

Па понатаму со…

И, сега веќе, нели предвидливо: кога веќе може со Блаже Конески, зошто не и со Ацо Шопов, и Кочо Рацин, и, со Томе Велков, бивш колега од Нетцетера, и поет. И, кога веќе може ова на Македонски јазик, зошто само на македонски … Резултат: модел кој генерира автоматски поезија во стилот на Десанка Максимовиќ.

Попат, сите спомнати модели се јавно достапни на Huggingface сајтот, најпознат како платформа за објавување на вакви ВИ модели, https://huggingface.co/macedonizer. Исто така, https://dmind.ai е сајт на кој ставав примери од автоматски генерираните стихови, а попат таму со Ctrl-C/Ctrl-V ги ставав и целосните логови од тренирањето на моделите, од сите погоре спомнати автори, и модели тренирани на неколку различни начини. Таму може да се забележи како машината постапно почнува да генерира текстови кои личат на поезија, структурирани се како стихови, па почнуваат да заличуваат на авторите со чии текстови се одвива тренирањето, за на крај да станат машини кои знаат да ги повторуваат само текстовите со кои хранети, и ништо друго. А како такви се неупотребливи, бидејќи нели, веќе напишаната поезија на поетите ја знаеме сите. Трикот е да се искористи модел кој само што не ја достигнал таа фаза, кога комплетно не го заборавил сето она со што бил хранет претходно.

За крај

Од научна и академска гледна точка, за испитување на можностите на веќе истренираниот BERT модел на Македонски јазик, и негово дотренирување за различни поспецифични задачи од областа на ВИ, работата ја одработија колегите од ФИНКИ: Моника Симјановска, Костадин Мишев, Јована Добрева, Ташко Павлов, и другите. Резултат: научниот труд „MACEDONIZER – The Macedonian Transformer Language Model”, достапен на https://www.researchgate.net/publication/366753244_MACEDONIZER_-_The_Macedonian_Transformer_Language_Model. Едно ептен големо благодарам до сите што допринесоа во пишувањето на трудот, и секако до Анастас Мишев, кој не спои.

И што после крајот?

Секако, со ова не се исцрпени сите можности што се технички релативно лесно остварливи, треба „само“ време и доволно брз компјутер… Тоа што може да се направи, е Grammarly (https://www.grammarly.com) за македонски и албански јазик.

Некој заинтересиран да учествува? Веќе знаете: [email protected].

Кошничка

Кошничката е празна

Искористување на GPT-2: Македонајзер – од идеја до резултат

Вовед

Почетоци

Шекспирајзер

Конечно Македонајзер

Следно: Блаже Конески

Па понатаму со…

За крај

И што после крајот?

IT.mk редакција

Вовед

Почетоци

Шекспирајзер

Конечно Македонајзер

Следно: Блаже Конески

Па понатаму со…

За крај

И што после крајот?

IT.mk редакција

Поврзани статии

w00t w00t