Преку адаптација на Mistral-7B, група на македонски ИТ професионалци и ентузијасти го креираа MKLLM-7B, првиот open-source LLM на македонски. Истиот е истрениран со ограничени ресурси и според неговите креатори, тој одлично го владее македонскиот јазик и е значително подобар од моделите со слична големина.
Во интервју за ИТ.мк, Никола Трајков, ML engineering тим лид во Things Solver и дел од иницијаторите на проектот, говори за мотивацијата позади тренирањето на моделот, како и за сите негови функционалности и можности за развој.
ИТ.мк: Колку време беше потребно за да се истренира моделот?
Никола Трајков: Целиот проект траеше околу три месеци. На проектот главно работевме во слободно време така да можеби може и побрзо да се заврши, посебно сега кога го поминавме патот еднаш и го имаме потребното знаење. Една од главните цели на проектот беше и учење, па доста време поминавме и во истражување и trial-and-error експерименти.
Самото тренирање на моделот откако ги најдовме погодните параметри беше релативно кратко поради релативно малиот тренинг сет. Главниот тренинг сет за base моделот е околу 300 милиони токени. Самиот тренинг беше 2 епохи и траеше околу 1 ден на 8 x NVIDIA RTX A6000. Дополнително и за секоја од двете fine-tune верзии Translate и Instruct имавме тренинг од по 5-6 часа.
Каква може да биде неговата примена и кои се вашите очекувања во поглед на натамошниот развој?
Јас сметам/се надевам дека ќе има многу примени и дека ќе биде прифатен пред се од AI заедницата. Самите fine-tune верзии како што споменав се повеќе proof-of-concept за тоа што е можно со base моделот. Двете моментално се тренирани на доста мали сетови од по само 100k примери па не се можеби максимумот што може да се добие, меѓутоа и со ваквиот тренинг јас сметам дека се баш солидни.Веќе имаме и quant верзии кои можат да се deploy на обичен лаптоп преку алатки како olllama и open-webui на пример, за целосно локален deployment. На Mac M1 добивам околу 15 tokens/s што е баш солидно.
Но сепак, мислам дека главниот бенефит би бил доколку некој има свои податоци и сака да развие нешто баш свое, да го земе base моделот и да го специјализира за одредена задача. Верувам дека на овој начин може да се развиваат модели конкретно обучени за одредени задачи кои се мали (7B) што значи лесни и евтини за deployment, а имаат солидни перформанси за задачата за која се обучени.Конечно се надевам дека моделот и сите други ресурси кои ги објавивме ќе му се најдат на секој кој би сакал да научи нешто повеќе или да прави свои експерименти.
Во однос на натамошен развој, во иднина мислам дека е важно да се фокусираме на креирање на ресурси (дата сетови) на македонски. Тоа е она што моментално најмногу недостасува. Од обични инструкциски сетови па се до покомплексни сетови кои може да се користат за работи како preference optimization.
Што се е потребно за да се дојде и до развој на повеќе слични модели на македонски јазик?
Пред се ни требаат ресурси на македонски, тоа е моментално најголемата болка. Дата сетовите што ги објавивме како дел од овој проект се ако не први, меѓу првите од овој тип јавно достапни на Hugging Face. За да може да се развиваат модели ќе ни биде потребно да креираме и да објавуваме што повеќе ресурси. Ни треба активна заедница која ќе сака да допринесе, да сподели и да поттикне понатамошно истражување.И конечно потребни се и одредени парични средства или пристап до GPU машини. Овој проект беше целосно финансиран од наши лични средства, но ако сакаме да бидеме конкурентни и да одржиме чекор ќе мора да постои и некаква институционална поддршка дали како грантови за cloud GPU дали како обезбедување пристап до некои GPU машини по факултетиве (мислам дека имаат на ФИНКИ). Ова е важно сметам и од национален аспект (разбирање како AI функционира, како може да се искористи итн.) како и од аспект на поддршка на нови стартапи.
Моделите достапни на Hugging Face:
– MKLLM-7B: основен модел погоден за тренирање и специјализација на конкретни задачи.
- модел: https://lnkd.in/dyVyhDNg
– MKLLM-7B-Translate: верзија прилагодена за превод МК-EN и EN-MK
- модел: https://lnkd.in/dWwy8Sf3
- демо: https://lnkd.in/ddQiQCzK
– MKLLM-7B-Instruct: верзија прилагодена за следење инструкции и разговор
- модел: https://lnkd.in/dyKCShdB
- демо: https://lnkd.in/dUq7tgeG
Податоци:
- Евалуациски сетови:
- https://lnkd.in/dBtZY-BA
- https://lnkd.in/dz6v92mY
- https://lnkd.in/d6mRUdNQ
Сетови за инструкции:
Бонус:
– Мини апликација за евалуација на LLMs на македонски
Неколку напомени:
- Instruct и Translate верзиите во оваа фаза претставуваат MVP, тренирани се на релативно мали сетови, во план е во иднина да се направат дополнителни итерации.
- Base моделот е целосно open-source, додека за останатите два се користени и датасетови за кои не е баш најјасна правната ситуација, па затоа се достапни само за истражувачки и некомрецијални цели.
- Поради ограничени ресурси демоата ги сервираме преку HF, па очекувано е да оди малку поспоро. Дополнително HF има одредени лимити по корисник, па ако добиете известување дека сте ја надминале квотата почекајте некое време па пробајте подоцна.