MKLLM-7B e првиот македонски open-source голем јазичен модел

Gemini

Преку адаптација на Mistral-7B, група на македонски ИТ професионалци и ентузијасти го креираа MKLLM-7B, првиот open-source LLM на македонски. Истиот е истрениран со ограничени ресурси и според неговите креатори, тој одлично го владее македонскиот јазик и е значително подобар од моделите со слична големина.

Во интервју за ИТ.мк, Никола Трајков, ML engineering тим лид во Things Solver и дел од иницијаторите на проектот, говори за мотивацијата позади тренирањето на моделот, како и за сите негови функционалности и можности за развој.

Самото тренирање на моделот откако ги најдовме погодните параметри беше релативно кратко поради релативно малиот тренинг сет. Главниот тренинг сет за base моделот е околу 300 милиони токени. Самиот тренинг беше 2 епохи и траеше околу 1 ден на 8 x NVIDIA RTX A6000.  Дополнително и за секоја од двете fine-tune верзии Translate и Instruct имавме тренинг од по 5-6 часа.


Јас сметам/се надевам дека ќе има многу примени и дека ќе биде прифатен пред се од AI заедницата. Самите fine-tune верзии како што споменав се повеќе proof-of-concept за тоа што е можно со base моделот. Двете моментално се тренирани на доста мали сетови од по само 100k примери па не се можеби максимумот што може да се добие, меѓутоа и со ваквиот тренинг јас сметам дека се баш солидни. 

Веќе имаме и quant верзии кои можат да се deploy на обичен лаптоп преку алатки како olllama и open-webui на пример, за целосно локален deployment.  На Mac M1 добивам околу 15 tokens/s што е баш солидно.


Но сепак, мислам дека главниот бенефит би бил доколку некој има свои податоци и сака да развие нешто баш свое, да го земе base моделот и да го специјализира за одредена задача. Верувам дека на овој начин може да се развиваат модели конкретно обучени за одредени задачи кои се мали (7B) што значи лесни и евтини за deployment, а имаат солидни перформанси за задачата за која се обучени.

Конечно се надевам дека моделот и сите други ресурси кои ги објавивме ќе му се најдат на секој кој би сакал да научи нешто повеќе или да прави свои експерименти.


Во однос на натамошен развој, во иднина мислам дека е важно да се фокусираме на креирање на ресурси (дата сетови) на македонски. Тоа е она што моментално најмногу недостасува. Од обични инструкциски сетови па се до покомплексни сетови кои може да се користат за работи како preference optimization.

И конечно потребни се и одредени парични средства или пристап до GPU машини. Овој проект беше целосно финансиран од наши лични средства, но ако сакаме да бидеме конкурентни и да одржиме чекор ќе мора да постои и некаква институционална поддршка дали како грантови за cloud GPU дали како обезбедување пристап до некои GPU машини по факултетиве (мислам дека имаат на ФИНКИ). Ова е важно сметам и од национален аспект (разбирање како AI функционира, како може да се искористи итн.) како и од аспект на поддршка на нови стартапи.

Моделите достапни на Hugging Face:

– MKLLM-7B: основен модел погоден за тренирање и специјализација на конкретни задачи.

– MKLLM-7B-Translate: верзија прилагодена за превод МК-EN и EN-MK

– MKLLM-7B-Instruct: верзија прилагодена за следење инструкции и разговор

Податоци:

Сетови за инструкции:

Бонус:

– Мини апликација за евалуација на LLMs на македонски

https://lnkd.in/d9b2JC76

Неколку напомени:

  • Instruct и Translate верзиите во оваа фаза претставуваат MVP, тренирани се на релативно мали сетови, во план е во иднина да се направат дополнителни итерации.
  • Base моделот е целосно open-source, додека за останатите два се користени и датасетови за кои не е баш најјасна правната ситуација, па затоа се достапни само за истражувачки и некомрецијални цели.
  • Поради ограничени ресурси демоата ги сервираме преку HF, па очекувано е да оди малку поспоро. Дополнително HF има одредени лимити по корисник, па ако добиете известување дека сте ја надминале квотата почекајте некое време па пробајте подоцна.

Стани премиум член и доби пристап до сите содржини, специјален попуст на над 2.200 производи во ИТ маркет, верификуван профил и можност за огласување на ИТ Огласник. Плус ќе го поддржиш медиумот кој го градиме цели 16 години!

basic

членство

42 ден./мес

зачлени се

1337

членство

125 ден./мес

зачлени се
* плаќањето е на годишно ниво

Доколку веќе имаш премиум членство, најави се тука.

Добивај известувања
Извести ме за
guest
0 Коментари
Inline Feedbacks
View all comments