
2025 m. lapkričio 3 d. tapo viešai prieinamas ir atviras naudojimui Mažasis lietuvių kalbos vektorizuotas modelis (LT-MLKM-modernBERT), kurį sukūrė Valstybės skaitmeninių sprendimų agentūra (VSSA) kartu su Vytauto Didžiojo universitetu (VDU), UAB Neurotechnology, UAB Tilde Lietuva ir MB Krilas įgyvendindami projektą „Bendrojo lietuvių kalbos tekstyno ir vektorizuotų modelių sukūrimas“. Daugiau informacijos apie projektą pateikiama Skaitmeninių išteklių ir tarpdisciplininių tyrimų instituto svetainėje.
VSSA projekto vadovas yra A. Rakauskas, o tiekėjų grupės vadovas – doc. dr. Andrius Utka.
LT-MLKM-modernBERT – tai maskuotosios kalbos (angl. Masked language model arba sutrumpintai MLM) tipo neuroninis lietuvių kalbos modelis, kuris sukurtas naudojant ModernBERT architektūrą ir iš anksto apmokytas (angl. pre-trained) pasitelkiant Bendrąjį lietuvių kalbos tekstyną (BLKT Lithuanian Text Corpus Stage 3), kurį sudaro daugiau nei 1,87 milijardo žodžių ir 49 milijardai mokymo vienetų (angl. tokens) iš įvairių Lietuvių kalbos šaltinių: naujienų, teisės, akademinių ir viešojo diskurso tekstų. Konteksto ilgis yra 8192 vienetai (angl. tokens), todėl jis efektyviai apdoroja ilgus dokumentus, išlaikydamas lingvistinį tikslumą ir nuoseklumą. LT-MLKM-modernBERT modelis yra aukštos kokybės lietuvių kalbos išteklius su iš anksto apmokytu neuroniniu modeliu, kuris padės plėtoti mokslinius tyrimus dirbtinio intelekto srityje ir pritaikyti skaitmenines inovacijas realiems poreikiams praktikoje.
Išsamūs LT-MLKM-modernBERT modelio duomenys – sandara, paaiškinimai kaip pradėti naudotis šiuo ištekliu, naudojimosi galimybės, iš ankstinio apmokymo duomenys, licensijos tipas ir kita naudinga informacija pateikiama čia. Taip pat sužinokite apie MLKVM validavimo sprendimą.
Mažasis lietuvių kalbos vektorizuotas modelis (LT-MLKM-modernBERT) jau pasiekiamas atvirojoje prieigoje – Hugging Face platformoje.
Žemiau pateikiamas maskuotosios kalbos paaiškinimas, bei skirtumas tarp BERT ir ModernBERT modelių.
Maskuotoji kalba dažnai naudojama Natūralios kalbos apdorojime (angl. Natural language processing arba sutrumpintai NLP), tai yra neuroninio tinklo architektūros tipas ir savarankiško mokymosi technika leidžianti modeliui numatyti nežinomus teksto elementus, remiantis žinomo sakinio dalimi ar platesniu jo kontekstu. Šis mokymosi procesas sukuria turtingą mokymosi aplinką: užfiksuoja dvikryptį kalbos kontekstą, skatina gilesnį sintaksės ir semantikos supratimą tekstiniuose duomenyse.
BERT akronimas reiškia dvikryptį transformacinio kodavimo būdą (angl. Bidirectional Encoder Representations from Transformers), o ModernBERT yra pažangus BERT architektūros patobulinimas, skirtas pagerinti įvairių natūralios kalbos užduočių našumą, pvz., integruoti naujiniai padeda užtikrinti geresnį kalbos apdorojimą ir kontekstinį supratimą.
Skaitykite apie LT-MLKM-modernBERT modelį šiuose šaltiniuose:
Valstybės skaitmeninių sprendimų agentūros straipsnį Sukurtas pirmasis lietuvių kalbos dirbtinio intelekto modelis: lietuvių tyrėjų žingsnis į DI ateitį;
Valstybės skaitmeninių sprendimų agentūros straipsnį Mažasis lietuvių kalbos vektorizuotas modelis;
Lietuvos ryto straipsnį Lietuvių tyrėjų žingsnis į DI ateitį: sukurtas pirmasis lietuvių kalbos dirbtinio intelekto modelis.
Projektu prisidedama prie 2021–2030 metų Lietuvos Respublikos Ekonomikos ir inovacijų ministerijos valstybės skaitmeninimo plėtros programos pažangos priemonės Nr. 05-002-01-07-08 „Kurti technologinius sprendimus ir įrankius, leidžiančius saugiai ir patogiai naudotis paslaugomis“ veiklos „Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra“ įgyvendinimo.
Projektas įgyvendinamas Ekonomikos gaivinimo ir atsparumo didinimo priemonės (RRF) lėšomis.


Parašykite komentarą
Tik prisijungę vartotojai gali komentuoti.