Publikacijos. Pasirodė CLARIN-LT mokslininkių straipsnis

2025 liepos 23 d. moksliniame žurnale Kalbų studijos“ (angl. Studies about languages) publikuotas CLARIN-LT tyrėjų – Jolantos Kovalevskaitės, Erikos Rimkutės, Jurgitos Vaičenonienės – straipsnis „Naujų lietuvių kalbos anotuotų tekstynų rengimas: sandaros aspektai“, kuriame pristatomos Lietuvos tekstynų lingvistikos ištakos, atliekama gramatiškai anotuotų lietuvių kalbos tekstynų apžvalga, analizuojama kitų kalbų anotuotų tekstynų situacija, nagrinėjama naujų gramatiškai anotuotų tekstynų sandara, pateikiama išsami tekstyno vieneto sampratos analizė.

Pirmieji tekstynų lingvistikos tyrimai Lietuvoje pradėti rengti VDU Kompiuterinės lingvistikos centre, šiuo metu įvairaus pobūdžio viešai prieinamų tekstynų ir kitų kalbinių išteklių (duomenų bazių, žodynų, kalbos analizės įrankių ir pan.) gausa pateikiama Skaitmeninių išteklių ir tarpdisciplininių tyrimų instituto tinklalapyje ir CLARIN-LT saugykloje.

Tyrėjos straipsnyje atskleidžia anotuotų tekstynų svarbą, pristato morfologiškai anotuota tekstyną „Matas“, automatiškai mor­fologiškai anotuotą „Dabartinės lietuvių kalbos tekstyną“, lietuvių kalbos sintaksiškai anotuota tekstyną „Alksnis“, lietuvių kalbos morfologinės analizės ir sintezės įrankį „Morfuoklis“ (išsamiau apie analizės ir sintezės funkcijas skaitykite Erikos Rimkutės ir Virginijaus Dadurkevičiaus interviu Tour de CLARIN leidinyje). Taip pat aprašo Europos Sąjungos 2024–2026 m. vykdoma NextGenerationEU projektą „Morfologiškai ir sintaksiškai anotuotų tekstynų modeliai apmokymui (auksiniai standartai)“.

Straipsnyje pateikiama detali gramatiškai anotuotų tekstynų raida Lietuvoje, supažindinama su morfologiškai anotuoto lietuvių kalbos tekstyno „Matas“ ir sintaksiškai anotuoto lietuvių kalbos tekstyno „Alksnis“ sudarymo procesu ir esminiais ypatumais. Minimi tarptautiniai standartai (CoNLL-U, MULTEXT-East, PDT (Prague Dependency Treebank), UD (Universal Dependency)) ir lietuviškas standartas „Jablonskis“). Be to, pristatomi kitų kalbų anotuoti tekstynai, aprašomi jų dydžiai ir sandara, atliekamas tekstynų palyginimas. Autorės akcentuoja tekstynų palyginamumą apsunkinančius aspektus ir pasiūlo sprendimą kaip to išvengti. Taip pat pateikia daugiausiai anotuotų tekstynų turinčių šalių sąrašą, supažindina su pirmaujančiais anotuotais tekstynais pagal dydį ir lygina juos su anglų kalbos tekstynais (pagal dydi ir sandarą).

Skaitytojai supažindinami su naujų gramatiškai anotuotų tekstynų sandara, proporcijomis, tekstų tipų, stilių, žanrų ypatybėmis. Aptariami administracinės, mokslinės, grožinės literatūros tekstai, nurodomi tekstų naudojimo apribojimai. Išaiškinami teigiami ir neigiami tekstynų sudarymo aspektai taikant skirtingas sudarymo strategijas: iš pilnų tekstų ir iš fragmentų. Pateikiamos tekstyno vieneto sampratos peripetijos. Paaiškinamos sąvokos: tekstyno suskai­dymas į tekstyno vienetus (angl. tokenization), tekstyno vienetas (token), žodis (word), nežodžis (angl. non-word). Aptariami atvejai kai reikšminis vienetas susideda iš kelių žodžių, ir atvirkščiai, kai vienas žodis apima du reikšminius vienetus. Apžvelgiami iššūkius keliantys teksto elementai – simboliai, skaitmenys, trumpiniai, skyrybos ženklais, pvz., 3M, i600, FB, 25-hour, !mportant. Pateikiamas išsamus probleminių atvejų sąrašas aktualus lietuvių kalbai su paaiškinimais. Taip pat autorės akcentavo, kad teksto skaldymas į tekstyno vienetus yra problematiškas dar ir dėl pasirenkamos programinės įrangos (AntConc, LancsBox, SketchEngine), nes programos skirtingai traktuoja tekstyno vienetus, todėl gaunami nevienodi rezultatai.

Sekite CLARIN-LT naujienas mūsų Facebook paskyroje ir interneto tinklalapyje.

Skelbta Uncategorized

Parašykite komentarą