Rengiamas lietuvių kalbos sintaksiškai anotuotas tekstynas ALKSNIS

MEDIS1Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centro mokslininkai 2015 m. pradėjo rengti lietuvių kalbos sintaksiškai anotuotą tekstyną (angl. treebank; toliau vartojame akronimą ALKSNIS, t. y. anotuotas lietuvių kalbos sintaksinis tekstynas). Tai viena iš projekto Lietuvos narystė tarptautinėje mokslinių tyrimų infrastruktūroje – Bendrosios kalbos išteklių ir technologijų infrastruktūra Europos mokslinių tyrimų infrastruktūros konsorciumas veiklų.

ALKSNĮ sudarys apie 2300 sintaksiškai anotuotų sakinių (iš bendrosios ir specialiosios periodikos, grožinės ir administracinės literatūros). Tekstyno tvarkymas bus baigtas 2016 m. pabaigoje. ALKSNIO pagrindas – lietuvių kalbos sintaksiniu analizatoriumi sugeneruoti sintaksinių priklausomybių medžiai (angl. dependency trees) PML (angl. Prague Markup Language) formatu. Šis formatas leidžia vizualizuoti ir redaguoti sintaksinius medžius naudojant TrED[1] redaktorių.

Kiekviena medžio viršūnė atitinka sakinio žodį, skyrybos ženklą ar kitą sakinio vienetą (simbolį, skaitmenį ir pan.). Prie visų žodžių tokia eilės tvarka nurodoma: 1) konkreti sakinyje pavartota žodžio forma, 2) antraštinė, t. y. žodyninė, forma, dar kitaip vadinama lema, 3) morfologinės pažymos (kalbos dalis ir gramatiniai požymiai) ir 4) sintaksinė funkcija (subjektas, objektas ir t. t.). Priklausomybės ryšiai tarp žodžių yra nurodomi briaunomis.

ALKSNYJE nurodomos morfologinės pažymos, sudarytos remiantis MULTEXT-East formato[2] pavyzdžiu. Sintaksiškai anotuoti sakiniai tvarkomi pagal VDU KLC rengiamas gaires, kurios sudarytos remiantis Prahos priklausomybių medžių banko (angl. Prague Dependency Treebank) anotavimo taisyklėmis. Visi automatiškai anotuoti sakiniai yra tikrinami ir rankomis taisomi kalbininkų grupės.

Pateikiame dalį iki šiol sintaksiškai anotuotų sakinių (sakiniai nuolatos yra tvarkomi, tikslinamos pažymos, todėl ateityje bus pateikta atnaujinti duomenys). Norint atsidaryti failus su plėtiniu .pml, reikia įsidiegti TrED redaktorių, prie anotuotų failų įsikelti šio redaktoriaus stiliaus failą „antisDplus_schema“. Įsidiegus ir pirmą kartą atsidarius TrED redaktorių, reikia nurodyti, kokią informaciją norite matyti prie kiekvienos sintaksinio medžio viršūnės. Reikia paspausti burtų lazdelės paveiksliuką dešiniame kampe viršuje prie „Style:“) ir surašyti tokį kodą:

context: .*
hint:
node:${lemma}
node:${form}
node:${ana}
node:${syfun}
text:${form}

Išsaugokite šią  informaciją, kad nereikėtų kiekvieną kartą iš naujo surašyti kodo.

Neturintiems minėto redaktoriaus rekomenduojame peržiūrėti pdf failus.

[1] Žr. https://ufal.mff.cuni.cz/tred/ (rekomenduojame atsisiųsti ir įsidiegti versiją kartu su Strawberry Perl)

[2] Žr. http://nl.ijs.si/ME/V4/msd/html/index.html

Posted in Uncategorized

Parašykite komentarą