Simon Krek
(urednik pri DZS, d. d.)


Računalniški korpusi v slovaropisju

V slovaropisju besedilno gradivo, zbrano in urejeno na način, ki ustreza slovaropisnim namenom, nikakor ni novost. Večina slovarjev, ki so nastali v predračunalniški dobi, se je opirala na obsežne zbirke iztržkov in citatov, izpisanih iz vezanih besedil in razvrščenih po slovarskih iztočnicah oz. geslih. Če se ozremo na nam najbližji primer, se tako na primer v uvodu v Slovar slovenskega knjižnega jezika lahko poučimo, da je bilo slovarsko gradivo za ta slovar izpisano iz 3.357 enot oziroma 5.128 knjig, in sicer iz leposlovnih del, revij, časopisov, poljudnoznanstvenih del in šolskih knjig. Na podlagi izbranega in obdelanega gradiva je slovaropisec posploševal ugotovitve glede vseh vidikov besede, obdelane v geselskem članku.


Na prvi pogled torej računalniški korpus besedil ni nič drugega kot zbirka klasičnih slovarskih kartotečnih listkov - le na drugem mediju. Vendarle pa digitalna oblika s seboj prinaša dve osnovni prednosti, zaradi katerih je slovaropisje od pojava obsežnih računalniških korpusov doživelo manjšo revolucijo: prva je skoraj banalna, a nikakor ne nepomembna možnost zbiranja takorekoč neomejene količine besedilnega gradiva, po katerem je mogoče - drugič - iskati po poljubnih kriterijih z zmogljivimi računalniškimi iskalnimi orodji, pri čemer je vse gradivo za iskanje dostopno kot celota. Da bi to zadnje pojasnili, se za trenutek vrnimo h kartotečnim listkom. V tem primeru se izpisani citati nahajajo le pod izbrano geselsko besedo, ni pa jih mogoče najti v predalčku z geselsko besedo, ki se nahaja v njeni bližnji okolici. S t.i. metodo popolnih izpisov, po kateri se vsaka beseda izpiše tolikokrat, kolikorkrat se v besedilu pojavi, je bilo že zaradi gargantovske količine dela pred računalniškimi korpusi mogoče obdelati le manjši del gradiva. V primeru gradiva za Slovar slovenskega knjižnega jezika je bilo denimo na tak način izpisanih 30 enot. Pri digitaliziranem korpusu pa se, če uporabimo metaforo, prav vsaka beseda, ki se nahaja v korpusu, pojavlja v svojem predalčku, pri čemer je iskanje mogoče poljubno sestavljati. Iskalni programi - konkordančniki - omogočajo avtomatično sortiranje po besedah, ki se pojavljajo v bližini iskane besede/leksema in s pomočjo statističnih izračunov dajejo podatke o relevantnosti zvez, v katerih se ta pojavlja. Poleg tega je mogoče računalniške korpuse dodatno obdelati, npr. ob besedah vnesti oblikoslovne podatke, s čimer se možnosti pri iskanju dvignejo še na eno - abstraktnejšo - raven višje.


Nove možnosti so spremenile pristop k izdelavi slovarjev. Če so prvi korpusi, ki so nastajali predvsem znotraj akademskih jezikoslovnih skupnosti, še bili omejeni z računalniškimi kapacitetami - tak primer je denimo Brownov korpus z enim milijonom besed - je s skokovitim naraščanjem teh sčasoma prišla na dan ideja referenčnega korpusa, tj. korpusa, katerega besedilni material bi bil zbran po takšnih kriterijih in v takšni količini, da bi odražal trenutno stanje v določenem jeziku. Pri tem je bilo treba upoštevati in korpus uravnotežiti po različnih kriterijih: od regionalne zastopanosti, različnosti medijev, stilne ravni, govorne in pisne komponente itd. Zahteva po uravnoteženosti oz. reprezentativnosti korpusa izhaja predvsem iz potrebe po čimvečji zanesljivosti statističnih podatkov glede pogostosti pojavljanj posameznih leksemov ali leksemskih enot v korpusu, ki slovaropiscu pomagajo pri sprejemanju odločitev tako glede geslovnika kot glede organizacije geselskih člankov. Pri makrostrukturi, tj. sestavi slovarskega geslovnika, tako slovaropisci dobivajo empirične podatke, ki jim pomagajo pri odločitvi glede obsega geslovnika za različne namene oz. velikosti slovarjev. Uporabnik slovarja lahko pričakuje, da bo denimo v slovarju manjšega obsega dejansko zajet del jezika, ki se najpogosteje uporablja, veliki slovarji pa so se znebili t.i. "slovarskih besed" - besed, ki so se pojavljali le v slovarjih in so bile običajno bolj odraz tvorbenih možnosti jezika brez empirične potrditve v dejanski rabi. Na ravni mikrostrukture, tj. organiziranosti geselskega članka so spremembe še radikalnejše. Najbolj opazen je premik od razlaganja (pri enojezičnih slovarjih) ali prevajanja izoliranih geselskih besed (pri dvojezičnih) na frazeologijo oz. večbesedne leksemske enote. Pri analiziranju korpusov se je namreč izkazalo, da veliko število besed visoke pogostosti pojavljanj nima v svojem enobesednem pomenu, temveč zato, ker nastopajo v določenih zvezah, ki jih je treba temu primerno izpostaviti. Pogostost rabe je tako stopila na prvo mesto in v sodobnih slovarjih pogosto na prvem mestu ne najdemo razlag ali ekvivalentov geselske besede, temveč zveze - slovnične ali leksikalne - kjer se ta najpogosteje pojavlja. Tudi osnovne pomene je mogoče razvrstiti s precej večjo mero zanesljivosti, kar je bila stara želja leksikografov, vendar so brez zadostnih empiričnih podatkov nihali med naslanjanjem na etimološki izvor besede in intuitivnim razvrščanjem.


S korpusi so novo dimenzijo dobili tudi primeri rabe geselske besede, ki običajno služijo temu, da abstraktnim razlagam v enojezičnih ali izoliranim prevodom v dvojezičnih slovarjih dodamo informacije o kontekstualnih omejitvah ali semantičnem polju. Ker je prostor v slovarjih običajno omejen ne le z fizičnimi omejitvami, temveč tudi z berljivostjo geselskega članka, so leksikografi začeli ponujati korpuse - ali izbrane dele korpusov - kot dodatek k elektronskim slovarjem, ki jih lahko uporabimo, če ne dobimo zadosti informacij v samem slovarju. Tak primer je denimo angleški slovar Cobuild na plošči CD-ROM.


Omeniti velja tudi, da je z govorno komponento korpusov v slovarje odločneje vstopil tudi govorjeni jezik. Ta del jezika je bil deloma zaradi starejših slovaropisnih načel, deloma pa zaradi "neoprijemljivosti", saj so se v pomanjkanju virov leksikografi lahko zanašali le na intuicijo, relativno zanemarjen. Z načrtnim vključevanjem govorne komponente v korpuse - s transkripcijo posnetih pogovorov - pa je tudi ta del jezika postal obvladljiv za slovarski opis. Vsi sestavljalci korpusov pa poudarjajo, da je zbiranje govorne komponente finančno in časovno najbolj obremenjujoče in zato ga na žalost korpus FIDA ne bo vseboval.


Poleg referenčnega korpusa obstajajo drugi tipi korpusov, ki so namenjeni drugačnim potrebam. Pri dvojezičnem slovaropisju so tako izjemno uporabni t.i. paralelni korpusi, kjer so izvorna in prevedena besedila računalniško obdelana tako, da je mogoče z iskanjem po eni strani korpusa priti do prevodov iskanih enot na drugi strani. Rezultati analiz paralelnih korpusov so uporabni zlasti pri opazovanju, kako prevajalci premoščajo različne vrzeli pri jezikih, tako gramatikalne kot leksikalne, tako da standardne rešitve lahko najdejo svoje mesto v dvojezičnih slovarjih.


Računalniški korpusi so v zadnjih dvajsetih letih postali ne le eden od osnovnih leksikografskih pripomočkov, temveč tudi standarden jezikovni vir vseh uporabnikov, ki se poklicno ukvarjajo z jezikom - od prevajalcev, učiteljev, lektorjev itd. To potrebo so pripoznali tudi v Evropski uniji, kjer na različne načine spodbujajo gradnjo korpusov za večino evropskih jezikov. Sam obstoj korpusov pa pomeni le začetek, saj je za uspešno nadgradnjo ter uporabo potrebno tudi specifično znanje. Tu pa smo v Sloveniji vendarle še na začetku in ne bi bilo napak, če bi to potrebo pripoznali tudi v nekem širšem okviru.





Nazaj.