Špela Vintar
Zlato tistemu, ki ga koplje
Čeprav sta računalništvo in jezikoslovje uveljavljeni znanosti, trdno ustoličeni v univerzitetne programe vsaka na svoji fakulteti, se računalniško jezikoslovje področje, kamor sodijo tudi jezikovne tehnologije - pri nas še vedno obravnava precej mačehovsko. To niti ne preseneča, saj se ga odrekata tudi njegovi matični disciplini med študenti jezikoslovja ni čutiti posebega navdušenja za spoznavanje računalniških orodij za obdelavo jezika, pa tudi med bistveno številnejšimi mladimi računalničarji jih ni prav veliko, ki bi se jih namesto v programske želelo poglabljati v naravne jezike.
Zdi se, da jezikoslovje nekako počiva na lovorikah svoje tisočletne tradicije, hkrati pa se hrani z idealiziranjem svojega predmeta raziskovanja: jezik, najkompleksnejši naravni sistem, ki se je razvil skozi človekovo evolucijo; zmuzljiv in spremenljiv organizem pravil in njihovih izjem; miselni okvir, skozi katerega dojemamo resničnost; neizčrpen medij za raziskovanje pomenov, podpomenov in dvoumnosti; sredstvo za komunikacijo in manipulacijo. Da je jezik za izdelavo jezikovnih orodij, kot so črkovalniki, elektronski slovarji, programi za oblikoskladenjsko analizo, prevajalniki itd., možno in potrebno formalizirati, je nekaterim jezikoslovcem sicer jasno, večina pa ne vidi prav nobene potrebe, da bi svoje področje povezali z binarnim svetom algoritmov in zank, ki se trudi jezik v vseh njegovih inkarnacijah stlačiti v zaporedje ničel in enk. Tako kot za večino humanističnih ved, ki domujejo na Filozofski fakulteti, je tudi za jezikoslovje do nedavnega veljalo, da je računalnik nekoliko bolj trdovratna modna muha, če pa je človek v povezavi z jezikoslovnimi raziskavami omenil statistiko, je s tem resno ogrozil svojo akademsko kariero.
Po drugi strani je treba priznati, da za kvantitativne študije doslej niti ni bilo posebnih pogojev, saj je manjkal osnovni jezikovni vir korpus slovenskega jezika. S projektom FIDA je ta vrzel zapolnjena, vendar korpus sam po sebi ne more spremeniti zadržanega odnosa, ki ga imajo nekateri jezikoslovci oziroma slovenisti do empiričnih in deskriptivnih študij ter predvsem do računalniških orodij. Jezikoslovje je še vedno veda, katere predmet, viri, orodja in rezultati so črne črke na belem papirju, in od te blagodejno zaprašene navade se je težko posloviti.
Pa vendar, časi se spreminjajo in vse več jezikoslovcev se tipaje podaja v svet empirije in besedilnih korpusov, iz langue v parole, kjer jezik nenadoma postane merljiva zbirka udejanjenih primerov rabe. Tu pa se močno spremenijo tudi raziskovalne metode, saj računalniškega korpusa ni mogoče učinkovito uporabljati brez ustreznih računalniških orodij in znanj. Med najpogostejša orodja sodijo t.i. konkordančniki, to so programi, ki v besedilnem korpusu iščejo iskani niz ali besedo in nato izpišejo njene pojavitve skupaj s sobesedilom. Poleg te nudijo takšni programi navadno še druge možnosti, npr. statistično obdelavo korpusa in izdelavo frekvenčnih seznamov, iskanje kolokacij (besed, ki se pogosto pojavljajo v bližini iskanega gesla), indeksiranje, iskanje po vzporednih besedilih, avtomatsko iskanje prevodnih ustreznic itd. Nekateri programi so brezplačno dostopni na internetu, druge je mogoče za dostopno ceno kupiti, vsekakor pa je njihovo poznavanje nujno za vsakogar, ki se namerava resno ukvarjati s korpusi. Najbolj znani predstavniki iz te družine so WordSmith (http://www.liv.ac.uk/~ms2928/homepage.html), WordCruncher (http://www.wordcruncher.com/) in MonoConc/ParaConc (http://www.athelstan.com/mono.html).
Za nekoliko naprednejše raziskave ali bolj specifične potrebe pa obstoječa orodja včasih ne zadoščajo, in tu se pojavi vprašanje, kdo in kako naj bi ta orodja razvijal. Potrebe zanje namreč pogosto izhajajo z ťnašeŤ strani, se pravi s strani jezikoslovcev ali samih uporabnikov jezika, in so formulirane nekako v slogu ť...kako fino bi bilo imeti računalniški program, ki bi znal...Ť, pri tem pa je jasno, da brez vsakršnega poznavanja zasnove tovrstnih orodij in možnosti, ki so z današnjimi znanji in sredstvi uresničljive, ne znamo niti jasno povedati, kaj naj bi tak program znal, kaj šele da bi si predstavljali, kako bi ga bilo možno izdelati. Tudi če zanemarimo dejstvo, da ni povsem jasno, na koga naj bi takšne želje sploh naslavljali, in domnevamo, da ima vsak jezikoslovec v sosednji pisarni na razpolago zdolgočaseno in dela željno skupino izkušenih programerjev, bodo zgolj pobožne želje brez osnovnega razumevanja računalniške obdelave naravnih jezikov težko prinesle pričakovane rezultate. Naj se torej jezikoslovci naučimo programirati? Zamisel se sliši podobno absurdno, kot če bi zlatarskega mojstra pošiljali v rudnik, da si sam nakoplje rudo.
Prav o tem vprašanju se je lani poleti razvnela razprava na znanem internetnem poštnem seznamu corpora (corpora@hd.uib.no), ki združuje številne korpusne jezikoslovce z vsega sveta. Pričela se je pravzaprav kot vprašanje, kako najbolje uskladiti obstoječa korpusna orodja z razvojnimi smernicami v računalniškem jezikoslovju na eni strani in potrebami korpusnih jezikoslovcev na drugi, vendar je iz prispevkov kmalu postalo jasno, da za večino poglobljenih korpusnih študij obstoječi programi ne zadoščajo. Tako se je sprožila dilema, ali naj jezikoslovci v takšnih primerih poiščejo pomoč računalniških kolegov, ali naj bi znali takšne vrzeli zapolniti sami s pomočjo enostavnih programov v enem od ťlažjihŤ oziroma ťbolj fleksibilnihŤ programskih jezikov, kakršen je na primer Perl.
V prid prvemu se je glasilo več argumentov: Naloga jezikoslovcev je, da se poglabljamo v jezik; če naj bi se hkrati poglabljali še v orodja za njegovo raziskovanje, nam ne ostane nič več časa za raziskovanje. Tudi če se jezikoslovci naknadno - pričnemo učiti programiranja, še dolga leta ne bomo sposobni pisati programov, ki bi bili resnično uporabni in bi lahko nadomestili delo izkušenega programerja, zato nima smisla izgubljati časa s tem. Nenazadnje človeku ni treba biti mehanik, da lahko vozi avto podobno lahko jezikoslovci uspešno uporabljamo korpuse, ne da bi zraven pisali še programe. Programiranje je tehnično opravilo, s katerim se obrnemo na najbližjega računalničarja, ki je težavi kos.
Na takšna in podobna stališča pa se je vsula toča odgovorov z nasprotne strani, ki so jo zastopali jezikoslovci, računalničarji in ťmešanciŤ, in so, če povzamemo, trdili nekako takole: Nihče ne pravi, da moramo jezikoslovci s svojimi programerskimi sposobnostmi dohajati izkušene računalniške kolege, vendar so številne naloge, predvsem kadar gre za delo z označenimi korpusi, takšne, da jih je mogoče rešiti z zelo enostavnimi programi in s kreativno kombinacijo obstoječih in lastnih virov. Tu časovni argument ne zaleže osnov programiranja se je mogoče naučiti v enem študijskem semestru, vpogled, ki ga s tem pridobimo v samo zasnovo programov, pa nam prinaša dolgoročne koristi pri nadaljnjem delu. Če bi se vsi jezikoslovci tega sveta z vsakim zahtevnejšim iskanjem po korpusu obračali na računalniške kolege, ti kmalu ne bi mogli početi nič drugega. Omejevanje korpusnih raziskav na možnosti, ki jih nudijo že izdelani programi, onemogoča inovativno izrabo jezikovnih virov in zavira znanstveni napredek če si nikakor nočemo mazati rok s programiranjem, bomo morali tudi vse zahtevnejše korpusne raziskave prepustiti računalničarjem.
Iz vsega povedanega je razvidno, da jezikoslovce čaka naporno, vendar dinamično in vznemirljivo obdobje. Čeprav se v Sloveniji to področje razvija z zamudo in zaenkrat predvsem po zaslugi peščice strokovnjakov, ki skušajo z veliko mero entuziazma razgibati zarjavelo kolesje, je bilo v zadnjem času narejenih nekaj pomembnih korakov, kot sta FIDA (glej Gorjanc, Krek, Stabej) ali ELAN, vzporedni slovensko-angleški korpus, ki je nastal na Institutu Jožef Stefan. Žal niti na tem področju napori niso povsem usklajeni in združeni, ampak se pojavlja za nas tako tipično okopavanje lastnih vrtičkov v okviru določene ustanove.
Slej ko prej pa bo v Sloveniji potrebno premagati še eno oviro, ki jo občutimo predvsem mlajši raziskovalci. Dejstvo, da nobena od slovenskih univerz ne na dodiplomski ne na podiplomski ravni ne ponuja študijskih programov računalniškega jezikoslovja, je vrzel, ki hkrati pojasnjuje počasen razmah jezikovnih tehnologij pri nas in ga še naprej ovira. Uvedba takega študijskega programa je ob pomanjkanju ustreznih strokovnjakov resda težavna naloga, ki pa bi bila če bi univerzi in vse vpletene fakultete kazale pripravljenost ob pomoči drugih institucij in tujih predavateljev morda vendarle uresničljiva. Dotlej pa nas bo rudo kopalo bolj malo.
Nazaj.