Marko Stabej
(docent za slovenski knjižni jezik in stilistiko na Filozofski fakulteti Univerze v Ljubljani)
Korpus FIDA: nam računalnik lahko pokaže (slovenski) jezik?
"Nekaj storiti za slovenski jezik..."
Kadarkoli nanese beseda na slovenski jezik, ne glede na to, v kakšni družbi in ob kakšni priložnosti, se praviloma razpoloženje zresni. Tudi laiki prevzamejo nase odgovornost presoje, kaj je v njem lepo in kaj narobe, za kaj je treba še posebej skrbeti in kaj negovati, kaj žal izumira, kaj smo po nemarnosti že izgubili. Razen očitnih odpadnikov in nemarnežev so si Slovenci in Slovenke v končni oceni vsi edini: za ta naš jezik je treba nekaj narediti.
Nič ne bi moglo biti po eni strani manj, po drugi strani pa bolj res. Prepričanje, da je sleherni govorec odgovoren za slovenski jezik v celoti, je napačno in zavajajoče. S precejšnjo gotovostjo se sicer da ugotoviti, od kod prepričanje izvira, vendar ni zato nič manj napačno. Slehernik je res odgovoren za jezik, vendar predvsem za svojega; njegova odgovornost za slovenski jezik kot tak pa je do neskončnosti posredna in oddaljena. In v ozadju prepričanja, da je za jezik treba nekaj storiti, je seveda drugo prepričanje: to, da z jezikom nekaj ni v redu. Z resnega jezikoslovnega stališča je ta trditev v veliki meri nevzdržna: s slovenskim jezikom je vse v najlepšem redu, vprašanje je le, kako je z govorci slovenskega jezika. Z njimi je narobe edinole to, da nekateri niso več pripravljeni uporabljati slovenskega jezika tam, kjer bi ga lahko in kjer bi ga celo morali, in to, da niso pripravljeni prevzeti odgovornosti za jezik svojega lastnega izražanja, prelagajo jo na druge, utapljajo pa se v domnevni odgovornosti za jezik v celoti.
Po drugi strani pa je za slovenski jezik res najbrž treba nekaj storiti. Zakaj in kaj, kdo in kako? Predvsem ga je treba nenehno spoznavati. Najbrž so za to odgovorni slovenski in drugi slovenistični jezikoslovci, pa ne samo oni. Na podlagi spoznanja, kaj in kakšen slovenski jezik vse je, nato stečejo jezikoslovna dela, ki so v svojih uporabnih odvodih slovnicah, slovarjih in drugih priročnikih nujna za delovanje knjižnega, standardnega jezika na vseh področjih javnega življenja in ponujajo priložnost uporabnikom jezika, da za svoja besedila prevzemajo polno odgovornost.
Raziskovalno spoznavanje slovenskega jezika poteka že od 16. stoletja naprej, z najrazličnejšimi teoretskimi, kulturnimi, idejnimi in sociološkimi ozadji. Rezultati so bili v nekaterih obdobjih skopi, v drugih bogati in mednarodno primerljivi. Kako je s tem danes? Temeljna priročniška dela akademijska Slovar slovenskega knjižnega jezika in Pravopisna pravila ter Toporišičevo Slovensko slovnico, sicer v slovenskem prostoru imamo, toda vse bolj jasno postaja, da s svojo dinamiko in metodo nastajanja in izhajanja ne zadoščajo vsem potrebam na tem področju. Kot vsak drug ťkulturniŤ jezik (seveda so načeloma vsi jeziki kulturni, toda nekateri so razbremenjeni civilizacijskega, informacijskega, komunikacijskega in tehnološkega stresa, v katerem živi t. i. ťzahodniŤ svet, in jih imamo zato zmotno za manj kulturne) se tudi slovenski jezik nenehno spreminja in svoje izrazne potenciale prilagaja in širi glede na nove poimenovalne in sporazumevalne potrebe, gledano zelo na široko, od zajetja predmetnosti novih polj vedenja in izkušenj do vzpostavljanja novih družbenih identifikacijskih procesov. Poleg tega v jeziku delujejo tudi tako profane in zato nič manj močne sile, kot je npr. moda. Spoznavanje jezika mora te spremembe sproti zajemati v kar največji meri, tako da postanejo evidentirane in razvidne, da postanejo del izkušnje skupnega jezika. Nič kaj lahka naloga. Zakaj?
Rezultati spoznavanja jezika v veliki meri niso odvisni od tega, kakšen jezik v resnici je, temveč predvsem od načina spoznavanja: šele ta s sabo prinese resnico o jeziku. Ne da bi se hoteli pregloboko spustiti v zgodovino teorij in metod spoznavanja jezika, moramo vendarle omeniti nekaj glavnih dilem. Osnovna težava je, da je jezik kot celota pravzaprav abstrakcija, nedostopna neposrednemu opazovanju; jezik lahko v kolikor toliko konkretni obliki opazujemo samo v pisnih in govorjenih besedilih. Ob tem je jasno, da je jezik v še tako obsežnem besedilu samo neznaten del vsega tistega, kar je jezik v celoti. Jezik je po drugi strani, kot nas prepričuje večina teorij in zato to občutimo kot nekaj samoumevnega, v svojem precejšnjem delu organizirana in sistematična tvorba. Ni popolnoma jasno, (dilema se vleče v naš čas že vsaj od antike) ali je taka tvorba ponotranjena samo v vsakem govorcu neke skupnosti ali pa je ta tvorba abstraktna presečna ali razširjena množica vseh teh individualnih ponotranjenih stanj, pri čemer se porodi novo vprašanje, kje torej ta velika množica biva. In spet ta ponotranjena stanja so neposrednemu, laboratorijskemu opazovanju v veliki meri nedostopna. Kljub temu je introspekcija ena od prevladujočih metod spoznavanja jezika v jezikoslovni (in filozofski) zgodovini in ji do določene stopnje ne moremo jemati legitimnosti. Introspekcija je pri jeziku vendarle precej bolj zanesljiva kot pri opazovanju drugih človekovih psihičnih oziroma psiholoških lastnosti in stanj, zlasti zato, ker so rezultati zaradi znakovne narave jezika v veliki meri primerljivi oz. intersubjektivni. Prav zato je v delu jezikoslovja nastal teoretski konstrukt t.i. idealnega govorca. To je nekoliko poenostavljeno abstraktno bitje, podobno nekomu, ki živi v homogeni jezikovni skupnosti in je opremljen s popolnim jezikovnim znanjem, vendar nanj oziroma na njegov jezik ne vplivajo nejezikovni psihični dejavniki, kot so šibak spomin, živčnost, raztresenost, utrujenost in podobno. Tak idealni govorec je torej vir za spoznavanje jezika v njegovi idealni abstraktni urejenosti; za to je po mnenju tovrstnih teoretikov veliko primernejši od drugih oprijemljivejših gradivnih virov, ki odsevajo le delček jezika v celoti, kot smo že povedali, pa še v tem niso le odsev oziroma uresničitev jezika, temveč hkrati tudi posledica vseh omenjenih nejezikovnih psiholoških dejavnikov, poleg tega pa še plod prilagajanja najrazličnejšim nepredvidljivim okoliščinam, saj sporazumevanje nikoli ne poteka v laboratorijskem vakuumu.
Z idealnim govorcem je bolj ali manj vse v redu, dokler ostane teoretski konstrukt z metodološko natančno določenim dometom veljave. Čim pa se teoretski konstrukt utelesi v socialni dejavnik, čim idealni govorec postane ideološki govorec (ali govorka) z imenom in priimkom, ki svoje jezikovno znanje, navade, okus in izkušnje predstavlja kot idealne in jih predpisuje in vsiljuje jezikovni skupnosti, ta pa zaradi tega ali onega razloga to otopela sprejema, nastopijo hude težave. Konkretni posameznik, ne glede na to, kako široko izobražen in razgledan je, namreč ob koncu 20. stoletja nikakor ne more utelešati vsega jezikovnega znanja in vedenja, ki je potrebno za učinkovito sporazumevanje na vseh področjih človekove dejavnosti; saj ne more vedeti niti tega, katere vse te dejavnosti so. Vendar je skušnjava velika: v slovenski zgodovinski izkušnji je (bilo) precej ljudi, ki so si lastili to vlogo. Ko so govorili v slovenščini se reče tako in tako, slovenščina ne prenese tega in onega, so v resnici mislili jaz bi rekel tako in tako, jaz ne prenesem tega in onega. Pasti v takem razmišljanju je preveč, da bi lahko o njih razpravljali. Opozorimo samo na eno: jaz bi tako rekel seveda daje videz precejšnje gotovosti, v resnici pa je pogojni naklon zelo daleč od povednega. Bi rekel še ne pomeni, da rečem, sem rekel ali bom rekel. Iz novejših jezikoslovnih raziskav postaja jasno, da konkretno jezikovno podobo besedil (torej izbiro in obliko jezikovnih sredstev) določajo šele realne okoliščine sporazumevanja. Kar pomeni, da zelo težko predvidevamo, kako bi kdaj kaj rekli, dokler tega res ne izrečemo v pravi, resnični situaciji (ne v jezikoslovčevem laboratoriju). To lahko ponazorimo s pripombo znamenitega jezikoslovca Ducrota pred leti na nekem predavanju v Ljubljani. Katera je največja zadrega introspektivnega jezikoslovca? Jezikoslovec kot gradivo za analizo vzame dva stavka. En stavek je slovnično pravilen, drugega pa namenoma skonstruira v nasprotju s slovničnimi pravili. In ko v svojem dveurnem predavanju analizira njuno slovnično podobo in ju nenehno navaja, kar naenkrat ne ve več, kateri je pravilen in kateri napačen: z večkratno omembo se tudi tisti nepravilni normalizira, pride v uho in postane običajen. Čeprav najbrž ne bi nikomur od govorcev nikoli prišlo na misel, da bi tak stavek res tvoril.
Introspekcija in konstrukt idealnega govorca za sodobno spoznavanje naravnega jezika torej ne moreta zadoščati, zlasti če upoštevamo omenjeno realno možnost zlorabe. Kakšna je druga pot? Zdi se, da rešitev ponuja t.i. korpusno jezikoslovje. To ubira drugo omenjeno pot: jezik lahko spoznavamo le v njegovih izpričanih uresničitvah, torej v realnih besedilih. Po eni strani nič novega: jezikoslovje ima zelo bogato tradicijo raziskav, temelječih na besedilnem gradivu, oziroma na jezikovnem gradivu, izpisanem iz besedil. Toda za vse to slej ko prej še vedno velja očitek, ki smo ga že omenili: vsako posamezno besedilo izpričuje le neznaten del možnosti, ki jih ima neki jezik. Pot od posameznih besedil do jezika v celoti se je zato zdela nemogoča ali vsaj zelo zahtevna. V akademijskih slovarskih delavnicah po Evropi in pri nas se je nabirala večmilijonska zbirka izpiskov, spravljena za težkimi požarno in potresno varnimi jeklenimi vrati. Pa še to velikansko delo je bilo namenjeno predvsem spoznavanju le ene od razsežnosti jezika, besedišča. In žalostna resnica: s temi deli je malokdo v resnici zadovoljen, saj si je jezik že med njihovim nastajanjem nenehno sproti oblikoval nove poti in izrazne možnosti, delavnice pa temu niso mogle slediti, saj so bile polno zaposlene še s prejšnjim gradivom.
Najboljša možnost za spoznavanje jezika bi torej bila naslednja: zbrati oziroma zbirati ogromno količino besedil (po natančno določenih in pojasnjenih merilih), torej korpus, in imeti zmeraj možnost hitrega dostopa do jezikovnih sredstev v teh besedilih. Besedila bi tako po eni strani ostala integralna (kar tradicionalne metode izpisovanja ne omogočajo), po drugi strani pa bi se dalo kadarkoli pogledati, katera jezikovna sredstva so v njih uporabljena, kolikokrat in na kakšen način. Tako ne bi več domnevali, kako, kaj in kako pogosto se naj bi kaj reklo oziroma napisalo, temveč kako, kaj in kako pogosto se je v tej ogromni količini besedil kaj reklo oziroma napisalo. Pri vsem tem ta ogromna količina besedil ne bi smela zavzeti prostora, večjega od običajne pisarne, po možnosti še manj, in vpogled bi moral imeti vsak, ki ga to zanima.
Ta možnost ni neuresničljiva, nasprotno. Po eni strani jo omogoča računalniška tehnologija, po drugi strani pa je njena uresničljivost odvisna od interdisciplinarnega teoretskega premisleka in organizacijske ter kapitalske volje in podpore. Z veseljem lahko oznanim, da je v slovenskem prostoru zadeva že stekla in se približuje prvemu etapnemu cilju. Projekt gradnje referenčnega elektronskega korpusa slovenskega jezika z imenom FIDA so l. 1996 zasnovali štirje pogodbeni partnerji: Filozofska fakulteta Univerze v Ljubljani, Inštitut Jožef Štefan, založba DZS, d. d. in podjetje Amebis, d. o. o. Že nekaj let se je namreč na marsikaterem področju dejavnosti, povezanih z raziskovanjem in opisovanjem slovenskega jezika, vse očitneje kazala potreba po dovolj obsežnem, reprezentativnem in dostopnem korpusu, ki bi zagotavljal objektiviziran pogled na jezik in omogočal uporabo sodobne računalniške tehnologije tako pri temeljnih jezikoslovnih in drugih raziskavah kot pri razvijanju najrazličnejših računalniških programskih orodij za obdelavo besedil in sintezo jezika, predvsem v tistih delih, kjer morajo biti prilagojeni posameznemu naravnemu jeziku. S projektom FIDA so se nadaljevale in nadgrajevale prejšnje oblike sodelovanja med omenjenimi partnerji. Po eni strani se je namreč izkazalo, da velik del sodobnega slovenskega teoretičnega in uporabnega jezikoslovja, npr. besediloslovje in leksikografija, svojih nalog brez korpusa preprosto ne more več opravljati, saj ne izpolnjuje več niti najnižjih mednarodnih meril, ki so se temeljito preoblikovala prav zaradi korpusnega pristopa. Po drugi strani pa je postalo očitno, da zaradi kompleksnosti naloge izdelava korpusa ne more biti stvar enega samega partnerja, temveč nujno zahteva tesno sodelovanje med strokami in ustanovami. Projekt tako združuje, kar zlasti za humanistični prostor v Sloveniji ni tako pogosto, znanstvenoraziskovalni ustanovi in kapitalski družbi. Raziskovalci tako niso le najeta honorarna delovna sila, ampak s pogodbenim razmerjem svojim ustanovam in širši (raziskovalni) javnosti jamčijo dostop do raziskovalnih rezultatov. Kapitalske družbe pa niso le pasivni založniki ali izkoriščevalci nekega raziskovalnega dosežka, temveč s svojim vlaganjem raziskovalno delo omogočajo in ga seveda z zahtevo po terminsko natančno določenih stopenjskih rezultatih * tudi spodbujajo k čimvečji učinkovitosti.
Spoznavanju slovenskega jezika in vsemu, kar sledi iz tega, se torej obetajo novi časi. Novi časi, novi slovarji, nove slovnice, ki si bodo pomagale s konkretnimi podatki iz korpusa in bodo tako lahko bolje zajele slovenski jezik v njegovi tipiki in celotnosti. Korpus FIDA je šele začetek, njegovi snovalci upamo, da bo predvsem dober temelj za nadaljnje delo; delo samo pa zato ne bo nič lažje, kvečjemu učinkovitejše. Kdo ga bo pripravljen opravljati, kdo plačati in kdo uporabljati, je drugo vprašanje.
Sklenimo krog in povzemimo odgovornosti, ki smo jih omenjali na začetku: za slovenski jezik res lahko vsi kaj storimo. Sleherniki ga javno uporabljajte v skladu s svojimi sporazumevalnimi potrebami in ustvarjalnimi navadami, opisujte, sporočajte in polemizirajte (in se pri tem po možnosti držite vsaj minimalnih jezikovnih norm); imejte jezikovni okus in ga zagovarjajte, ne poskušajte pa reševati slovenskega jezika kot takega. Nekateri, ki nam je spoznavanje jezika poklic, bomo opazovali jezik vaših besedil (brez kršitve avtorskih pravic in z absolutnim varovanjem osebnih podatkov) in vam sporočali rezultate; upam, da jih boste s pridom uporabljali.
Nazaj.