Vojko Gorjanc
(asistent za slovenski knjižni jezik in stilistiko na Filozofski fakulteti Univerze v Ljubljani)
Kaj in kako v korpus FIDA?
Korpus FIDA naj bi bil oblikovan tako, da bi lahko posredoval vsestranske informacije o sodobnem slovenskem jeziku, torej z besedili skušal zajel čim bolj celovito podobo današnje slovenščine, ob jasnem zavedanju, da je nemogoče predvideti in v korpus zajeti vse jezikovne variante. Obstoječi tujejezični korpusi sodobnih evropskih jezikov zajemamo v glavnem besedila druge polovice 20. stoletja. Glede na obstoječo kulturo elektronskih besedilnih arhivov v slovenskem prostoru pa pomeni sodobnost v primeru slovenskega korpusa v glavnem besedila devedesetih let s poudarkom na tistih iz druge polovice tega desetletja.
Med govorom in pisavo
Kako določiti razmerja zajetja različnih besedil, aktualnih z vidika današnje komunikacije? - Recimo, da se odločimo za razmerje med količino tvorjenih in sprejetih besedil povprečnega govorca slovenščine. Empirično bi najbrž lahko testirali skupino ljudi v določenem časovnem obdobju in glede na tipe besedil, ki bi se pojavili v tovrstni komunikaciji, oblikovali razmerja zajetja besedil v korpus. A z upravičenostjo lahko predvidevamo, da bi bila v tem primeru večina besedil vezana na konverzacijo, glede jezikovne variantnosti pa najbrž med seboj zelo podobna, kar pa bi bilo seveda v popolnem neskladju s temeljno idejo korpusa o čim bolj uspešnem zajemanju jezikovne variantnosti.
Kljub vse večjem vključevanju govora in s tem specifik govorjenega jezika pa sodobni korpusi še vedno v veliki meri temeljijo na pisnih besedilih, znotraj njih pa skušajo v čim večji meri zajeti različnost jezikovne pojavnosti; pisni jezik namreč še vedno predstavlja neke vrste prestižno obliko jezika. - V jezikoslovju zakoreninjena tradicionalna delitev na pisni in govorni kod pa ima danes močnega konkurenta, elektronsko komunikacijo; ta pomeni bistveno drugačen tip besedil s samosvojo obliko in funkcijo, z vidika obeh tradicionalnih kodov pa elektronski skuša združevati elemente enega in drugega, jih po svoje (pre)oblikovati in tako ustvarjati nove možnosti komunikacije. Že v tem trenutku je elektronska komunikacija izjemno aktualna, vsekakor pa je to medij nove globalne informacijske družbe. Ker globalizacija na ravni jezika pomeni v glavnem amerikanizacijo, bi bilo v črni varianti sploh nepotrebno razmišljanje o vlogi elektronske komunikacije v okviru slovenščine; a tako kot z globalizacijo nasploh se ji tudi v okviru jezikovnih vprašanj vse bolj sopostavlja princip lokalizacije, prilagoditve globalnih sredstev kulturnemu - jezikovnemu - okolju.
Korpus FIDA tako izhodiščno zajema le pisna besedila, čeprav z ambicijo kasnejšega vključevanja govora; kljub še neenotnemu vrednotenju elektronskih besedil v okviru korpusnega jezikoslovja pa postopoma vključuje tudi ta.
Med umetnostnim in znanstvenim govorom
Obstoječi jezikovni priročniki slovenščine v veliki meri temeljijo na zaprašeni ideji o leposlovnem jeziku kot kriteriju "dobrega" jezika; v Slovarju slovenskega knjižnega jezika so sicer zajete "vse bistvene prvine knjižnega jezika: leposlovni, znanstveni, publicistični, časopisni, pogovorni jezik /.../", vendar je "/n/ajbolj izčrpno predstavljen leposlovni jezik izvirne in prevodne literature"; Toporišičeva slovnica in celo pravopis nam ponujata za ilustracijo jezikovne rabe zglede iz leposlovja - in še to v veliki meri leposlovja 19. stoletja. Seveda tu nikakor nočemo zniževati kulturne vrednosti leposlovnih besedil, vendar ta ne morejo biti merilo normativnosti. - Tako umetnostno kot tudi znanstveno besedilo namreč vsako po svoje širita meje jezika, prvo tudi s spogledovanjem čeznje, drugo znotraj njih z nenehno jezikovno inovacijo, vezano na razvoj znanstvene discipline in potrebo po njenem poimenovanju ter posredovanju. Za korpus so zanimiva sicer vsa besedila, vendar bo poudarek na tistih, ki živijo sorazmerno varno v zavetrju, stran od prepišnih mej. Jedro besedil v korpusu bo tako vezano na besedila "vmes"; v veliki meri je to jezik množičnih medijev in tistih strokovnih besedil, ki imajo t. i. sporočanjsko-vplivanjsko vlogo in pomenijo selekcijo strokovnih vsebin za širšega naslovnika, kot so to učbeniki, poljudnoznanstvene ter strokovne revije ipd. Vključevanje umetnostnih in znanstvenih besedil v korpus pa bo veliko bolj previdno in načrtovano, saj naj bi prav na korpusni gradivni osnovi v prihodnje nastajali novi normativni priročniki.
Med zalogo besedil in korpusom FIDA
V zalogi besedil FIDA se zbirajo besedila v izvornih formatih, kot jih projekt pridobi od posameznih besedilodajalcev. Zbiranje besedil v tej fazi ni restriktivno, vendar se tudi pri teh besedilih vztraja, da besedilodajalec z enim od pogodbenih partnerjev podiše pogodbo o odstopu besedila za namene projeta, pogodbeni partner pa mu zagotavlja varovanje avtorskih pravic. Glede na oblikovana načela vključevanja besedil v korpus - torej računalniško besedilno zbirko, ki bo glede na izhodiščna merila uravnotežena - pa se s postopki obdelave in standardnega označevanja zagotovi enoten elektronski zapis. Problema starejših besedilnih zbirk sta bila predvsem neizmenljivost in netrajnost; pregledovati in uporabljati se jih je dalo le v posebnih programskih okoljih, zato so z zastarevanjem tehnologije postale neuporabne. Standardizirani elektronski zapis sodobnih korpusov pa zagotavlja njihovo trajnost in izmenljivost. Tako so tudi oznake korpusa FIDA skladne z ISO-standardom SGML (Standard generalised Markup language) in priporočili za označevanje besedil TEI (Text Encoding Iniciative).
Med teoretičnostjo in pragmatičnostjo
Kljub načelnim odločitvam o količinskih razmerjih zajemanja besedil, npr. med besedili različnih jezikovnih zvrsti, različnih besedilnih vrst, o razmerjih zajemanja lokalnih medijev, razmerju med izvirnim in prevodnim besedilom ipd. pa se ob vključevanju posameznih besedil v korpus nenehno odpirajo nova vprašanja, npr.: ali v korpus slovenskega jezika vključiti nove prevode klasičnih del? Kako se torej odločiti npr. glede novega prevoda Shakespearjevega Hamleta in drugih besedil, ki glede na izhodiščno odločitev o času zajemanja prav gotovo v korpus ne sodijo. Argumenta za vključitev pa bi lahko bila vsaj dva: nov prevod v sodobno slovenščino in njihov kulturni status. Še izrazitejše je vprašanje zajetja novega prevoda Biblije; tudi ta nekako v korpus ne bi sodil, a ima hkrati prav poseben status; kdo nam lahko zagotovi, da ga, recimo, v tem tednu ne najdemo na več nočnih omaricah kot za Kresnika nominirani roman Milovanje Nine Kokelj.
Korpusno jezikoslovje v izhodišču izzivalno odpira nova vprašanja, še preden se sploh lotimo izdelave besedilnih zbirk. Odprtih vprašanj je toliko, da bi teoretični premislek večine vzel izjemno veliko časa. Ostaja torej temeljno vprašanje: teoretično premisliti večji del vprašanj v zvezi z gradnjo korpusa, tudi glede na specifike slovenskega prostora, ali skušati odgovoriti le na nekatera ključna in z delom začeti. Pri korpusu FIDA je padla odločitev za drugo pot; oblikovati jedro korpusa ne glede na v celoti še neizdelana načela njegove gradnje in ga postopoma nadgrajevati. Prepričani smo namreč, da bo že tak lahko pomenil bistvene premike v jezikoslovnih raziskavah in spodbudil oblikovanje novih drugačnih normativnih priročnikov slovenščine.
Nazaj.