Marko Stabej
Filozofska fakulteta v Ljubljani
BESEDILNOVRSTNA SESTAVA KORPUSA FIDA
Povzetek:
Projekt FIDA ima za cilj izdelavo referenčnega korpusa sodobnega slovenskega jezika. Referenčnost korpusa pomeni, da je treba vanj zajeti zadostno količino za jezik reprezentativnih besedil. Delovni kriteriji za dosego tega cilja pri korpusu FIDA so: zbrati besedila v količini 100 milijonov besed, in sicer v slovenskem jeziku, v pisnem prenosniku (zaenkrat se zajema samo tista besedila, ki že obstajajo v elektronskem zapisu), nastala po letu 1980 (z izjemo umetnostnih in nekaterih drugih besedil). Besedilnovrstna določitev za zajem v zbirko besedil FIDA in za poznejšo vključitev v korpus poteka na več ravneh: umetnostna proti neumetnostnim besedilom, strokovna proti nestrokovnim, prevodna proti izvirnim, lektorirana proti nelektoriranim, pri čemer je prvi član para pri vseh opozicijah količinsko manjši, čeprav dokončna merila še niso postavljena. Nadaljnja delitev besedil upošteva način in kraj objave oziroma nastanka besedil, za doseganje reprezentativnosti pa so predlagana še nekatera druga načela, npr. omejitev števila besedil posameznega avtorja.
Summary:
The FIDA project is compiling a reference corpus of the Slovene language. Corpus referentiality demands inclusion of extensive quantity of representative texts in Slovene. Temporary working criteria consist of: quantity (about 100 million words), language (Slovene), mode (written, temporarily only the texts, already existing in digital form), synchronic perspective (texts, written after 1980, with exception of literary texts). Text typology, designed for early text compiling and subsequent corpus representativeness, consists of series of oppositions: literary vs. non-literary, specialized vs. non-specialized, translated vs. original, language redacted vs. nonredacted; all first members of pairs comprising smaller quatity of texts, although the firm criteria have not yet been established. Further text classification takes into consideration the publishing medium, place and some other relevant text features.
1. Uvod
FIDA je projekt, ki ga skupaj pripravljajo pogodbeni partnerji Filozofska fakulteta Univerze v Ljubljani, Inštitut Jožef Štefan, založba DZS, d. d. in podjetje Amebis, d. o. o. Cilj projekta je oblikovanje referenčnega elektronskega korpusa besedil slovenskega jezika. Prva faza projekta poteka od 1. 1. 1997 do 1. 7. 1999.
2. Korpus in referenčnost
Oblikovanje vsakega elektronskega korpusa je temeljno povezano z vprašanji zajemanja besedil, torej z odločanjem, katera in kakšna besedila naj bodo vključena v korpus. Ta vprašanja imajo manjšo težo pri posameznih manjših eksperimentalnih korpusih, ki so bodisi neke vrste poligoni za raziskovanje in pridobivanje izkušenj glede samega načina tehnične ureditve korpusa, torej glede oblike zapisa, načina označevanja besedilnih in jezikovnih enot ipd., bodisi pri specializiranih korpusih, npr. elektronskem korpusu enega samega avtorja ali besedil z natančno določeno situacijsko in pragmatično vrednostjo, kjer so merila za zbiranje in vključevanje besedil v korpus že vnaprej jasna. Veliko bolj problematičen je zajem besedil pri oblikovanju večjih korpusov, katerih namen je širša jezikoslovna, leksikografska in jezikovnotehnološka uporabnost (Erjavec, 1996/97). Korpus, ki nastaja v okviru projekta FIDA, ima prav to ambicijo, torej postati referenčni korpus.
Vprašanje referenčnosti je v svoji globalni razsežnosti pomembno jezikovnofilozofsko vprašanje, povezano z začetkom in razvojem sodobnega korpusnega jezikoslovja. Kakšna količina izpričanih besedil in stavkov je potrebna, da lahko ustrezno ponazarja jezikovno zmožnost chomskyjevskega idealnega rojenega govorca? Zlasti ob upoštevanju enega od osnovnih teoremov tvorbno-pretvorbne slovnice, da jezikovna oziroma slovnična zmožnost, ki jo sestavlja omejeno število pravil različnega reda, govorcem omogoča tvorbo in razumevanje neskončnega števila stavkov oziroma izjav? Popolnoma jasno je, da noben korpus ne more vsebovati neskončnega števila slovnično pravilnih (in komunikacijsko ustreznih) stavkov. Vprašanje je le, katero končno število lahko vzamemo za metonimijo neskončnega, in kako se raziskovalci pri uporabi korpusa zavedajo, da ima ne glede na svojo končno velikost vsak korpus poleg vseh prednosti, ki na marsikaterem jezikoslovnem področju izpričano omogočajo ustreznejše in učinkovitejše raziskovanje in uporabnost, na koncu vendarle status metonimičnosti. Očitke o teoretski zgrešenosti korpusnega pristopa k raziskovanju jezika je korpusno jezikoslovje učinkovito zavrnilo, deloma s teoretskimi argumenti, deloma pa z raziskovalnimi rezultati (McEnery in Wilson, 1996). Poleg tega je korpusno jezikoslovje imelo močnega zaveznika v samem razvoju informacijske tehnologije, ki je z osupljivo hitrostjo omogočala vse večje obdelovalne možnosti ob skokovito naraščajoči možnosti pomnenja in skladiščenja podatkov, kar je seveda pomenilo tudi vedno obsežnejše korpuse. Po drugi strani se je z razvojem ne le korpusnega jezikoslovja, temveč tudi sociolingvistike, psiholingvistike in pragmatičnega jezikoslovja izkazalo, da je tudi t. i. racionalistični pristop k raziskovanju jezika sam metonimija, in sicer v družbeni dimenziji nevarnejša metonimija, saj marsikdaj v imenu iskanja univerzalnih spoznanj idealnega idealizira in celo kanonizira le lastno posameznost, jo vsaj posredno vsiljuje kot idealno dimenzijo in s tem na različne načine lahko omogoča civilizacijsko, kulturno in družbeno hegemonijo. Tudi korpusno jezikoslovje se verjetno na neki točki pri oblikovanju korpusov ne more izogniti racionalistični objektivizirani introspekciji, in te točke se mora zavedati tudi pri vseh nadaljnjih uporabah korpusa. To v temelju izhaja prav iz metonimične narave korpusa, ki jo po tradicionalni retoriki zaznamuje pars pro toto, del za celoto, v korpusni dimenziji pa končno za neskončno. Toda korpusno jezikoslovje se kot kaže tega zaveda, kar je razvidno že iz prevladujočih standardiziranih načinov označevanja korpusnih sestavin (Erjavec, 1996/97), kjer se z dostopnostjo izhodiščnih podatkov npr. o zajemu besedil, opisnih informacij o postopkih pri elektronski obdelavi besedil ipd. poskuša doseči kar največjo objektivizacijo v temelju introspektivnih odločitev oblikovalcev korpusa. Pravzaprav ne gre toliko za samo objektivizacijo kot za ponujanje možnosti uporabniku korpusa, da glede na razpoložljive podatke o korpusu (poimenovali bi jih lahko korpusne metapodatke) selektivno izbira in vrednoti jezikovne podatke. Z drugimi besedami, korpus je sicer zaznamovan s teoretskimi prepričanji in ustreznimi odločitvami svojih snovalcev, vendar lahko uporabniki to zaznamovanost razberejo in navsezadnje tudi presežejo. Ne glede na to pa ostaja dejstvo, da tudi referenčni korpus ne more zajeti vseh jezikovnih možnosti, kar bi lahko zajeli v naslednjo formulacijo: v jeziku je lahko tudi tisto, česar v korpusu ni. K temu sodi tudi zrcalna trditev: vse, kar je v korpusu, je tudi (bilo) v jeziku. Prav to zadnje korpusni pristop odlikuje od racionalistične jezikoslovne introspekcije, ki je lahko zlorabljala naslednjo trditev: vse, kar mislim, da je v jeziku, je v jeziku.
Referenčni korpus naj bi torej posredoval vsestranske izčrpne podatke o nekem jeziku, kar naj bi dosegel s količinsko in vrstno ustreznim izborom reprezentativnih besedil v tem jeziku. Ta na videz preprosta oznaka s sabo prinaša precej problemov, ki terjajo podrobnejši premislek.
2. Zajem besedil v korpus
Kako se je torej treba pri oblikovanju referenčnega korpusa nekega jezika lotiti zajemanja besedil? Po katerih hipotezah določiti ciljni okvir, kako uskladiti v prostoru že obstoječa teoretična spoznanja z zaenkrat nedokazanimi domnevami, tuje izkušnje z lastno teoretsko in kulturno specifiko in nenazadnje, kako uskladiti idealno postavljeni cilj z omejenimi tehnološkimi, organizacijskimi in finančnimi možnostmi?
V projektu FIDA se sicer že od začetka ukvarjamo z vsemi omenjenimi vprašanji, toda rešujemo jih postopno, saj se zavedamo njihove kompleksnosti. Zato je bil tudi izdelan okvirni načrt posameznih korakov oz. stopenj izdelave korpusa, v katerem je dokončno doseganje in preverjanje njegove uravnoteženosti, reprezentativnosti in referenčnosti določeno kot ena od zadnjih stopenj. Najprej so bile sprejete načelne odločitve o vrsti korpusa in njegovem obsegu (referenčni enojezikovni sinhroni korpus slovenskega jezika pisnih besedil, obsegajoč okoli 100 milijonov besed), o njegovi tehnološki obliki (načini shranjevanja, skladiščenja in oblike podatkov), zagotoviti je bilo treba računalniško opremo, porazdeliti delovne obveznosti in urediti pogodbena razmerja med sodelujočimi partnerji. Kot vmesno stopnjo je načrt predvideval izdelavo malega poskusnega korpusa, kar je bilo uresničeno le deloma, predvsem za preverjanje ustreznosti odločitev glede oblike zapisa korpusa.
Pred začetkom širšega zbiranja oziroma zajemanja besedil za osrednji korpus je bilo treba rešiti še eno pomembno vprašanje, in sicer pravne narave. Področje avtorskih pravic je namreč tudi v slovenskem prostoru zelo občutljivo in za referenčni korpus, ki mora biti tako ali drugače javnosti široko dostopen, je nujno, da ta vprašanja korektno reši in si s tem zagotovi pravno neoporečnost. Za urejanje razmerja med imetniki avtorske pravice nad besedili in korpusom FIDA je bila spomladi 1998 izdelana posebna pogodba, ki je bila odtlej z nekaterimi besedilodajalci že podpisana in se je torej vsaj doslej izkazala kot učinkovita. Dodati je treba, da za odstop besedil v korpus FIDA načeloma ni predvideno nobeno posebno plačilo, besedilodajalcem se korpus skromno oddolžuje samo z navajanjem njihovega imena v vseh korpusnih dokumentih, omenjeni pa bodo tudi v vseh komercialnih delih, ki bodo nastala na podlagi korpusa.
Poleg tega smo se sodelavci pri zajemu besedil za korpus FIDA (kar posledično določa tudi samo naravo korpusa) zaradi organizacijskih in tehnoloških omejitev, ki so pravzaprav vse posledica nujne gospodarnosti projekta, torej predvsem finančne narave, zavestno odločili za nekatere načelne dodatne omejitve, ki vsaj na prvi pogled pomenijo bistveno zoženi krog izbire besedil. Toda vse te omejitve so po eni strani uskladljive z jezikoslovnimi in besediloslovnimi teorijami, tako da naj ne bi negativno vplivale na samo kvaliteto korpusa, po drugi strani pa niso popolnoma dokončne, tako da jih bo po potrebi možno v končni redakciji korpusa po dodatni uredniški odločitvi tudi umakniti in korpus dopolniti z ustreznim besedilnim gradivom.
Prva omejitev je ta, da korpus FIDA zajema samo pisna besedila. Čeprav tudi definicija pisnega besedila, oziroma - v tradicionalni slovenski jezikovnozvrstni terminologiji - jezika v pisnem prenosniku, ni nedvoumna (Sinclair, 1996), se zdi množica pisnih besedil vendarle sorazmerno lahko določljiva. Res je, da se da vsako govorjeno besedilo zapisati in obratno, vsako pisno besedilo govoriti, vendar lahko za določitev smiselno uporabimo tudi kriterij naslovnika: če je besedilo namenjeno predvsem branju, je pisno. Odločitev za samo pisna besedila je po eni strani utemeljena z oceno jezikovne in jezikoslovne situacije v slovenskem prostoru: pisni jezik je tradicionalno prestižna oblika jezika, načeloma bolj podvržena tvorčevemu samonadzoru in kot taka usmerjevalka splošne jezikovne zmožnosti za javno in formalno sporazumevanje. Ravno na področju pisnega jezika je v slovenskem prostoru po mnenju jezikoslovnih urednikov korpusa največ restriktivnih normativnih idealizacij, ki so posledica avtoritativnega uveljavljanja introspektivnih pogledov na jezik, zato je treba izkoristiti možnost, da smiselna uporaba korpusa FIDA na področju pisnega knjižnega jezika vsaj relativizira nekatere avtoritativne jezikovnonormativne napotke in posledično prispeva k drugačnemu pojmovanju razmerja med rabo in predpisom, torej k drugačnim jezikovnokulturnim razmerjem. Seveda bi bil v slovenskem prostoru še bolj dragocen korpus, ki bi vseboval tudi govorjena besedila, vendar se korpus FIDA govorjenim besedilom vsaj v svoji prvi fazi zavestno odreka. Govorjena besedila so namreč z več vidikov zahtevnejša za zajemanje, obdelovanje in vključevanje v korpus. Vsaj za slovensko jezikoslovje se zdi, da na vprašanja govorjenega jezika doslej nikakor ni bilo dovolj pozorno in da bi bilo torej treba še pred oblikovanjem korpusa govorjenih besedil opraviti nekaj vzorčnih in temeljnih raziskav na različnih področjih govorjene komunikacije, od besediloslovne in pragmatičnojezikoslovne analize diskurza ter sociolingvističnih raziskav do sodobnih raziskav glasovne, naglasne in intonacijske podobe slovenskega govora. Šele spoznanja takih raziskav bi lahko vzpostavila po eni strani kvaliteten okvir za zajem podatkov, po drugi strani pa odgovorila na zapletena vprašanja načina transkripcije govorjenih besedil, kar je za korpus odločilnega pomena. Poleg tega bo pisni referenčni korpus v projekciji lahko vsaj v razlikovalnem smislu ponudil dragocene primerjalne podatke tudi za raziskovanje govorjenega jezika.
Odločitev samo za pisna besedila ima še en nezanemarljiv vzrok: zajem govorjenih besedil je ne le teoretsko, temveč tudi organizacijsko in tehnološko zapleten (snemanje in skladiščenje zvočnih podatkov v najsodobnejši digitalni obliki, različne stopnje njihove transkribcije) in seveda posledično zelo drag. Zajem pisnih besedil je po tej plati bistveno cenejši. Ker korpus FIDA pripravlja majhna ekipa z zelo omejenimi finančnimi sredstvi, smo se v prvi fazi odločili zbirati celo samo vsa tista besedila, ki že obstajajo v takšni ali drugačni elektronski obliki. Na ta način odpadejo stroški za skeniranje ali celo za pretipkavanje neelektronskih besedil v elektronsko obliko, kar projekta ne bi obremenjevalo le finančno, temveč tudi časovno. V prvi fazi zajemanja besedil, ki poteka od maja 1998, smo bili sorazmerno uspešni, čeprav je opazno dejstvo, da v slovenskem prostoru zavest o smiselnosti shranjanja in arhiviranja elektronskih besedil za lastne potrebe še ni del splošne avtorske in uredniške miselnosti ter kulture, celo v nekaterih velikih založniških podjetjih. Zdi pa se, da bo za marsikoga ravno stik z uredniki korpusa FIDA začel prepričevati v smiselnost takega početja.
Temeljni omejitvi za vključevanje v korpus, ki sta v marsičem povezani z besedilnovrstno podobo korpusa, sta torej pisnost besedila in dostopnost v elektronski obliki, pri čemer je prva omejitev načelnejša od druge, ki je predvsem praktične narave. Na tej točki je treba omeniti, da se uredništvo korpusa FIDA ravna po načelu zbrati kar največ pisnih besedil v elektronski obliki, torej ni načelnih količinskih omejitev za posamezne vrste besedil, kar pa ne pomeni, da bodo vsa dejansko vključena v korpus. Gre namreč za dve temeljni stopnji vključevanja: 1. shranitev v zalogo besedil FIDA in 2. priprava besedil za vključitev v korpus (po določenih korakih elektronske obdelave). Že med prvo in drugo stopnjo je uredniški filter, ki si okvirno prizadeva vzpostaviti načrtovano uravnoteženost, čeprav kaže, da bo odločilna tretja stopnja, ko bo treba po korpusnih metapodatkih dokončno določiti besedilnovrstna razmerja v korpusu kot celoti, torej nekatera besedila izločiti, druga pa vključiti, bodisi iz zbirke besedil bodisi jih načrtno zajeti na novo.
3. Besedilnovrstna sestava korpusa FIDA
Teorija jezikovne zvrstnosti ima v slovenskem jezikoslovnem prostoru že večdesetletno tradicijo, izhodiščno je povezana predvsem s spoznanji praškega lingvističnega krožka, različni avtorji pa so jo nato razvijali deloma samostojno. Z razvojem besediloslovja in pragmatičnega jezikoslovja so se pojavili novi pogledi na zvrstno razčlenjenost jezika, ki so presegli pojmovanje strukturalistične sistemske zvrstnosti (jezikovna zvrst kot podsistem jezikovnih sredstev, pred uresničitvijo v besedilu oz. komunikaciji) in zvrstnost obravnavajo z upoštevanjem in podrobnejšim razločevanjem široko pojmovanih realnih komunikacijskih okoliščin, od namena in učinka govornih dejanj do družbenih razmerij med udeleženci komunikacije (prim. Bešter 1994/95). Vsi ti parametri namreč ne vplivajo le na izbiro in razvrstitev posameznih jezikovnih sredstev pri tvorbi besedil, ampak tudi na samo oblikovanje določenih jezikovnih sredstev. Poleg tega se je meja pozornosti pri opazovanju zvrstnosti zlasti pri besediloslovno usmerjenih raziskavah temeljito premaknila, saj področja relevantne razločevalnosti niso več le tradicionalne opisne ravnine jezika (glasoslovna, oblikoslovna, skladenjska in deloma pomenska), ampak tudi besedilni pojavi večjega reda velikosti, npr. načini razvijanja teme v besedilu, načini doseganja kohezivnosti in koherentnosti, v povezavi s tem grafična (in zvočna) oblikovanost, členjenost besedil ipd. V povezavi s pragmatičnojezikoslovno teorijo govornih dejanj to pomeni izdatno mrežo kriterijev za določanje besedilne vrstnosti, in tako v tuji kot v domači strokovni misli so kljub sicer vidnemu napredku vprašanja - od samega poimenovanja do temeljnih pojmovnih razmerij - še zelo odprta.
Kakšne posledice ima tako razširjena optika na oblikovanje korpusa oziroma na izbiranje in določanje njegovih besedilnih sestavin? Zdi se, da naloga določitve besedilnovrstne sestave referenčnega korpusa ni primerljiva z avtonomnim raziskovanjem besedilne vrstnosti. Zadnje ima za cilj ugotavljanje posebnosti, torej razločevalne tipike zunajjezikovnih (v tradicionalnem smislu) in posledičnih jezikovnih (in besedilnih) lastnosti tipiziranega komunikacijskega dejanja v primerjavi z drugimi komunikacijskimi dejanji, razvrščanje ugotovljenih lastnosti v posamezne razrede, ugotavljanje sovpadanja izbire sorodnih jezikovnih sredstev pri različnih komunikacijskih dejanjih ipd.
Za potrebe korpusnega načrtovanja je besedilnovrstna perspektiva drugačna, strnjevalna: cilj je, kot je bilo že omenjeno, zajetje za jezik reprezentativnega zvrstnega vzorca besedil, in sicer tako količinsko in kakovostno, kar pomeni, da morajo zajeta besedila vsebovati oz. pokriti čim več tipičnih jezikovnih elementov in njihovih kombinacij. Poleg tega je načrtovanje besedilnega zajemanja in zbiranja za korpus povezano s spoznanjem, da besedila niso le statični rezultati nekega procesa, neke vrste mirujoče gradivo, temveč so hkrati sooblikovalci naslednjih nizov komunikacij - to lahko označimo za nekoliko modificiran pogled na medbesedilnost. Izhajamo iz okvirne hipoteze, da so natisnjena besedila (sicer različno glede na načeli količine in kakovosti) orientacijske točke in vplivni spodbujevalci nadaljnjih komunikacijskih dejanj, da torej nimajo vrednosti le kot primer in dokaz obstoja in rabe posameznih jezikovnih znakov, temveč sooblikujejo tudi jezikovno zmožnost govorcev slovenskega jezika.
Zaradi vsega tega je besedilnovrstni premislek uredništva korpusa FIDA izrazito sinkretičen, veliko bolj, kot bi bilo to strokovno dopustno pri avtonomnem besedilnovrstnem raziskovanju. Toda še enkrat je treba poudariti, da referenčni korpus ni v prvi vrsti namenjen besediloslovnemu ali pragmatičnojezikoslovnemu raziskovanju, temveč predvsem bolj k jeziku usmerjenim raziskavam, ki so jim sicer informacije o nejezikovnih lastnostih besedil (avtorstvo, čas nastanka, kraj objave ipd.) dragoceno in nujno dopolnilo, vendar ne v središču zanimanja. Besedilnovrstne določitve pri zajemu in vključevanju so oblikovane na več ravneh, od načelnih odločitev za zajem do okvirnih meril za zagotavljanje reprezentativnosti in s tem referenčnosti korpusa.
Poleg že pojasnjene odločitve, da bodo v korpus FIDA zajeta samo pisna besedila, je vključevanje besedil v korpus zaznamovano tudi s perspektivo sinhronije. Kaj so sodobna besedila, seveda ne more biti popolnoma jasna kategorija, interpretacija uredništva pa je, da gre pri tem v širšem smislu za besedila 2. polovice 20. stoletja, s težiščem na zajemanju besedil, ki so nastala v zadnjih dvajsetih letih, torej nekako od l. 1980. Sam postopek zajemanja je že doslej - zaradi omenjenega načela, da morajo biti besedila dostopna v elektronski obliki, in nerazvite kulture tovrstnega shranjevanja besedil - nakazal, da bo najverjetneje v prvi fazi korpusa zajeta večina takih besedil, ki so nastala po l. 1990, in da bodo torej besedila v povprečju novejša, kot se je sprva načrtovalo. Časovna omejitev načelno ne velja le za poseben razred besedil, pri katerih ni tako važen kriterij časa nastanka, temveč predvsem to, da se sprejemniki v slovenskem prostoru z njimi razmeroma pogosto srečujejo. Ta razred torej oblikuje kriterij relativne množičnosti naslovnika in posredno kriterij kulturne reprezentativnosti. Čeprav se zbiranje teh besedil še ni začelo, saj je treba šele oblikovati merila za ugotavljanje množičnosti naslovnika (ki bodo uporabljena tudi pri drugih vrstah besedil), je že okvirno jasno, da bo šlo pri tem predvsem za umetnostna in morebiti še nekatera versko-obredna in pravnoformalna besedila.
Z omembo umetnostnih besedil je bil pravzaprav že uporabljen naslednji besedilnovrstni kriterij. Umetnostni jezik je v tradicionalnem jezikovnozvrstnostnem pojmovnem sistemu posebna funkcijska jezikovna zvrst, umetnostna besedila pa naj bi bila tista, ki imajo v komunikaciji dominantno estetsko oz. poetsko funkcijo. Podobno, po namenu, določajo umetnostna besedila tudi pragmatičnojezikoslovne teorije, čeprav se z njimi podrobneje v glavnem ne ukvarjajo. Tudi kriterij določanja umetnostnih besedil je v podrobnostih zelo problematičen, na splošno pa se zdi, da je razred vendarle razmeroma jasno določljiv. Osnovna delitev umetnostnih in neumetnostnih besedil se torej ravna predvsem po komunikacijski (oziroma pragmatični) vlogi teh besedil, določevanje pa se zanaša tudi na različne besedilne in zunajbesedilne, nejezikovne znake (npr. na t. i. refleksivne oznake po Sinclair, 1996, torej samooznake besedila, npr. roman, novela, na grafično oblikovanost besedil, npr. verznih, ipd.). Prevladujoča poetska funkcija na tak ali drugačen način pomeni tudi jezikovno drugačnost oz. inovativnost umetnostnih besedil. V družbi jim je tudi zato pripisana visoka kulturna in reprezentativna vrednost. Kljub temu in kljub dejstvu, da sprejemanje umetnostnih besedil dokazano pozitivno vpliva na razvoj jezikovne zmožnosti posameznika, bo korpus FIDA vključeval umetnostna besedila le v majhnem deležu. Na gradivu referenčnega korpusa bodo namreč predvidoma nastajala jezikovnonormativna dela, za kar pa umetnostna besedila zaradi omenjenih lastnosti inovativnosti jezikovne rabe niso primerna. Pri vključevanju večjega deleža umetnostnih besedil bi namreč lahko bila korpusna informacija o tipičnem v slovenskem jeziku močno popačena. Delež umetnostnih besedil v korpusu FIDA naj tako ne bi presegal 10 odstotkov. Pri izbiri besedil pa bo poleg kriterija dostopnosti upoštevano načelo množičnosti naslovnika in kulturne reprezentativnosti (deloma je npr. ta kriterij združljiv pri umetnostnih besedilih, ki so predpisana za razpravljalni esej na maturi - izbrana so zaradi svoje literarne reprezentativnosti, zaradi logike organizacije in izvedbe mature pa lahko uredništvo sklepa, da so bila izbrana besedila množično brana in so tako vplivala na jezikovno zmožnost razmeroma velikega števila naslovnikov).
Kriterij množičnosti sprejemnika posameznih besedil in besedilnih vrst je izhodišče za oblikovanje količinskega razmerja med besedili v fazi zagotavljanja reprezentativnosti korpusa (prim. Biber in dr., 1998), dobro pa ga je okvirno upoštevati že v zgodnejši fazi širšega zajemanja besedil. Ker je projekt FIDA finančno omejen, si v ta namen ne moremo privoščiti posebnih sociometričnih raziskav, kakršne so bile npr. opravljene pri češkem nacionalnem korpusu (Čermák, 1997). Deloma tako ugotavljanje množičnosti ostaja na ravni splošne uredniške ocene, dopolnjeno pa je z drugimi dostopnimi podatki, npr. o nakladi pri periodičnih in deloma knjižnih izdajah, o knjižnični izposoji, o prodajni uspešnosti ipd. (Erjavec, Gorjanc, Stabej, 1998).
Pravzaprav je izhodiščni kriterij množičnosti naslovnika že to, da je bilo neko besedilo objavljeno, naslednji kriterij pa je ob že naštetih tudi sam način objave. Korpus bo sicer obsegal tudi manjši delež neobjavljenih pisnih besedil, težišče pa bo na objavljenih. Kriterij množičnosti naslovnika je povezan tudi z vključevanjem besedil drugih t. i. funkcijskih jezikovnih zvrsti, zlasti strokovnih in znanstvenih besedil. Znanstvena besedila so načeloma namenjena ozkemu krogu specializiranih bralcev in so tako za korpus manj relevantna, zato bo njihov delež predvidoma le nekajodstoten. S strokovnimi besedili je drugače, saj obsegajo raznovrstno množico besedil, od katerih imajo nekatera širok krog naslovnikov. Čeprav podrobnejša merila še niso izdelana, je jasno, da bo treba pri zajemu strokovnih besedil upoštevati po eni strani uravnoteženost po strokah, po drugi strani pa množičneje vključevati besedila iz manj specializiranih strok, ki imajo več naslovnikov. Pomagati si bo mogoče tudi z drugimi kriteriji recepcije; za srednješolske učbenike lahko npr. z gotovostjo sklepamo, da se z njimi srečuje precej številna populacija, in je zato njihov zajem v korpus smiseln. Delitev po funkcijskih jezikovnih zvrsteh se tako v podrobnostih razvije v grobo delitev po (tematskih) področjih, pri čemer je za zajemanje besedil načrtovana gostejša mreža, pri vključevanju in označevanju besedil pa je predvidena bolj groba razvrstitev, spet z mislijo, da referenčni korpus načeloma ni namenjen ozko specializiranim uporabam, npr. terminološkim in terminografskim raziskavam, za katere so potrebni specializirani korpusi.
Nadaljnja razvrstitev besedil pri zajemu in vključevanju v korpus se nanaša na način objave; tudi ta kriterij je povezljiv s kriterijem množičnosti, in tako olajšuje nadzor reprezentativnosti. Ločujemo knjižno objavljena besedila od periodičnih, ta pa glede na pogostnost izhajanja. Razvrstitev po načinu objave upošteva večina korpusov (Sinclair, 1996), čeprav je to navidez zunajbesedilna kategorija. Gotovo pa način objave v precejšnjem deležu vpliva na jezikovne in besedilne lastnosti besedil, tako glede medbesedilnosti kot glede dinamike izbire jezikovnih znakov.
Deloma se na način objave nanašajo tudi že omenjene besedilne samooznake, ki jih pri označevanju besedil ohranjamo. Pri znanstvenih besedilih npr. oznake članek, razprava, monografija, disertacija ipd. pomenijo besedilnovrstno relevantno informacijo.
Za zajem besedil je uredništvo korpusa FIDA predvidelo še nekaj kriterijev, ki skušajo upoštevati oziroma predvidevati relevantne posebnosti slovenskega prostora. Tako pri periodičnih neumetnostnih nestrokovnih besedilih (ki bi jih tradicionalno lahko imenovali publicistična) uveljavljamo načelo lokalne uravnoteženosti. Poleg osrednjih dnevnih časopisov načrt predvideva tudi zajem besedil lokalnih medijev v enakem deležu. Za knjižna besedila je npr. to načelo manj pomembno, saj kraj izida oziroma založbe ni relevanten podatek; pri lokalnih medijih pa lahko s precejšnjo zanesljivostjo sklepamo, da so avtorji besedil iz lokalnega okolja, kar lahko tudi v jezikovnih lastnostih njihovih besedil pomeni določeno podtipiko. Korpus FIDA naj bi tako v svoji uporabni fazi omogočal ugotavljanje morebitnih homogenih specifičnih jezikovnih lastnosti določenega geografskega oz. urbanega področja. Kot nekoliko bolj oddaljeni načrt je predviden tudi zajem slovenskih besedil, nastalih v manjšinskih slovenskih skupnostih v Italiji, Avstriji in na Madžarskem, pozneje tudi v izseljenskih skupnostih, zlasti homogenih, npr. v Argentini.
Podobno je po mnenju uredništva treba slovenske razmere upoštevati tudi pri določanju razmerja med zajemom izvirnih in prevodnih besedil. Delež prevodnih besedil je namreč v slovenskem prostoru bistveno višji kot pri evropskih jezikih z več deset milijoni govorcev, kjer je ta kategorija zanemarljiva. Prevodno oz. originalno besedilo bo tako nekako vzporedna razvrstitev, ki bo predvidoma kombinirana z drugimi ravnemi razvrščanja - tako bo v korpusu razmerje med izvirnimi in prevodnimi umetnostnimi besedili drugačno kot razmerje med izvirnimi in prevodnimi strokovnimi besedili. Kategorija prevoda je relevantna zaradi posebnih jezikovnih procesov pri prevajanju - ubeseditev s tujejezično predlogo je zaradi neposredne možnosti interferenčnih procesov pri izbiri jezikovnih znakov bistveno drugačna od ubeseditev brez predloge.
Kot poskus upoštevanja posebnosti slovenskega jezikovnega prostora je treba omeniti še eno vzporedno kategorijo razvrščanja, in sicer lektoriranih besedil proti nelektoriranim besedilom. Zaradi posebnih jezikovnokulturnih razmer v Sloveniji je namreč mogoče utemeljeno domnevati, da je izbira in razvrstitev jezikovnih sredstev v lektoriranih besedilih kot posledica lektorskih jezikovnih posegov precej drugačna od jezikovne podobe nelektoriranih besedil. Ta kategorija sicer predvidoma ne bo imela določenega količinskega razmerja, saj bi bilo treba za dejansko raziskovanje omenjenega pojava pripraviti poseben vzporedni korpus, vendar se zdi, da bo tovrstna informacija tudi v korpusu FIDA vendarle funkcionalna, zlasti pri opazovanju distribucije najbolj pogostih jezikovnih elementov.
Na koncu je treba omeniti še nekaj kriterijev za doseganje reprezentativnosti korpusa, ki jih doslej uredništvo pri zajemu v zbirko besedil FIDA zaradi omenjenih razlogov, povezanih z ekstenzivnim načinom zbiranja besedil, še ni upoštevalo, moralo pa jih bo upoštevati v zadnji fazi. Ti kriteriji pravzaprav niso čisto neposredno povezani z besedilno vrstnostjo, vendar so - vsaj nekateri - zaradi specifičnosti slovenskega prostora še posebej pomembni. Taka je npr. omejitev količine besedil enega samega avtorja pri vključevanju v korpus. Britanski nacionalni korpus npr. to število omejuje na 120.000 besed (BNC), za slovenske razmere bo treba to število šele določiti. Da je ta kriterij pomemben za reprezentativnost korpusa slovenskega jezika, si je lahko predstavljati - v Sloveniji bi najbrž lahko zbrali 100 milijonov besed samo z opusom dveh ali treh plodnih slovenskih prevajalcev, toda tak korpus bi bil daleč od referenčnosti. Podobni kriteriji so tudi starost in spol avtorjev ipd., vendar kot rečeno zaenkrat pri zajemu nimajo odločilne vloge.
O besedilnovrstni sestavi korpusa FIDA je torej nekako sredi poteka projekta mogoče govoriti le delno: oblikovani so sorazmerno jasni okvirni kriteriji za zajem besedil, dokončno pa bo o tej temi mogoče poročati po zadnji fazi, ko bo po uravnoteženju glede na predlagane kriterije korpus dobil reprezentativno podobo; njegova resnična referenčna vrednost pa se bo lahko potrdila (ali zanikala) šele z njegovo temeljito uporabo.
Viri
Bešter, M. 1994/95: Šolske besedilne vrste. - Jezik in slovstvo XL, št. 1-2. 63-68.
Biber, D., Conrad, S., Reppen, R. 1998: Corpus Linguistics. Investigating language Structure and Use. Cambridge: Cambridge University Press.
BNC: British National Corpus. URL: http://info.ox.ac.uk/bnc/
Čermák, F. 1997: Czech National Corpus: A Case in Many Contexts. - International Journal of Corpus Linguistics 2/2. 181-197.
Erjavec, T. 1996/97: Računalniške zbirke besedil. - Jezik in Slovstvo 2-3/42. 81-96.
Erjavec, T., Gorjanc, V., Stabej, M., 1998: Korpus FIDA. - Zbornik s konference Jezikovne tehnologije za slovenski jezik. Ljubljana, oktober 1998. V tisku.
McEnry, T. in Wilson, A. 1996: Corpus Linguistics. Edinbourgh University Press.
Sinclair, J. McH in dr., 1996: Eagles96. Text Typology. URL: http://www.ilc.pi.cnr.it/EAGLES96/
Članek, je bil predstavljen na 2. kongresu Društva za uporabno jezikoslovje Slovenije in objavljen v Uporabnem jezikoslovju 6.
Nazaj.