Vojko Gorjanc
Filozofska fakulteta v Ljubljani
KORPUSI V JEZIKOSLOVJU IN KORPUS SLOVENSKEGA JEZIKA FIDA
Korpusi - enovite, notranje strukturirane in standardno označene zbirke besedil v elektronski obliki - postajajo od srede osemdesetih let gradivna osnova jezikoslovnih raziskav, predvsem na področju leksikologije in leksikografije, vse bolj pa tudi na drugih jezikoslovnih področjih. V slovenskem prostoru se prav zaradi zavedanja nujnosti gradivne analize sodobne slovenščine postopoma oblikuje splošni referenčni korpus FIDA. - V prispevku podajamo tipologijo korpusov in predstavljamo njihove karakteristike; v ta okvir je umeščen korpus slovenskega jezika FIDA.
KORPUSI V JEZIKOSLOVJU IN KORPUS SLOVENSKEGA JEZIKA FIDA
Povzetek
V zadnjih dveh desetletjih postajajo korpusi gradivna osnova sodobnih jezikoslovnih raziskav. Prav zaradi zavedanja nujnosti gradivne analize sodobne slovenščine se tudi v slovenskem prostoru s sodelovanjem pogodbenih partnerjev Filozofske fakultete Univerze v Ljubljani, Instituta Jožef Stefan, založbe DZS, d. d. in podjetja Amebis, d. o. o. oblikuje korpus slovenskega jezika FIDA.
Projekt pri oblikovanju korpusa upošteva priporočila evropske pobude Eagles, vendar skuša pri aplikaciji vedno upoštevati specifike slovenskega jezika. Kot splošni referenčni korpus se FIDA oblikuje tako, da bo lahko posredoval vsestranske izčrpne informacije o sodobnem slovenskem jeziku; v korpus se namreč vključujejo besedila druge polovice 20. stoletja, vendar s poudarkom na 90-ih letih, največ besedil pa je res aktualnih, torej tistih, ki v korpus prihajajo sproti z izidom. Za zagotavljanje referenčnosti in uravnoteženosti korpusa se oblikuje mreža kriterijev, ki upošteva tuje izkušnje, hkrati pa se skuša v čim večji meri upoštevati specifike slovenskega prostora, kot je to npr. pri oblikovanju količinskih razmerij zajemanja besedil različnih jezikovnih zvrsti, upoštevanju regionalne uravnoteženosti ipd. V izhodišču je FIDA pisni korpus, vendar se v zalogi besedil FIDA hranijo tudi transkripcije govora, z ambicijo oblikovati tudi podkorpus govora. Poseben problem v tem okviru predstavlja status elektronskih besedil različnih oblik in vrst, saj v okviru korpusnega jezikoslovja o tem še ni doseženega konsenza. Vendar je zaradi samosvoje funkcije in oblike elektronskih besedil ter njihovega vse večjega pomena v sodobni komunikaciji nujno premisliti njihov status in najti ustrezne rešitve.
Sodobni jezikovni viri, med katere sodi tudi korpus FIDA, v procesu globalizacije pomenijo na področju jezika pot k lokalizaciji, prilagoditvi globalnih "sredstev" določenemu jezikovnemu/kulturnemu okolju. Ob tudi politično izraženi podpori mnogojezikovnosti in mnogokulturnosti Evrope je vprašanje stopnje lokalizacije v veliki meri odvisna od nas samih; projekt FIDA je v tem okviru lahko v marsičem spodbudni zgled.
1 Uvod
Aktualnost korpusov v zadnjih dveh, še posebej pa v zadnjem desetletju, njihova široka uporabnost tako za jezikoslovne kot tudi nejezikoslovne študije, novi pristopi k analizam, ki omogočajo širše in globlje razumevanje jezika, so le nekateri od razlogov za označevanje zadnjega desetletja tega stoletja kot desetletja korpusnega jezikoslovja (Čermák 1995: 119). Sodobni korpusi namreč lahko veliko pripomorejo ne le h kultiviranju in razumevanju jezika, ampak tudi k razumevanju in opisovanju sodobne družbe, kot se odseva v jeziku.
Spoznanje o nujnosti uporabe aktualnega gradiva v jezikoslovnih študijah in pripravljajočih se sodobnih jezikoslovnih priročnikih je spodbudilo tudi v slovenskem prostoru razmišljanje o korpusu sodobne slovenščine. Kompleksen projekt, ki glede na svojo naravo zahteva tesno sodelovanje med strokami in ustanovami v slovenskem prostoru, je združil več zainteresiranih partnerjev. Tako v okviru projekta FIDA sodelujejo pogodbeni partnerji Filozofska fakulteta Univerze v Ljubljani, Institut Jožef Stefan, založba DZS, d. d. in podjetje Amebis, d. o. o.
2 Korpusno jezikoslovje in korpusni pristop v jezikoslovju
Termin korpus kot zbirka besedil oz. delov besedil,1 zbranih po enotnih kriterijih za namene različnih, predvsem jezikoslovnih raziskav (Eagles), se danes uporablja v zvezi z elektronskimi korpusi, torej besedilnimi zbirkami v elektronski obliki (Kennedy 1998: 3), ki so hkrati enovite, strukturirane in standardno označene glede na namen samega korpusa (Meyer, Mackintosh 1996: 266). Delo v zvezi s korpusi je tako povezano z različnimi aktivnostmi, med katerimi lahko izpostavimo sledeče:
a) raziskave, vezane na gradnjo korpusov (Kennedy 1998: 9); te združujejo tako jezikoslovce kot računalniške strokovnjake, saj je delo na področju oblikovanja korpusa vezano tako na jezikoslovna načela njihove gradnje kot na zagotavljanje ustreznega elektronskega zapisa, ki v nadaljevanju omogoča analizo jezikovnih podatkov;
b) razvoj orodij za delo s korpusom (Kennedy 1998: 9); tovrstno delo je vezano predvsem na področje računalniškega jezikoslovja, danes pa nekateri široko dostopni programi omogočajo tudi računalniško manj izobraženim uporabnikom korpusa samostojen razvoj manj kompliciranih programskih orodij, ki si jih za svoje specifične potrebe lahko pripravimo sami, kot je to npr. Pearl;
c) razvoj tudi drugih področij jezikovnih tehnologij, ki za svoje izhodišče potrebujejo kvalitetne jezikovne vire; sem sodi razvoj črkovalnikov, različnih slovničnih pregledovalnikov, elektronskih slovarjev in tezavrov, pa tudi sinteze in analize govora ipd.;2
č) raziskave za potrebe opisnega jezikoslovja, kamor tradicionalno sodijo različne vrste slovničnih in leksikalnih analiz (Kennedy 1998: 9) - predvsem leksikologija in leksikografija sta področji, ki že po tradiciji izhajata iz sistematično zbranega minimalnobesedilnega gradiva (McEnry, Wilson 1996: 90); prav slovarji, narejeni na podlagi korpusov, pa so tudi prvi širši javnosti dostopni rezultati jezikoslovne uporabe korpusov;
d) s pojavitvijo večjega števila širši javnosti dostopnih različnih tipov korpusov pa se njihova uporabnost širi predvsem na tradicionalno gradivno usmerjena jezikoslovna področja, kot so besediloslovje, prevodoslovje, sociolingvistika, stilistika ipd. (McEnry, Wilson 1996: 98-101, 111), vendar osnovne analize korpusa ostajajo vezane na področja tradicionalne slovnice in leksikologije, saj je uporaba temeljnih metodoloških pristopov v analizi korpusov, kot so npr. konkordance,3 usmerjena prav na tovrstne raziskave in ne omogoča npr. besediloslovnih analiz besedila kot celote ali njegovih večjih sestavnih delov (Kennedy 1998: 8).
...čna oddaja, 2/12</p> <p>12.00 Vino moje dežele: Mariborski okoliš...
...Regije. 6.00 Informativni program. 9.05 Vino in oblast, naniz. 9.35 Zakladnica. 11.0...
...Regije. 6.00 Informativni program. 9.05 Vino in oblast, naniz. 9.35 Zakladnica. 11.0...
...i-mix, Lucky Boys Dixieland Band. 14.30 Vino in oblast, naniz. 16.00 Repeta, za š...
...čevanju.</p> <p>Boljša vina , ki dosegajo na uradnih ocenjevanjih na...
...in jih počasi kuhati v soku ali vinu ter jih, če je potrebno, razreza...
...če, npr. brizganec (mešanica vina in mineralne vode).</p> <p>* Pijte p...
..., Ormož, za zvrst (mešano vino ). To vino so ocenili z najmanj 18,20 do...
...ošje juhe iz kocke, 1/8 l belega vina , 750 g belušev, 16 rakovih repko...
...masla, 20 g moke, 100 ml suhega belega vina , 200 ml zelenjavne juhe iz kocke, sol,...
... KA</p> <p>120 ML SUHEGA BELEGA VINA </p> <p>1/2 RUMENE PAPRIKE, NAREZANE...
...R</p> <p>6 žLIC SUHEGA BELEGA VINA </p> <p>120 ML ZELENJAVNE OSNOVE</p>...
...I</p> <p>5 žLIC SUHEGA BELEGA VINA </p> <p>200 G MEšANIH GOB</p>...
...gostilnah in prodajali razne "delance", vina nepoznanega izvora. </p> <p>Poč...
...ag priželjca, sol, poper in 1 dl vina . Vse sestavine primerno narežemo...
...kar vedel, koliko točk je dobilo vino , ki ga ponuja. Dosedanji zakon o vinu d...
...a, da gostilne točijo dobra vina . Ker pa je komisija ocenila tiste vzorc...
...raj nemogoče najti na vasi dobro vino . To pomeni, da tisti vinogradniki, ki s...
...jem, dokler se ne zmehča. Dodamo vino , na hitro zavremo, nato zmanjšam...
...tve, izbori, ledeno vino) in tudi drugo vino , čeprav so nekateri vinogradniki...
...ridelano na kmetih. Izraz domače vino , ki ga slišimo od gostinskega de...
...no pa sir, slaniki (ribe), rdeče vino , in čokolada.</p> <p>Zma...
...rezultatih toči najboljše vino gostišče šinjor iz...
...<text> <body> <p>"Domače vino " nima zdaj več prave veljave</p>...
...</p> <p>6 žLIC RDEčEGA VINA </p> <p>4 BIFTEKE, TEžKE PO 15...
...ila v kakovostnem rangu domačega vina , pitnega terana.</p> <p>Ombolo in ja...
...asnih izvlečkih in rdečem vinu ), lahko povzročijo močan...
...lahko alkohol - zlasti v rdečem vinu - povzroči nevaren porast krvneg...
...; prave veljave. Ugled "domačemu vinu " so zapravili nepošteni in nemar...
...lo natakarja v gostilni, ko gost izbira vina , bo obema olajšalo izbor, č...
...danji zakon o vinu določa, da je vino sposobno za promet, če dobi na o...
...TOMER, LENDAVA</p> <p>Gorička vina - gorički cvet</p> <p>Od 411...
...co Erice, pokušali otoška vina v Marsali in uživali v otoš...
...tradicionalni prireditvi Gorička vina - nova doživetja. Sicer pa pa go...
...k. Znamenita južnoafriška vina bomo poskušali v dolini Franscho...
...i čim boljšo kakovost vina . Vino res nima poštene cene na t...
...e tudi, da je moč vse kakovostno vino z lahkoto prodati do poletja. Pred trga...
...čitni znamki goričkega vina in ta bi se naj pojavila na trži...
...rgya Martina. 14.15 Popoldanski kino: Vino in oblast, naniz. 16.00 Zakladnica. 17....
...hni količini (en ali dva kozarca vina na dan ob obrokih) lahko alkohol zdravj...
...čezmerno pitje (več kozarcev vina , piva ali žganih pijač) p...
...no uživanje več kozarcev vina , piva ali žganih pijač na...
...škega; za enoto šteje kozarec vina , šilce žganih pijč...
...,3), šampion sauvignona ledenega vina iz leta 1996 pa pridelek Ernesta Novaka...
...na tem ocenjevanju, in sicer za ledeno vino laškega rizlinga (19,65).</p>...
...redikati (pozne trgatve, izbori, ledeno vino ) in tudi drugo vino, čeprav so n...
...rnim poprom ter dodamo dve žlici vina . V naslednjih 20 minutah počasi...
...celana in steklenica buteljčnega vina . Tudi sicer se mi je zdelo vse v tem po...
...o vino, ki ga ponuja. Dosedanji zakon o vinu določa, da je vino sposobno za p...
...oslenega sommeliera, ki odloča o vinu . Zelo nevarno je za ugledno restavracij...
...o se širi med porabniki znanje o vinu . V Sloveniji teče že 2. s...
...neva bodo vodene degustacije ocenjenega vina , v soboto pa tudi bogata ponudba domač...
.../p> <p>Na območno ocenjevanje vina v Podgorce je 118 vinogradnikov in vina...
...pripravilo društveno ocenjevanje vina , tokrat v lastnem Vinogradniškem...
...k višji vinski kulturi med pivci vina . Boljši hoteli in restavracije v...
..., pijača (vključuje pivo, vino in žgane pijače)</p> <...
...je seveda med zdravimi in pokvarjenimi vini .</p> <p>Povedati je potrebno, ne da...
...uporabe</hi></p> <p>Pitje, ponavadi vina , piva ali žganih pijač.</...
...no restavracijo, da ima v svoji ponudbi vina , ki niso kakovostna. Sommelier bi hitro...
...če že 2. seminar za poznavalce vina , ki jih imenujejo po francosko sommelie...
...orci: Konec tedna osrednji del praznika vina in domačih jedi</p> <p>V nede...
...a prireditev ob tradicionalnem prazniku vina in domačih jedi v Podgorcih bo k...
...časi dodajamo še preostalo vino in nato še zelenjavno osnovo ter...
...žlahtnitelji trdijo, da je pridelava vina iz te sorte možna skorajda brez...
...zidanici in se mučijo s prodajo vina povprečne kakovosti, noče...
...ukvarjajo ali s pridelavo ali s prodajo vina . Prepričan sem, da bodo slovensk...
...e so, da bi bila na trgu dovoljena samo vina , ki bodo dosegala najmanj 15 toč...
...znamk za ustekleničena slovenska vina . Tako bo do junija podelila 415 milijon...
...čitnih znamk</p> <p>Slovenska vina so del slovenske turistične ponu...
...ano belo ali rdeče, in sortnimi vini . Pravilno se označuje tako vino...
...vini. Pravilno se označuje tako vino z besedo "zvrst", ker smo ga zvrstili i...
...še vedno v pogovornem jeziku tako vino poimenujejo z besedico zborno vino, kar...
..., za zvrst (mešano vino). To vino so ocenili z najmanj 18,20 do največ...
...različnih oblikah, med drugim v vinu , pivu in žganih pijačah....
...čim boljšo kakovost vina. Vino res nima poštene cene na trgu gl...
...da, vinogradništvu in vinarstvu, vinu in bolezni drobnice. Najuspešnej...
...enskih goric poslalo skupno 197 vzorcev vina , to je deset več kot lani. Lansk...
...čer ob glasbi in podelitev priznanj za vina , v nedeljo ob 10. uri pa bodo odprli vi...
...tako vino poimenujejo z besedico zborno vino , kar pa ne ustreza več današ...
Zgled 1: Konkordance leksema "vino" iz korpusa FIDA
T. i. korpusno jezikoslovje torej pomeni zbirni pojem za niz različnih aktivnosti v zvezi s korpusi, znotraj samega jezikoslovja pa se v zvezi z uporabo korpusov vse bolj uveljavlja poimenovanje korpusni pristop v jezikoslovju. Bistvene značilnosti korpusnega pristopa bi lahko združili v sledeče:
a) izhodišče analize je velika količina načrtno zbranega avtentičnega gradiva in empirična analiza dejanskih vzorcev jezikovne rabe (Biber, Conrad, Reppen 1998: 5); šele pojav računalnikov in oblikovanje metod zbiranja ter gradnje korpusov je omogočilo pridobiti veliko količino relevantnih aktualnih jezikovnih podatkov za sodobne jezikoslovne študije; sodobna analiza jezikovne rabe namreč ne more več temeljiti na intuiciji, na jezikovni kompetenci enega govorca ali minimalnobesedilnem gradivu, ampak ji njeno relevantnost zagotavlja prav empirična analiza velike količine avtentičnih besedil (9-10);
b) uporaba računalnika za analizo z avtomatičnimi in interaktivnimi tehnikami;
c) uporaba tako kvantitativnih kot kvalitativnih analiz; kvantitativne analize se pojavljajo v izhodišču korpusnega pristopa, vendar niso njen bistven del, ampak le relevanten jezikovni podatek; bistvo korpusnega pristopa je interpretacija in razlaga tovrstnih podatkov (Biber, Conrad, Reppen 1998: 5, 8-9).
Z jezikoslovnega vidika je uporaba korpusa izjemo dragocena, saj v analize jezika vnaša večjo verodostojnost; velik obseg načrtno zbranega gradiva namreč omogoča izpostavitev v jeziku tipičnega in zmanjšuje možnost interpretiranja le obrobnega kot temeljnega. Sistematično delo s korpusom tako pomeni možnost natančnejšega spoznavanja celovitega delovanja jezika, kot je bilo možno kadarkoli prej (Čermák 1995a: 119, 121; Svartvijk 1992: 8). Glede na povedano je razvidno, da bi korpusni pristop v jezikoslovju lahko označili kot komplementari pristop k tradicionalnim, čeprav glede na tuje izkušnje lahko rečemo, da je vsaj v nekaterih segmentih jezikoslovja, predvsem v leksikologiji in leksikografiji - če pomislimo samo na Collins Cobuildove publikacije - pomenil bistveno spremembo na ravni jezikoslovnega opisa.
3 Tipologija korpusov in korpus FIDA
Z razvojem različnih korpusov je nastopila tudi potreba po njihovi tipologizaciji in oblikovanju vsaj osnovnih kriterijev za njihovo vrednotenje.4
Temeljno vrsto korpusov predstavljajo reprezentativni korpusi, ki naj bi predstavili celovito podobo nekega jezika. So večjega obsega, zanje je glede na njihovo tradicijo tudi najnatančneje izdelana metodologija gradnje; predstavljajo izhodišče za temeljne jezikoslovne raziskave predvsem s področja slovnice in slovarja.
Danes rerefenčni korpusi večinoma vključujejo tudi transkripcijo govora, sicer pa se govorni korpusi zaradi bistveno drugačne metodologije oblikujejo samostojno, tudi znotraj referenčnih pa ostajajo ločene enote, največkrat kot podkorpusi. Razvoj govornih korpusov gre v smer shranjevanja zvočnega zapisa; transkripcija za specifične potrebe raziskav govora namreč ne nudi dovolj relevantnih jezikovnih podatkov.
Za razliko od referenčnih korpusov predstavljajo korpusi podjezikov jezik v točno določeni rabi; danes so med njimi najbolj aktualni korpusi strokovnih jezikov, predvsem v okviru terminoloških raziskav. Metodologija gradnje je v veliki meri prekrivna z referenčnimi, za doseganje reprezentativnosti pa so glede na specifiko strokovnih jezikov oblikovani posebni parametri za njihovo uravnoteženost. - V začetku korpusnega pristopa v jezikoslovju sta zaradi izjemne dinamike strokovnega jezikovnega razvoja terminologija in terminografija v veliki meri uporabljali tradicionalne pristope (Mayer, Mackintosh 1996: 285), z vzpostavljeno dinamiko gradnje korpusov in njihovega nenehnega nadgrajevanja pa sta postali to področji, ki prav zaradi možnosti hitrega sprotnega opazovanja jezikovnih sprememb vse bolj temeljita ne delu s korpusom.
Predvsem za prevodoslovje so zanimivi vzporedni korpusi;5 ti namreč sopostavljajo poravnano izhodiščno besedilo in prevod oziroma prevode v drugi jezik oziroma druge jezike. Poleg vzporednih so za kontrastivne študije zanimivi še primerljivi korpusi,6 saj vključujejo primerljiva (tematsko, jezikovnozvrstno, besedilnovrstno ipd.) besedila v različnih jezikih.
3.1 Korpusa FIDA in njegove karakteristike7
Korpus FIDA je enojezikovni korpus; vanj bodo vključena sodobna slovenska besedila,8 tujejezični elementi pa se v korpusu lahko pojavijo le kot sestavni del slovenskega besedila; tako so npr. izključena vsa v celoti tujejezična besedila v slovenskih dvojezikovnih medijih.
FIDA je sinhroni korpus, torej korpus sodobne slovenščine druge polovice 20. stoletja, vendar s poudarkom na zajemanju besedil, nastalih v zadnjih dvajsetih letih. Prvotna ideja o zajemanju besedil po letu 1980, ko se pojavi elektronski prenosnik, se je izkazala za neuresničljivo, saj se kultura elektronskega arhiviranja v slovenskem prostoru šele oblikuje; starejših elektronskih arhivov praktično ni oz. so zelo redki. Tako bodo v korpus vključena v glavnem besedila 90-ih let, in sicer zadnje polovice, poudarek pa bo na aktualnih besedilih, ki v korpus pritekajo sprotno z izidom.
Korpus FIDA naj bi bil kot referenčni korpus oblikovan tako, da bi lahko posredoval vsestranske izčrpne informacije o slovenskem jeziku. Splošni referenčni korpusi skušajo zajeti celovito podobo določenega jezika; da bi bile informacije relevantne, je potrebno zagotoviti dovolj veliko količino raznovrstnih besedil, ki lahko predstavljajo uravnoteženo reprezentativno elektronsko besedilno zbirko. Prav vprašanji uravnoteženosti in reprezentativnosti sta pri postavitvi referenčnega korpusa ključni. Za zagotavljanje uravnoteženosti in s tem tudi reprezentativnosti je v izhodišču oblikovana mreža parametrov, s pomočjo katerih se določa količina vključevanja različnih besedil v korpus. - Z jezikovnozvrstnega vidika se v korpusu FIDA družijo besedila glede na taksonomijo, definirano v glavi korpusa:
Ft Taksonomija FIDA
Ft.Z zvrst
Ft.Z.U umetnostna9
Ft.Z.U.P pesniška
Ft.Z.U.R prozna
Ft.Z.U.D dramska
Ft.Z.N neumetnostna
Ft.Z.N.S strokovna10
Ft.Z.N.S.H humanistično-družboslovna
Ft.Z.N.S.N naravoslovno-tehnična
Ft.Z.N.N nestrokovna
Zgled 2: Taksonomija FIDA "zvrst"
Seveda se s predstavljeno taksonomijo zagotavlja samo zelo groba uravnoteženost korpusa. V okviru strokovnih besedil se npr. pripravlja analiza stanja po posameznih strokah v Sloveniji: glede na število publikacij in količinsko produkcijo besedil v okviru posamezne stroke bo oblikovan kriterij količinskega zajetja strokovnih besedil po posameznih strokah. Tovrstni podatki bodo pomembni predvsem za zajemanje znanstvenih besedil; pri strokovnih besedilih s sporočanjsko-vplivanjsko vlogo (poljudnoznanstvena, učbeniška) je glede na selektivni izbor vsebin, namenjenih širšemu naslovniku, njihovo vključevanje manj problematično; pri znanstvenih pa bi z vključitvijo prevelike količine besedil specifičnega predmetnega področja lahko hitro dobili popačeno sliko jezikovne realnosti.
Reprezentativnost korpusa je sicer relativna kategorija, saj je nemogoče predvideti in v korpus zajeti vse besedilne variante, vendar pa se skuša z merili reprezentativnosti zajeti vsaj ključne, ki pa morajo vključevati čim več jezikovnih variant. Količinska razmerja med različnimi besedili so v izhodišču odvisna predvsem od recepcije različnih besedil, pa tudi besedilne produkcije (Biber, Conrad, Reppen 1998: 246-250; Čermák 1997: 192-193). Predvsem vidik recepcije ostaja v okviru slovenskega prostora še ne dovolj raziskan, deloma so lahko v pomoč podatki o branosti (predvsem podatki Mediane) in podatki o knjižnični izposoji; v prihodnje pa bi bilo potrebno oblikovati tudi ankete posebej za ta namen. Tako merila reprezentativnosti trenutno upoštevajo tuje izkušnje, vendar se za slovenščino glede na specifike našega prostora v veliki meri oblikujejo popolnoma na novo, zato je razumljivo, da se ob srečevanju s konkretnimi problemi in v diskusiji v okviru korpusne skupine (vse bolj pa tudi širše) dinamično prilagajajo, še zdaleč pa v prvi fazi projekta ne moremo pričakovati doseganja reprezentativnosti glede na vse želene parametre.11
Vsaj v svojem izhodišču je FIDA pisni korpus; zajema torej pisna besedila in prvotno pisna besedila, namenjena govorjenju. Vendar se v zalogi besedil FIDA shranjujejo tudi transkripcije govora, npr. parlamentarne razprave, z ambicijo oblikovati tudi podkorpus govornih besedil. Pri tradicionalni delitvi besedil na govorna in pisna je potrebno upoštevati še elektronsko komunikacijo. Ta je v taksonomiji FIDA "prenosnik" že predvidena, saj elektronski medij pomeni bistveno drugačen tip komunikacije s samosvojo obliko in slogom, ki je značilna samo zanjo (Eagles).12 Hkrati pa je elektronsko komunikacjo potrebno vsaj grobo deliti na dva dela: samo elektronski prenos zapisanih besedil in elektronsko komunikacjio, ki nastaja v interakciji, torej neke vrste dialoška elektronska besedila. Vendar v okviru korpusnega jezikoslovja še ni enotnega dogovora o statusu elektronskih besedil in njihovem razmerju do obeh tradicionalnih prenosnikov. Tako so v dokumentih pobude Eagles npr. podani le predlogi o zajemanju govornih besedil glede na formalnost položaja in dosega naslovnikov v razmerju do pisnih, kot je npr. Sinclarjev predlog, ki ga povzema Eagles; prenosniki in govorni položaji so pri tem nanizani glede na predvideno količino v korpus zajetih besedil (od zgoraj navzdol količina zajetih besedil pada).
govorni pisni
radio in TV časopis
lokalni radio in lokalna TV revija in knjižna publikacija
zborovanje obvestilo
predavanje lokalna publikacija
razred delovni dokument
diskusija okrožnica
intervju zapis delovnih skupin
konverzacija privatna korespondenca
Zgled 3: Predlog količinskega zajemanja pisnih in govorjenih besedil glede na prenosnik oz. govorni položaj (Eagles)
Korpus FIDA v prvi fazi vključuje pisna besedila predvsem vrhnjih prenosnikov; ta bodo na koncu oblikovala tudi jedrni del korpusa. Glede na priporočila pobude Eagles in predvideno zajemanje besedil glede na različne prenosnike je bila za korpus FIDA oblikovana spodnja taksonomija; zaradi zajemanja predvsem pisnih besedil je najbolj razvejana prav v tem delu.
Ft Taksonomija FIDA
Ft.P prenosnik
Ft.P.G govorni
Ft.P.E elektronski
Ft.P.P pisni
Ft.P.P.O objavljeno
Ft.P.P.O.K knjižno
Ft.P.P.O.P periodično
Ft.P.P.O.P.C časopisno
Ft.P.P.O.P.C.D dnevno
Ft.P.P.O.P.C.V večkrat tedensko
Ft.P.P.O.P.R revialno
Ft.P.P.O.P.R.T tedensko
Ft.P.P.O.P.R.S na štirinajst dni
Ft.P.P.O.P.R.M mesečno
Ft.P.P.O.P.R.D redkeje kot na mesec
Ft.P.P.N neobjavljeno13
Ft.P.P.N.J javno
Ft.P.P.N.I interno
Ft.P.P.N.Z zasebno
Zgled 4: Taksonomija FIDA "prenosnik"
Eden od parametrov doseganja reprezentativnosti je tudi kolikost, tj. velikost korpusa; ta naj bi s svojim obsegom zagotovil dovolj veliko količino jezikovnih podatkov. Velikost korpusov danes narašča zelo hitro, saj je ob vzpostavljeni dinamiki pritoka besedil v korpus vse lažje zagotoviti veliko količino besedil. Tako se danes vse manj razpravlja o celotni količini podatkov, vse bolj je namreč pomembno doseganje stalnega dotoka novih v korpus (Eagles). Ker so korpusi torej dinamična pojavnost, je tudi pri korpusu FIDA določeno le izhodišče, tj. 100 milijonov besed kot merilo reprezentativnosti,14 vendar z idejo nadaljnjega sprotnega spremljanja jezikovnega dogajanja s stalnim vključevanjem novega besedilnega gradiva ob ohranjanju količinskih razmerij med komponentami korpusa.
Kakovost vsakega korpusa v izhodišču določa avtentičnost besedil. Korpusi naj bi predstavljali jezik v realni rabi, tako da v korpusu lahko pričakujemo le avtentična besedila. Ker je pomembno merilo avtentičnosti tudi morebitni jezikovni poseg v avtorsko besedilo (Eagles), v slovenskem primeru npr. lektorski, je v glavo dokumenta, če ta podatek obstaja, vključen tudi podatek o lektoriranju.
Enostavnost kot karakteristka korpusa je vezana na elektronski zapis korpusa; pri tem se namreč pričakuje, da so vse oznake, ki se v besedilu, vključenem v korpus, pojavljajo glede na določila standardov in njihovih aplikacij ločeno od besedila in so vedno natančno definirana. Z njimi v besedilo ne smemo vnašati dodatnih jezikovnih elementov, služijo pa lahko za ohranjanje nekaterih informacij, ki bi se drugače izgubile (Eagles), kot je npr. podatek o izpustu slike; pri tem pa so vsi podatki o spremembah v besedilu v fazi gradnje korpusa (vhodni, končni in vsi vmesni) vedno dokumentirani (Romih 1998: 79). Standardizacija elektronskega zapisa in oznak korpusa zagotavlja čim večjo izmenljivost in trajnost korpusa. Standardni zapisi so namreč natančno dokumentirani, javno dostopni in neodvisni od specifičnega programskega okolja. Oznake FIDA so skladne z ISO-standardom SGML (Standard Generalised Markup Language) in priporočili za označevanje besedil TEI (Text Encoding Iniciative) (Erjavec 1998: 85).
Dokumentiranost je zagotovljena s podatki o besedilu v glavi vsakega dokumenta, vključenega v korpus. Poleg obveznih podatkov v glavi dokumenta je v primeru, ko že obstaja kataloški zapis v sistemu COBISS, tudi ta vključen v glavo dokumenta.
3.2 Korpus FIDA v prihodnje
V prvi fazi projekta bo v zalogi besedil FIDA15 predvidoma zbrano količinsko dovolj veliko število besedil, glede na želeno uravnoteženost korpusa bo v nadaljevanju potrebno ciljno zbiranje besedil in njihovo vključevanje v korpus. Ker je projekt uspešno združil ustvarjalne energije sodelavce z različnih področij, je naša ambicija z njim nadaljevati; tako se zdi smiselno premisliti možnosti, kako ohraniti obstoječe sodelovanje pri projektu FIDA sodelujočih partnerjev in znanje ter izkušnje ustrezno prenesti tudi na morebitne druge korpusne projekte, kot so vzporedni korpusi, korpusi strokovnih jezikov, morda tudi diahroni korpus slovenščine ipd., sam korpus FIDA pa v nadaljevanju nadgrajevati vsaj v treh smereh:
a) z vidika doseganja večje uravnoteženosti; v tem okviru bo potrebno zagotoviti možnosti za raziskave, ki bodo glede na tujejezične izkušnje odgovorile na odprta vprašanja o razmerjih med različnimi besedili v reprezentativnem korpusu, saj v prvi fazi projekta ni bilo mogoče na vseh segmentih upoštevati specifik slovenščine;
b) s transkripcijo govora; še pred tem pa izoblikovati metodološka izhodišča gradnje podkorpusa govora, izhajajoč iz deloma že oblikovanih predvsem za angleški jezik, vendar z nujnim upoštevanjem specifike slovenščine;
c) večjim vključevanjem elektronskega prenosnika; v tem okviru bo potrebno premisliti njegovo vlogo in poiskati ustrezne rešitve; že v tem trenutku je elektronski prenosnik izjemno aktualen, prav gotovo pa je to medij prihodnosti, zato ga je glede na njegov status v korpus nujno vključevati v večjem obsegu.
4 Sklep
Korpusi v jezikoslovju so danes nepogrešljiv vir relevantnih jezikovnih podatkov. Zaradi pozitivnih izkušenj z njihovim vključevanjem v sodobno jezikoslovje se njihova uporabnost širi; predvsem v leksikologiji in leksikografiji ter terminologiji in terminografiji pa si danes sodobnih jezikoslovnih raziskav sploh ne predstavljamo več. Pozitivne tuje izkušnje ter potreba po aktualnem jezikovnem gradivu je spodbudila razvoj tovrstnih jezikovnih virov tudi v Sloveniji; nastajajoči korpusi, med njimi predvsem referenčni korpus FIDA, pa bodo lahko dobra osnova in spodbuda za sodobne slovenistične raziskave.
V procesu globalizacije, ki na ravni jezika pomeni v glavnem proces amerikanizacije, so sodobni jezikovni viri posameznih nacionalnih jezikov in razvoj orodij za delo z njimi pot k t. i. lokalizaciji. Proces globalizacije je namreč spodbudil težnjo po prilagoditvi globalnih "sredstev" določenemu jezikovnemu/kulturnemu okolju. Ob tudi politično izraženi podpori mnogojezikovnosti in mnogokulturnosti v okviru Evropske unije (Andersen 1998: 9) je zato vprašanje stopnje lokalizacije v veliki meri odvisna od nas samih. Tudi s tega vidika je razvoj slovenskih jezikovneih virov v tem trenutku izjemnega pomena.
Literatura:
ANDERSEN, Poul, 1998: Language Technology and Multilinguality - The European Dimension. Jezikovne tehnologija za slovenski jezik/Language Technologies for the Slovene Language. Zbornik konference/Proceedings of the Conference. 6. do 7. oktober 1998. Ur. Tomaž Erjavec in Jerneja Gros. Ljubljana: Institut Jožef Stefan. 9-13.
ASTON, Guy, BURNARD, Lou, 1998: The BNC Handbook. Exploring the British National Corpus with SARA. Edinburgh: Edinburgh University Press.
BIBER, Douglas, 1993: Representativeness in Corpus Design. Journal of Literary and Linguistics Computing 8. 243-257.
BIBER, Douglas, CONRAD, Susan, REPPEN, Randi, 1998: Corpus Linguistics. Investigating Language Structure in Use. Cambridge: Cambridge University Press.
ČERMÁK, František, 1995: Jazikový korpus: Prost(edek a zdroj poznání. Slovo a slovesnost 56. 119-140.
- - 1997: Czech National Corpus: A Case in Many Contexts. International Journal of Corpus linguistics II/2. 181-197. URL: http://solaris3.ids-mannheim.de/~ijcl/ijcl-2-2.html
ERJAVEC, Tomaž, 1996/97: Računalniške zbirke besedil. Jezik in slovstvo 2/3. 81-95. URL: http://nl.ijs.si/tomaz/Bib/SlKorpus/slKorpus-la2/
- - 1998: Oznake korpusa FIDA. Uporabno jezikoslovje 6. Tematska številka "Jezikovne tehnologije". Ur. Zdravko Kačič. 85-95.
ERJAVEC, Tomaž, GORJANC, Vojko, STABEJ, Marko, 1998: Korpus FIDA. Jezikovne tehnologija za slovenski jezik/Language Technologies for the Slovene Language. Zbornik konference/Proceedings of the Conference. 6. do 7. oktober 1998. Ur. Tomaž Erjavec in Jerneja Gros. Ljubljana: Institut Jožef Stefan. 124-127. URL: http://www.fida.net/slo/clanki/clfida.htm
GORJANC, Vojko, 1997: Češki narodni korpus. Slavistična revija XLV/3-4. 578-580.
HIRCI, Nataša, 1998: Korpusi v prevodoslovju. Jezikovne tehnologija za slovenski jezik/Language Technologies for the Slovene Language. Zbornik konference/Proceedings of the Conference. 6. do 7. oktober 1998. Ur. Tomaž Erjavec in Jerneja Gros. Ljubljana: Institut Jožef Stefan. 113-118.
JAVORNIK, Miha, 1998: Internet - začetek novega ali ponavljanje znanega (Kaj pri tem počne Mihail Bahtin?). Slavistična revija 46/1-2. 141-152.
KENNEDY, Graeme, 1998: An Introduction to Corpus Linguistics. London: Longman.
McENERY, Tony, WILSON, Andrew, 1996: Corpus Linguistics. Edinburgh: Edinburgh University Press.
MEYER, Ingrid, MACKINTOSH, Kristen, 1996: The Corpus from a Terminographer's Viewpoint. International Jurnal of Corpus linguistics I/2. 257-285.
PRTT - Preliminary Recommendation on Text Typology, 1996. EAGLES Document EAG-TCWG-TTYP/P.
ROMIH, Miro, 1998a: Amebis in jezikovne tehnologije. Jezikovne tehnologija za slovenski jezik/Language Technologies for the Slovene Language. Zbornik konference/Proceedings of the Conference. 6. do 7. oktober 1998. Ur. Tomaž Erjavec in Jerneja Gros. Ljubljana: Institut Jožef Stefan. 29-34.
- - 1998b: Direktorijsa struktura korpusa FIDA. Uporabno jezikoslovje 6. Tematska številka "Jezikovne tehnologije". Ur. Zdravko Kačič. 79-84.
SINCLAIR, John, 1991: Corpus, Concordance and Collocation. Oxford: Oxford University Press.
STABEJ, Marko, 1998: Besedilnovrstna sestava korpusa FIDA. Uporabno jezikoslovje 6. Tematska številka "Jezikovne tehnologije". Ur. Zdravko Kačič. 96-106.
SVARTVIJK, Jan, 1992: Corpus linguistics comes of age. Direction in Corpus Linguistics. Proceedings of Nobel Symposium 82, Stockholm, 4-8. 8. 1991. Ur. Jan Svartvijk. Berlin, New York: Mouton de Gruyter. 7-13.
Spletne strani:
Bank of English. URL: http://titania.cobuild.collins.co.uk/
BNC - British National Corpus. URL: http://info.ox.ac.uk/bnc/
EAGLES - Expert Advisory Group on Language Engineering Standards. URL: http://www.ilc.pi.cnr.it/EAGLES96/home.html
FIDA - Korpus slovenskega jezika. URL: http://www.fida.net
ICNC - The Institute of the Check National Corpus. URL: http://ucnk.ff.cuni.cz/cnc
1 Potrebno je opozoriti, da elektronska besedilna zbirka nujno ne vključuje celotnih besedil, ampak je lahko sestavljena le iz vzorčnih količinsko uravnoteženih delov besedil (Eagles).
2 Več o stanju in perspektivah razvoja jezikovnih tehnologije v Sloveniji glej v zborniku prispevkov s konference Jezikovne tehnologija za slovenski jezik/Language Technologies for the Slovene Language, 6. do 7. oktober 1998, ur. Tomaž Erjavec in Jerneja Gros, Ljubljana, Institut Jožef Stefan.
3 Za konkordance leksema "vino" je bil uporabljen program MonoConcTM. - Sicer obstaja že kar nekaj prosto dostopnih programskih orodij za analizo elektronskih besedil, vendar so ti v glavnem namenjeni analizi angleščine, zato so pri flekcijskih jezikih manj uporabni. Prav zaradi tega se tudi v okviru projekta FIDA razvijajo posebna orodja za korpusno analizo; v izhodišču temeljijo na programu ASP podjetja Amebis; program srečujemo že pri elektronskih slovarjih, ki jih pripravlja omenjeno podjetje.
4 S tipologijo korpusov, tipologojo besedil in drugimi aktualnimi vprašanji korpusnega jezkoslovja se ukvarja evropska iniciativa Eagles; njeni dokumenti in priporočila v veliki meri predstavljajo neke vrste standard pri gradnji različnih tipov korpusov. O tem več pri T. Erjavcu (1996/97); drugača je tipologija korpusov v okviru prevodoslovja, ki zanemarja ustaljeno tipologijo Eagles in znotraj za prevodoslovje aktualnih korpusov deli korpuse nekoliko drugače (Hirci 1998: 115).
5 V Sloveniji prvi obsežnejši vzporedni korpus nastaja v okviru evropskega projekta ELAN. URL: http://www.solaris3.ids-mannheim.de/elan/
6 Sem bi lahko uvrstili korpuse, nastale v okviru mednarodnega projekta MultextEast, v katerega je vključena tudi slovenščina (Erjavec 1996/97). URL: http://nl.ijs.si/ME/
7 O karakteristikah korpusa Fida tudi v referatu s konference Jezikovne tehnologije za slovenski jezik (Erjavec, Gorjanc, Stabej 1998).
8 Z vsakim besedilodajalcem je podpisana enotna pogodba o odstopu besedil v elektronski obliki, ki ureja načine, na katere lahko projekt razpolaga z besedili za potrebne nadaljnje obdelave in formatiranja.
9 Pri češkem korpusu je npr. izhodiščna delitev na strokovna in nestrokovna (t. i. specializirana in nespecializirana besedila), in sicer v razmerju 33,5 % : 66,5 % (Čermák 1997: 193).
10 Glede na tradicionalno funkcijskozvrstno delitev v slovenističnem jezikoslovju je izpuščena zvrst "publicistična". Glede na deloma avtomatizirane postopke obdelave, predvsem pa glede na vsebinsko raznovrstnost ter besedilnovrstno raznorodnost besedil v časopisju in revijah je bila sprejeta uredniška odločitev o ustreznosti označevanja tovrstnih besedil s križanjem taksonomij zvrst in prenosnik, npr. Ft.Z.N.N in Ft.P.P.O.P.C.
11 O merilih besedilnovrstne uravnoteženosti glej v članku M. Stabeja; tam so npr. predstavljene tudi uredniške odločitve glede razmerja med umetnostnimi in neumetnostnimi besedili, o doseganju regionalne uravnoteženosti, problematiki zajemanja izvirnih in prevodnih besedil ipd. (1998: 102-105).
12 Zanimiva razmišljanja o specifikah internetske kominikacije podaja M. Javornik (1998).
13 Kategorija "objavljeno" je tu v opoziciji z "neobjavljeno" glede na izid in s tem katalogizacijo kot publikacija.
14 Trenutno je korpus FIDA velikosti 30 milijonov besed, vendar bo že v času letošnjega poletnega seminarja ta številka višja.
15 V zalogi besedil ze zbirajo besedila v izvornih formatih, in sicer v obliki, kot jih projekt pridobi od posameznih besedilodajalcev, s postopki preformatiranja in standardnega označevanja so kasneje vključena v korpus.
Nazaj.