FIDA
Korpus slovenskega jezika FIDA je referenčni korpus za slovenski jezik; je rezultat projekta dveh pedagoško-raziskovalnih in dveh komercialnih partnerjev: Filozofske fakultete Univerze v Ljubljani, Instituta Jožef Stefan, založbe DZS, d.d. in podjetja Amebis, d.o.o. Projekt gradnje korpusa FIDA se je začel spomladi leta 1997, končan je bil ob koncu leta 2000. Projekt sta v celoti financirala oba komercialna partnerja.
Korpus slovenskega jezika FIDA je:
- Referenčni korpus: referenčni korpus je obsežna elektronska besedilna zbirka, ki zajema vzorčni delež besedil nekega jezika. Njegov osnovni namen je, da omogoča temeljit vpogled v jezik na najrazličnejših ravneh in področjih, in je tako pomemben vir za uporabno in teoretično jezikoslovje, npr. slovaropisje v vseh oblikah (eno- in večjezikovni slovarji, terminološki slovarji in drugi jezikovni priročniki), poučevanje jezika (učbeniki in učni pripomočki), jezikovne tehnologije (črkovalniki, slovnični pregledovalniki, govorni vmesniki) ter tudi druge družboslovne in humanistične vede, npr. literarno vedo, psihologijo in sociologijo.
- Enojezikovni korpus: vključuje sodobna slovenska besedila; tujejezični elementi se v korpusu lahko pojavijo le kot sestavni del slovenskega besedila, izključena pa so vsa tujejezična besedila, npr. italijanska iz dvojezikovnih medijev na Obali.
- Sinhroni korpus: korpus sodobne slovenščine druge polovice 20. stoletja, vendar s poudarkom na zajemanju besedil, nastalih v 90-ih letih.
- (Izhodiščno) pisni korpus: zajema pisna besedila in prvotno pisna besedila, namenjena govorjenju; transkripcije govora - parlamentarne razprave - so edina govorna sestavina korpusa.
V korpusu slovenskega jezika FIDA so zbrana sodobna slovenska besedila v skupnem obsegu nekaj nad 100 milijonov besed; v njem je zajeta široka paleta variant slovenskega jezika, kot ga prinašajo predvsem slovenski tiskani mediji, nekaj je tudi internetskih besedil in transkripcije govora. Na voljo je tudi natančnejša predstavitev besedil po kategorijah.
Sama zbirka besedil ne zadostuje za raziskovanje jezika, iskanje po korpusu in obdelavo rezultatov iskanja. Za to je potrebna programska oprema, ponavadi jo imenujemo konkordančnik. Z njegovo pomočjo lahko iščemo po različnih kriterijih, zadetke razvrščamo in jih statistično obdelujemo. Za potrebe korpusa FIDA je bil razvit konkordančnik
ASP32, s katerim lahko preko interneta iščemo po korpusu FIDA. Delovanje konkordančnika si lahko ogledate.
Ekipa, ki je sodelovala pri gradnji korpusa FIDA, se zahvaljuje vsem, ki so podprli projekt z oddajo besedil ali kako drugače, zainteresirano javnost pa vabimo, da prispeva k nadaljnji širitvi korpusa. Vabimo vas tudi, da nam mnenja v zvezi s korpusom FIDA pošljete na naslov fida@dzs.si.