Tomaž Erjavec
Inštitut Jožef Stefan, Odsek za inteligentne sisteme
OZNAKE KORPUSA FIDA
POVZETEK
V okviru projekta FIDA je v izdelavi referenčni korpus slovenskega jezika. Standardizacija računalniškega zapisa in oznak korpusa pripomore k čim širši uporabnosti korpusa, njegovi izmenljivosti in trajnosti. Označitve FIDA so v skladu z ISO standardom SGML (Standard Generalized Markup Language) ter s priporočili iniciative za označevanje besedil TEI (Text Encoding Initiative). V članku predstavimo SGML in TEI ter opišemo njuno uporabo pri določitvi oznak korpusa FIDA. Osredotočimo se na vrhnjo zgradbo korpusa in na strukturo ter zapis glav v korpusu FIDA in njegovih besedilih. Glava TEI predstavlja ťelektronsko naslovno stranŤ besedila; v njej hranimo deklarativno informacijo o besedilu, ki zajema opis besedila znotraj korpusa, opis odnosa med tem besedilom in izvirnikom, iz katerega je bilo narejeno, ter opis nebibliografskih vidikov besedila. Uporabo oznak ilustriramo s primeri iz korpusa. Na koncu izpostavimo še problematične vidike standardiziranega zapisa referenčnega korpusa slovenskih besedil.
ABSTRACT
The FIDA project is compiling a reference corpus of the Slovene language. The application of international standards and recommendations to the computer coding of the corpus facilitates its exploitation, interchange and longevity. The encoding and markup of the FIDA corpus conforms to the ISO standard SGML (Standard Generalized Markup Language) and to the recommendations of TEI (Text Encoding Initiative). The paper introduces SGML and TEI, and gives their application in the definition of the FIDA markup. The focus is on the top-level structure of the corpus and on the structure and content of corpus and text headers. FIDA markup is illustrated with examples from the corpus. The paper concludes with a discussion of some drawbacks of applying standardised encoding to a reference corpus of Slovene texts.
I. UVOD
FIDA (Krek et al.; Erjavec, Stabej, Gorjanc, 1998) je projekt, v katerem sodelujejo Filozofska fakulteta Univerze v Ljubljani, Inštitut Jožef Štefan, založba DZS d.d. in podjetje Amebis d.o.o. Cilj projekta je oblikovanje referenčnega elektronskega korpusa besedil slovenskega jezika. V tem članku se osredotočimo na elektronski zapis nastajajočega korpusa FIDA, tj. na njegovo hierarhično zgradbo, na definicijo in pomen veljavnih oznak ter na zapis dokumentacije o besedilih, ki tvorijo korpus.
Pri računalniškem zapisu jezikovnih virov na splošno in posebej pri zapisu korpusov se v zadnjem času vse bolj uveljavljajo zapisi, ki so v skladu z mednarodnimi priporočili iniciative za zapis besedil TEI (Sperberg-McQueen, Burnard, 1994; Ide, Veronis, 1995). Tako sta v skladu s TEI zapisana tudi britanski nacionalni korpus (BNC) in češki nacionalni korpus (Čermák, 1997), ki v mnogočem služita kot vzor korpusu FIDA. Standardizacija zapisa prinese s seboj mnoge prednosti (Erjavec, 1998): tak zapis je natančno opredeljen, dobro dokumentiran ter javno dostopen. To spodbuja široko uporabnost in izmenljivost korpusa, saj njegova uporaba ni vezana na konkretno programsko in strojno opremo, s čimer je zagotovljena tudi trajnost digitalnega zapisa.
Prispevek v poglavju 2 predstavi mednarodni standard za zapis dokumentov SGML in mednarodna priporočila TEI ter opiše, kako je zapis FIDA izpeljan iz teh priporočil. V poglavju 3 opišemo strukturo celotnega korpusa ter orišemo oznake, ki nastopajo v korpusu.V poglavju 4 zaključimo z opisom nekaterih težav, ki spremljajo uporabo mednarodnih priporočil, ter podamo načrte za nadaljnje delo.
II. DEFINICIJA TIPA DOKUMENTOV FIDA
Temeljni standard zapisa, uporabljenega v TEI in s tem tudi v korpusu FIDA, je SGML: Standard Generalised Markup Language (Goldfarb, 1990; Batagelj, 1995). SGML je standard ISO 8879:1986 in določa jezik za predstavitev dokumentov, nad katerimi bodo delovali programi za obdelavo besedil. SGML je predvsem jezik za označevanje dokumentov, pri čemer lahko oznake opisujejo kakršnokoli informacijo, ki je dodana osnovnemu besedilu. SGML se glede na ostale jezike za označevanje dokumentov odlikuje v treh karakteristikah:
* neodvisnost od konkretnega zapisa besedil
* poudarek na opisnem označevanju
* koncept tipa dokumenta
Eden od osnovnih ciljev SGML je, da so v njem zapisani podatki prenosljivi z ene strojne in programske opreme na drugo brez izgube informacije. SGML zato vsebuje splošen mehanizem za nadomeščanje nizov pri obdelavi dokumenta, s katerim je mogoče preseči neskladnosti in pomanjkljivosti v naborih znakov različnih specifičnih računalniških sistemov, saj lahko za neprenosljive znake definiramo opisna imena, t.i. entitete, npr. 'č' za 'č'.
Opisne oznake se, za razliko od postopkovnih, nanašajo na lastnosti besedila in ne na postopek, v katerem se te lastnosti realizirajo. Oznaka bo tako npr. opredelila niz, ki ga opisuje, kot odstavek, ne pa kako je ta niz formatiran na nekem mediju.
SGML ne določa konkretnih oznak in njihovih medsebojnih odnosov, zato pa v SGML definiramo tipe dokumentov (DTD: Document Type Definition), ki imajo to nalogo. DTD je sestavljen iz formalnega dela, ki poda gramatiko oznak, ter dokumentacije, ki te oznake osmisli, npr. pove, da oznaka <p> pomeni odstavek.
Tako so tudi priporočila TEI (Text Encoding Initiative) z imenom P3 (Sperberg-McQueen, Burnard, 1994) nabor tipov dokumentov in navodil za njihovo sestavljanje in nadgradnjo. TEI P3 je poskus standardizacije označevanja besedil, ki naj bi se uporabljala pretežno v znanstvene namene, pokriva pa široko paleto različnih zvrsti besedil in njihovih interpretacij. TEI P3 loči več vrst oznak: središčne oznake (npr. glava dokumenta) so obvezne v vseh s TEI skladnih dokumentih, od osnovnih zvrsti oznak lahko za nek konkreten DTD izberemo po eno (npr. proza ali slovar), dodatne zvrsti (npr. za oblikoslovno analizo) pa lahko dodajamo na to osnovo.
Oznake korpusa FIDA so v skladu z definicijo tipa dokumenta FIDA (DTD FIDA), ta pa je narejen s parametrizacijo TEI P3. Trenutna parametrizacija je podobna tisti za definicijo tipa dokumentov TEIlite ('lahki TEI', Burnard, Sperberg-McQueen, 1995). Kot osnovni modul je izbrana proza (TEI.prose), kot dodatni moduli pa navzkrižne povezave (TEI.linking), osnovni elementi jezikovne analize (TEI.analysis) in slikovni elementi (TEI.figures). Nadalje vsebuje FIDA DTD še parametrizacijo posameznih elementov TEI, predvsem tistih iz glave besedila. Tu so nam bila za vodilo priporočila CES (Corpus Encoding Specification), ki smo jih pred tem uporabljali za (slovenski) korpus v projektu MULTEXT-East (Erjavec, Ide, 1998). Končno pa vsebuje FIDA DTD še definicijo nabora znakov FIDA ter dveh elementov korpusa FIDA. Prvi je definicija taksonomije FIDA, podana v entiteti &FIDAtaxonomy;, drugi pa definicija jezikov FIDA, v entiteti &FIDAlangusage;. Vsebino teh dveh entitet in njuno funkcijo in mesto v korpusu obravnavamo bolj podrobno spodaj.
III. ZGRADBA KORPUSA
Celoten korpus FIDA bo sestavljen iz glave korpusa in besedil. Vsako besedilo ima svojo glavo in telo. Glava korpusa zajema dokumentacijo o korpusu kot celoti, glave besedil opisujejo posamezno besedilo, telesa pa obsegajo besedila sama, zapisana v skladu s DTD FIDA. Zgradbo v zapisu FIDA ilustriramo spodaj:
<teiCorpus.2 lang="sl">
<teiHeader type="corpus"> ... </teiHeader> <!-- Glava korpusa -->
<tei.2> <!-- Besedilo 1: začetek -->
<teiHeader type="text"> ... </teiHeader> <!-- Glava besedila 1-->
<text><body> ... </body></text> <!-Telo besedila 1 -->
</tei.2> <!-- Besedilo 1: konec -->
...
<tei.2> <!-- Besedilo 999 -->
<teiHeader type="text"> ... </teiHeader>
<text><body> ... </body></text>
</tei.2>
</teiCorpus.2>
V nadaljevanju najprej orišemo zgradbo glave <teiHeader> in ilustriramo njeno vsebino na ravni korpusa FIDA in posameznega besedila; posebej se posvetimo definiciji jezikov in taksonomije FIDA. Na koncu še na kratko opišemo elemente teles besedil. Za ilustracijo je v Prilogi 1 podana celotna glava enega besedila korpusa FIDA.
Zgradba glave TEI
Glava TEI predstavlja ťelektronsko naslovno stranŤ besedila. V njej hranimo deklarativno informacijo o besedilu, ki zajema opis besedila TEI, opis odnosa med tem besedilom ter izvirnikom, iz katerega je bilo narejeno, ter opis nebibliografskih vidikov besedila. Glava TEI oz. FIDA ima precej kompleksno strukturo, vsebuje pa štiri vrhnje elemente:
1. Opis datoteke, z oznako <fileDesc>, zajema podatke o samem besedilu, npr. naslov in dostopnost, vključno z navedbo virov digitalnega besedila, npr. bibliografskimi podatki.
2. Opis zapisa, <encodingDesc>, opiše oznake v besedilu: tu je podano, katere oznake se v besedilu uporabijo in kolikokrat; v primeru da so posamezne oznake dodatno definirane glede na nadrejeno dokumentacijo pa še, kaj pomenijo. V opisu zapisa glave celotnega korpusa je tudi definirana taksonomija korpusa FIDA.
3. Opis profila, <profileDesc>, poda nebibliografske podatke o besedilu. V glavi korpusa FIDA so tu definirani identifikatorji jezikov, v glavi besedil pa uvrstitev besedila v taksonomijo korpusa FIDA.
4. Končno vsebuje glava še opis sprememb <revisionDesc>, kamor beležimo spremembe v korpusu oz. besedilu.
Glava korpusa FIDA
V glavi korpusa hranimo dokumentacijo o korpusu kot celoti, predvsem o postopkih označevanja, lahko pa tudi o bibliografiji korpusa, npr. temle članku. Glava korpusa nadalje poda koristne kvantitativne podatke o celem korpusu, npr. velikosti korpusa in številu uporabljenih oznak. Glava korpusa FIDA poleg tega vsebuje dva pomembnia elementa, namreš definicijo taksonomije FIDA, <taxonomy> (zapisan v DTD FIDA, v entiteti &FIDAtaxonomy;) ter definicijo jezikov FIDA <langUsage> (v entiteti &FIDAlangusage;), na katere se potem lahko sklicujejo posamezna besedila.
Definicija taksonomije FIDA znotraj opisa zapisa definira drevo identifikatorjev in njihovih opisnih imen, ki nato služijo uvrščanju posameznih besedil v to hierarhijo (Ridings, 1996). Kot primer podamo začetek in konec definicije taksonomije FIDA:
<taxonomy id='Ft'>
<category id='Ft.P'><catDesc>prenosnik</catDesc>
<category id='Ft.P.G'><catDesc>govorni</catDesc></category>
<category id='Ft.P.E'><catDesc>elektronski</catDesc></category>
<category id='Ft.P.P'><catDesc>pisni</catDesc>
<category id='Ft.P.P.O'><catDesc>objavljeno</catDesc>
<category id='Ft.P.P.O.K'><catDesc>knjižno</catDesc></category>
<category id='Ft.P.P.O.P'><catDesc>periodično</catDesc>
<category id='Ft.P.P.O.P.C'><catDesc>časopisno</catDesc>
...
<category id='Ft.L'><catDesc>lektorirano</catDesc>
<category id='Ft.L.D'><catDesc>da</catDesc></category>
<category id='Ft.L.N'><catDesc>ne</catDesc></category>
</category>
</taxonomy>
Definicija jezikov FIDA se nahaja v opisu profila glave korpusa in poda z ISO 639 skladne identifikatorje jezikov, s katerimi lahko potem kvalificiramo elemente v besedilih. Čeprav je FIDA korpus slovenskega jezika, se v njem vendarle pojavljajo elementi tujih jezikov, ki jih je mogoče kot take potem tudi označiti. Kot primer podamo začetek definicije jezikov FIDA:
<langUsage>
<language id=sl>slovenščina</language>
<language id=en>angleščina</language>
<language id=de>nemščina</language>
<language id=fr>francoščina</language>
<language id=it>italijanščina</language>
...
<langUsage>
Glave besedil
Vsako posamezno besedilo ima tudi svojo glavo. V njej se beleži precejšnje število podatkov, s pomočjo katerih pridemo do izvirnka besedila, zapisanega v korpusu, in omejimo iskanje po korpusu samo na del, ki ustreza zahtevanim kriterijem. Kot primer je v Prilogi 1 podana celotna glava enega besedila. Tu bomo posvetili pozornost samo nekaterim bolj kompleksnim elementom.
V opisu datoteke se med drugim nahaja opis vira <sourceDesc>, ki v besedilih korpusa FIDA vsebuje polno bibliografijo, <bibFull>. Ta na vrhnjem nivoju poda referenco na digitalni izvirnik besedila FIDA. Pri pretvorbi v zapis FIDA namreč izgubimo marsikatero informacijo (npr. o stavljenju) iz digitalnega vira, obenem pa v postopku označevanja prihaja tudi do napak. Zato je skozi referenco na digitalni vir vedno mogoče ugotoviti -- če seveda imamo programsko orodje, ki nam izvirni zapis tudi prikaže -- kakšen je bil zapis pred vključitvijo v korpus. Poleg samega kazalca poda opis digitalnega vira tudi, kdo ga je zagotovil, lahko pa tudi še druge podatke o tem viru. Polna bibliografija nato zajema še svojo (enostavno) bibliografijo <bibl>, ki poda klasične informacije o besedilu: naslov, avtor, datum izida, založba ipd. Kjer bo to mogoče, bo v bibliografijo vključen tudi izpis iz baze COBISS.
V opisu zapisa najdemo (pri besedilih, ki so že uvrščena v korpus) deklaracijo oznak <tagsDecl>, ki poda seznam vseh oznak, uporabljenih v samem besedilu, skupaj s številom pojavljanj in, če imajo oznake dodaten pomen glede na nadrejeno dokumentacijo, tudi opisom oznake. Opis zapisa nadalje vsebuje deklaracijo referenc <refsDecl>, v kateri se beleži postopek pretvorbe iz digitalnega izvirnika v format FIDA. Končno pa vsebuje opis zapisa tudi, za primere, ko želimo procesirati posamezno besedilo kot samostojno enoto, definicijo taksonomije FIDA. Kot je bilo rečeno zgoraj, je taksonomija FIDA običajno del glave korpusa, če pa jo želimo definirati znotraj glave besedila, vklopimo stikalo ONE-TEXT.
V opisu profila podamo, spet v stikalu ONE-TEXT, definicijo jezikov FIDA, predvsem pa se tu nahaja razred besedila <textClass>, kjer besedilo uvrstimo v taksonomijo FIDA. Tako npr. spodnji element uvrsti besedilo: (1) po prenosniku v pisno:objavljeno:knjižno; (2) po zvrsti: umetniška:pesniška; in (3) po lektoriranju: da.
<textClass>
<catRef target="Ft.P.P.O.K">
<catRef target="Ft.Z.U.P">
<catRef target="Ft.L.D">
</textClass>
Telesa besedil
Telesa besedil so pri pretvorbi iz digitalnega vira očiščena izvirnih (npr. RTF) oznak, neASCII znaki pa so zapisani kot standardne entitite SGML (npr. 'ć' za ć). V pretvorbi se tudi vstavi določeno število oznak FIDA, ki jih na kratko obravnavamo spodaj.
Osnovna strukturna enota besedila je odstavek, <p>. Ta lahko zajema tudi naslov poglavja ipd. V odstavkih se označuje poudarjeno besedilo, <hi> (ta skozi atribut pove tudi, kako je element poudarjen), ter dva elementa, ki se neposredno tičeta pretvorbe: veren zapis <orig>, kjer zaradi neznanih znakov ni mogoče pretvoriti originala v zapis FIDA, in manjkajoče besedilo <gap>, kjer del originala, npr. tabela, ni bil zajet.
Bolj zanimive oznake se imajo pojaviti v zadnji fazi projekta, ko je na vrsti jezikoslovno označevanje. Označene bodo povedi, <s>, in besede, <w>, ki lahko, skozi vrednost atributa, zajemajo tudi oblikoslovne značilnosti besede v besedilu.
V. Zaključek
V prispevku smo opisali SGML in TEI in na njiju temelječo definicijo tipa dokumentov FIDA. Razložili smo zgradbo korpusa FIDA ter opisali glavo korpusa in besedil, na kratko pa omenili tudi zapis teles besedil. Na začetku članka smo našteli prednosti standardizacije pri zapisu digitalnih besedil. Seveda pa imajo takšne standardne rešitve tudi problematične vidike. V zaključku omenimo dve, in sicer preveliko splošnost zapisa TEI in nujnost uporabe angleškega jezika v dokumentaciji korpusa. Na koncu še orišemo nadaljnje delo na korpusu FIDA.
Velika prednost zapisa, ki je v skladu s SGML, je možnost avtomatskega preverjanja zapisa in označitev besedila glede na izbran DTD. Takšno preverjanje je izredno enostavno, saj zanj obstajajo prosto dostopni programi. Za namene formalne verifikacije bi si seveda želeli, da je DTD čim bolj, vendar ne preveč omejujoč; definiral naj bi samo tiste elemente, ki jih dokument zares uporablja. V tem pogledu sedanji DTD FIDA ni idealen, saj dopušča večino elementov TEIlite, ki, kljub svoji ťlahkostiŤ še vedno podpira opis (pre)široke palete besedil in interpretacij. Zato bi bila zaželena nadaljnja parametrizacija TEI, ki bi dodatno omejila možne oznake v korpusu FIDA. Poleg dodatnega dela s parametrizacijo pa tudi pri takšni rešitvi še vedno velja, da s programom sicer lahko preverimo formalno (sintaktično) ustreznost korpusa FIDA glede na DTD FIDA, vendar pa tak program ne more odkriti pomenskih napak v dokumentu; te je treba preverjati s posebej napisanimi programi ali pa ročno.
Drugi potencialni problem izhaja iz same narave mednarodnih standardov in priporočil: čeprav so namenjena opisu besedila v poljubnem jeziku, morajo ta besedila vseeno imeti skupen metajezik, tj. jezik, v katerem je napisana dokumentacija o besedilih. V praksi je ta jezik angleški: v njem sta napisana standard SGML in priporočila TEI. Zaradi tega je v angleščini tudi DTD FIDA in s tem oznake v korpusu FIDA, kot je očitno iz primerov v članku. Pri korpusu FIDA smo mejo med angleškim in slovenskim jezikom potegnili med besedilom (pa četudi se to nahaja v glavi, in je torej metabesedilo), ki je slovensko, in oznakami, ki ostajajo v angleščini. Vendar pa izdelujemo terminološki slovarček, s katerim bo mogoče za vsako oznako iz DTD FIDA dobiti opisni prevod v slovenskem jeziku.
Na koncu je potrebno omeniti, da projekt FIDA še teče, zato je treba primere v tem članku jemati kot trenutne rešitve, ki bodo v stiku s prakso vključevanja besedil v korpus FIDA verjetno še optimizirane. Delo bo sicer v prihodnosti potekalo predvsem na obogatitvi označevanja teles besedil, vendar je mogoče tudi pri zapisu glav pričakovati še manjše spremembe. Te bodo verjetno pri določevanju bolj strogega DTD, ki naj bi rešil zgoraj omenjeni problem prevelike permisivnosti trenutnega DTD. Odvisno od razpoložljivih sredstev in človeških resursov se bomo tudi trudili prevesti več dokumentacije korpusa. Prednost ima predvsem zgoraj omenjeno prevajanje v slovenski jezik, kjer bi bil npr. koristen tudi prevod s TEI povezane dokumentacije. Tako je npr. TEIlite (Burnard, Sperberg-McQueen, 1995), ki služi kot nekakšen uvod v TEI, že preveden v francoski, italijanski, ruski in korejski jezik. Če pa kdaj postane korpus FIDA tudi mednarodno dostopen, bo smiselno premišljevati tudi o prevodu dokumentacije (predvsem glav) v angleški jezik.
VIRI
- Batagelj,.V. (1995). Uvod v SGML. URL: http://vlado.mat.uni-lj.si/vlado/sgml/sgmluvod.htm
- BNC - British National Corpus. URL: http://info.ox.ac.uk/bnc/
- Burnard, L., Sperberg-McQueen, C.M. (1995). TEI Lite: An Introduction to Text Encoding for Interchange. URL: http://www.uic.edu/orgs/tei/lite/
- Čermák, F. 1997. Czech Natonal Corpus: A Case in Many Contexts. International Journal of Corpus Linguistics 2/2. 181-197.
- Erjavec, T.(1998). Standardizacija zapisa jezikovnih podatkov. V zborniku konference Jezikovne Tehnologije za slovenski jezik. Ljubljana, oktober 1998, v tisku.
- Erjavec, T., Gorjanc, V., Stabej, M. (1998). Korpus FIDA. V zborniku konference Jezikovne Tehnologije za slovenski jezik. Ljubljana, oktober 1998, v tisku.
- Erjavec, T., Ide, N. (1998). The MULTEXT-East Corpus. V Rubio, A.,Gallardo, N., Castro, Tejada, A. (ur.) Proceedings of the First International Conference on Language Resources and Evaluation, LREC'98. Granada. 971-974.
- Goldfarb, C.F. (1990). The SGML Handbook. Clarendon Press, Oxford, 1990.
- Ide, N., Veronis, J. (ur.). (1995). The Text Encoding Initiative: Background and Context. Kluwer Academic Publishers, Dordrecht.
- Krek, S., Stabej, M., Gorjanc, V., Erjavec, T., Romih, M., Holozan, P. FIDA: korpus slovenskega jezika. URL: http://www.fida.net.
- Ridings, D. (1996). Text representation in PAROLE. Parole MLAP 63-386, Work package 4.1.3, Göteborg. URL: http://svenska.gu.se/~ridings/textrep/textrep.html
- Sperberg-McQueen, C.M., Burnard, L. (ur.). (1994). Guidelines for Electronic Text Encoding and Interchange. Chicago and Oxford. URL: http://www.uic.edu/orgs/tei/
PRILOGA I. Primer besedila FIDA: Simon Jenko, Pesmi
<tei.2 lang="sl">
<teiHeader type="text" creator="et" date.created="1997-07-03" date.updated="1998-07-30">
<fileDesc>
<titleStmt>
<title>Simon Jenko: Pesmi</title>
<respStmt>
<name>Marko Stabej, FF</name><resp>Zajem in urejanje besedil</resp>
<name>Tomaž Erjavec, IJS</name><resp>Zapis FIDA</resp>
</respStmt>
</titleStmt>
<extent words="6763">6763 besed</extent>
<publicationStmt>
<authority>FIDA
<address>
<addrLine>FIDA, p. p.</addrLine>
<addrLine>50, 1001</addrLine>
<addrLine>Ljubljana</addrLine>
<addrLine>fida@dzs.si</addrLine>
</address>
</authority>
<publisher>FIDA in Filozofska fakulteta, Univerza v Ljubljani</publisher>
<distributor>FIDA in Filozofska fakulteta, Univerza v Ljubljani</distributor>
<availability status="free"><p>Besedilo je prosto dostopno<&p></availability>
</publicationStmt>
<sourceDesc>
<biblFull>
<titleStmt>
<title type="file">
<xRef targType="RTF">FIDA\KORPUS\ORIGINAL\FF\JENKO.RTF</xRef>
</title>
</titleStmt>
<publicationStmt>
<distributor>Filozofska fakulteta, Univerza v Ljubljani</distributor>
</publicationStmt>
<notesStmt><note>Dobljeno na disketah</note></notesStmt>
<sourceDesc>
<bibl>
<title>Pesmi</title><author>Simon Jenko</author>
<imprint>
<publisher>Janez Giontini v Ljubljani</publisher>
<pubPlace>Ljubljana</pubPlace>
<date>1865</date>
</imprint>
</bibl>
</sourceDesc>
</biblFull>
</sourceDesc>
</fileDesc>
<encodingDesc>
<projectDesc><p>Glej URL http://www.fida.net/</p></projectDesc>
<editorialDecl>
<p>Grafična znamenja (npr. vinjete) niso ohranjene.</p>
<p>Narekovaji so v besedilu ohranjeni.</p>
<p>Vezaji so ohranjeni.</p>
</editorialDecl>
<tagsDecl>
<tagUsage gi=text occurs=1></tagUsage>
<tagUsage gi=body occurs=1></tagUsage>
<tagUsage gi=div occurs=101>Ciklus pesmi (TYPE=ciklus) ali pesem (TYPE=pesem)</tagUsage>
<tagUsage gi=head occurs=102>Naslov pesmi</tagUsage>
<tagUsage gi=lg occurs=353>Kitica</tagUsage>
<tagUsage gi=l occurs=1553>Vrstica v kitici</tagUsage>
</tagsDecl>
<refsDecl>
<p>[ZDRUZEVANJE] 1:1</p>
<p>[IME] F:\PROJEKTI\FIDA\KORPUS\VNOS\2_ZDR\JENKO.ZDR</p>
<p>[1] **********</p>
<p>[IZVOR] F:\PROJEKTI\FIDA\KORPUS\VHOD\FF\00000012\JENKO.RTF</p>
<p>[FORMAT] Rich Text Format (RTF)</p>
<p>[DATUM] 22.7.1998</p>
<p>[IZVOR_RTF] F:\PROJEKTI\FIDA\KORPUS\VHOD\JENKO.RTF</p>
<p>[PRETVORBA] RTF</p>
<p>[KONEC] **********</p>
</refsDecl>
<![ %ONE-TEXT [<classDecl><taxonomy>&FIDAtaxonomy;</taxonomy></classDecl>]]>
</encodingDesc>
<profileDesc>
<![ %ONE-TEXT [<langusage>&:FIDAlangusage;</langusage>]]>
<textClass>
<catRef target="Ft.P.P.O.K">
<catRef target="Ft.Z.U.P">
<catRef target="Ft.L.D">
</textClass>
</profileDesc>
<revisionDesc>
<change>
<date>1997-07-04</date>
<respStmt><name>MS, ET</name><resp>TEI zapis</resp></respStmt>
<item>Zapis v TEI Lite</item>
</change>
<change>
<date>1998-07-30</date>
<respStmt><name>ET</name><resp>FIDA zapis</resp></respStmt>
<item>Zapis v DTD FIDA V1.1</item>
</change>
</revisionDesc>
</teiHeader>
<text lang=sl>
<body>
<head>
Pesmi.
Zložil
Simon Jenko.
1865.
Založil Janez Giontini v Ljubljani
</head>
<div type="pesem">
<head>Uvod.</head>
<lg>
<l>Dvigni se! ukawz mi reče.</l>
<l>Srce pade mi v oblasti</l>
<l>Silne, prej neznane strasti,</l>
<l>Ki ko živi ogenj peče.</l>
</lg>
<lg>
<l>Čut se zlije mi v besede. -</l>
<l>Preč so črne bolečíne,</l>
<l>Strast občutkov divjih mine,</l>
<l>Jasen mir se v prsi vsede.</l>
</lg>
</div>
...
Nazaj.