Jaka Železnikar
http://193.2.52.206/~jaka/


FIDA - Pogoste napake pri vnosu in obdelavi besedil ter njihovo odpravljanje

Članek govori o praktičnem delu znotraj projekta FIDA, o pogostih napakah pri vnosu in obdelavi besedil ter o postopkih odpravljanja in preprečevanja napak.

The article discusses the practial part of the FIDA project, common errors in entering and processing texts, and the processes of correcting and preventing the errors.


Cilj FIDE je oblikovanje obsežnega referenčnega besedilnega korpusa slovenščine in sicer v elektronski obliki. Več informacij o FIDI, njeni strukturi in postopkih obdelave besedil je možno najti v drugih člankih o FIDI. To besedilo govori le o popolnoma praktičnem delu, o pogostih napakah pri vnosu in obdelavi besedil ter o njihovem odpravljanju.
Ob začetku dela so bili predvideni določeni tipi napak, nekateri pa so se pojavili popolnoma nepričakovano. Da bi lažje odkrili, kje je do napake prišlo, in da bi ob morebitni napaki lahko datoteko z napako zbrisali ter se vrnili na zadnji korak, kjer napake še ni bilo, ter od tam nadaljevali postopek, smo vsaki datoteki z besedilom pripisali log datoteko. (Log datoteka je datoteka, ki spremlja datoteko z besedilom, v njo pa se vpisujejo podatki o kakršni koli manipulaciji z besedilno datoteko.).
Napake se lahko pojavijo zaradi: strojne opreme, programske opreme ali človeške napake


Strojna oprema
Tovrstnih napak skorajda ni, če pa so, so večinoma nepopravljive. Gre za poškodovane nosilce informacij (diskete, CD-romi, napake v datotekah, ki jih povzroči motnja v prenosu preko elektronske pošte ali ftp-ja). Kljub morebitni poškodbi pa ni nujno, da bi morali zavreči vsa besedila, ki so na nosilcu, temveč le poškodovano datoteko. Isto velja tudi za datoteke, ki so v formatu zip. Program Win Zip omogoča, da poškodovanih datotek ne odpremo, medtem ko lahko odpremo vse ostale.
Poleg tega je problem tudi, da na trdem disku v računalniku lahko zmanjka prostora, oziroma na njem programi, ki zahtevajo veliko tovrstnega prostega spomina, tega ne najdejo (na primer dokumentacija in varnostna kopija (back up) neke stopnje obdelave določene količine besedil z zapisom na CD-rom). Do tega lahko pride kljub zelo zmogljivem trdem disku, saj je v postopku obdelave besedil veliko brisanja, kopiranja in premikanja datotek, kar v operacijskem sistemu, ki v teh primerih avtomatično naredi varnostno kopijo datoteke, povzroči kopičenje nepotrebnih datotek. Če izpraznimo direktorij, kjer se nabirajo varnostne kopije datotek, problem odstranimo.


Programska oprema
Programska oprema je vir največjega števila napak. Besedila pridejo v FIDO v raznih formatih in v različnih kodnih tabelah (kar se kaže v znakih č, š, ž). Besedila so bila ustvarjena z različnimi programi, z različnimi verzijami istih programov in v različnih operacijskih sistemih.
Vse te različne zapise je potrebno pretvoriti v enoten zapis in v isto kodno tabelo.
Za pretvorbo formatov v rtf, ki ga na določeni stopnji uporablja FIDA, uporabljamo program Word Perfect, občasno pa si pomagamo tudi s programoma Winword in Notepad, zelo redko pa tudi s katerim drugim programom. Poleg teh že obstoječih programov, je Amebis razvil nekaj posebnih, zgolj FIDI namenjenih programov, ki peljejo besedilo skozi postopek do končne oblike, kjer so besedilu dodani tudi podatki o njem.
Pri pretvorbi formatov se pojavlja več napak, zlasti pri dokumentih tipa doc. Word Perfect sam odkrije, v kakšnem zapisu je dokument, in ga nato odpre. Včasih pa predlaga napačni format in dokumenta zato ne more odpreti ali pa ga odpre na napačen način in je tako odprt neuporaben. V tem primeru moramo sami ugotoviti tip dokumenta (s katerim programom je bil narejen) in ga v programu odpreti kot tip, ki mu ga podamo sami. V pomoč pri ugotavljanju tipa datoteke je, če jo poskusimo odpreti v katerem drugem urejevalniku besedil, ali pa če jo odpremo kot ascii, saj so kombinacije besedila z ukazi, ki jih vidimo, običajno značilna za nek program, tako da lahko s pomočjo tega pridemo do ustrezne rešitve.
Včasih program datoteke sploh noče/ne zna odpreti. Včasih, ker je v neznanem formatu. Če zgornji postopek ne pomaga, je taka datoteka verjetno neuporabna. Druga možnost je, da datoteka v svojem imenu skriva znake č, š, ž. Če datoteko preimenujemo in tako iz imena odstranimo znake č, š, ž, bo običajno takšno datoteko moč odpreti brez težav. Pri celi vrsti datotek tipa doc pa pomaga to, da datoteko odpremo najprej v programu Winword, jo nespremenjeno zgolj shranimo, po čemer jo Word Perfect odpre brez problema.
Včasih program datoteko odpre v pravilnem formatu, a jo odpre na čuden način - v večini primerov se pred začetkom in po koncu besedila pojavijo neurejeni nizi naključnih znamenj, za katere ni nobenega dvoma, da niso del besedila. V tem primeru te znake izbrišemo in besedilo shranimo v ustreznem formatu.

Probleme z znaki č, š, ž uredi makro, ki ga je naredil Amebis. Če je potrebno, makro spremeni kodno tabelo besedila oziroma čudne znake nadomesti z ustreznimi č,š in ž. Izjemno redko se zgodi, da je besedilo v takšni kodni tabeli, da makro ne opravi pravilne pretvorbe. Če se to zgodi, besedilo preko elektronske pošte uredi Amebis.
V postopku obdelave besedil ta preidejo v obliko, ki uporablja označbe jezika SGML. Pravilnost tega zapisa je moč programsko preveriti, napaka, ki se pojavlja, pa je, da besedilo vsebuje znak/črko, ki jo ne prepozna. V takem primeru je potrebno ugotoviti, za kateri znak/črko gre, in dopolniti program, ki opravlja ustrezno pretvorbo. Program je Amebisov in oni tudi opravljajo te popravke. Seveda je tovrstnih napak vse manj.


Človeške napake
Seveda so možne tudi napake, ki jih zagreši človek z nepravilno uporabo programov. Predvsem gre za:
- preimenovanje datotek, kar je občasno neizbežno, bodisi zaradi znakov č, š, ž, bodisi ker v istem direktoriju že obstaja datoteka z istim imenom. Dolžina imena bi lahko presegala dogovorjenih osem znakov. Problem je rešen tako, da za preimenovanje datoteke obstaja programček, ki preveri število znakov imena. Poleg tega preimenovanje avtomatično označi v log datoteki in tako prihrani zoprno ročno vpisovanje podatkov, ki ni vedno enako in je kot tako manj primerno za avtomatično obdelavo;
- preskakovanje faz postopka. Da se to ne bi zgodilo, poskrbijo programi, ki preverijo, ali je datoteka v ustreznem formatu, ki ustreza trenutni fazi obdelave, preden jo sprejmejo in predelajo;
- kljub temu da za znake č, š, ž skrbi makro, je možno, da človek pozabi sprožiti makro. Da bi se izognili tej napaki, prisotnost in ustreznost znakov č, š, ž preverjamo dvakrat, v dveh fazah obdelave iste datoteke;
- v nekaterih fazah podatke v log datoteko zapiše makro, ki ga je potrebno sprožiti ročno. Možno je, da se to pozabi ali naredi dva- ali večkrat. V prvem primeru na odsotnost log datoteke opozori program, ki datoteko obdeluje v nadaljnem postopku, v drugem primeru pa je potrebno odvečne podatke izbrisati ročno v programu Notepad, saj je log datoteka v formatu ascii.


Ostali problemi
Poleg naštetih sta pogosta še naslednja problema:
- ko datoteke pridejo na FIDO, so včasih na disketah. Teh disket je lahko zelo veliko in obstaja zelo velika možnost, da se besedila, ki so posneta v več delih na več disketah, zatem ko se presnamejo v računalnik, raztresejo po različnih, oddaljenih direktorijih. Mnogokrat diskete že pridejo v tako premešanem stanju. Ker je zaželeno, da je eno besedilo v eni datoteki, je zato občasno potrebno iskati dele besedila, ki so lahko raztreseni tudi v več kot 60 direktorijih. Gre za besedila, na primer knjige, ki vsebujejo zapis na platnicah, naslovnico, spremno besedo, opombe, kazalo, razna poglavja in so še v dveh oblikah, lektorirania in nelektoriran.
Rešitev tega problema ni enostavna. Nekaj datotek, ki tvorijo isto besedilo oziroma enoto besedila, je moč najti z iskalcem datotek, ki lahko poišče datoteke s sorodnimi imeni. Kljub temu je zelo verjetno, da bo tako iskanje izpustilo nekaj datotek, predlagalo pa nekaj neustreznih. Zato sledi primerjanje vsebine, poleg tega pa so v veliko pomoč zapiski o vsebinah v posameznem direktoriju. Taki zapiski so seveda smiselni le, če so datoteke medsebojno premešane. V takem primeru pa so v precejšnjo pomoč.

Drugi problem je podobnost imen datotek. V določenih stopnjah obdelave datotek je možno, da se v direktoriju, kjer delamo, nabere tudi preko 40 datotek s podobnimi imeni, ki jih je potrebno predelati/preveriti, po pretvorbi ali preverjanju pa ostanejo v istem direktoriju. Program običajno noče sprejeti več kot 8-9 datotek hkrati, tako da obstaja velika verjetnost, da bi spregledali eno izmed datotek ali pa katero preverili dvakrat, kar, razen izgube časa, nima tako zoprnih posledic, kot lahko nastanejo v prvem primeru. Rešitev je precej preprosta, sam postopek pa se zaradi nje čisto nič ne upočasni. Potreben je urejevalnik datotek, kot je recimo Salamander, ki ima hkrati odprti dve okni z odprtimi različnimi direktoriji, tako da datoteko, ki smo jo pregledali,skopiramo v nek drug, prazen, direktorij. Ker sta odprti dve okni, ni potrebno ničesar vpisovati ali večkrat klikati, da bi računalniku dopovedali pot. Ko so skopirane vse datoteke, jih enostavno skopiramo nazaj v ustrezni direktorij.


Redek jezikovni problem
Poleg naštetih napak in problemov je možno, da v nekem besedilu naletimo na del besedila, ki ni v slovenščini, temveč v nekem drugem jeziku, največkrat v angleščini. Ti primeri so izjemno redki, najdemo pa jih večinoma v raznih strokovnih besedilih, ki vsebujejo povzetek v tujem jeziku. Če ugotovimo, da so v tujem jeziku večje celote, ki so povzetek ali prevod istega slovenskega besedila in ne, recimo, citati, jih iz besedila odstranimo. Kratek opis opuščenega ročno vpišemo v log datoteko. Do sedaj je bilo le nekaj primerov, da je bilo celotno besedilo v tujem jeziku. V takem primeru besedila ne uvrstimo v FIDO.


Viri:
- http://www.webopedia.com/
- help v programih: Word Perfect, Win zip, Word for Windows





Nazaj.