Page 5 - FUD20

Basic HTML Version

A
Z
U
RALOTÉKA DIGITÁLIS ADATBÁZIS
5
igényel, amely természetesen sok átfedést tartalmaz, mivel a nem mellékjeles
(latin) betűk rendszerint mindenütt ugyanazok. Szövegek képszerű digitalizá-
lása akkor elégséges, amikor a szöveg nem kerül további feldolgozásra, vagy
régi szövegek esetében, amelyeknek nincs géppel olvasható változata.
A szövegbetáplálást lehet a digitalizálás ellentétének is tekinteni. Az elektro-
nikus szövegfeldolgozás ma az Internet normalizáló hatásának következtében
Unicode-rendszerben történik. Vagyis a szövegbetáplálásnak és a digitalizá-
lást követő szövegfelismerésnek az eredménye ugyanaz: Unicode rendszer-
ben kódolt szöveg. A kódolás hallgatólagosan általánosult az egyszerű, éke-
zetmentes betűkre is: az egyszerű ékezetmentes betűk önmaguk kódjai.
3. A WORD-kódolás szintje
A többnyelvű szövegek felismerése különösen nehézkes. Az UEW-ben
szinte minden szó más nyelvből, más forrásból, más tipográfiai konvencióból
származik. Továbbá ott vannak a cirill betűs és a görög betűs szavak. Ezért
az UEW esetében nem alkalmazták a képszerű digitalizást és az ezt követő
automatizált szövegfelismerést. Az UEDb szövegfelvétele (kódolt) betűfel-
vétel volt. Ez az eljárás munkaigényesebb, mint a „digitalizálás”, de megbíz-
hatóbb szöveget eredményez.
Az UEW anyagát a 90-es években az MTA Nyelvtudományi Intézetében
eredetileg a WORD rendszerbe (RTF-formátumban) táplálták be. A WORD-
rendszert különösen az tette akkor érdekessé, hogy lehetőséget nyújtott az
uralisztikában használatos mellékjeles betűk megjelenítésére. Az első bemu-
tatóra a VIII. Finnugor Kongresszuson, 1995-ben, Jyväskyläben került sor.
A WORD szövegfeldolgozó rendszer (és nem adatbank), amelyben a szö-
veget, a szöveg részeit (bekezdést, fejezetet stb.) lehet formatálni. A WORD-
ben nincsenek tartalmuk szerint megkülönböztethető mezők: a formatálás
közvetlenül a betűfüzérekre vonatkozik. A szócikkekben nem lehet kikeresni
közvetlenül a forrásokat, csak esetleg azt, hogy mi van például a szócikk ele-
jén félkövéren írva. A WORD nem tudja a szóalakokat kikeresni, csak eset-
leg azt, hogy a bekezdésben hol kezdődnek a dőlt betűk.
A WORD rendszerben a szótár eredeti formátumának a rekonstrukciója
minden további nélkül lehetséges, és ezt meggyőzően demonstrálta a jyväs-
kyläi bemutató. De a WORD nem él az adatbank által nyújtott lehetőségek-
kel, így az elektronikus tárolás és a további gépi feldolgozás előnyei is elsik-
kadnak. Így merült fel az RTF-ben kódolt szöveg adatbázissá való átalakítá-
sának a gondolata. A jyväskyläi bemutató nyomán Bátori kezdeményezésére
kapott a Koblenz-Landaui Egyetem Számítástechnikai Intézete az MTA