Page 6 - FUD20

Basic HTML Version

B
ÁTORI
S. I
STVÁN
6
Nyelvtudományi Intézetétől 179 RTF-ben kódolt szócikket az UEW anyagá-
ból, amelyet Arne Fitschen a diplomamunkájában egy ún. „Machbarkeitstu-
die”-ként SQL-adatbankká alakított át (Fitschen 1997).
4. A szövegszerű adatbank
1998 januárjában volt egy megbeszélés Rédei Károllyal a Bécsi Egyetem
Finnugor Szemináriumában, ahol megszületett a kooperáció az MTA Nyelv-
tudományi Intézete és a Koblenz-Landaui Egyetem Számítástechnikai-Nyel-
vészeti Intézete között. A megbeszélésen Rédei Károly (vendéglátóként),
Bakró-Nagy Marianne, Honti László és Bátori István vett részt. A kooperáció
az UEW etimológiai anyagának jobb hozzáférhetőségére, az RTF-formátumú
anyag adatbázissá való átalakítására irányult. Rédei számára különösen fon-
tos volt a copyright kérdése, a szótár anyagának változatlan (egy-az-egyben
való) átvétele, és az hogy az etimológiai anyag ne kerüljön illetéktelenek ke-
zébe. Bátori (és a koblenziek) számára központi kérdés volt az interdiszcipli-
náris „challenge”: közvetíteni a számítástechnika és az uralisztika között, és
felépíteni az (első) etimológiai adatbázist.
A kooperáció keretében a koblenzi CL-Institut Budapestről megkapta az
UEW teljes RTF-ben kódolt, konvertálandó anyagát (hét lemezen!), és a bu-
dapesti kollégák (Csúcs Sándor, Molnár Zoltán és Váradi Tamás) többször
jártak Koblenzben, hogy támogassák a konverziót és az adatbank felépítését.
A projekt 1998-ban a Magyar–Német Tudóscsere Alaptól kapott egy kis
anyagi támogatást is.
Az adatbank felépítéséhez szükséges a tárolandó anyag nyelvi, nyelvtörté-
neti és lexikológiai kategóriáinak előzetes rögzítése, amely természetesen
már megvan az UEW-ben is, csak kötetlenebb formában. Rögzíteni kell a
szócikkek szerkezetét (rekonstrukció, összehasonlítás, magyarázatok és iro-
dalom). Az összehasonlító részen belül fel kell venni az összehasonlítandó
nyelvek jegyzékét, a nyelveken belül a felhasznált nyelvjárások jegyzékét és
így tovább. Itt kell megjegyezni, hogy a WORD-ben használt RTF-formá-
tumból nem lehetett egyszerűen „kiolvasni”, hogy az etimológiai adatbázis-
ban szükség van a szóalakokra, az esetleges másodalakokra, időnként a szó-
tőre, és minden idézett adat esetében a forrásra. A mellékjeles betűk kezelé-
sét megnehezítette az a körülmény, hogy az RTF-formátumú anyagban nem
volt megbízható áttekintés a ténylegesen használt mellékjeles betűkről. Ese-
tenként már átkódolt szöveget is újból kellett konvertálni. A 2000-es tartui
finnugor kongresszuson Bátori csak a jövendő adatbank kontúrjait tudta leír-
ni. Kiderült, hogy az etimológiai adatbank számára az SQL-formátum nem