A válogatás közben mindvégig szem előtt kell tartani, hogy a szövegszerkesztőt használók legnagyobb része magyarországi magyar beszélő, illetve hogy az elemzőt – írott szövegek elemzése miatt – magasabb fokú normavitással rendelkező nyelvváltozatok (szövegek) elemzésére tervezték (nem pedig nyelvjárási vagy regionális köznyelvi szövegekre). Ebből az következik, hogy a felgyűjtött szavaknak túl kell mutatniuk a regionalitáson (legideálisabb esetben olyan szó kell, hogy legyen, amelyet az egész határon túli magyar beszélőközösség használja) és – legalább az állami változatok szintjén – normatívnak kell lenniük. Ezeknek a követelményeknek leginkább a tulajdonnevek, illetve a közvetett kölcsönszavak (idegen nyelvből átvett idegen szavak: cujka, zmizik stb.) felelnek meg. Az utóbbiaknak nagy szerepük van az összetett szavak elemzésében, mivel csak azt az összetett szót fogadja el jónak a program, amelyet vagy tartalmaz a szótár vagy össze tudja rakni már meglévő elemekből (így csökkenthető a felveendő szavak száma). Jelenleg a következő típusú szavak gyűjtése van folyamatban:
- aa) földrajzi nevek
- ab) személynevek – vezetéknevek
- ac) személynevek – keresztnevek
- ad) közvetlen kölcsönszavak
- ae) magyar eredetű közvetett kölcsönszavak
A helyesírás-ellenőrző piaci termék, fő célja a használó teljes körű kiszolgálása. Ez a célorientáltság a helyesírás-ellenőrzőbe szánt szavak gyűjtésére is hatással van. A helyesírás-ellenőrző célja segíteni a magyar helyesírásban kevésbé jártas nyelvhasználókat: ez többek között azzal jár, hogy a helyesírás-ellenőrző kötelezően „nem ismer” olyan, egyébként helyesen írt szavakat, amelyek egybeesnek valamilyen gyakori helyesírási hibával (pl. tanit~tanít esetében a tanit szót – bár grammatikailag helyes – hibásnak minősíti, mivel ez a tanít gyakori elütésének számít; ugyanez a helyzet a kör~kőr szópárral, ahol a kőr minősül hibának). A szavak kihagyásának egy másik oka a program sebességének növelése (pontosabban csökkenésének megakadályozása), ugyanis, ha minden lehetséges szót, illetve ahol szükséges, grammatikai magyarázatát felvennénk a program szótárába, gyengébb gépeknél az ellenőrzés már-már zavaróan hosszú időbe telne (a hosszú szövegek folyamatos ellenőrzése lassítaná az írást is) – ami ellentétes a helyesírás-ellenőrző alaptulajdonságával.
Más a helyzet a korpuszelemző esetében. A morfoszintaktikai elemzésekre szolgáló program használatakor a sebesség nem olyan lényeges, mint a helyesírás-ellenőrző esetében. A több (száz) millió szavas korpuszok morfoszintaktikai elemzése eleve több órát esetleg napot vesz igénybe, így itt a sebesség másként értelmeződik. Ez esetben minden plusz információt bele lehet a programba tenni, mivel az elemzést nem másodpercek vagy azok töredéke alatt kell véghezvinni.
Az összegyűjtött anyag előkódolása
A gondosan megfogalmazott követelmények szerinti gyűjtés utáni következő lépés a kész szólisták kódolása, mely során a szavakat morfológiai tulajdonságaikkal, valamint előfordulásának területi megjelölésével látjuk el. Így később minden szó területi hovatartozása egyértelműsíthető lesz, és a morfológiai kódok alapján a szavak az elemzőbe is beépíthetőek lesznek. A kódolást egy szlovákiai településnéven, Dunaszerdahelyen mutatom be:
Duna+szerda+hely[FN|pse];nyv:fv;rp; – jelölni kell az összetételi határt (a + jel jelöli), mivel a szó végi toldalékoláskor módosulhat a szótest (a szó elejére kerülő elemek esetében természetesen nem), az elem szófaját (FN, azaz főnév), a szófajon belül milyen szemantikai altípusba tartozik (pse, azaz helynév), melyik állami változat eleme (nyv:fv, azaz felvidéki nyelvváltozat), szótő-e vagy toldalék (rp, azaz jobbra bővülő, tehát szótő), illetve főnevek esetében az egyes szám harmadik szeméjű alakját is (a példában nincs semmi, mivel palatális mássalhangzók esetében a toldalék –A, azaz Dunaszerdahelye); minden szó esetében jelölni kell a melléknév essivusi alakját is – duna+szerda+hely@i[MN|pse];nyv:fv;rp:Ess_Ul; – (ESS_Ul, azaz dunaszerdahelyiül)
A munka első fázisában a helyneveket és az egyéb földrajzi neveket (folyók, térségek stb. nevei) gyűjtjük össze, s a gyűjtés, illetve kódolás tapasztalataiból kiindulva folytatjuk majd a személynevekkel és a köznevekkel (jelenleg hét régióból a köznevek és a helynevek vannak összegyűjtve és lekódolva.
A ht-lista elemeiből elkészített gyűjtemény 2658 szót tartalmaz. Mivel régiónként sok esetben átfedések vannak, ezért a ht-listából gyűjtött szavak száma nem egyezik meg az egyes listák szavainak összegével. Az egyes államnyelvi változatokból összegyűjtött szavak aránya nem feltétlenül jelenti azt, hogy az egyes beszélőközösségek a táblázat arányaihoz viszonyítottan puristábbak a többieknél, mivel a gyűjtés egyetlen feltétele volt, hogy a felvett szavakat ilyen-olyan mértékben az egész beszélőközösség használja (így például a táblázat alapján nem mondható, hogy az ukrajnai magyarok beszélőközössége puristább a szlovákiai magyarok beszélőközösségénél).
Nyelvváltozat | Szavak száma |
szlovákiai magyar | 1291 |
szerbiai magyar | 619 |
horvátországi magyar | 536 |
szlovéniai magyar | 443 |
romániai magyar | 408 |
ausztriai magyar | 336 |
ukrajnai magyar | 315 |
A különféle szempontok alapján (ezek felsorolásától itt eltekintek) összegyűjtött magyar helységnevek statisztikája a következő:
Nyelvváltozat | Szavak száma |
romániai magyar | 4781 |
szlovákiai magyar | 1224 |
szerbiai magyar | 439 |
ukrajnai magyar | 152 |
szlovéniai magyar | 86 |
ausztriai magyar | 49 |
horvátországi magyar | 0 |
Az egyes régiók helyneveinek száma és az ott élő magyarság között itt sem lehet messzemenő következtetéseket levonni, bár az arányok itt valóban tükrözik a valóságot (Horvátország esetében azért szerepel 0, mivel ebből a kutatópontból nem érkeztek adatok).
A kész szólisták felhasználását érintően még nem született megállapodás. Kérdés, hogy a határon túli lexikon milyen formában kapcsolódjon a központi szótárhoz: külön modulként, vagy a központi szótár szerves részeként. Ennek eldöntése azonban technikai (és piaci) kérdés, eldöntése teljes mértékben a MorphoLogic Kft.-t érinti.