A gondosan megfogalmazott követelmények szerinti gyűjtés utáni következő lépés a kész szólisták kódolása, mely során a szavakat morfológiai tulajdonságaikkal, valamint előfordulásának területi megjelölésével látjuk el. Így később minden szó területi hovatartozása egyértelműsíthető lesz, és a morfológiai kódok alapján a szavak az elemzőbe is beépíthetőek lesznek. A kódolást egy szlovákiai településnéven, Dunaszerdahelyen mutatom be:
Duna+szerda+hely[FN|pse];nyv:fv;rp; – jelölni kell az összetételi határt (a + jel jelöli), mivel a szó végi toldalékoláskor módosulhat a szótest (a szó elejére kerülő elemek esetében természetesen nem), az elem szófaját (FN, azaz főnév), a szófajon belül milyen szemantikai altípusba tartozik (pse, azaz helynév), melyik állami változat eleme (nyv:fv, azaz felvidéki nyelvváltozat), szótő-e vagy toldalék (rp, azaz jobbra bővülő, tehát szótő), illetve főnevek esetében az egyes szám harmadik szeméjű alakját is (a példában nincs semmi, mivel palatális mássalhangzók esetében a toldalék –A, azaz Dunaszerdahelye); minden szó esetében jelölni kell a melléknév essivusi alakját is – duna+szerda+hely@i[MN|pse];nyv:fv;rp:Ess_Ul; – (ESS_Ul, azaz dunaszerdahelyiül)
A munka első fázisában a helyneveket és az egyéb földrajzi neveket (folyók, térségek stb. nevei) gyűjtjük össze, s a gyűjtés, illetve kódolás tapasztalataiból kiindulva folytatjuk majd a személynevekkel és a köznevekkel (jelenleg hét régióból a köznevek és a helynevek vannak összegyűjtve és lekódolva.
A ht-lista elemeiből elkészített gyűjtemény 2658 szót tartalmaz. Mivel régiónként sok esetben átfedések vannak, ezért a ht-listából gyűjtött szavak száma nem egyezik meg az egyes listák szavainak összegével. Az egyes államnyelvi változatokból összegyűjtött szavak aránya nem feltétlenül jelenti azt, hogy az egyes beszélőközösségek a táblázat arányaihoz viszonyítottan puristábbak a többieknél, mivel a gyűjtés egyetlen feltétele volt, hogy a felvett szavakat ilyen-olyan mértékben az egész beszélőközösség használja (így például a táblázat alapján nem mondható, hogy az ukrajnai magyarok beszélőközössége puristább a szlovákiai magyarok beszélőközösségénél).
Nyelvváltozat |
Szavak száma |
szlovákiai magyar |
1291 |
szerbiai magyar |
619 |
horvátországi magyar |
536 |
szlovéniai magyar |
443 |
romániai magyar |
408 |
ausztriai magyar |
336 |
ukrajnai magyar |
315 |
A különféle szempontok alapján (ezek felsorolásától itt eltekintek) összegyűjtött magyar helységnevek statisztikája a következő:
Nyelvváltozat |
Szavak száma |
romániai magyar |
4781 |
szlovákiai magyar |
1224 |
szerbiai magyar |
439 |
ukrajnai magyar |
152 |
szlovéniai magyar |
86 |
ausztriai magyar |
49 |
horvátországi magyar |
0 |
Az egyes régiók helyneveinek száma és az ott élő magyarság között itt sem lehet messzemenő következtetéseket levonni, bár az arányok itt valóban tükrözik a valóságot (Horvátország esetében azért szerepel 0, mivel ebből a kutatópontból nem érkeztek adatok).
A kész szólisták felhasználását érintően még nem született megállapodás. Kérdés, hogy a határon túli lexikon milyen formában kapcsolódjon a központi szótárhoz: külön modulként, vagy a központi szótár szerves részeként. Ennek eldöntése azonban technikai (és piaci) kérdés, eldöntése teljes mértékben a MorphoLogic Kft.-t érinti.