Szakmai tevékenység

: 2017. május 26.; Találatok: 5051

Az összegyűjtött anyag előkódolása

A gondosan megfogalmazott követelmények szerinti gyűjtés utáni következő lépés a kész szólisták kódolása, mely során a szavakat morfológiai tulajdonságaikkal, valamint előfordulásának területi megjelölésével látjuk el. Így később minden szó területi hovatartozása egyértelműsíthető lesz, és a morfológiai kódok alapján a szavak az elemzőbe is beépíthetőek lesznek. A kódolást egy szlovákiai településnéven, Dunaszerdahelyen mutatom be:

Duna+szerda+hely[FN|pse];nyv:fv;rp; – jelölni kell az összetételi határt (a + jel jelöli), mivel a szó végi toldalékoláskor módosulhat a szótest (a szó elejére kerülő elemek esetében természetesen nem), az elem szófaját (FN, azaz főnév), a szófajon belül milyen szemantikai altípusba tartozik (pse, azaz helynév), melyik állami változat eleme (nyv:fv, azaz felvidéki nyelvváltozat), szótő-e vagy toldalék (rp, azaz jobbra bővülő, tehát szótő), illetve főnevek esetében az egyes szám harmadik szeméjű alakját is (a példában nincs semmi, mivel palatális mássalhangzók esetében a toldalék –A, azaz Dunaszerdahelye); minden szó esetében jelölni kell a melléknév essivusi alakját is – duna+szerda+hely@i[MN|pse];nyv:fv;rp:Ess_Ul; – (ESS_Ul, azaz dunaszerdahelyiül)

A munka első fázisában a helyneveket és az egyéb földrajzi neveket (folyók, térségek stb. nevei) gyűjtjük össze, s a gyűjtés, illetve kódolás tapasztalataiból kiindulva folytatjuk majd a személynevekkel és a köznevekkel (jelenleg hét régióból a köznevek és a helynevek vannak összegyűjtve és lekódolva.

A ht-lista elemeiből elkészített gyűjtemény 2658 szót tartalmaz. Mivel régiónként sok esetben átfedések vannak, ezért a ht-listából gyűjtött szavak száma nem egyezik meg az egyes listák szavainak összegével. Az egyes államnyelvi változatokból összegyűjtött szavak aránya nem feltétlenül jelenti azt, hogy az egyes beszélőközösségek a táblázat arányaihoz viszonyítottan puristábbak a többieknél, mivel a gyűjtés egyetlen feltétele volt, hogy a felvett szavakat ilyen-olyan mértékben az egész beszélőközösség használja (így például a táblázat alapján nem mondható, hogy az ukrajnai magyarok beszélőközössége puristább a szlovákiai magyarok beszélőközösségénél).

Nyelvváltozat	Szavak száma
szlovákiai magyar	1291
szerbiai magyar	619
horvátországi magyar	536
szlovéniai magyar	443
romániai magyar	408
ausztriai magyar	336
ukrajnai magyar	315

A különféle szempontok alapján (ezek felsorolásától itt eltekintek) összegyűjtött magyar helységnevek statisztikája a következő:

Nyelvváltozat	Szavak száma
romániai magyar	4781
szlovákiai magyar	1224
szerbiai magyar	439
ukrajnai magyar	152
szlovéniai magyar	86
ausztriai magyar	49
horvátországi magyar	0

Az egyes régiók helyneveinek száma és az ott élő magyarság között itt sem lehet messzemenő következtetéseket levonni, bár az arányok itt valóban tükrözik a valóságot (Horvátország esetében azért szerepel 0, mivel ebből a kutatópontból nem érkeztek adatok).

A kész szólisták felhasználását érintően még nem született megállapodás. Kérdés, hogy a határon túli lexikon milyen formában kapcsolódjon a központi szótárhoz: külön modulként, vagy a központi szótár szerves részeként. Ennek eldöntése azonban technikai (és piaci) kérdés, eldöntése teljes mértékben a MorphoLogic Kft.-t érinti.

: 2017. május 26.; Találatok: 4577

Az alapszótárba bekerülő szavak kiválasztása

A válogatás közben mindvégig szem előtt kell tartani, hogy a szövegszerkesztőt használók legnagyobb része magyarországi magyar beszélő, illetve hogy az elemzőt – írott szövegek elemzése miatt – magasabb fokú normavitással rendelkező nyelvváltozatok (szövegek) elemzésére tervezték (nem pedig nyelvjárási vagy regionális köznyelvi szövegekre). Ebből az következik, hogy a felgyűjtött szavaknak túl kell mutatniuk a regionalitáson (legideálisabb esetben olyan szó kell, hogy legyen, amelyet az egész határon túli magyar beszélőközösség használja) és – legalább az állami változatok szintjén – normatívnak kell lenniük. Ezeknek a követelményeknek leginkább a tulajdonnevek, illetve a közvetett kölcsönszavak (idegen nyelvből átvett idegen szavak: cujka, zmizik stb.) felelnek meg. Az utóbbiaknak nagy szerepük van az összetett szavak elemzésében, mivel csak azt az összetett szót fogadja el jónak a program, amelyet vagy tartalmaz a szótár vagy össze tudja rakni már meglévő elemekből (így csökkenthető a felveendő szavak száma). Jelenleg a következő típusú szavak gyűjtése van folyamatban:

aa) földrajzi nevek
ab) személynevek – vezetéknevek
ac) személynevek – keresztnevek
ad) közvetlen kölcsönszavak
ae) magyar eredetű közvetett kölcsönszavak

A helyesírás-ellenőrző piaci termék, fő célja a használó teljes körű kiszolgálása. Ez a célorientáltság a helyesírás-ellenőrzőbe szánt szavak gyűjtésére is hatással van. A helyesírás-ellenőrző célja segíteni a magyar helyesírásban kevésbé jártas nyelvhasználókat: ez többek között azzal jár, hogy a helyesírás-ellenőrző kötelezően „nem ismer” olyan, egyébként helyesen írt szavakat, amelyek egybeesnek valamilyen gyakori helyesírási hibával (pl. tanit~tanít esetében a tanit szót – bár grammatikailag helyes – hibásnak minősíti, mivel ez a tanít gyakori elütésének számít; ugyanez a helyzet a kör~kőr szópárral, ahol a kőr minősül hibának). A szavak kihagyásának egy másik oka a program sebességének növelése (pontosabban csökkenésének megakadályozása), ugyanis, ha minden lehetséges szót, illetve ahol szükséges, grammatikai magyarázatát felvennénk a program szótárába, gyengébb gépeknél az ellenőrzés már-már zavaróan hosszú időbe telne (a hosszú szövegek folyamatos ellenőrzése lassítaná az írást is) – ami ellentétes a helyesírás-ellenőrző alaptulajdonságával.

Más a helyzet a korpuszelemző esetében. A morfoszintaktikai elemzésekre szolgáló program használatakor a sebesség nem olyan lényeges, mint a helyesírás-ellenőrző esetében. A több (száz) millió szavas korpuszok morfoszintaktikai elemzése eleve több órát esetleg napot vesz igénybe, így itt a sebesség másként értelmeződik. Ez esetben minden plusz információt bele lehet a programba tenni, mivel az elemzést nem másodpercek vagy azok töredéke alatt kell véghezvinni.

Az összegyűjtött anyag előkódolása

Nyelvváltozat	Szavak száma
szlovákiai magyar	1291
szerbiai magyar	619
horvátországi magyar	536
szlovéniai magyar	443
romániai magyar	408
ausztriai magyar	336
ukrajnai magyar	315

A különféle szempontok alapján (ezek felsorolásától itt eltekintek) összegyűjtött magyar helységnevek statisztikája a következő:

Nyelvváltozat	Szavak száma
romániai magyar	4781
szlovákiai magyar	1224
szerbiai magyar	439
ukrajnai magyar	152
szlovéniai magyar	86
ausztriai magyar	49
horvátországi magyar	0

: 2017. május 26.; Találatok: 9379

A Wordject bemutatása

A Termini Kutatóhálózat végzi a MorphoLogic Kft. által gyártott magyar nyelvű helyesírás-ellenőrző és nyelvhelyesség-ellenőrző (a továbbiakban csak helyesírás-ellenőrző) programcsomag határon túli magyar anyagának összeállítását (gyűjtés és kódolás). Ez a program a Microsoft Office termékcsomagban használatos Windows Word, illetve Quark XPress helyesírás-ellenőrzőjeként ismeretes. A program fő célja, hogy jelezze a szövegben előforduló elütéseket és hibás szavakat. A termék felhasználhatósága azonban ezen túlmutat, hiszen rendelkezik egy, a nagyközönség által kevésbé ismert funkcióval is: a nyelvhelyesség-ellenőrzés alapja egy magyar nyelvre alkalmazott morfológiai generáló–elemző motor (HUMOR), amely számítógépen tárolt korpuszok nyelvi elemzésére is alkalmazható (a HUMOR elemzi a Kárpát-medencei magyar nyelvi korpuszt is). Mivel ezeket a műveleteket nem ember, hanem gép végzi, ezért „taníthatósága” eléggé korlátozott: csak meglévő nyelvtani szabályok és kész szótár alapján tud generálni, illetve elemezni. Ez azt jelenti, hogy csak azokat a szavakat fogadja el helyesnek, amelyek az ellenőrző szótárában megtalálhatók (vagy amelyeket a morfológiai elemzőprogram az általa ismert nyelvtani szabályok alapján generál): ez lehet vagy az alapcsomag szótára, vagy a felhasználó által összeállított ún. sajátszótár. Az alapcsomag szótárát a MorphoLogic Kft. állítja össze, így ezt minden általuk terjesztett helyesírás-ellenőrző tartalmazza – ez akár több millió felhasználót is jelenthet, ha figyelembe vesszük a számítógépen magyar nyelven írók számát. A leírtakból következik, hogy feltehetően ma ez a magyar nyelvű szótárakat használó között ez a leggyakrabban használt szótár (bár a felhasználók valószínűleg nem tudnak erről). Az alapszótár csak Magyarországon készített szótárakból áll, így érthető, hogy nem tartalmaz anyagot a magyar nyelv határon túli változataiból (bár az elemző legújabb, még nem piacképes változata tartalmazza az Értelmező kéziszótár második kiadását és az Osiris Kiadó Helyesírását, amelyek – kis számban – tartalmaznak ilyen elemeket). Ez a szóanyag elégséges a Magyarországon kiadott, magyarországi standard nyelvváltozatban írott szövegekre, ám a magyar nyelv állami változatainak (valamint a magyarországi nyelvjárások) sajátos szókincsét nem ismerve a határon túli magyar nyelvváltozatok szövegeire teljes mértékben nem alkalmazható (ahogy nem alkalmazható a magyarországi nyelvjárási szövegekre sem – bár ez az igény eddig – tudomásom szerint – nem merült fel).

A szövegszerkesztőkbe épített helyesírás-ellenőrző aláhúzással jelzi, hogy a felhasználó „valószínűleg” hibás szót írt le, vagy egyéb nyelvhelyességi hibát vétett. A zöld hullámvonallal történő aláhúzás általában nyelvhelyességi vagy szövegszerkezeti hibát jelöl: pl. szóközök (felesleges szóköz), mondathatár ellenőrzése (! ez egy új mondat.) vagy trágár kifejezések megjelölése (szar). Ez valójában érdektelen a magyar nyelv állami vagy határon túli változatainak megítélése szempontjából, hiszen a szövegszerkezeti sajátosságok és az elemző által kezelt stilisztikai apróságok minden magyar nyelvváltozatra egyformán érvényesek. A piros hullámvonallal történő aláhúzás a helyesírás-ellenőrző által nem ismert szavak megjelölését jelenti. Minden olyan szót aláhúz, amelyet sem az alapszótárban, sem a sajátszótárban nem talál meg. Mivel a határon túli magyar nyelvváltozatok nem részei a szótárnak, így a határon túli magyar nyelvváltozatok sajátos közneveit és a helységnevek túlnyomó többségét aláhúzza, azaz hibás szónak minősíti. Az már tudományos közhelynek számít, hogy a magyar nyelvközösség nyelvileg normatív beállítottságú, azaz a nyelvészektől, szótáraktól kapott információt általában mérlegelés nélkül elfogadja – mivel az úgyis szakemberektől származik. Ebben a folyamatban nagy szerepet játszik a helyesírás-ellenőrző is, hiszen egy ilyen széles körben használt termék (szótár) nem hibázhat. Tehát a nyelvhelyesség-ellenőrző minősít: a Magyarország határain kívüli magyar településnevek esetében gyakori, hogy a szótár nem ismeri a helységnevet, ezért hibának minősíti azt. Ez azonban régi és/vagy széles körben ismert magyar településnevek esetében kétszeresen is bántóan hathat, hiszen ilyenkor az elemző akaratlanul is a magyar nyelv olyan elemeit stigmatizálja, amelyek annak „teljes jogú” és gyakran használt részei, valamint a magyar kultúra alapelemei, pl. Huszt, Ilosva stb.

Azon kívül, hogy az alapszótár bővítése árnyaltabbá teszi a helyesírás-ellenőrző munkáját, teljes mértékben elemezhetővé teszi a Kárpát-medencei magyar nyelvi korpusz határon túli alkorpuszát is, amely a határon túli magyar nyelvváltozatok sajátos lexikai elemei miatt jelenleg csak részben elemezhető.

A szótár bővítése az MTA Határon túli irodáinak munkatársaitól két munkafolyamatot követel meg:

Az alapszótárba bekerülő szavak kiválasztása
Az összegyűjtött anyag előkódolása