Az előzőekben felvázolt alapkódolás az egyes régiókban eltérő gyorsasággal, eltérő módszerekkel, illetve eltérő számítógépes programokkal valósult meg (a végeredmény az xml-szerkezet miatt azonos volt). Az eltérő módszerek természetesen később a munkafolyamatban eltérő problémákat okoztak. Ezek megvitatásával és megoldásával több csatornán próbálkoztunk. Erre szolgáltak a már említett korpusznyelvészeti tréningek, továbbá az irodák közös megbeszélései, az illyefalvi találkozók, illetve tájékoztató céllal jött létre a Kárpát-medencei magyar nyelvi korpusz határon túli alkorpuszának honlapja (http://corpus.nytud.hu/mnszworkshop/index.html), valamint az egymás közti kommunikáció elősegítése végett, az irodák közös ügyeinek magvitatására létrehozott „nyelvészet-levelezőlista” is. A felmerülő kérdések megválaszolásában a közös fórumok mellett elsősorban a Nyelvtudományi Intézet Nyelvtechnológiai Osztályának munkatársai (Oravecz Csaba és Váradi Tamás) segítettek.
A határon túli alkorpusz összeállításának sajátos természetű feladata az élőnyelvi alkorpusz megszerkesztése volt. A feladat problematikus része az élőnyelvi szövegek lejegyzését elősegítő egységesített lejegyzési útmutató elkészítésének csúszása jelentette. Az élőnyelvi szövegek lejegyzésének esszenciája az egységes kódolás. Az alkorpusz létrehozásának csak akkor volt értelme, ha minden régióban azonos minta alapján történt a lejegyzés. Mivel az összes határon túli régió egy közös szövegtár anyagát bővíti, ezért a régiókban készült anyagok kimenetelének kivétel nélkül azonosaknak kellett lenniük. Ez azonban csak akkor valósulhatott meg, ha előzőleg a szövegek azonos rendszer alapján voltak kódolva. Ilyen megfontolásból tehát különböző kódolási minták használatának nem lett volna értelme: pontosan a határon túli korpusz alapgondolatát, a különböző régiók nyelvi anyagában történő egységes keresést akadályoznák meg. Ez természetesen még nem zárta ki az egyes irodákban felmerülő, az alapkódoláson túli további, speciális kódolást, mivel minden iroda saját akarata szerint kódolhatta tovább a szövegeket. Az alapkódolásnál részletesebb anyag sorsa azonban még nincs tisztázva. Ez vagy a korpusz része lesz, vagy nem kerül a többi, alapkóddal ellátott szöveg közé, és csupán az irodák saját korpuszát fogja gyarapítani – ez mindmáig tisztázatlan.
A beszélt nyelvi korpusszal kapcsolatosan a kutatóállomás munkatársai 2004-ben a következőkben egyeztek meg:
- a lejegyzendő hangfelvételek nem lehetnek az 1990-es éveknél korábbiak;
- a standard mellett dialektusoknak is helyet kell adni a hangfelvételek között, ezek a dialektusok azonban csupán a főbb nyelvjárási területeket képviselhetik; a korpuszba kerülő egyes dialektusok arányát az azokat beszélők arányából kell kiszámolni; a nyelvjárási hanganyagnak nemcsak informális beszélgetéseket, hanem formális regisztereket is kell tartalmaznia (pl. ritualizált szövegek, élettörténetek); a nyelvjárási hanganyag az egész anyag 40–50%-át teheti ki;
- a felvételek között formális (pl. műszaki, orvosi, humán szövegek; konferenciák, prédikáció, tanári magyarázat, politikai nyilatkozat, önkormányzati ülés) és informális (különféle beszélgetések, pl. bolti) regiszterekhez tartozó standard szövegek is legyenek; a dialogikus és informális regisztereknek kell többségben lenniük, az összes 70–80%-át kell alkotniuk;
- kétnyelvűségi típusok: a magyardomináns kétnyelvű beszélőktől származó hangfelvételek az anyag 40–50%-át, az államnyelvi domináns beszélőktől származó felvételek az anyag 35%-át kell alkotnia; egynyelvű beszélők hanganyagának az egész 15%-át kell alkotnia;
- az adatközlők kiválasztásának szempontjait hierarchizálni kell;
korcsoportok: gyerekek és idős adatközlők is kellenek: a gyerekek képviselhetik az informális, egynyelvű, az idősek a nyelvjárási beszélőket;
- az egyes digitalizált hangfájlokhoz és a hozzájuk tartozó lejegyzett szöveghez csatolni kell fejlécet is, amit célszerű lenne külön fájlban tárolni; ennek a következő adatokat kellene tartalmaznia: a felvétel időpontja, a felvételt készítő személy neve; az adatközlő neve, neme, életkora, foglalkozása, születési helye, lakóhelye, hol élt többet: városban/faluban, családi állapota; az általa elsajátított nyelvek, a családjában használt nyelvek; téma, szituáció, a jelenlevő személyek száma, azok és az adatközlő közti viszony jellege; rádióban elhangzott felvételek esetében: élő műsor vagy felvett műsor, nyers vagy javított felvétel; a hangfájl helye a számítógépen (annak elérési mutatója), a fájl formátuma, a fájl száma;
Ott, ahol lehetett, igyekeztük az egyes szövegtípusok százalékos arányát is meghatározni. Mivel tisztában voltunk vele, hogy az arányok betartása nehéz feladat, ezért úgy határoztunk, hogy a megállapított arányoktól minden iroda 10%-kal eltérhet.
Bár az anyaggyűjtéshez (is) tartozik, mégis itt szólnék a hivatali nyelvet és a személyes közlést (amely magában foglalja a beszélt nyelvi szövegeket) bemutató alkorpuszról. A két alkorpusz gyűjtése két különböző problémát vet fel. A határon túli magyar hivatali nyelvvel kapcsolatban két kérdés merült fel. Mivel a hivatali írásbeliség leggyakrabban formanyomtatványok formájában van jelen, ezek pedig leggyakrabban a magyarországi nyomtatványok formahű átvételei. Ez esetben pedig nem beszélhetünk szlovákiai magyar, vagy romániai magyar hivatali nyelvről, hiszen ezek általában magyarországi mintát követnek, vesznek át. A magyarországi minták követését illetően jó lenne különbséget tenni a beszélt és írott nyelvváltozatok között, hiszen nyilvánvaló, hogy az írott nyelvváltozat jobban közelít majd a standard formákhoz, illetve a magyarországi mintákhoz, míg a beszélt változat erősebben tükrözi a kétnyelvű beszédkörnyezetben élő kontaktusváltozatokat (egy későbbi változatban talán jó lenne megkülönböztetni egy írott és egy beszélt hivatali nyelvet bemutató alkorpuszt). A kisebbségi régiók hivatali nyelvének egy másik sajátossága a megvalósulásuk sokfélesége. Mivel a hivatalos dokumentumok (legyen az fordítás vagy eredeti szöveg) kiadása nem centralizált, így gyakori jelenség egy régión belül is, hogy ugyanannak a dokumentumnak különböző településeken eltérő formája van. A kutatóhálózat egyik szerepe éppen a hivatalos dokumentumok, formanyomtatványok központosítása, a jogi-közigazgatási terminológia egységesítése, és az adott régió magyar nyelvű hivatalos írásbeliségének kialakítása.
A beszélt nyelvi alkorpusz elkészítése szintén két alapvető kérdést vet fel. A Magyar nemzeti szövegtár anyagaiból és elveiből kiindulva, ennek az alkorpusznak tartalmaznia kellene egy élőnyelvi lejegyzéseket magában foglaló beszélt nyelvi részt, illetve a beszélt nyelvhez közelítő, gyors beszédfordulókból álló csetfórumok anyagát (ezt nevezhetjük személyes közlésnek is). Mivel az élőnyelvi anyagok problémájáról már szóltam, most csak a személyes közlésekkel foglalkozom. Sajnos egyik régióban sem találtunk megfelelő fórumot, ezért a határon túli alkorpusz „személyes közléseket” magában foglaló része tartalmában eltér majd a magyarországitól (pl. emlékezések, magánlevelek). A beszélt nyelvet és a személyes közlést bemutató korpusz esetében előre meg kellett volna határozni a belső struktúrát és arányokat, azonban erre nem került sor. A két alkorpuszról összegezve elmondható, hogy egyik esetben sem teljesítik majd a szerkesztők által meghatározott legalább 10%-os arányt.
Valódi problémát jelent a százalékos arányok betartása, hiszen ez nem minden alkorpusz esetében kivitelezhető. Az előzetes megállapodások értelmében az egyes határon túli alkorpuszok szerkezeti egységei (szépirodalom, tudományos próza, sajtó, hivatalos nyelv, személyes közlés) azok legalább 10%-át kellett, hogy alkossák. Ez a 10%-os határ azonban nem minden alkorpusz esetében volt megvalósítható: leginkább a hivatalos nyelvváltozatot és a személyes közlést tartalmazó alkorpuszok esetében nem. Ennek oka, hogy a hivatalos nyelvet bemutató alkorpusz esetében nem találtunk megfelelő mennyiségű anyagot. Ebben a pontban a valóság „nem felelt meg az eredeti elképzeléseknek”, hiszen a kisebbség nem „termel” akkora mennyiségű hivatalos iratot, mint az elvárható lenne, illetve ennek összetétele is – a tudományos prózához hasonlóan – kevésbé hivatalos anyagokkal van vegyítve. Átmenetileg problémát jelent a személyes közlés alkorpusz is: ennek legalább két részből kellene állnia – egyik része a gyors beszédfordulókból álló csetfórumok szövege, a másik a beszélt nyelvi szövegek lejegyzett változata. A határon túli magyar csetfórumok a magyarországiakhoz képest alulreprezentáltak, így nehezebb a kellő (arányaiban megfelelő) mennyiségű szöveget összegyűjteni. A beszélt nyelvi szövegek folyamatosan bővíthetőek, de csupán azután, hogy az irodák begyakorolták lejegyzési útmutatót. Így a 10% elméletileg elérhető (vagy inkább csak elképzelhető), ám mivel a többi alkorpusz is gyarapszik, ennek esélye egyre kevesebb (a hivatalos nyelvi szövegek esetében inkább elképzelhetetlen).