Súlyos állapotban az Office helyesírás-ellenőrzése

A közelmúltban rákényszerültem arra, hogy a Microsoft Office programcsomagot a 2016-os verzióra frissítsem. Talán nem vagyok egyedül azzal, hogy ha egy szoftver kezelését megszoktam, abban nem találok kifejezetten sok zavaró dolgot, akkor ódzkodom a frissítésektől. Ha nem muszáj, nem akarom újra megkeresgélni azokat a funkciókat, amiket korábban könnyen el tudtam érni. És persze félelmeim is vannak, hogy a számomra haszontalan újítások mellett esetleg hasznos dolgok fognak eltűnni. Nos, az Office esetében ezek nem voltak alaptalan félelmek.

A frissítés után nem sokkal azt vettem észre, hogy a Word helyesírás-ellenőrzése elég furcsa dolgokat művel. Helyesen írt szavakat dobott ki, javításra javasolta őket, még olyan egyszerű szavakat is, mint például: zászlók, felülre, előttük. Úgy tűnt, hogy a magyar ragozással komoly bajai vannak a programnak. Ez még csak az enyhe bosszúság kategóriába tartozik, a meg nem talált hibák jelenthetik a komolyabb problémát azoknak, akik hozzászoktak ahhoz, hogy a szoftver igazi segítséget tud nyújtani a szövegalkotásban. Ha az Office hibátlannak tartja a zászlok, a rajongo, az alakdalan szavakat, akkor a helyesírás-ellenőrzése feleslegesnek tűnik.

Tudom, hogy nem lehet hibátlan egy ilyen bonyolult alkalmazás, és különösen nehéz a magyar nyelv szavainak (az Office szerint helyesen: „szávainak”), szabályainak ellenőrzése. Az viszont nehezen magyarázható, ha egy korábban jól működő dolog egyszer csak le lesz cserélve valami selejtesre. Kipróbáltam ugyanis a dolgot, megnéztem, hogy azok a furcsaságok, amik az Office 2016-ban megjelennek, vajon ott voltak-e korábban is. A helyesírás-ellenőrző 2010-es verziója elég kellemesen, viszonylag kevés hibával működött. Az itt látható két kép közül az első a 2010-es Word képét mutatja, a második a 2016-osét, azonos szavakkal. Az első blokkban olyan szavak vannak, melyeket a 2010-es Word (helyesen) megfelelőnek talált, a 2016-os viszont ezeket hibásnak jelezte. A második részben pont fordítva. A legutolsó blokkba olyan szavakat írtam, amik létező szavaktól egy betűben térnek el (általában egy ékezetben), így ez a hiba könnyen fordulhat elő figyelmetlen gépeléskor. A Word 2016 itt se vette az akadályt. Random módon összeillesztett összetett szavakat (pl. tepsibanán) mindkét verzió el szokott fogadni (különösebb tartalomelemzés nélkül – ez persze nem is várható el), a recerucamajompartizomláz szó elfogadása azért mégis meglepett engem.

Word 2010:

Word 2016:

Ahogy azt sejtettem, nemcsak engem zavart ez a probléma, hamar rátaláltam a vonatkozó Microsoft fórumra, ahol felhasználók tucatjai jelezték a problémát a cégnek. A cég magyar képviselőjének válasza csak annyi volt, hogy jelzést küldtek a fejlesztőknek, várják ők is a választ.

Az, aki komoly munka elkészítésénél számít az Office már megszokott segítségére, könnyen pórul is járhat: „Diplomamunka írás közben olyan szavakat talál helyesnek a Word, amelyek nem léteznek, és olyan szavakat nem ismer fel, amelyeket többszöri olvasás után is helyesnek találok, illetve szótárt átlapozva is erre a következtetésre jutok.

Ez még rendben is lenne (nem), de az első problémával már több a baj, amennyiben szavakat írok el a diplomamunkámban, visszadobhatják... Ez nem jó játék, a 2010-13-as Wordben ilyet nem tapasztaltam, az iskola által telepítettem a 2016-ot, megbántam. Nikolett”

Mivel az Office kizárólag a magyar MorphoLogic cég Helyesebb - Hungarian Grammar Checker trademarkját jelöli névjegyében, megkerestem a céget, hogy kérdéseimre választ kaphassak. A cég alapítója, Prószéky Gábor, az MTA doktora, az MTA Nyelvtudományi Intézetének igazgatója készségesen válaszolt kérdéseimre.

Tudomásom szerint az önök cége 1993 óta a Microsoft partnere, az Office az önök cégének trademarkját jelöli. Mi lehet az oka annak, hogy számtalan esetben más (helytelen) eredményt ad az Office helyesírás-ellenőrzője a hibás/helyes kérdésekben a korábbi változatokhoz képest?

MTA fotó

Prószéky Gábor: Mint talán ismert, a mi helyesírás-ellenőrzőnk, a „Helyes-e?” sokféle változatban, 1991 óta van a piacon, és a MorphoLogic és a Microsoft közti szerződés értelmében 1993 óta a Microsoft nyelvi eszközei is ezt a technológiát használták. Egészen addig, míg 2010 körül valaki a Microsoftnál azt nem gondolta, hogy ilyet ők is tudnának házon belül is fejleszteni, ezért felmondták a velünk több mint két évtizede kötött szerződést. Ez a döntés nem közvetlenül nekünk szólt, hanem minden külsős nyelvtechnológiai partnernek. Megjegyezném, hogy ezzel kapcsolatban a mintegy húsz év alatt sem technikai, sem nyelvi panaszt nem kaptunk – bár tökéletesnek nyilván nem hisszük a saját termékünket, de jól használhatónak igen. Ebben segített persze minket a több mint húsz év sok millió magyar felhasználója is. Megkockáztatom, és valószínűleg igaz is, hogy ez az egyik legnagyobb számú felhasználót kiszolgáló és legrégebben használt magyar szoftvertermék. Hogy ne kelljen nulláról indulniuk a fejlesztéssel, a Microsoft felajánlotta, hogy megveszi a MorphoLogic nyelvi adatbázisát, tehát a szavakat, a mindenféle toldalékolást részletesen leíró nyelvi kódokkal együtt. Mi jeleztük, hogy még ha el is adjuk nekik, rengeteg olyan jelenség van a magyar helyesírásban, amit nem lehet egyszerűen adatbázisban leírni, hanem algoritmikus módon, azaz programmal kell kezelni, és ez az a plusz, amit a mi moduljaink immár huszon-sok éve meglehetősen jó minőségben csinálnak. Felajánlottuk az együttműködésünket az új moduljaik kialakításánál, de ők mindent házon belül akartak megoldani, ezért csak a nyelvi adatbázist (a teljes nyelvleírással együtt) vették meg tőlünk. De az ön érdeklődése, valamint a MS Community oldalán látható panaszok alapján is úgy tűnik, hogy nem igazán sikerült erre felépíteni egy megfelelő minőségű ellenőrzőt. Ők valószínűleg nem igyekeztek mérni a minőségvesztést (szemben velünk, de mit érünk vele) – a felhasználók jogos visszajelzései meg annyit érnek, mint amennyi az említett MS-oldalon levő megjegyzésekre adott válaszokból kitűnik.

Úgy gondolták, hogy mintegy húsz év sikeres együttműködés után ők maguk, házon belül is le tudják gyártani (nemcsak magyarra, hanem minden más nyelvre is) a nyelvi csomagokat, amihez – mint jelezték – nekik csak nyelvi adatokra van szükségük, viszont azokra a jól bevált partnerekre nincs, akik eddig készítették ezeket. Így az általuk kért magyar nyelvi adatokat leszállítottuk, de többször is jeleztük nekik, hogy az olyan nyelvvel, mint pl. a magyar, komoly problémáik lesznek, ha nélkülünk szeretnék még egyszer megcsinálni ugyanazt, amit mi negyed évszázaddal ezelőtt már megcsináltunk. De ez semmilyen hatással nem volt a döntésükre.

A trademark a nyelvtani ellenőrzőre vonatkozik, nem a helyesírás-ellenőrző modulra, nem az elválasztóprogramra és nem is a tezauruszra. Ennek az utóbbi háromnak a kapcsán mondták fel a szerződést, és saját technológiával próbálkoztak, a „Grammar Checker” esetében viszont meghagytak minket. Ennek oka az lehet, hogy korábban csak néhány nyelvre fejlesztettek ki a partnerek mondatellenőrzőt, és azokat nem akarták/tudták egységesíteni. Azt viszont ott is figyelmen kívül hagyták, hogy a mi mondatellenőrzőnk a saját helyesírási modulunkkal kommunikál működés közben. Ezért nagyon abszurd, de beépített formában ma is ott van a helyesírási modulunk is a nyelvtani ellenőrzőbe integrálva, csak ők nem azt használják, hanem a sajátjukat...

Lehet nekik írni, hogy ez a mostani megoldás nem megfelelő egy igényes magyar embernek...

Baranyai István

Szubjektív