Hatszáz éve készült, de még mindig nem tudjuk, mit jelent a különös könyv. Egy, a vártnál fejlettebb civilizáció emlékét őrzi a Voynich-kézirat, vagy csak egy középkori mókamester foglalkoztatja száz éve a kutatókat? Fiatal informatikusok új megközelítésből vizsgálják. A válaszokat a big datától várják.
A kézirat rejtélye
Egyre többször beszélünk a big data nevű jelenségről. Ez önmagában csak egy óriási adatmennyiséget jelent, amit a hagyományos adatfeldolgozó módszerekkel nagyon hosszadalmas, vagy nehéz lenne átvizsgálni.
Sokszor azonban a sok adattal kezdeni is kell valamit. Analizálni különböző módszertanok alapján, kiemelni belőle apró részleteket, okosan és gyorsan keresni ezekben az adatbázisokban. Aztán van, hogy ez sem elég, vizuálisan kell ábrázolni összefüggéseket, mert mondjuk az ember hatszázéves kéziratok titkait kutatja.
Egy amerikai könyvkereskedő, Wilfrid Michael Voynich 1912-ben szerzett egy különös könyvet, ami 234 oldalas, az 1420-as években íródott, vélhetően természettudományokkal foglalkozó, a mai napig megfejtésre váró dokumentum volt. Az első írásos emlék, ami említi a könyvet a 17. századból való, George Barest tulajdonát képezte ekkor a mű, derül ki a korabeli feljegyzésből. A könyv ma a Yale Egyetemen, a Beinecke könyvtárban található.
Akinek esetleg nem esne útba hazafelé az egyébként tényleg lenyűgöző könyvtár, annak jó hír, hogy már 1931-ben is készítették róla másolatot, azóta pedig többször ki is adták. Sőt, online is elérhető. A Voynich-kézirat az egyik legizgalmasabb téma a nyelvész-informatikus körökben. Szövegét még mindig nem sikerült megfejteni. Ebből adódóan persze többször felmerült, hogy akár hamisítvány is lehet. A kora mindenesetre hiteles, radiokarbonos vizsgálattal azt derítették ki, hogy a 15. században(1404 és 1439 között) készült. Ettől még lehet egy tréfás kedvű elhivatott mesterműve, de ez a kérdés jelenleg megválaszolatlan.
2014 elején Stephan Bax, a Bedforshire egyetem (Egyesült Királyság) professzora lingvisztikai elemzésekbe kezdett, azt állítja, 14 karaktert már sikerült megfejtenie a szövegből. Olyan szavakat tudott így elolvasni a könyvben, mint a koriander, vagy a bika. Munkásságát azonban sokan támadják, arra hivatkozva hogy jellemzően olyan általánosságokat fogalmaz meg, amelyek nem visznek közelebb a megoldáshoz. Ez elsőre furcsának tűnhet, hiszen azt állítja, van 14 karakter a kezében, csakhogy azzal a módszerrel dolgozik, amellyel az egyiptomi hieroglifákat fejtették meg, tulajdonneveket próbál találni a szövegben, majd ezeket a neveket használva próbálja megfejteni a közneveket.
A 234 oldalas Voynich-kézirat 42 (negyvenkettő!) lapja hiányzik, ez jól látszik, ugyanis az oldalakat számozták is. Igaz, a szakértők többsége egyetért abban, hogy ezek a számok nem feltétlenül a kézirattal egyidőben kerültek a lapokra.
Tudjuk, vagy csak hisszük?
A kéziratot hat különböző fejezetre bonthatjuk fel, jelenlegi ismereteink szerint ezek a herbárium (oldalanként egy-két növény grafikája, a kor jellemző stílusjegyeivel, sokszor hibrid, többszörösen összetett növényekkel), asztronómia (a vízöntő és a bak elveszett, de a nyilas például megvan, azt íjpuskával felszerelt katona szimbolizálja), biológia (sok szöveg, bizarr ábrák, amelyekben a csőhálózat bizonyos elemei emberi szervekből készültek), kozmológia (ez az egyik legizgalmasabb terület – az ábrák több oldalasak, kihajthatóak, térképszerű rajzokkal, melyek bizonyos feltételezések szerint a galaxist ábrázolják, de nem kell Erich von Dänikennek lenni, hogy az embert elragadja a képzelet ), gyógyszerészet (a herbáriumhoz hasonlít, csak sokkal részletesebb, a rajzok is kidolgozottabbak, a szöveg kevesebb), illetve a receptek, amelyek több, rövid bekezdést tartalmaznak, rajzot viszont már jóval kevesebbet.
A szövegről sok mindent kiderítettek már, tudjuk hogy balról jobbra íródott, bekezdésekre tagolt. Több, mint 170 000 különálló írásjelet használtak a kézirat elkészítéséhez, de 20-30 írásjellel szinte az egész szöveg felírható, azonban akadnak olyan speciális karakterek is, melyek mindössze egyszer-kétszer fordulnak elő a kétszáz oldalas szövegben.
A szélesebb közök alapján mintegy 35 ezer szó szerepel az írásban, ezek hangtani, és/vagy helyesírási szabályokat követnek, bizonyos karakterek csak a szavak elején, mások csak a végén szerepelhetnek, illetve akadnak olyan karakterek is, amelyek minden szóban szerepelnek (mint mondjuk a magánhangzók az általunk ismert nyelvek többségében).
Azt már eddig is tudtuk, hogy a szöveg szerkezete hasonlít a természetes nyelveken íródottakéhoz, a szógyakoriság követi Zipf-törvényt, a szavak entrópiája pedig hasonlít az angol és a latin szövegekre (10 bit/szó). Ennél sokkal tovább azonban nem jutottunk. Adott a kétszáz oldalnyi bizarr rajz, a csillagjegyek, konstellációk és a megfejthetetlen szövegek.
Ekkor robbant be a képbe Diego R. Amancio. A fiatalember ugyanis más megközelítést választott, mint amivel eddig próbálkoztak. Míg a többség a hagyományos kódfejtés és kontextusba helyezés módszerét használja, Amancio lépett egyet hátra, aztán statisztikai módszerekkel arra az alapkérdésre kereste a választ, hogy igaza lehet-e azoknak, akik szerint a kézirat hamisítvány, a szövegnek pedig nincs is értelme, az csak jól megkomponált halandzsa. Amancio csoportokba rendezte a szavakat, elkészítette a kapcsolódási táblájukat is, ezzel komplex hálózati modellt alkotva meg.
A szöveg egységei mind-mind egy-egy szót jelölnek. Ahol két szó elég közel esik egymáshoz, egyértelmű jelöléssel választották külön őket – nyilatkozta Amancio. Ennek szerinte jelentősége van, amolyan összetett szavakként tekint rájuk. Programozó lévén a C programnyelvhez nyúlt, aztán a Network 3D (a Microsoft vizuális modellezője, amivel komplex hálózatokat lehet ábrázolni) segítségével sikerült olyan orbitális modellt létrehozni, amelyen a szavak és kapcsolataik, illetve gyakoriságuk és pozíciójuk is megmutatkozik.
A különleges eljárással arra is fény derült, hogy a Voynich-kézirat 90 százalékos hasonlóságot mutat az ismert írásos emlékeinkhez képest, például a Biblia eredeti szövegének struktúrájával. Ez egy újabb erős érv amellett, hogy érdemes megfejteni az írást, mert várhatóan nem egy alaposan kidolgozott halandzsát olvashatunk majd. Amancio szerint eredményeit jórészt a big datának köszönheti, hiszen a saját eszköztárával sosem lett volna képes ekkora hatékonyság mellett a rengeteg adatot átfésülni.
A statisztika törvényszerűségeiből akarunk kiindulni. Ennek ma, 2014-ben még fizikai korlátai vannak, de néhány éven belül fejlődik akkorát a felhő (illetve konkrétan a big data), hogy belátható időn belül megfejtse helyettünk a kéziratot – véli Amancio, aki tovább folytatja a különös könyv titkainak kutatását. Volt már rá példa, hogy az informatika segítette titkos kézirat megfejtését.
Forrás: IT Café
Fotó: IT Café