Karjalan kielen murrehatlasan jälgiprotsezoindua

Dmitri Bubrihan 1920-luvul allettu da toizien tutkijoin 1990-luvule suate jatkettu projektu tuotti massiivizen miärän tieduo karjalan kielen variantois. Tädä tieduo on kerätty 1997 Suomes ilmahpiässyöh kirjah

D.V. Bubrih, A.A. Beljakov, A.V. Punžina:
Karjalan kielen murrekartasto
Suomalais-Ugrilainen Seura, Helsinki 1997.

Atlasah vallittih 206 kielellisty ilmivyö, kudamis kyzeldih (eri aijoinnu) 186 paikas. Nenga atlasas on 206*186 kyzymysty, kudamih annettih 2-14 erilastu vastavustu. Atlasua on lysti livailla da opastuo karjalan kielen murdehii, a voibigo luadie kogonaskuvua murdehis? Suomelaine kielitiedoilii Kalevi Wiik rubei verdailemah, äijängo eri keriändykohtis annetut vastavukset erottih. Nenga häi luadi erotaulukon 186*185/2 paikkupuaras. Moizen erotaulukon vuoh häi sit rubei "kävelemäh" kartal sen mugah, kunne ero on pieni libo suuri. Rodih kartu murrehalovehis. Tulokset piästih ilmah julgavos

Kalevi Wiik:
Karjalan kielen murteet - kvantitatiivinen tutkimus
Fenno-Ugristica 26 (2004)

Uuttu Wiikan ruavos oli tiedokonehen käyttö erotaulukon luajindah. Se olis olluh ristikanzale ylen suuri da terstaittai ruado. A taulukkuo häi kaččoi ristikanzan silmil. Harjavunnuh tutkii tiedäy, midä maksau eččie. A harjavunnuh tutkii sežo on nengoman tiijon da traditsien vangi. Mittustu anualizua vois tolkutoi tiedokoneh luadie? Se on tämän eksperimentan tarkoitus.

Naputtelin tiedokonehen mustoh Atlasan 38316 kentytieduo da luajiin niilöin erotaulukon Wiikan jyttyöh. Mintahto kahten paikan vastavuksii voi verrata ohjelmal

verdailu.html kudai ozuttau rinnakkai nämil paikoil annetus teemas annetut vastavukset. Ken ei tarkah musta, kus mingi nimine paikku on, libo min nimizii paikkoi on kusgi kohtas, voi niilöi ečitellä ohjelmal lovva.html.

Murdehien luokittelus samanlaizuon mugah käytin yksinkerdastu lähimbäh susiedah perustujua klusteroindualgoritmua. Yhten paikan lähin susiedu on paikku, kudamas annettih vähiten omas murdehes eruojii vastavuksii. Yhtistämäl jogahine paikku lähimbäh susiedah, paikat jagavutah joukkoloikse, klusteroikse. Klusteroindan tuloksii voi kaččuo adresis klusterit.html.

Pseudo-ohjelmoindukielel algoritmua voi kuvata nenga:

  # luaji erotaulukko
  for all kartu k do
    for all paikku p do
      luve arvo[k,p]
  for all paikku p do
    for all paikku q do
      ero[p,q]=0
      for all kartu k do
        if arvo[k,p]<>arvo[k,q] then ero[p,q]=ero[p,q]+1
  # lövvä lähin susiedu
  for all paikku p do
    min=999 # "iäretöi"
    for all paikku q do
      if p<>q and ero[p,q]< min then 
        min=ero[p,q]; sus[p]=q
  # luaji klusterit
  klusterit=[]
  for all paikku p do
    piirrä nuoli p->sus[p]
  # on tarkah yksi puaru p->q, q->p
  for all paikku p do
    if p=sus[sus[p]] then 
      liziä p klusteriloih
      klusteri[p]=[]
      # p on klusterin juuri
  for all paikku q
    while q ei joukos klusterit do
      mene juureh p susiedunuolii myö 
      liziä q joukkoh klusteri[p] da piirrä viiva q-p 
  # klusterit lövvetty
  
  # voi jatkua rekuriivizesti
  # uuzi erotaulukko klusteroile (kudamii juuret edustetah)
  for all p in klusterit
    for all q in klusterit
      ero[p,q]=999
      for all m in klusteri[p]
        for all n in klusteri[q]
	  if ero[m,n]<ero[p,q] then ero[p,q]=ero[m,n]
  Jatka kui enzimäzel kierroksel
  Jatka kuni klusteroi jiäy vaiku yksi.
Yksityiskohtazes ohjelmas nygöi on nenga 250 sumbua rivii.

Uuzimas ohjelman versies kai samah klusterih kuulujat paikat on väritetty samal värih. Klusteroi yhtistäjes kai muut paičči "juuriklusteri" muutetah juuren värizekse.

Ohjelman käyttäi voi ottua klusteroindah kai atlasan kartat kerral, libo vallita mintah ozajoukon, ezim. vokalit libo sanaston. Klusterikartu on png-kuva.

Jälgiduumii

Täs sua lugie kudakui samat tiijot kui Bubrihan murrehatlasas, eri tabah ezitetty. Tiijollizesti täs ei ole nimidä uuttu, tämä on metodolougine koiteh. Bubrihan atlasah verraten täh on ližätty tiijot kuvves rajakarjalazes pidäjäs, a niilöi voi nygöi pidiä vaiku "paikanpidäjinny". Bubrihanke verdailukelbozii tiedoloi nygöi jo on mahtotoi suaha, muailmu on muuttunuh. Käytin lähtehinny Eino Leskizen Karjalan kielen näytteitä II kirjua, SKS 1934, Suomelas-ugrilazen seuran Karjalan kielen sanakirjua, toizii sanakirjoi, Punttilan Impilahden karjalaa da Saralan Suistamolaisia sananparsia kogomustu. Pagizuttelu Bubrihan projektan tabah nygöi on mahtotoi, ga arhiivois pidäs eččie hos sada sivuu tekstoi jogahizes Raja-Karjalan čökkehes. Pidäjyjago on liijan kargei ozuttamah muutostu karjalan pohjazes suveh da ven'an kielen rajal suomen kielen rajale. Hos Bubrihan massiivistu kentykeriändiä jo ei voi todevuttua, minun mieles arhiivututkimus rajakarjalazien murdehien verdailus maksas luadie.

Klusteroindu ozuttau, kus mennäh suurembat harpavukset murrehalovehien välil, ga pidäy varata liijan jyrkii johtopiätöksii. Ottamal eri piirdehet verdailun pohjakse, klusteroindugi muuttuu. Yhtelläh, hos murreh muuttuu kyläs toizeh, ihan murrehkartan eri puolilgi eläjät karjalazet toine tostu ellendetäh/ymmärretäh/maltetah/ponimaijah/toimitetah, ku vai tahtotah.

Bubrihan atlasas ei ole rajakarjalazii murdehii. Kargien verdailun luadimizekse keräin kirjaspäi

Eino Leskinen:
Karjalan kielen näytteitä 2. Aunuksen ja Raja-Karjalan murteita
SKS 1934

vastavuksii Bubrihan kyzymyksii Salmin, Imbilahten, Suistamon, Suojärven, Korbisellän da Ilomantsin näyttehien mugah. Korpusan vähäzyön däh nämii tuloksii voi pidiä vaiku suundua-andajinnu.