Mérési feladatok:

Kötelezően elvégzendő mérési feladatok:

  1. Lényegkiemelés
    1. Töltse be a Vdial programot! Válassza ki a Settings/Signal Processing settings... menüpontot, és kapcsolja ki az előkiemelést!  
    2. Válassza ki a Run/Analyze from file... menüpontot! Ezzel WAVE formátumú állományokat vizsgálhatunk meg. Válasszuk ki a chirp.wav állományt, amely egy 0 - 4 kHz-ig folyamatosan növekvő frekvenciájú szinuszjelet tartalmaz (chirp = „csiripelés”). Értelmezze a képernyőn látottakat! Ugyanezt végezze el a:
      • sine.wav (szinusz jel),
      • square.wav (négyszőgjel),
      • trumpet.wav (trombita hang),
      • almos.wav (az álmos szó),
      • noise1.wav (fehér zaj) állományokon is!

(Meghallgatni úgy tudja a hangokat, hogy az Options/Playback menüpontot aktív állapotba állítja. Ekkor minden szó után a program lejátsza az adott hangrészletet. Amelyik hangállományt így nem lehet meghallgatni, azt pl. a Windows Sound Recorder programmal játssza le!)

    1. Válassza ki a Settings/Signal Processing settings... menüpontot! A dialógus ablakban nyomja meg a Browse... gombot, és válassza ki a noise1.wav állományt! Ezáltal az állomány neve bekerül a Background wave file mezőbe. Az Amplification factor-t állítsa 1-re, majd zárja be a dialogus ablakot! Mostantól a program minden, állományból vagy mikrofonból beolvasott jelhez hozzáadja az általunk beállított hangállomány tartalmát a megadott amplítúdóval. Ezzel a beállítással ismételje meg az 1.2 feladatot (a hat hangállományból elegendő kettőre rögzíteni a megfigyeléseket)! Az Amplification factor-t állítsa 4-re és megint ismételje meg az 1.2 feladatot (másik két hangfile-ra)!
    2. A Signal Processing settings dialógusablakban a Background wave file mezőt törölje ki! A Hamming ablakot kapcsolja ki, és ismételje meg az 1.2 feladatot (2 file-ra)! Ezután kapcsolja be a Hamming ablakot és az előkiemelést is, és ismételje meg az 1.2 feladatot (2 szemléltető file-ra)! Az előkiemelés maradjon bekapcsolva a továbbiakhoz!
    3. Az ablak méret (Frame size) 16 és 64 ms-os értékeivel ismételje meg az 1.2 feladatot, az észrevételeket 2 hangmintára rögzítve! Állítsa vissza az ablakméretet 32 ms-ra!
    4. A sávszűrők számát (Filter bank size) növelje 40-re és ismételje meg az 1.2 feladatot a chirp.wav-ra! Állítsa vissza a sávszűrők számát 12-re, és most a kepsztrális együtthatók számát (Mel cepstrum size) növelje 24-re és ismételje meg az 1.2 feladatot a chirp.wav-ra! Állítsa vissza a kepsztrális együtthatók számát 12-re!

Deaktiválja Options/Playback menüpontot!

  1. A beszédhangok jellemzői és a beszéd dallama
    1. Ellenőrizze, hogy a mikrofon illetve a Windows Recording Control beállításai megfelelők-e.
    2. A Run/Analyze from mic menüparanccsal indítsa el a programot! A mikrofonba beszélve a képernyőn megjelenik a hullámforma, a jel energiája és a jel spektruma. Hasonlítsa össze a következő beszédhangok spektrumát: {s, sz, z, zs}! Mi a különbség és a hasonlóság közöttük? Hogyan osztályozná őket? Végezzen összehasonlítást a következő halmazokon belül is: {a, á, e, é, í, ó, ő, ú, ű}, {b, d, gy, t, ty}, {m, n, l, r}, {í, j}! A második csoport mássalhangzóit természetesen nem önmagukban kell kiejteni, hanem egy magánhangzóval együtt!
    3. Mondjon be egy magánhangzót különböző hangmagassággal! Hogyan jelenik meg a beszéd dallama a spektrumon?
    4. Mondja be az e és az ő magánhangzókat, mindkettőt kétféle hangmagassággal, vastag és vékony hangon. Mi különbözteti meg a vastag és vékony hangon bemondott e és ő hangokat?
    5. Mit gondol, beszédfelismerésnél mire lehet a dallaminformációt felhasználni?
  2. Szókeresés
    1. A képernyőn a hullámforma alatt egy vörös csík jelzi a bejövő jel azon részeit, amelyeket az energiája alapján szó-bemondásnak ítél. Kísérletezze ki, hogy milyen feltételek mellett működik a szókereső algoritmus rendeltetésszerűen és mikor nem! Javasolt tevékenységek: rövid zörej keltése, mikrofonba szuszogás, állandó háttérzaj (és természetesen szavak bemondása).
    2. Jegyezze fel a Settings/Find word settings beálllításait. Állítsa a Settings/Find word settings menűpontból elérhető dialógus-ablakban a szavak közötti szünet min. értékét (a Silence between words mező) 1000 ms-ra. Ismételje meg a 3.1. feladatot az új beállítással! Most 0ms-ra beállítva a Silence between words paramétert végezze el ismét a 3.1. feladatot! Próbálja ki azt is, hogy a ‘kettő’ szó bemondására hogyan reagál a gép!
    3. A beszédküszöböt (Energy threshold) állítgatva végezze el a 3.1. feladatot! Milyen beállítást talált a legjobbnak?
  3. Felismerés I.
    1. Tanítson be néhány tetszőleges választott szót a Run/Train from mic menüponttal! Ha a betanítást befejezte (szavanként elég egy betanítás), akkor állítsa meg a programot (az Esc billentyűvel)! Most válassza a Run/Recognize from mic menüpontot, és tesztelje a felismerőt, hogy jól ismer-e fel! Probálja ki, hogy a mérőtársa hangját felismeri-e! A felismerést is az Esc-pel lehet megállítani. A betanításokat a Templates/Clear all menüponttal lehet törölni.

Állítsa vissza Settings/Find word settings eredeti beállításait. Ha ez nem lehetséges, indítsa újra a programot!

    1. Nézze meg a Exprment\Sample1.cmd szöveges formátumú parancsállományt egy szövegszerkesztő programmal (pl. a notepad.exe-vel)! A parancsállományban szerepló hangállományokat hallgassa meg! Futtassa a Run/Run command file... menüparanccsal, és vizsgálja meg a futás eredményét amely a Sample1.log állományban illetve a program bal alsó szöveges ablakában található! Adjon magyarázatot a kapott eredményre!

Fakultatív mérési feladatok:

  1. Felismerés II.
    1. A Signal Processing Settings dialógus ablakban, a Frame step mezóben lehet állítani a jelfeldolgozás során az egymás utáni keretek követési távolságát. (Ha ez kisebb, mint a keret hossza (Frame Size), akkor a keretek átlapolódnak.) A Sample1.cmd parancsállomány egymás utáni többszöri (min 2!) futtatásával módszeresen vizsgálja meg, hogy mely keretméret és keret-lépéstávolságok milyen felismerési biztonságot (hibát) eredményeznek! (Amennyiben sikerül jobb beállítást találnia, mint az eredeti, úgy a következő részfeladatot nem szükséges megcsinálnia!)
    2. A keretméretet és a lépésközt állítsa vissza 32 ill. 24 ms-ra! Futassa a programot párbeszédes üzemmódban a Run/Dialog with new user ill Run/Dialog with last user menüpontokkal! Észrevételeit írja le (rosszakat, jókat egyaránt)!