10. Zvuková uživatelská rozhraní
Ing. Jan Vorlíček, Praha
Tato kapitola se zabývá komunikací s počítačem pomocí
lidské řeči. Nejprve jsou uvedeny základní prostředky pro tuto komunikaci. Následují hardwarové
a softwarové prostředky nutné pro zajištění komunikace počítačů typu PC pomocí hlasu.
Na konci kapitoly jsou uvedeny výsledky experimentů se dvěma programy pro rozpoznávání
příkazů v lidské řeči.
10.1 Základní prostředky pro komunikaci s počítačem pomocí lidského hlasu
Pokud se podíváme na problém komunikace nevidomého člověka s počítačem,
můžeme dojít například k nějakému typu klávesnice a displeje v Braillově abecedě.
Nevýhodou tohoto systému je jeho nepoužitelnost pro ovládání aplikací pod grafickými uživatelskými
rozhraními a také určitá těžkopádnost práce. Braillův displej je nejčastěji v jednořádkovém
provedení a pokud chce uživatel přečíst obsah celé obrazovky, musí pomocí kurzovových kláves
pročíst jeden řádek po druhém. Lepší alternativou je použití komunikace
přirozenější – komunikace v lidské řeči. Zde potřebujeme v zásadě dva druhy prostředků.
Na jedné straně je to řečový výstup, který umožní, aby počítač informoval nevidomého pomocí
řeči a na druhé straně řečový vstup. Pomocí řečového vstupu je možno ovládat různé programy
řečí a ta je potom náhradou myši a klávesnice. V poslední době se začínají objevovat
i programy, které dokáží rozumět souvislému řečovému projevu a převádět jej přímo do podoby
textu v textovém editoru.
10.2 Hardwarové prostředky
V této části se zmíníme o hardwarových prostředcích potřebných pro
komunikaci s počítačem lidskou řečí. Kromě počítače, který je nezbytně nutnou součástí
a který musí být přiměřeně výkonný (pro řečový vstup potřebujeme mnohem výkonnější počítač než
pro výstup), potřebujeme ještě hardware nazývaný zvuková karta. K této kartě se připojuje
mikrofon pro vstup řeči a reproduktory nebo sluchátka pro výstup řeči. V současné době
lze nalézt na trhu velkou řadu zvukových karet od nejjednodušších, jejichž cena se pohybuje
okolo 800 korun až po nejsložitější v ceně okolo 8000 korun.
Lze říci, že pro účely řečového vstupu postačí i ty nejlevnější zvukové karty.
Jedinou podmínkou je, aby taková karta měla číslicově analogový převodník. Příkladem karet,
které tuto podmínku nesplňují jsou karty Adlib, které se však již několik let neprodávají
a nebo karty, které mají pouze MIDI výstup a jsou určeny pro hudebníky. Pro účely řečového vstupu
je potřeba vybrat takovou zvukovou kartu, která má vstup pro připojení mikrofonu a dokáže vzorkovat
vstupní zvukový signál alespoň osmibitově. Lepších výsledků lze dosáhnout s kartami,
které podporují šestnáctibitové vzorkování. Počítač potom dostává řeč v čistější podobě.
To, co bylo řečeno o zvukových kartách, platí pro aplikace běžící pod grafickým uživatelským
rozhraním. Ještě je nutné podotknout, že je potřeba, aby daná karta měla ovladače pro to určité
grafické rozhraní, jako jsou napříkald MS Windows nebo OS/2. Pro využití zvukových karet
v prostředí DOS je nejlépe vlastnit kartu kompatibilní s de-facto
standardem SoundBlaster, neboť většina programů pro rozpoznávání řeči nebo řečový výstup
pro prostředí DOS dokáže komunikovat pouze s těmito kartami. Na závěr tohoto odstavce bychom
chtěli poznamenat, že některé programy pro řečový vstup nebo výstup vyžadují speciální
kartu, která se dodává spolu s těmito programy.
10.3 Softwarové prostředky
Poté, co jsme vysvětlili, jaký hardware je potřeba pro vstup a výstup řeči,
můžeme přejít k druhé části potřebných prostředků a to k software. Software, který je
pro tyto účely k dispozici, lze rozdělit podle několika kritérií. Jedním kritériem
je typ počítače a operačního systému, pod kterým tyto programy běží. Druhým kritériem je
vlastní funkce programu. Podle tohoto kritéria lze rozdělit dostupné programy do následujících
skupin:
- Programy pro převod textového souboru na řečový výstup.
- Programy pro převod obsahu obrazovky (v textovém režimu) na řečový výstup.
- Programy, které čtou menu a zprávy různých aplikací.
- Programy rozpoznávající určitou množinu příkazů v lidské řeči (například “nahoru”,
“vlevo”, “ukončit”, “uložit” a podobně) a ovládající jiné programy v závislosti na
těchto příkazech.
- Programy, které dokáží převádět mluvenou řeč ve formě oddělených slov na psaný text,
který může například vstupem textového editoru.
- Programy, které převádí přirozený plynulý mluvený projev na psaný text.
- Kombinace předchozích typů.
Dalším kritériem je to, zda je program volně šiřitelný, shareware nebo čistě
komerční.
10.4 Programy pro hlasový vstup
V tomto odstavci bychom chtěli zmínit některé z existujících
programů pro komunikaci s počítačem pomocí lidské řeči spolu s jejich stručnou
charakteristikou. Některé z těchto programů jsme měli možnost otestovat a proto na závěr
této kapitoly uvádíme srovnání dvou programů, které plní stejnou funkci.
10.5 Programy pro hlasový výstup
- KUK – český program umožňující číst obsah textové obrazovky, pracovat s různými předem
definovanými programy, u kterých umí číst menu a také předčítat text ze souboru. Tento program je
určen pro prostředí DOSu a ke své funkci vyžaduje kartu kompatibilní se SoundBlasterem.
- Text Assist – anglický program pro MS Windows. Umožňuje číst text z textového souboru,
lze nastavit různé vlastnosti hlasu jako je výška, rychlost.
- CS Voice – český program pro MS Windows. Umožňuje v podstatě co Text Assist,
ale v českém jazyce.
10.6 Programy pro ovládání počítače jednoduchými povely
Tyto programy jsou nezávislé na jazyce, protože povely jsou uložené jako zvuky.
Jejich náročnost na výkonnost počítače není příliš vysoká, postačí i počítač s procesorem
80386. Všechny tyto programy jsou závislé na mluvčím, je potřeba předem namluvit všechny příkazy.
- Voice Assist – program pro MS Windows dodávaný se zvukovými kartami Sound Blaster
- In Cube – program pro MS Windows
- IBM VoiceType Control – program pro MS Windows 95.
10.7 Programy pro převod mluveného projevu na text
Tyto programy jsou nezávislé na mluvčím, i když vyžadují určitou adaptaci.
Tato adaptace se provádí za provozu programu pomocí zpětné vazby. Při každém rozpoznaném
slovu je nabízeno více variant a uživatel má možnost pomocí myši vybrat tu správnou. Pokud tak
neučiní, počítač sám vybere nejpravděpodobnější variantu. Tím se zároveň adaptuje na konkrétního
mluvčího. Nevýhodou je, že pro tuto adaptaci by nevidomá osoba musela mít nějakého vidomého pomocníka.
Lze ale říci, že po určité době je program tak dobře zadaptovaný, že nepotřebuje další úpravy.
Na závěr je nutno poznamenat, že žádný program pro převod mluveného projevu na text, který je
v současné době dostupný na trhu, není určený pro český jazyk.
- Dragon Dictate – anglický program pro MS Windows. Dokáže převádět řeč diktovanou jako oddělená
slova na text. Také zahrnuje funkci ovládání programů slovními povely.
- IBM Voice Type Dictation – anglický program pro MS Windows a OS/2 Warp 4.0.
Výsledky testů dvou programů pro ovládání počítače mluvenými povely. V tomto
testu jsme srovnávali chybovost rozpoznávání mluvených povelů dvou programů. Jedná se o programy
In Cube a Voice Assist. Pro oba programy jsme použili testovací sadu dvaceti různých příkazů
(pro oba programy stejnou). Programy testovalo celkem pět osob a každá zopakovala postupně celou
sadu příkazů pětkrát. Výsledek tohoto testu je shrnut v následující tabulce.
Čísla v tabulce znamenají počet chybných rozpoznání z celkového počtu pěti pokusů.
Povel |
Mluvčí 1 |
Mluvčí 2 |
Mluvčí 3 |
Mluvčí 4 |
Mluvčí 5 |
BOLD |
0 |
0 |
2 |
0 |
2 |
CALCULATOR |
0 |
1 |
4 |
1 |
0 |
CALENDAR |
1 |
3 |
1 |
0 |
0 |
CENTER |
1 |
2 |
2 |
4 |
1 |
CLOCK |
0 |
3 |
5 |
2 |
1 |
DAY VIEW |
0 |
0 |
0 |
0 |
0 |
FILE MANAGER |
0 |
0 |
0 |
1 |
0 |
ICON |
0 |
4 |
2 |
2 |
0 |
IN CUBE |
0 |
0 |
0 |
3 |
1 |
ITALIC |
0 |
3 |
1 |
3 |
5 |
JUSTIFY LEFT |
1 |
3 |
0 |
0 |
0 |
JUSTIFY RIGHT |
3 |
3 |
2 |
0 |
5 |
LARGER |
0 |
0 |
0 |
0 |
0 |
MONTH VIEW |
1 |
3 |
0 |
1 |
0 |
ORDER |
0 |
0 |
0 |
0 |
1 |
PROGRAM |
0 |
1 |
0 |
0 |
1 |
REGULAR |
1 |
0 |
1 |
0 |
0 |
SMALLER |
1 |
0 |
1 |
0 |
0 |
WRITE |
2 |
4 |
0 |
0 |
1 |
Tabulka 10.1: Výsledky testu programu In Cube
Povel |
Mluvčí 1 |
Mluvčí 2 |
Mluvčí 3 |
Mluvčí 4 |
Mluvčí 5 |
BOLD |
0 |
1 |
2 |
0 |
1 |
CALCULATOR |
0 |
2 |
3 |
0 |
0 |
CALENDAR |
0 |
1 |
2 |
0 |
2 |
CENTER |
2 |
1 |
0 |
5 |
3 |
CLOCK |
0 |
3 |
1 |
2 |
4 |
DAY VIEW |
0 |
0 |
0 |
2 |
1 |
FILE MANAGER |
0 |
1 |
0 |
0 |
0 |
ICON |
1 |
0 |
0 |
3 |
1 |
IN CUBE |
0 |
0 |
0 |
1 |
0 |
ITALIC |
0 |
1 |
1 |
4 |
3 |
JUSTIFY LEFT |
0 |
2 |
0 |
0 |
1 |
JUSTIFY RIGHT |
2 |
3 |
3 |
1 |
2 |
LARGER |
0 |
0 |
0 |
0 |
0 |
MONTH VIEW |
0 |
1 |
0 |
1 |
0 |
ORDER |
1 |
0 |
2 |
0 |
0 |
PROGRAM |
0 |
0 |
0 |
2 |
3 |
REGULAR |
0 |
0 |
0 |
0 |
0 |
SMALLER |
1 |
0 |
1 |
0 |
2 |
WRITE |
1 |
2 |
1 |
3 |
1 |
Tabulka 10.1: Výsledky testu programu Voice Assist
PŘEDCHOZÍ KAPITOLA
OBSAH
NÁSLEDUJÍCÍ KAPITOLA
[Domů
| Zpět]
Náměty a připomínky zasílejte na: web@braillnet.cz
Copyright © 1995 - 1999 SONS