Pytania na zaliczenie przedmiotu „systemy dialogowe”

1.       Wyjaśnić pojęcia: dialog, użytkownik, transakcja

2.       Składniki interfejsu użytkownika

3.       Omówić typowy scenariusz realizacji usług w systemie dialogowym

4.       Architektura typowego systemu dialogowego języka mówionego

5.       Omówić działanie systemu dialogowego języka mówionego

6.       Zadania procesu projektowania sdS

7.       Własności systemu dialogowego języka mówionego.

8.       Wyjaśnić pojęcia: niezależność od mówcy, mowa ciągła, słownik rozpoznawanych słów

9.       Struktura funkcjonalna systemu dialogowego języka mówionego

10.   Scharakteryzować metody automatycznego rozpoznawania mowy

11.   Założenia metody akustyczno-fonetycznej.

12.   Omówić automatyczne rozpoznawanie mowy metodą akustyczno-fonetyczną (schemat blokowy) Jakie jednostki fonetyczne stosowane są w rozpoznawaniu mowy metodą akustyczno-fonetyczną?

13.   Wymienić najczęściej wykorzystywane charakterystyki (cechy) akustyczne w rozpoznawaniu mowy metodą akustyczno-fonetyczną

14.   Wyjaśnic pojęcia: segmentacja, indeksacja, klasyfikacja

15.   Omówić automatyczne rozpoznawanie mowy metodą rozpoznawania wzorców (schemat blokowy)

16.    Wyjaśnić pojęcia: tryb uczenia i tryb rozpoznawania.

17.    Scharakteryzować rodzaje wzorców w metodzie rozpoznawania wzorców.

18.    Zdefiniować (graficznie) proces Markowa o skończonej liczbie stanów i czasie dyskretnym.

19.    Zdefiniować (graficznie) dyskretny ukryty model Markowa.

20.    Narysować kratę dla przykładowego dyskretnego ukrytego modelu Markowa.

21.    Co to jest problem ewaluacji, dekodowania i uczenia w HMM?

22.    Do czego stosuje się modele języka w rozpoznawaniu mowy?

23.    Jaką postać może mieć wyjście urządzenia automatycznego rozpoznawania mowy?

24.    Jak działa układ porównania?

25.     Omówić różnice między rozpoznawaniem mowy metodą akustyczno-fonetyczną i metodą rozpoznawania wzorców.

26.    Co jest wynikiem działania procesora językowego?

27.    Dlaczego rozdziela się reprezentację syntaktyczną i semantyczną języka?

28.    Co to jest przetwarzanie syntaktyczne?

29.    Scharakteryzować analizę syntaktyczną pełną i częściową.

30.    Co jest celem przetwarzania semantycznego?

31.     Omówić cechy charakterystyczne kontekstu.

32.    Scharakteryzować praktyczne realizacje procesu NLP.

33.    Omówić własności (zadania) menadżera dialogu.

34.    Wymienić fazy informacyjnych dialogów usługowych.

35.    Co to jest generator mowy syntetycznej?

36.    Scharakteryzować metody syntezowania sygnału mowy.

37.    Omówić model traktu głosowego w postaci tuby akustycznej.

38.    Scharakteryzować syntezatory artykulacyjne.

39.    Omówić syntezę formantową.

40.    Scharakteryzować syntezatory modelujące sygnał mowy.

41.    Omówić problem jednostki fonetycznej w syntezie sygnału mowy.

42.    Synteza konkatenacyjna na przykładzie algorytmu PSOLA.

43.    Omówić syntezatory korpusowe.

44.    Schemat funkcjonalny generatora mowy syntetycznej.

45.    Omówić model artykulacji sygnału mowy przez człowieka.

46.    Omówić charakterystyki reprezentujące sygnał mowy w dziedzinie czasu.

47.    Omówić charakterystyki reprezentujące sygnał mowy w dziedzinie częstotliwości.

48.    Wymienić etapy i zadania budowy systemu rozpoznawania mowy.

49.    Co to jest portal głosowy?

50.    Schemat funkcjonalny portalu głosowego.

51.    Elementy składowe serwera VXML.

52.    Opisać elementy przeglądarki głosowej.

53.    Co to jest aplikacja głosowa?

54.    Wyjaśnić pojęcia: interfejs kierowany przez aplikację, interfejs o przemiennej inicjatywie.

55.    Co to jest system informacji głosowej (IVR)?

56.    Obszary zastosowania IVR.

57.   Wymienić zadania szczegółowe realizowane w systemie IVR.

 

 

1.       Wyjaśnić pojęcia: dialog, użytkownik, transakcja

Dialog jest interakcją (wzajemnym oddziaływaniem, współdziałaniem

·         pomiędzy użytkownikiem i komputerem

·         w osiągnięciu szczególnego celu

Użytkownik jest osobą współdziałającą z komputerem

Transakcja to akcja użytkownika i skojarzona z nią odpowiedź komputera (lub na odwrót)

Dialog jest serią transakcji

Transakcja jest najmniejszą jednostką interakcji człowiek – komputer

Góra dokumentu

 

2.       Składniki interfejsu użytkownika

Interfejs użytkownika zawiera 3 podstawowe składniki:

·         Sterowanie - umożliwia użytkownikowi "mówienie" do komputera. Elementy sterowania są zwykle obiektami, które umożliwiają tworzenie oraz przekazywanie poleceń do systemu

·         Zobrazowanie - umożliwia komputerowi zwracanie się ("mówienie") do użytkownika. Może zawierać różne technologie zobrazowania informacji (zwykle wizualne, ale czasami to może być „zobrazowanie” audio lub inne)

·         Interakcje lub dialog - kombinacja wprowadzania poleceń do komputera z jednej strony oraz zobrazowania informacji przez komputer z drugiej strony, tworząca łącznie dialog miedzy użytkownikiem i komputerem.

Góra dokumentu

 

3.       Omówić typowy scenariusz realizacji usług w systemie dialogowym

 

Typowy scenariusz realizacji usług w systemie dialogowym jest następujący:

- użytkownik chce uzyskać informacje zawarte w bazie danych (np. rozkład jazdy pociągów, serwis bankowy) za pomocą telefonu,

- użytkownik, przy pomocy systemu dialogowego, dostarcza niezbędnych danych do wyszukania pożądanej informacji,

- system przejmuje kierowanie dialogiem, gdy pojawiają się niezrozumienia

Góra dokumentu

 

4.       Architektura typowego systemu dialogowego języka mówionego

Góra dokumentu

 

 

5.       Omówić działanie systemu dialogowego języka mówionego

·          całością steruje sterownik dialogu:  umożliwia wymianę informacji z użytkownikiem, a tym samym dostęp do bazy danych i jej uaktualnianie

·          interakcja składa się z sekwencji transakcji (cyklów pytanie/odpowiedź),  pytania są tak projektowane, aby ograniczyć odpowiedź do określonego zbioru informacji

·          odpowiedź użytkownika jest przetwarzana przez urządzenie rozpoznawania mowy (URM)

·          wyjście URM (zwykle niejednoznaczne) jest przekształcane przez interpreter języka naturalnego – np. parser (natural language processing, NLP) - do postaci quasi-logicznej

·          sterownik, bazując na nowym wejściu, uaktualnia swój wewnętrzny stan i planuje następną akcję

·          postępowanie trwa, aż potrzeby użytkownika zostaną zaspokojone – wtedy interakcja jest przerywana

Góra dokumentu

 

6.       Zadania procesu projektowania sdS

·          specyfikowanie dialogu i sterowanie jego przebiegiem

·          ograniczenie zakresu rozpoznawania wypowiedzi do dziedziny aplikacji i interpretacja wyjścia urządzenia rozpoznawania mowy

·          generowanie odpowiedzi właściwej kontekstowo (zgodnej z dotychczasowym przebiegiem dialogu)

Góra dokumentu

 

7.       Własności systemu dialogowego języka mówionego.

System dialogowy charakteryzują następujące własności:

- pracuje w ograniczonej znaczeniowo dziedzinie - ograniczony słownik (najwyżej kilka tysięcy słów, zwykle około tysiąca),

- przeznaczony jest do pracy z użytkownikami nieprzygotowanymi (a więc rozpoznający mowę ciągłą, rozumiejący mowę spontaniczną i równoważniki zdań, radzący sobie z fragmentami słów, zjawiskami pozalingwistycznymi, czy przerwami wypełnionymi dźwiękami bez znaczenia, typu: mmm, aaa),

- zapewnia ograniczoną swobodę dialogu (użytkownik nie jest całkowicie swobodny: formułowane zdania mogą być zbyt długie i złożone, mogą przekraczać możliwości rozumienia systemu) - sterowanie przejmowane jest przez system, gdy pojawiają się kłopoty ze zrozumieniem,

- umożliwia naturalną interakcję - użytkownik może odwoływać się do informacji, która pojawiła się w dialogu wcześniej i realizacja Życzenia musi brać pod uwagę wszystkie dotąd zebrane informacje,

- dostarcza sposobów pokonania trudności - zachęca do używania krótkich wypowiedzi, aby zmniejszyć ryzyko błędów rozpoznawania, oferuje sposoby wznowienia rozmowy po błędach rozumienia.

Góra dokumentu

 

8.       Wyjaśnić pojęcia: niezależność od mówcy, mowa ciągła, słownik rozpoznawanych słów

- niezależność od mówcy – możliwość rozpoznawania słów, niezależnie od właściwości traktu głosowego osoby je wypowiadającej(ton, barwa) oraz charakterystycznych zjawiskami pozalingwistycznych

- mowa ciągła, - spontaniczna, możliwa nieprawidłowa syntaktyka, kolejne słowa wypowiadane sa po sobie, bez wyraźnych przejść oraz izolacji

- słownik rozpoznawanych słów – na podatnie wypowiadanych i przeanalizowanych słów buduje się wzorce, służące do weryfikacji mowy ludzkiej

Góra dokumentu

 

9.       Struktura funkcjonalna systemu dialogowego języka mówionego

 

Góra dokumentu

 

10.   Scharakteryzować metody automatycznego rozpoznawania mowy

·          akustycznofonetyczne (acoustic-phonetic approach)

Rozpoznawanie polega na sekwencyjnym dekodowaniu segmentów sygnału mowy na podstawie charakterystyk akustycznych tego sygnału i znanych związków między tymi charakterystykami i jednostkami fonetycznymi.

Sygnał mowy jest sekwencją jednostek akustycznych, które są realizacją   fizyczną indeksowanych unikalną nazwą jednostek fonetycznych.

W rozpoznawaniu stosuje się fonem lub sylabę. umożliwiają rozpoznawanie sygnału mowy bez konieczności wcześniejszego tworzenia modeli akustycznych rozpoznawanych jednostek fonetycznych

·          rozpoznawania wzorców (pattern-recognition, template-based approach).

2 tryby pracy: t. uczenia i t. rozpoznawania

Wzorce mogą mieć postać: szablonu lub modelu statystycznego

Rozpoznawania przebiega w dwóch etapach:

-przypisanie wzoru testowego do określonego wzoru

-sekwencji jednostek fonetycznych przypisywany jest wyraz ze słownika wyrazów rozpoznawanych

Zwykle rozpoznanie jest niejednoznaczne - segmentowi sygnału mowy może być przypisany więcej niż jeden symbol fonetyczny, wyjściem programu może być : pojedyncze zdanie, lista N najlepszych, krata słów, graf słów.

Góra dokumentu

 

11.   Założenia metody akustyczno-fonetycznej.

q  istnieje skończona liczba dźwięków (symboli dźwiękowych) języka mówionego,

q  dźwięki są w pełni rozróżnialne poprzez zbiór charakterystyk akustycznych, które są  wynikiem badań akustyczno – fonetycznych nad sygnałem mowy.

Pierwsze założenie jest spełnione: każdy dźwięk jest generowany przy określonej konfiguracji traktu głosowego. Liczba możliwych konfiguracji traktu głosowego jest nieograniczona, lecz ze względu na możliwości percepcji sygnału mowy przez człowieka, liczba rozpoznawanych dźwięków mowy w każdym znanym języku naturalnym jest skończona.

Z drugim założeniem są problemy: rozróżnialność dźwięków jest trudnym do spełnienia wymaganiem, ponieważ sygnał mowy charakteryzuje się dużą zmiennością związaną z mówcą, wpływem kanału transmisji oraz kontekstem (sąsiedztwem innych dźwięków).

Góra dokumentu

 

12.   Omówić automatyczne rozpoznawanie mowy metodą akustyczno-fonetyczną (schemat blokowy) Jakie jednostki fonetyczne stosowane są w rozpoznawaniu mowy metodą akustyczno-fonetyczną?

 Rozpoznawanie polega na sekwencyjnym dekodowaniu segmentów sygnału mowy na

podstawie charakterystyk akustycznych tego sygnału i znanych związków między tymi charakterystykami i jednostkami fonetycznymi

W rozpoznawaniu akustyczno – fonetycznym najczęściej stosuje się najmniejszą jednostkę mowy – fonem, traktowany jako zespół cech dystynktywnych (jego realizacją fizyczną jest głoska, czyli dźwięk).

Stosowana też bywa sylaba, w której zasadniczą rolę odgrywa samogłoska.

Góra dokumentu

 

13.   Wymienić najczęściej wykorzystywane charakterystyki (cechy) akustyczne w rozpoznawaniu mowy metodą akustyczno-fonetyczną

·          pobudzeniem:

Ø  częstotliwość tonu podstawowego

Ø  energia sygnału

Ø  obecność w pobudzeniu sygnału okresowego i/lub przypadkowego, oznaczająca dźwięczność lub bezdźwięczność fonemów

·          filtrem (traktem głosowym):

Ø  częstotliwości formantowe, zwykle pierwsze trzy, będące maksimami lokalnymi amplitudowej charakterystyki częstotliwościowej traktu głosowego

Ø  obecność w transmitancji traktu głosowego zer charakterystycznych dla dźwięków nosowych, czyli nosowość fonemu

Ø  stosunek energii składowych wysoko- i niskoczęstotliwościowych

Góra dokumentu

 

14.   Wyjaśnic pojęcia: segmentacja, indeksacja, klasyfikacja

Najważniejszy i najtrudniejszy jest etap segmentacji i indeksacji, łącznie zwany klasyfikacją (ang. odpowiednio: segmentation,  labelling, annotation):

·          najpierw wyszukiwane są fragmenty (segmenty) sygnału mowy, w których jego cechy akustyczne są stałe lub zmieniają się niewiele

·          następnie przypisuje się tym segmentom zgodnie z wyznaczonymi cechami akustycznymi jeden lub więcej indeksów (symboli fonetycznych)

Wykorzystuje się tutaj eksperymentalnie wyznaczone wzory odniesienia (reference pattern) dla wszystkich rozpoznawanych jednostek fonetycznych.

Góra dokumentu

 

15.   Omówić automatyczne rozpoznawanie mowy metodą rozpoznawania wzorców (schemat blokowy)

 

z wypowiedzi uczących, tworzy się wzory odniesienia, czyli wzorce (reference pattern), reprezentujące jednostki (symbole) fonetyczne, a nastepnie pozyskany z rozpoznawanej wypowiedzi wzór testowy (lub ich sekwencję) porównuje się z każdym wzorcem.

Góra dokumentu

 

 

16.   Wyjaśnić pojęcia: tryb uczenia i tryb rozpoznawania (w rozpoznawaniu mowy metodą rozpoznawania wzorców)

·          tryb uczenia (treningowy) - ze zbiorów wzorów testowych (test pattern), pozyskanych z wypowiedzi uczących, tworzy się wzory odniesienia, czyli wzorce (reference pattern), reprezentujące jednostki (symbole) fonetyczne

·          tryb rozpoznawania - pozyskany z rozpoznawanej wypowiedzi wzór testowy (lub ich sekwencję) porównuje się z każdym wzorem odniesienia, czyli wzorcem.

Góra dokumentu

 

17.   Scharakteryzować rodzaje wzorców w metodzie rozpoznawania wzorców.

- szablonu (template)

- modelu statystycznego (statistical model)

Podobieństwo wzoru testowego do wzorców w postaci modelu statystycznego (np. dla ukrytych modeli Markowa, HMM) zwykle wyrażane jest przez prawdopodobieństwo wygenerowania tego wzoru przez modele

Liczebność zbioru wzorców w każdym miejscu rozpoznawanej wypowiedzi może być zmniejszana, np. przez zastosowanie reguł prostej gramatyki o skończonej liczbie stanów do rozpoznawania ciągów jednostek fonetycznych

Góra dokumentu

 

18.   Zdefiniować (graficznie) proces Markowa o skończonej liczbie stanów i czasie dyskretnym.

Proces Markowa o skończonej liczbie stanów i czasie dyskretnym w postaci łańcucha Markowa (obserwowalnego) o trzech stanach:

-          przejście między stanami odbywa się w dyskretnych momentach czasu,

-          przejście zachodzi z zadanym prawdopodobieństwem,

-          w każdym stanie generowana jest określona obserwacja (symbol wyjściowy).

-          Góra dokumentu

 

19.   Zdefiniować (graficznie) dyskretnym ukryty model Markowa (HMM)

 

Góra dokumentu

 

20.   Narysować kratę dla przykładowego dyskretnego ukrytego modelu Markowa.

krata słów: lista słów ważonych wskaźnikiem dopasowania, zwykle charakteryzuje się dużą redundancją i w efekcie długim czasem pracy procesora językowego

(chyba to, co w poprzednim)

Góra dokumentu

 

21.   Co to jest problem ewaluacji, dekodowania i uczenia w HMM

a)  obliczanie dla danego modelu  p-stwa  wygenerowania zadanej (do rozpoznania) sekwencji obserwacji O;

b)  wyznaczanie najbardziej prawdopodobnej sekwencji stanów, czyli sekwencji s, dla której p-stwo łączne  wygenerowania sekwencji obserwacji O przez model  jest największe;

c)  rozwiązanie problemu odwrotnego, to znaczy estymacji parametrów modelu  dla zadanej (uczącej) sekwencji obserwacji O.

Jak wyrażane jest podobieństwo wzoru testowego do wzorców

Podobieństwo wzoru testowego do wzorców w postaci modelu statystycznego (np. dla ukrytych modeli Markowa, HMM) zwykle wyrażane jest przez prawdopodobieństwo wygenerowania tego wzoru przez modele

Góra dokumentu

 

22.   Do czego stosuje się modele języka w rozpoznawaniu mowy

Aby rozpoznawać wypowiadane słowa, porównujemy dane wejściowe z modelem statystycznym odpowiedniego języka i staramy się znaleźć jak najlepsze dopasowanie

Góra dokumentu

 

23.   Jaką postać może mieć wyjście urządzenia automatycznego rozpoznawania mowy

Wyjście urządzenia automatycznego rozpoznawania mowy może przybierać jedną z poniższych postaci:

·          pojedyncze zdanie

·          lista N najlepszych zdań (najlepiej dopasowanych do sygnału wejściowego): jest to wskazane, gdy okaże się, że z powodu błędów rozpoznania zdanie najlepsze jest niegramatyczne, liczba N może być duża

·          krata słów: lista słów ważonych wskaźnikiem dopasowania, zwykle charakteryzuje się dużą redundancją i w efekcie długim czasem pracy procesora językowego

·          tzw. graf słów: rozwiązanie pośrednie (grupa N najlepszych zdań, w których wspólne części są połączone w celu utworzenia grafu) – daje to takie same możliwości jak lista N najlepszych zdań, lecz pozwala na przyśpieszenie procesu.

Góra dokumentu

 

24.   Jak działa układ porównania

q  wzór testowy (lub ich sekwencję) porównuje się z każdym wzorem odniesienia, czyli wzorcem.

q  przypisanie wzoru testowego (jednego lub częściej ich sekwencji) do określonego wzoru

q   sekwencji jednostek fonetycznych przypisywany jest wyraz ze słownika wyrazów rozpoznawanych

Jakość rozpoznawania mierzona jest wskaźnikiem dopasowania, który zwykle ma sens prawdopodobieństwa

Góra dokumentu

 

25.   Różnice między rozpoznawaniem mowy metodą akustyczno-fonetyczną i metodą rozpoznawania wzorców

Metoda rozpoznawania wzorców w przeciwieństwie do metody akustyczno – fonetycznej:

·          nie wyznacza się charakterystyk akustycznych związanych ze sposobem wytwarzania sygnału mowy

·          nie wydziela się z sygnału mowy segmentów o zróżnicowanej długości, odpowiadających fonemom.

Góra dokumentu

 

26.   Co jest wynikiem działania procesora językowego

Procesor językowy dostarcza reprezentacji znaczenia operacyjnego rozpoznanej frazy. Na obecnym etapie rozwoju umożliwia rozumienie ograniczone do podzbioru języka naturalnego i dla określonej dziedziny aplikacji (pragmatyka)

Góra dokumentu

 

27.   Dlaczego rozdziela się reprezentację syntaktyczną i semantyczną języka

·          rzeczywiste zdania są złożone: niezbędna jest rozległa wiedza do przedstawienia ich struktury gramatycznej

·          istotna informacja jest przekazywana w ‘wyspach’ („o czwartej”, „z Poznania”,...)

·          złożoność syntaktyczna głównie leży w przestrzeni między wyspami, w nieistotnych semantycznie segmentach zdania

Góra dokumentu

 

28.   Co to jest przetwarzanie syntaktyczne

Polega na rozpoznaniu struktury gramatycznej zdania, umożliwiając jednocześnie:

·          sprawdzenie, czy fraza wejściowa jest prawidłowo sformułowana

·          uproszczenie procesu określania znaczenia (rozumienia)

·          pomoc w wykryciu nowych i niezwykłych znaczeń rozpoznanego ciągu słów

Góra dokumentu

 

29.   Scharakteryzować analizę syntaktyczna pełną i częściową

W pełnej analizie musi być analizowane całe zdanie - może być potrzebna obszerna wiedza (szczególnie do modelowania niegramatyczności w wejściu mówionym)

Gdy pełna analiza całego zdania nie jest możliwa, analizuje się pewne fragmenty zdania w nadziei, że zawierają istotną informację dla jego prawidłowego zrozumienia (określenia znaczenia operacyjnego w ograniczonej dziedzinie)

Potencjalne możliwości częściowej analizy:

·          zwiększa odporność algorytmów na zakłócenia

·          przyśpiesza prawidłowe rozumienie zdań dla ograniczonej wiedzy lingwistycznej

·          umożliwia analizę wypowiedzi spontanicznych

Ale jest przyczyną błędnej interpretacji złożonych konstrukcji językowych

Góra dokumentu

 

30.   Co jest celem przetwarzania semantycznego?

Cel: określenie znaczenia operacyjnego analizowanego zdania

Opracowano wiele języków reprezentacji znaczeniowej, jednak brak jest języka jednolitego dla wszystkich zakresów NLP

Trudności powoduje fakt, że znaczenie operacyjne wypowiedzi zależy od pragmatyki aplikacji, w szczególności od:

q  kontekstu

q  celu do osiągnięcia

Najmniej rozpoznany i najtrudniejszy obszar NLP: modelowanie kontekstu i jego wykorzystanie

Góra dokumentu

 

31.    Cechy charakterystyczne kontekstu

·          nie jest czasowo zlokalizowany (jak w sygnale mowy)

·          jest szeroki i niezwykle silny, może sięgać odległych słów wypowiedzianych i takich, które dopiero będą wypowiedziane

·          może obejmować zakres wielu zdań, akapitów, nawet dokumentów

Góra dokumentu

 

32.   Scharakteryzować praktyczne realizacje procesu NLP(naturalny język mówiny)

q  rezygnują z parsera i określają znaczenie bez informacji syntaktycznych

q  łączą przetwarzanie syntaktyczne i semantyczne w jeden proces

q  nie wymagają wykorzystywania kontekstu

q  eliminują generator odpowiedzi w aplikacjach o kilku możliwych wyjściach

q  rezygnują w całości z tej struktury i przechodzą od rozpoznanych słów do znaczenia operacyjnego (system ekspertowy), wyznaczając znaczenie bez szczegółowej analizy językowej na jakimkolwiek poziomie

Góra dokumentu

 

33.   Omówić własności menadżera dialogu

Zadania:

·          interpretacja znaczenia operacyjnego wypowiedzi w oparciu o model dialogu (interakcji) i w kontekście dotychczasowych wypowiedzi

·          decydowanie o dalszej akcji: żądać kolejnych danych, odszukać informację, zainicjować na nowo błędnie przebiegający dialog

·          generowanie fraz języka naturalnego (budowa generatora nie jest tak złożona, jak pozostałych składników systemu dialogowego)

Góra dokumentu

 

34.   Wymienić fazy informacyjnych dialogów usługowych

W informacyjnych dialogach usługowych (dostarczanie użytkownikom przez telefon informacji o konkretnych usługach) wyróżnia się następujące fazy:

·         otwarcie dialogu

·         sformułowanie życzenia

·         sformułowanie odpowiedzi

·         zakończenie dialogu

Otwarcie i zamknięcie nie zależą od dziedziny zastosowania i są podobne dla większości dialogów języka mówionego

W dialogu między ludźmi

·         otwarcie : wyrazy uprzejmości (Dzień dobry, Witam, Czy mogłaby mi pani pomóc?) lub oznaki wahania (chrząknięcia, mhm)

·         zamknięcie: wymiana podziękowań (Dziękuję Panu, Dziękuję bardzo, Dziękuję), a następnie wymiana pozdrowień (Do widzenia)

W dialogu człowiek – komputer

·         otwarcie jest podobne, pojawienie się wyrazów uprzejmości zależy od „uprzejmości” systemu

·         zamknięcie może być prostsze: rozmówca odkłada słuchawkę telefonu.

Sformułowanie życzenia i sformułowanie odpowiedzi są zależne od zadania (identyfikacja życzenia rozmówcy, uzyskanie informacji przez przeszukanie bazy danych i wydanie żądanej informacji)

Realizacja zadania może wymagać kilku kroków pośrednich:

·         potwierdzenia, aby uniknąć pomyłki

·         naprawy, gdy doszło do pomyłki

·         doprecyzowania szczegółów itp.

Góra dokumentu

 

35.   Co to jest generator mowy syntetycznej

Generator mowy syntetycznej (syntezator mowy) urządzenie (obecnie komputerowe) do zamiany tekstu w postaci symbolicznej na mowę (text to speech, TTS)

Góra dokumentu

 

36.   Scharakteryzować metody syntezowania sygnału mowy

Syntezatory artykulacyjne

modelowanie dynamiki traktu głosowego podczas artykulacji wypowiedzi

·         Informacja wejściowa: wartości wielu parametrów reprezentujących położenie (pozycję) poszczególnych części traktu głosowego (artykulatorów)

·         Parametry te określają kształt traktu głosowego i są wyznaczane dla jednakowych odcinków, zwykle o długości 0,5 cm, a cały trakt jest modelowany jako ciąg cylindrów (rur prostych)

·         Aby dokonać syntezy sygnału mowy ta złożona rura jest pobudzana przez impulsy quasiokresowe o kształcie określonym przez Rosenberga (1970) lub Fanta (1985).

Najczęściej synteza artykulacyjna występuje w dwu postaciach:

·          formantowa

·          z predykcją liniową

modelowanie bezpośrednio samego sygnału mowy (generowanie sygnału o charakterystykach akustycznych takich samych jak sygnału mowy)

Wykorzystują konkatenację segmentów sygnału mowy (jednostek fonetycznych):

·         jednorodnych - najczęściej difonów (stosowane ze względu na dokładność odtwarzania transjentów, które decydują o zrozumiałości sygnału mowy)

·         zróżnicowanych: fonemy, difony, sylaby i inne

Góra dokumentu

37.   Omówić model traktu głosowego w postaci tuby akustycznej.

Sygnał emitowany przez usta można wyznaczyć jako rozwiązanie równania ciśnienia fali dźwiękowej wzdłuż traktu głosowego (równania Webstera).W celu wygenerowania ciągu fonemów należy zapewnić zmianę w czasie wartości parametrów artykulacyjnych. Wadą metody jest jej złożoność i w konsekwencji duża ilość obliczeń

Góra dokumentu

 

38.   Scharakteryzować syntezatory artykulacyjne.

Bazują na reprezentacji traktu głosowego. Początkowo wykorzystywały szereg dynamicznie sterowanych filtrów analogowych, a nowoczesne systemy są modelowane na komputerach cyfrowych.

Informacja wejściowa: wartości wielu parametrów reprezentujących położenie (pozycję) poszczególnych części traktu głosowego (artykulatorów).

Parametry te określają kształt traktu głosowego i są wyznaczane dla jednakowych odcinków, zwykle o długości 0,5 cm, a cały trakt jest modelowany jako ciąg cylindrów (rur prostych)

Aby dokonać syntezy sygnału mowy ta złożona rura jest pobudzana przez impulsy quasiokresowe o kształcie określonym przez Rosenberga (1970) lub Fanta (1985).

Góra dokumentu

 

39.   Omówić syntezę formantową

·         Wykorzystuje model pobudzenie – filtr

·         Trakt głosowy człowieka modelowany jest za pomocą zestawu filtrów rezonansowych, które kształtują jego przybliżoną częstotliwościową charakterystykę amplitudową

·         Częstotliwości rezonansowe tych filtrów są równe częstotliwościom formantów, które charakteryzują kolejne fragmenty sygnału mowy syntezowanej wypowiedzi

·         Do wygenerowania zrozumiałej mowy wystarczy znajomość trajektorii pierwszych trzech formantów, do wygenerowania wysokiej jakości sygnału mowy: trajektorie czterech lub pięciu formantów.

Góra dokumentu

 

40.   Scharakteryzowac syntezatory modelujące sygnał mowy

Wykorzystują konkatenację segmentów sygnału mowy (jednostek fonetycznych):

·          jednorodnych - najczęściej difonów (stosowane ze względu na dokładność odtwarzania transjentów, które decydują o zrozumiałości sygnału mowy)

·          zróżnicowanych: fonemy, difony, sylaby i inne

Przykład syntezy konkatenacyjnej: syntezator zbudowany przez France Telecom

Wykorzystuje algorytm PSOLA (ang. The Pitch Synchronous OverLap and Add), który umożliwia:

·          płynne łączenie segmentów, odpowiadających jednostkom fonetycznym

·          zmianę wysokości dźwięku

·          zmianę długości (czasu trwania) poszczególnych segmentów

·          Góra dokumentu

 

41.   Omówić problem jednostki fonetycznej w syntezie sygnału mowy.

Sygnał mowy jest sekwencją jednostek akustycznych Transkrypcja fonetyczna jest sekwencją jednostek fonetycznych jednostka fonetyczna= jednostka akustyczna + unikalna nazwa W rozpoznawaniu akustyczno – fonetycznym najczęściej stosuje się najmniejszą jednostkę mowy – fonem. Fonem jest traktowany jako zespół cech dystynktywnych (jego realizacją fizyczną jest głoska, czyli dźwięk) Stosowana też bywa sylaba, w której zasadniczą rolę odgrywa samogłoska

Góra dokumentu

 

42.   Omówić syntezę konkatenacyjna na przykładzie algorytmu PSOLA.

syntezator zbudowany przez France Telecom, wykorzystuje algorytm PSOLA (ang. The Pitch Synchronous OverLap and Add), który umożliwia:

q  płynne łączenie segmentów, odpowiadających jednostkom fonetycznym

q  zmianę wysokości dźwięku

q  zmianę długości (czasu trwania) poszczególnych segmentów

Synteza mowy konkatenacyjnej generuje mowę poprzez sklejanie ze sobą elementów akustycznych powstałych z naturalnej mowy (fony, difony, trifony, sylaby). Dużą zaletą tego rodzaju syntezy jest niewielki rozmiar bazy danych, z uwagi na mała objętość jednostek akustycznych. Bardzo często używana jest konkatenacja difonów, która umożliwia dobrą jakość syntezy mowy przy wykorzystaniu korpusu zawierającego około 1500 jednostek.

Góra dokumentu

 

43.    Omówić syntezę  korpusową

Modyfikacją syntezy konkatenacyjnej jest synteza korpusowa (zasobowa), w której łączy się segmenty sygnału mowy o długości dobieranej kaŻdorazowo dla przekształcanego tekstu. Kryterium doboru jest jakość generowanego sygnału (definiuje się wskaźniki jakości). Z zasobu mowy wybierane są różnorodne jednostki fonetyczne: difony, trifony, sylaby, wyrazy, frazy (grupy wyrazowe) czy nawet całe zdania. Jednostki fonetyczne występują w zasobie wielokrotnie w róŻnych kontekstach. Generowany sygnał mowy jest konkatenacją różnych jednostek fonetycznych. Istnieje wiele różnych możliwości złożenia pożądanego sygnału mowy. Dobór jednostek fonetycznych oceniany jest za pomocą funkcji kosztu (estymacji), uwzględniającej zarówno czas trwania poszczególnych fragmentów jak i cechy prozodyczne mowy. Proces obliczeniowy jest dość złożony. Obecnie syntezą korpusową zajmuje się wiele firm (np.: AT&T, SpeechWorks, ScanSoft). Przygotowany dla języka angielskiego zasób mowy ma rozmiar ok. 200 MB. W Polsce syntezą korpusową zajmuje się firma IVO Software z Gdyni. Wydaje się, że właśnie ta technika ma szanse rozwinąć się w przyszłości. Obecnie są prowadzone badania nad udoskonaleniem zasobu mowy (aby pokrył wszystkie zjawiska fonetyczne w danym języku) i funkcji estymacji. Synteza korpusowa jest obecnie wykorzystywana w systemach dialogowych portali głosowych.

Góra dokumentu

 

44.   Schemat funkcjonalny generatora mowy syntetycznej.


Góra dokumentu

 

45. Omówić model artykulacji sygnału mowy przez człowieka.

Podczas artykulacji mowy:

-          włączane są generatory tonu podstawowego i szumu (na przemian lub łącznie - zależnie od wymawianej głoski),

-          regulowane są parametry generatorów,

-          zmieniana jest transmitancja filtru modelującego trakt głosowy (co odpowiada zmianom kształtu toru głosowego),

-          zmienia się impedancja emisji (promieniowania) mowy.

 

Architektura systemu dialogowego języka mówionego

 

Góra dokumentu

 

 

46.   Omówić charakterystyki reprezentujące sygnał mowy w dziedzinie czasu.

Góra dokumentu

47.   Omówić charakterystyki reprezentujące sygnał mowy w dziedzinie częstotliwości.

Najważniejszym narzędziem przetwarzania sygnałów cyfrowych jest dyskretne przekształcenie Fouriera (ang. Discrete Fourier Transform, DFT).

W zależności od typu sygnału w czasie (ciągłe czy dyskretne, okresowe czy nieokresowe) wyróżnia się cztery kategorie przekształceń (transformat) Fouriera:

a)        dla sygnałów ciągłych okresowych – szeregi Fouriera (ang. Fourier series);

b)       dla sygnałów ciągłych nieokresowych – przekształcenie Fouriera (ang. Fourier transform);

c)        dla sygnałów dyskretnych okresowych – (dyskretny szereg Fouriera) dyskretne przekształcenie Fouriera (ang. discrete Fourier transform, DFT);

d)       dla sygnałów dyskretnych nieokresowych - przekształcenie Fouriera dla sygnałów o czasie dyskretnym (ang. discrete time Fourier transform, DTFT)

W cyfrowym przetwarzaniu sygnałów wykorzystywane jest dyskretne przekształcenie Fouriera (DFT), czyli założono, że sygnał analizowany jest dyskretny i okresowy (oczywiście również nieskończony).

Dyskretna transformata Fouriera

Synteza

sygnał: dyskretny w czasie, (zespolony), okresowy

Analiza

widmo: dyskretne, zespolone, okresowe

Góra dokumentu

 

48.   Wymienić etapy i zadania budowy systemu rozpoznawania mowy.

1)       przygotowanie danych:

-          tworzenie słownika,

-          wybór jednostki fonetycznej (tworzenie plików z transkrypcją fonetyczną),

-          definiowanie gramatyki,

-          kodowanie danych (scenariusz rejestracji);

2)       tworzenie modeli jednostek fonetycznych:

-          zdefiniowanie modeli

-          estymacja parametrów modeli

3)       opracowanie procedur rozpoznawania

4)       weryfikacja i testowanie systemu:

-          rozpoznawanie danych testowych,

-          praca w czasie rzeczywistym.

Sygnał mowy jest nośnikiem wiadomości (komendy), zakodowanej w postaci sekwencji symboli (sygnałów) dźwiękowych.

Zadaniem systemu jest rozpoznawanie sygnału mowy, czyli wyznaczenie odwzorowania między sekwencją pozyskanych z tego sygnału charakterystyk a odpowiadającą mu transkrypcją, będącą sekwencją symboli graficznych.

Niezbędnym uzupełnieniem systemu rozpoznawania mowy są procedury uczenia, które wykorzystując znane sygnały mowy i ich transkrypcje wyznaczają parametry modeli jednostek fonetycznych (słów).

Góra dokumentu

 

49.   Co to jest portal głosowy

Portal głosowy - system  wyposażony w technologie automatycznego rozpoznawania mowy i syntezy mowy. Osoba, która zadzwoni do portalu głosowego może za pomocą krótkich, mówionych fraz wybrać interesują ją opcję. Portal głosowy może prowadzić równolegle wiele rozmów i być dostępny przez 24 godziny na dobę. Dzięki najnowszym technologiom głosowym, takim jak: automatyczne rozpoznawanie mowy i synteza mowy portale głosowe pozwalają realizować projekty do tej pory nieosiągalne

Portal głosowy (system VoiceXML) składa się z dwóch zasadniczych części:

-serwera aplikacji (ang. application server, web server) - służy do przechowywania aplikacji stworzonych przy użyciu VoiceXML (przykładowe aplikacje: interfejs baz danych, przetwarzanie transakcji, pobieranie danych i treści, logika serwisowa);

-serwera (bramy) VoiceXML

Góra dokumentu

 

50.   Schemat funkcjonalny portalu głosowego

Architektura systemu

Góra dokumentu

 

51.   Elementy składowe serwera VXML

serwer VXML (ang. VXML server, VXML gateway):

-      przeglądarka głosowa (ang. voice browser)

·        interpreter kodu VXML (jądro systemu)

·        interpreter kontekstu

-      karty telefoniczne przyłączające publiczną sieć telefoniczną (ang. PSTN).

-      usługi (aplikacje) umożliwiające dialog:

·       rozpoznawanie mowy (ang. Speech Recognition Engine, SRE),

·       synteza mowy (ang. TTS) - wykonuje konwersję informacji tekstowej w sygnał mowy,

·       rozpoznawanie sygnałów wybierania tonowego (ang. DTMF),

·       rejestracja i odtwarzanie plików dźwiękowych,

Góra dokumentu

 

52.   Struktura przeglądarki głosowej

Portal głosowy jest nie tylko systemem do prowadzenia konwersacji z komputerem, lecz przede wszystkim stanowi bazę danych z informacjami dla potencjalnych klientów serwisu. Informacje te przechowywane są w postaci tekstowej na serwerach baz danych, skąd pobierane są przez skrypty, zlokalizowane na serwerach WWW, obsługujące zapytania, np. SQL. Wyselekcjonowane wiadomości konwertowane są do postaci dźwiękowej przez przeglądarkę głosową za pomocą syntezatora TTS.

Góra dokumentu

 

53.   Co to jest aplikacja głosowa

Aplikacja głosowa (telefoniczna) (ang. voice application)

umożliwia rozmówcy mówienie do i słyszenie głosu z komputera za pomocą telefonu w celu zrealizowania zadań (informacyjnych, usługowych, obliczeniowych).

Aplikacja głosowa (ang. voice application): zbiór jednego lub więcej dokumentów VXML.

Dokument VXML jest zbudowany z jednego lub więcej dialogów.

Dwa główne cele większości aplikacji telefonicznych:

        a) umożliwić każdemu, kto mówi i słyszy, wykorzystanie aplikacji bez uprzedniego uczenia – interfejs kierowany przez aplikację (aplikacja prowadzi użytkownika (rozmówcę) początkującego, zadając pytania, na które on odpowiada i pomagając mu osiągnąć pożądany wynik);

b) umożliwić rozmówcy doświadczonemu wykonać zadanie szybko i efektywnie – interfejs o mieszanej inicjatywie (umożliwia rozmówcy sterować dialogiem, jak również być prowadzonym przez aplikację).

Góra dokumentu

 

54.   Wyjaśnić pojęcie: interfejs kierowany przez aplikację, interfejs o przemiennej inicjatywie

·         interfejs kierowany przez aplikację (aplikacja prowadzi użytkownika (rozmówcę) początkującego, zadając pytania, na które on odpowiada i pomagając mu osiągnąć pożądany wynik) - umożliwia każdemu, kto mówi i słyszy, wykorzystanie aplikacji bez uprzedniego uczenia.

·         interfejs o mieszanej inicjatywie (umożliwia rozmówcy sterować dialogiem, jak również być prowadzonym przez aplikację). - umożliwia rozmówcy doświadczonemu wykonać zadanie szybko i efektywni

Góra dokumentu

 

55.   Wyjaśnić pojęcie: system informacji głosowej (IVR)

System informacji głosowej IVR (ang. Interactive Voice Response) to zautomatyzowany system telefoniczny (infolinia) pracujący w trybie inbound/outbound (przyjmowanie/samodzielne nawiązywanie połączeń).

Osoba dzwoniąca po wysłuchaniu nagranych wcześniej komunikatów za pomocą aparatu z wybieraniem tonowym DTMF lub czasami za pomocą głosu (ASR, Automatic Speech Recognition)) wybiera poszczególne pozycje z menu.

Góra dokumentu

 

56.   Obszary zastosowania IVR

Systemy tego typu używane są w Contact Center, biurach obsługi klienta, bankach, telemarketingu,  systemach teległosowania, pomoc techniczna, przyjmowanie zamówień i sprzedaż, usługi informacyjne, systemy rezerwacji.

Góra dokumentu

 

57.   Wymienić zadania szczegółowe realizowane w systemie IVR.

-      autoryzacja klienta na podstawie dowolnego identyfikatora (indywidualnego PINu, hasła, numeru telefonu wywołującego, nr faktury),

-      uzyskiwanie informacji bez konieczności rozmowy z operatorem, np. stan konta, stopień realizacji zamówienia, historia transakcji itp.

-      reagowanie na wprowadzone znaki DTMF z klawiatury telefonu,

-      zbieranie informacji podczas interakcji z użytkownikiem, jej przetwarzanie i reagowanie na nią,

-      wielojęzyczne zapowiedzi głosowe,

-      synteza mowy zasobów tekstowych (ang. text to speech, TTS) - w szczególności tych, których zawartość na bieżąco ulega zmianie, np. informacje o transakcjach na rachunkach, wartości liczbowe, daty, komunikaty, statusy procesów, kursy walut, wielkość salda,

-      nagrywanie wiadomości,

-      zarządzanie pocztą głosową (dystrybucje wiadomości wg ustalonych reguł, integracja z serwerami mailowymi),

-      przełączanie rozmowy do operatora pod dowolny numer telefonu (numer wewnętrzny w firmie, numer zewnętrzny, numer telefonu komórkowego),

-      wykonywanie operacji na dowolnej bazie danych (zapisywanie informacji, uaktualnianie i kasowanie wpisów w bazie, wykonywanie procedur),

-      wyszukiwanie informacji w bazach danych i przygotowywanie raportów (przykład: klient chce dowiedzieć się jaki jest stopień realizacji jego zamówienia, w tym celu system prosi go o wprowadzenie numeru zlecenia z klawiatury telefonu; następnie system wyszukuje w bazie odpowiedni rekord, odczytuje wartość kolumny status i w zależności od wartości tej kolumny informuje klienta że jego zlecenie jest np. zrealizowane i może się zgłosić po odbiór do firmy),

-      integracja z systemami klasy ERP (ang. Enterprise Resource Planning) - systemami informatycznymi wspomagającymi zarządzanie, CRM (ang. Customer Relationship Management – zarządzanie relacjami z klientem),

-      integracja z systemem Contact Center,

-      integracja z technologiami i standardami: COM, HTTP, SOAP (ang. Simple Object Access Protocol), XML, TCL (ang. Tool Command Language) itp.

Góra dokumentu