Automatic Speech Recognition (seminarium)

  • Published on
    31-May-2015

  • View
    1.409

  • Download
    2

Embed Size (px)

Transcript

<ul><li> 1. Historia automatycznego rozpoznawania mowy <ul><li>Na podstawie: </li></ul></li></ul> <ul><li> Automatic Speech Recognition- a Brief History of the Technology Development B.H. Juang &amp; Lawrence R. Rabiner Arkadiusz Janicki seminarium na przedmiot: Automaty z wagamiprowadzcy: Sebastian Bala Uniwersytet Wrocawski, zima 2008 </li></ul> <p> 2. Skrty i pojcia </p> <ul><li>ASR- automatic speech recognition - automatyczne rozpoznawanie mowy </li></ul> <ul><li>rozpoznawacz mechanizm (system, algorytm) do automatycznego rozpoznawania mowy.(Nie ma takiego sowa w sowniku PWN, ale wydaje si by utworzone wg poprawnych regu. Myl, e p. Miodek by mnie nie skrzycza.) </li></ul> <p> 3. Po co nam rozpoznawacze mowy? Motywacje </p> <ul><li>wyzwanie samo w sobie! </li></ul> <ul><li>ciekawo mechanizmw pozwalajcych na zautomatyzowanie procesu mwienia </li></ul> <ul><li>usprawnienie komunikacji pomidzy czowiekiem a komputerem</li></ul> <ul><li>zaprojektowanie maszyny z ktr mona by porozumiewa si w jzyku naturalnym (najwygodniejszym do wikszoci zada) </li></ul> <p> 4. Historia 5. 1773 - Christian Kratzenstein </p> <ul><li>rosyjski naukowiec, wytumaczy fizjologicznernice odpowiedzialne za rne brzmienie samogosek, oraz zaprezentowa aparat generujcy dwiki za pomoc rur rezonansowych podczonych do organw (np. kocielnych) </li></ul> <p> 6. 1791 - Wolfgang von Kempelen</p> <ul><li>Acoustic-Mechanical Speech Machine </li></ul> <p> 7. 1879 - Charles Wheatstone </p> <ul><li>rezonator zrobiony ze skry - mona byo rcznie modulowa gos </li></ul> <p> 8. 1877 Gadajca lala - Thomas Edison 9. 1881 A.G. Bell, C. Bell i C.S. Tainter </p> <ul><li>dyktafon - woskowa pyta</li></ul> <ul><li>automatyzacja biura - dyktowanie tekstw dla stenotypistek </li></ul> <p> 10. 1922 - Fletcher et al.@ Bell Laboratories</p> <ul><li>dokumentacja zwizku pomidzy spektrum gosu (rozkad siy dwiku pomidzy czstotliwociami), oraz informacje o tym jak gos jest odbierany przez czowieka. </li></ul> <p> 11. 1930 - Homer Dudley - VODER</p> <ul><li>Zafascynowany prac Fletchera stworzy VODERA Voice Operating DemonstratoR </li></ul> <p> 12. VODER UI: </p> <ul><li>nadgarstek: pasek wyboru- relaxation oscylator lub szum </li></ul> <ul><li>noga: peda do kontrolowania czstotliwoci oscylatora (tonacji gosu syntezatora). </li></ul> <ul><li>palce: 10 filtrw siy dwiku w danej czstotliwoci</li></ul> <p> 13. 14. VODER podczas 'World Fair' New York, 1939</p> <ul><li> wielki krok w ewolucji maszyn mwicych </li></ul> <p> 15. 1961 - IBM 7094 - pierwszy piewajcy komputer</p> <ul><li>Bell Laboratories - John Kelly, Carol Lockbaum, Max Mathews </li></ul> <ul><li>Arthur C. Clarke by przypadkowym gociem podczas demonstracji, co zaskutkowao umieszczeniem piosenki w Odysei Kosmicznej 2001 </li></ul> <p> 16. Daisy, Daisy... </p> <ul><li>HAL 9000 piewa t piosenk gdy Dave Bowman "przecza go na stan upienia" </li></ul> <ul><li>(...) Daisy, Daisy, give me your answer do I'm half crazy all for the love of you It won't be a stylish marriage I can't afford a carriage But you'll look sweet upon the seat Of a bicycle made for two(...) </li></ul> <p> 17. Rozpoznawanie gosu </p> <ul><li>wczesne techniki bazoway na teorii akustyczno-fonetycznej i zrozumieniu jak gos jest generowany podczas wypowiedzi. </li></ul> <ul><li>np. aby wygenerowa samogosk struny gosowe musz wibrowa. naturalne czstotliwoci zwane formantami, lub czstotliwociami formantowymi (formant frequencies) s widoczne jako due skupiska energii na diagramach czstotliwoci </li></ul> <p> 18. 19. 1952 - Davis, Biddulph, and Balashek @ Bell Laboratories </p> <ul><li>rozpoznawacz cyfr dla jednego uytkownika, pniej 10 sylab </li></ul> <ul><li>Forgie and Forgie &amp; MIT Lincoln Lab rozpoznawacz 10 samogosek dla wielu uytkownikw </li></ul> <p> 20. 21. 1959 - Fry, Denes@ University College, England</p> <ul><li>rozpoznawacz fonemw - 4 samogoski, 9 spgosek</li></ul> <ul><li>dodajc informacjestatystycznezwikszyli poprawno dla sw skadajcych si z 2 lub wicej fonemw </li></ul> <ul><li>pierwsze uycie skadnistatystycznej(na poziomie fonemw) </li></ul> <p> 22. 1960s - japoski hardware </p> <ul><li>rozpoznawacz cyfr - NEC Laboratories 1963 </li></ul> <ul><li>rozpoznawacz samogosek - Suzuki and Nakata @ the Radio Research Lab in Tokyo 1961 </li></ul> <ul><li>rozpoznawacz fonemw - Sakai and Doshita@ Kyoto University 1962 </li></ul> <ul><li><ul><li>segmentowaniewypowiedzi i analiza rnych porcji danych </li></ul></li></ul> <ul><li><ul><li>prekursor rozpoznawaniamowy cigej(continuous speech recognition) </li></ul></li></ul> <p> 23. Tom Martin @ RCA Laboratories </p> <ul><li>alternatyw dla segmentowania byo uycie niejednorodnej skali czasu </li></ul> <ul><li>Tom Martin @ RCA Laboratories </li></ul> <ul><li>tymczasowa niejednorodno przy powtrzeniach, wykrywanie zakocze wypowiedzi, ... </li></ul> <p> 24. Vintsyuk @ ZSRR 1968 </p> <ul><li>uyciedynamicznego programowaniado lepszego dopasowania czasu midzy dwiema wypowiedziami poprawiao jako oceny ich podobiestwa. </li></ul> <ul><li>jego praca, chocia mao znana na zachodzie, wydaje si wyprzedza osignicia Sakoe i Chiba [18] i innych, ktrzy zaproponowali bardziej formalne metody, znane jako dynamiczne wygicia czasu w dopasowaniu wzorca w mowie. </li></ul> <p> 25. Programowanie dynamiczne</p> <ul><li>od pnych lat 70-tych, gwnie dziki publikacji Sakoe i Chiba programowanie dynamiczne w przernych formach stao si nieodzownym elementem systemw ASR. </li></ul> <p> 26. ARPA rozdaje granty ('70) </p> <ul><li>Advanced Research Projects Agency (ARPA) of the U.S. Department of DefensefundujeSpeech Understanding Research (SUR) </li></ul> <ul><li>Carnegie Mellon Universitys Harpy - pierwszy system wykorzystujcy sieci stanw (finite state network FSN) </li></ul> <ul><li>rozpoznawany jzyk by dostarczony jako poczona sie stworzona na podstawie danych sownikowych z syntaktycznymi reguami produkcji i zakresami sw. </li></ul> <p> 27. Fred Jelinek, IBM </p> <ul><li> voice-activated typewriter (VAT), system transkrypcji dla jednego uytkownika</li></ul> <ul><li>skupiono si na wielkoci sownika - tak duego jak si da i strukturze modelu jzyka (gramatyce).</li></ul> <ul><li>statystyczne zasady syntaktyczne definioway z jakim prawdopodobiestwem sekwencja symboli (sw lub fonemw) moga pojawi si w wypowiedzi. </li></ul> <p> 28. n-gramy </p> <ul><li>zestaw zasad statystycznych nazywano 'modelem jzyka' i do jego reprezentacji najczciej uywano modelu'n-gramw' </li></ul> <ul><li>model n-gramw definiowa zalenoci w zakresie n sw - jest to bardzo wygodna i mocna statystyczna reprezentacja gramatyki </li></ul> <ul><li>Claude Shannon 1948 - zawody pomidzy czowiekiem a komputerem. zadanie: odgadnicie kolejnego sowa w zdaniu. komputer bazowa na wiedzy statystycznejn-gramw o dugoci 3 i mia znaczn przewag nad czowiekiem. </li></ul> <p> 29. AT&amp;T Bell Laboratories</p> <ul><li>zautomatyzowane usugi telekomunikacyjne (wybieranie gosowe, przeczanie rozmw, etc.) </li></ul> <ul><li>dua wydajno - system mia dziaa dla dziesitkw milionw amerykanw,</li></ul> <ul><li>speaker-independent - bez potrzeby trenowania systemu dla indywidualnego uytkownika, bez wzgldu na jego ton gosu czy akcent </li></ul> <p> 30. AT&amp;T Bell Laboratories </p> <ul><li>efektem bya caa gama algorytmw do tworzenia wzorcw sw i wyrazw, ktre rozpoznawayby sowo niezalenie od gosu czy akcentu. </li></ul> <ul><li>badania nad zrozumieniem akustycznej rnorodnoci gosw zaskutkowao wynalezieniem metod mierzenia odlegoci spektralnej (np. odlego Itakury[22]) </li></ul> <ul><li>'keyword spotting' - prosta forma rozumienia wypowiedzi. </li></ul> <p> 31. 1980s </p> <ul><li>zmiana metodologii z bardziej intuicyjnych metod opartych na wzorcach, na bardziej rygorystyczne rodowiska modelowania statystycznego (statistical modeling framework). </li></ul> <ul><li>w poowie lat '80 pojawiy si publikacje dotyczce HMM </li></ul> <ul><li>od tego czasu, do dzi HMM s podstawowym narzdziem wykorzystywanym w ASR, gwnie ze wzgldu na stay rozwj i cige usprawnienia tej technologii </li></ul> <p> 32. HMM Hidden Markov Model(ukryty model Markova) </p> <ul><li>HMM to podwjny proces stochastyczny modelujcy: 1) specyficzne zachowania sygnau gosowego wraz ze spektralnymi efektami 2) struktur jzyka w SMF (statistical modeling framework). Za pomoc prbek uczcychi algortymu Baum'a-Welch'a, tworzymy najlepsz sie odpowiadajc danemu modelowi. </li></ul> <p> 33. 34. HMM </p> <ul><li>poczenie HMM i skoczonej sieci stanw byo kolejnym wanym osigniciem '80 </li></ul> <ul><li>w kadej chwili jest sprawdzanych wiele hipotetycznych moliwoci zidentyfikowania dwiku i wybierana jest ta o najlepszym wyniku </li></ul> <ul><li>liczba hipotez do sprawdzenia moe by ogromna i moe wymaga wielkiej mocy obliczeniowej </li></ul> <ul><li>finite state transducer - opracowana w poowie lat 90 staa si gwnym komponentem prawie wszystkich wspczesnych systemw rozpoznawania i rozumienia mowy. </li></ul> <p> 35. artificial neural networks (ANN)</p> <ul><li>ponowne prby w pnych latach '80 </li></ul> <ul><li>sukcesy z rozpoznawanie pojedynczych cyfr </li></ul> <ul><li>jednak ograniczenia wynikajce ze specyfiki danych (czasowa zmienno) </li></ul> <ul><li>aktualnie trwaj prace nad poczeniem ANN i HMM </li></ul> <p> 36. Lata '90 - wiele innowacji </p> <ul><li>pattern recognition przeszo w problem optymalizacyjny, w ktrym starano si minimalizowa empirical recognition error [44]. </li></ul> <ul><li>uzmysowiono sobie, e rozkad funkcji gosu nie moe by dokadnie wyznaczony, ani zdefiniowany, wic Bayes'owska teoria decyzyjna jest w tym przypadku nieodpowiednia </li></ul> <ul><li>celem rozpoznawacza powinno by osignicie jak najmniejszego bdu podczas rozpoznawania, a nie najlepsze dopasowanie do zadanego zestawu danych. </li></ul> <ul><li>wynik: zastosowanie discriminative training, support vector machines (SVM), ... </li></ul> <p> 37. DARPA rzuca groszem </p> <ul><li>sukces metod statystycznych zdoby zainteresowanie DARPA na przeomie '80/'90, w wyniku czego powstao kilka systemw: </li></ul> <ul><li>SPHINX system from CMU [47]</li></ul> <ul><li>BYBLOS system from BBN [48]</li></ul> <ul><li>DECIPHER system from SRI [49] </li></ul> <p> 38. do pocztkw XXI wieku: </p> <ul><li>kontynuowano prace nad systemami o rosncym stopniu trudnoci</li></ul> <ul><li>od rozpoznawania cigej mowy o stylizowanej strukturze gramatycznej (uywanej w zadaniach wojskowych, np. zarzdzaniu jednostkami morskimi) </li></ul> <ul><li>do transkrypcji wiadomoci (radiowych/telewizyjnych) (e.g., NAB uywajcy sownika o ponad 20K sw), oraz rozmw. </li></ul> <p> 39. 40. Hidden Markov Model Tool Kit (HTK) </p> <ul><li>System opracowany przez zesp z Cambridge University (led by Steve Young)[51], by i jest do dzisiaj jednym z najczciej adoptowanych narzdzi do bada nad automatycznym rozpoznawaniem mowy. </li></ul> <p> 41. Zmiana dyskursu </p> <ul><li>Wikszo bada nad ASR bya skoncentrowana na przetworzeniu gosu na sowa. wierzono, e jest to najwaniejszy problem z jakim trzeba byo si upora, aby zbudowa maszyn zdoln do rozmw. </li></ul> <ul><li>Po latach dowiadcze zaobserwowano dwie wane sprawy: </li></ul> <p> 42. Zmiana dyskursu </p> <ul><li>1) ludzie, rozmawiajc z komputerami, czsto mwili naturalnym jzykiem, ktry nie zawsze spenia gramatyczne wizy rozpoznawacza (sowa spoza sownika, niegramatyczne konstrukcje i zdania)a dodatkowo gos by czsto zakcony rnego rodzaju haasami</li></ul> <ul><li>2) podobnie jak w tradycyjnej formie komunikacji (czowiek z czowiekiem), tak i w przypadku aplikacji konwersujcych, czsto, aby uzyska odpowiedni stopie zrozumienia, potrzebny by dialog pomidzy rozmawiajcymi. </li></ul> <p> 43. </p> <ul><li>W takim dialogu pozwalano na operacje pytania i potwierdzania, dopuszczajc moliwo bdw w rozpoznawaniu lub rozumieniu wypowiedzi. </li></ul> <ul><li>z pierwszym problemem radzono sobie ju w pocztkowych aplikacjach (keyword spotting w AT&amp;T) </li></ul> <ul><li>drugi problem skupi uwag spoecznoci badaczy na obszarzezarzdzania dialogiem. </li></ul> <p> 44. 45. Pegasus, Jupiter - MIT 2000 </p> <ul><li>Pegasus i Jupiter to systemy z ktrymi mona porozmawia przez telefon. Pierwszy dostarcza informacji o lotach samolotw, drugi o pogodzie. </li></ul> <ul><li>Dziki bobrze zaprojektowanemu zarzdzaniu dialogiem systemy te dostarczay uytkownikowi odpowiednich informacji, bez koniecznoci zadawania szczegowych zapyta, oraz przedzierania si przez pozycje menu. </li></ul> <ul><li>Celem byo zaprojektowanie maszyny, ktra potrafia si komunikowa, a niekoniecznie rozumiaa wypowiadane sowa. </li></ul> <p> 46. dzisiaj: </p> <ul><li>HMIHY - How May I Help Yousystem at AT&amp;T, Al Gorin - Consumer Communications Services in 2000 </li></ul> <ul><li>technologia dostpna dla ograniczonego, ale ciekawego zakresu zastosowa </li></ul> <p> 47. 48. - Apple Computer - wizja technologii na 2011 (apple community 1988) </p> <ul><li> Knowledge Navigator =Speech User Interface (SUI)+ Multimodal User Interface (MUI)+ intelligent voice-enabled agents </li></ul>