Syntezowanie mowy ludzkiej

Syntezowanie mowy ludzkiej
W poniższym artykule dowiesz się jak rozwijało się syntezowanie mowy ludzkiej od XI wieku ora rodzaje syntezy mowy.

XI–XIII w. Na długo przed wynalezieniem elektronicznego przetwarzania sygnałów badacze mowy próbowali konstruować maszyny do tworzenia ludzkiej mowy. Wczesne przykłady "mówiących głów" zostały stworzone przez Gerberta z Aurillac (zm. 1003 r. n.e.), Albertusa Magnusa (1198-1280) i Rogera Bacona (1214-1294).

 1. Christian Gottlieb Kratzenstein,

1780 Christian Gottlieb Kratzenstein (1) otrzymuje od uniwersytetu w Petersburgu nagrodę za opracowanie i skonstruowanie aparatu do syntezowania głosek. Uczony poświęcił długie lata na badanie i opisywanie natury dźwięków wydawanych przez ludzki aparat mowy. Najpierw opublikował pracę naukową na temat natury wydawania dźwięków przez człowieka pt. "Tentamen resolvendi problema" a następnie zbudował aparat syntetyzujący pięć samogłosek, który przypominał organy z piszczałkami odpowiadającymi głoskom.

1791 Wolfgang von Kempelen wynalazca pracujący dla austriackiej cesarzowej Marii Teresy przedstawia "mówiącą lalkę". W 1789 r. opublikował książkę zawierającą jego prawie dwudziestoletnie badania nad mową pt. "Mechanismus Der Menschlichen Sprache Nebst Beschreibung Seiner Sprechenden Maschine".

2. Rysunek przedstawiają-cy jedną z wersji Eufonii

1845 Austriacki konstruktor Jozef Faber prezentuje w amerykańskiej Filadelfii aparat nazwie Eufonia, która potrafiła odtworzyć już nie tylko samogłoski, ale też wszystkie spółgłoski występujące w europejskich językach mówionych. Maszyna, według zachowanych opisów i rysunków, stanowiła dziwacznie nieco połączenie organów kościelnych z rekonstrukcją głowy lub całej kobiecej postaci (2), wraz z całym aparatem gębowym, w tym nawet sztucznym językiem poruszanym cienkimi strunami. Urządzenie mechaniczne, nad którym Faber pracował podobno ponad 25 lat, składała się z kilku różnych mechanizmów i instrumentów: fortepianu, miecha oraz mechanicznej repliki ludzkiego gardła i organów głosowych. Naciskając klawisze na klawiaturze, operator ludzki wydawał dźwięki, które nadymały miech i powodowały otwarcie mechanicznych ust, uniesienie mechanicznego języka i poruszenie mechanicznych szczęk.

lata 30. XX wieku Idea kodowania głosu, rozwijana była przez inżynierów z laboratorium Bella w dwudziestoleciu międzywojennym. W latach 30. ubiegłego wieku w Bell Labs opracowano vocoder (3), który automatycznie analizował mowę pod kątem tonów podstawowych i rezonansów. Na podstawie prac nad vocoderem Homer Dudley pracował nad tym, by zamienić ludzki głos w zbiór impulsów, a następnie za pomocą elektronicznego syntezatora odtworzyć go. Opracował syntezator mowy obsługiwany za pomocą klawiatury, nazwany "The Voder" (Voice Demonstrator), który zaprezentował na wystawie światowej w Nowym Jorku w 1939 r.

3. Vocoder z Bella Labs

1950 Pattern Playback, maszyna "czytająca" spektrogram. Wczesne urządzenie mówiące, które zostało zbudowane przez dr Franklina S. Coopera i jego współpracowników, w tym Johna M. BorstaCaryla Haskinsa, w Haskins Laboratories i ukończone w 1950 roku. Urządzenie przekształca obrazy wzorców akustycznych mowy w postaci spektrogramu z powrotem na dźwięk. Do wytwarzania dźwięku maszyna wykorzystywała łukowe źródło światła, które było kierowane na obracającą się tarczę z 50 koncentrycznymi ścieżkami, których przezroczystość zmienia się systematycznie w celu wytworzenia 50 harmonicznych częstotliwości podstawowej. Światło jest następnie rzutowane na spektrogram, którego współczynnik odbicia odpowiada poziomowi ci-śnienia akustycznego części sygnału, a następnie kierowane do ogniwa fotowoltaicznego, w którym zmiany światła są przekształcane na zmiany ciśnienia akustycznego.

1961 Technika opracowana przez Johna Larry’ego Kelly sprawia, że komputer IBM 704 wykonuje po raz pierwszy w historii piosenkę, "Daisy Bell". Wydarzenie to zainspirowało pisarza Artura C. Clarke’a, który odwiedził swojego przyjaciela i współpracownika Johna Pierce'a w Bell Labs w Murray Hill na tyle, że postanowił wpleść motyw komputera śpiewającego ten utwór zarówno do książki, jak i do scenariusza "2001. Odysei Kosmicznej", gdzie komputer HAL 9000 śpiewa tę samą piosenkę, gdy astronauta Dave Bowman usypia go.

1966 Początek liniowego kodowania predykcyjnego (LPC). Jego podstawy zostały stworzone przez Fumitadę Itakurę z Uniwersytetu Nagoya i Shuzo Saito z Nippon Telegraph and Telephone (NTT). Dalszy rozwój technologii LPC kontynuowany był przez Bishnu S. Atala i Manfreda r. Schroedera w Bell Labs w latach 70. XX wieku. LPC było później podstawą wczesnych układów scalonych syntezatorów mowy, takich jak układy LPC Texas Instruments używane w zabawkach Speak & Spell z 1978 roku (4).

4. Zabawka Speak&Spell

1968 Pracujący w Japonii Noriko Umeda z zespołem opracowali pierwszy ogólny system syntezy mowy w języku angielskim w 1968 r.

lata 70. XX wieku Na rynku zaczynają pojawiać się przenośne urządzenia elektroniczne wykorzystujące syntezę mowy. Jednym z pierwszych był przenośny kalkulator dla niewidomych Speech+ firmy Telesensory Systems Inc. z 1976 roku (5).

5. Speech+ firmy Telesensory Systems

1975-80 Fumitada Itakura, pracując dla NTT, opracowuje metodę par widmowych linii (LSP) do kodowania mowy o wysokiej kompresji. Potem w latach 1975-1981 Itakura kontynuował prace nad analizą i syntezą mowy z wykorzystaniem metody LSP. W 1980 r. jego zespół opracował układ scalony syntezatora mowy oparty na LSP. LSP jest ważną technologią syntezy i kodowania mowy, a w latach 90. została przyjęta przez prawie wszystkie międzynarodowe standardy kodowania mowy jako podstawowy komponent, przyczyniając się do poprawy jakości cyfrowej komunikacji głosowej w kanałach komórkowych i Internecie.

1975 Ukazuje się MUSA (MUltichannel Speaking Automaton), która była jednym z pierwszych systemów syntezy mowy. Składała się z samodzielnego sprzętu komputerowego i specjalistycznego oprogramowania, które umożliwiało odczytywanie języka włoskiego. Druga wersja, wydana w 1978 roku, potrafiła również śpiewać po włosku a cappella. Składała się ona z samodzielnego sprzętu komputerowego i specjalistycznego oprogramowania, które implementowało technologię syntezy difonowej. Był to jeden z pierwszych systemów text-to-speech synthesis (TTS) działających w czasie rzeczywistym.

 6. Gra Stratovox

1980 Pierwszą grą wideo, w której zastosowano syntezę mowy, była gra zręcznościowa Stratovox (6), znana w Japonii jako Speak & Rescue, wyprodukowana przez firmę Sun Electronics. Pierwszą grą na komputery osobiste z syntezą mowy była Manbiki Shoujo (Shoplifting Girl), wydana również w 1980 r. na platformę PET 2001, dla której twórca gry, Hiroshi Suzuki, opracował technikę programowania "zero cross" w celu wytworzenia syntetyzowanej mowy. Inny wczesny przykład, zręcznościowa wersja gry Berzerk, również pochodzi z 1980 r. W tym samym roku firma Milton Bradley Company wyprodukowała pierwszą wieloosobową grę elektroniczną wykorzystującą syntezę mowy - Milton.

lata 80–90. XX wieku Oprócz technik opracowanych w Bell Labs dominującym rozwiązaniem syntezy mowy w tym okresie był system DECtalk, oparty w dużej mierze na pracach Dennisa Klatta z MIT, udostępniony przez Digital Equipment Corporation w 1983 r. DECtalk rozumiał fonetyczną pisownię słów, co pozwalało na indywidualną wymowę nietypowych słów.

2005 Debiut polskiego syntezatora mowy IVONA, wydarzenia ważnego dla rozwoju współczesnych syntezatorów mowy. Polskie rozwiązanie, dzieło studentów informatyki z Politechniki Gdańskiej, Łukasza Osowskiego i Michała Kaszczuka, choć weszło na rynek zdominowany przez informatycznych gigantów, radziło sobie bardzo dobrze. Na syntezator IVONA spadł deszcz nagród, na czele z otrzymaniem prestiżowej nagrody Traveler w kategorii "Odkrycie Roku 2006" przyznaną przez National Geographic. Były również zwycięstwa w międzynarodowych konkursach branżowych Blizzard Challenge 2006, 2007 i 2009, na których pokonał m.in. IBM, Microsoft i Nokię.

W czerwcu 2008 r. W 2007 roku pojawiła się Jennifer - pierwszy anglojęzyczny głos na syntezatorze. W 2010 r. wykorzystała funkcje syntezatora mowy IVONA w przełomowym modelu usługowym Software as a Service (SaaS) oraz po dwóch latach przygotowań zaczęła go sprzedawać w USA. Do tego czasu syntezator mowy IVONA oferował 44 głosy w 17 językach, które potrafiły przeczytać dowolny tekst pisany, w tym po rumuńsku, walijsku lub po kaszubsku. W styczniu 2013 roku amerykański gigant Amazon kupił IVONA Software. Firma zmieniła nazwę na Amazon Development Center Poland. Jej najważniejszy produkt syntezator mowy IVONA też zmienił kilka lat temu nazwę na Amazon Polly. Rozwiązania stosowane w IVONA stały się podstawą działania asystenta Alexa.

7. Oprogramowanie IVONA

2011 Premiera Siri (8), wirtualnego asystenta Apple, części systemów operacyjnych iOS, iPadOS, watchOS, macOS, tvOS i audioOS firmy Apple Inc. Wykorzystuje on zapytania głosowe, sterowanie za pomocą gestów, śledzenie ostrości oraz interfejs użytkownika w języku naturalnym, by odpowiadać na pytania, wydawać zalecenia i wykonywać działania poprzez delegowanie żądań do zestawu usług internetowych. Syntezator głosu jest tu od początku jedną z ważnych funkcjonalności Siri.

 8. Siri

2014 W głośnikach Echo pojawia się asystent głosowy Amazon Alexa, znana również po prostu jako Alexa (9), w dużej mierze oparta na polskim produkcie IVONA. Alexa umożliwia interakcję głosową, odtwarzanie muzyki, tworzenie list rzeczy do zrobienia, ustawianie alarmów, strumieniowe przesyłanie podcastów, odtwarzanie audiobooków, a także dostarczanie informacji o pogodzie, ruchu drogowym, sporcie i innych informacji w czasie rzeczywistym, takich jak wiadomości. Alexa może również sterować kilkoma inteligentnymi urządzeniami, jako system automatyki domowej. Do wykonywania zadań wykorzystuje automatyczne rozpoznawanie mowy, przetwarzanie języka naturalnego i inne formy sztucznej inteligencji.

9. Oparty na Alexa głośnik Amazon Echo Dot

2016 Asystent Google prezentowany po raz pierwszy podczas konferencji deweloperskiej Google 18 maja 2016 r., jako część prezentacji inteligentnego głośnika Google Home i nowej aplikacji do obsługi wiadomości Allo.

Rodzaje syntezy mowy

Metoda formantowa

Formantowa synteza mowy generuje relatywnie niewysokiej jakości efekt. Model tego typu syntezatora sprowadza się do zaprojektowania odpowiednich filtrów cyfrowych generujących dźwięk o charakterystycznych dla głosek częstotliwościach. Na przykład samogłoskę możemy wygenerować przepuszczając sygnał przez odpowiedni filtr, który generuje sygnał określonej częstotliwości. Sygnał ten odzwierciedla charakterystyczne formanty głoski.

Artykulacyjna synteza mowy

Rodzajem syntezy mowy, opartym również na generowaniu mowy za pomocą reguł jest model artykulacyjny. Polega na  fizycznym odwzorowaniu mechanizmu generowania dźwięków mowy. Wykorzystując modelowanie matematyczne, uwzględnia się zjawiska zachodzące podczas przenoszenia dźwięku przez trakt głosowy. Charakter generowanego sygnału zmienia się w zależności od parametrów, takich jak wymiary i ustawienia poszczególnych organów mowy. Metoda jest w założeniu wierniejsza od formantowej, ale dużo bardziej skomplikowana. Do modelowania głoski służy około sześćdziesiąt parametrów. Obecnie z uwagi na skomplikowaną budowę oraz liczne problemy związane z analogiem elektromagnetycznym synteza artykulacyjna nie jest rozpowszechniona.

Metoda konkatenacyjna

Uchodzi za obecnie najpopularniejszą. Polega na nagraniu dużej bazy próbek głosu lektora (tzw. baza segmentów), jej oznaczeniu i przetworzeniu, a następnie w procesie syntezy mowy wybieraniu, modyfikowaniu oraz składaniu sygnału mowy z fragmentów wcześniejszych nagrań. Technika ta pozwala na uzyskanie mowy najbardziej naturalnej.

Konkatenacyjna synteza mowy generuje mowę poprzez sklejanie ze sobą elementów akustycznych powstałych z  naturalnej mowy (fony, difony, trifony, sylaby). Dużą zaletą tego rodzaju syntezy jest niewielki rozmiar bazy danych, z uwagi na małą objętość jednostek akustycznych. Im mniejszy rozmiar bazy, tym szybciej będzie syntetyzowana mowa a także mniejsze wymagania sprzętowe. Jest oczywiste, że konkatenacja mowy oparta na słowach jest bardzo niepraktyczna z powodu dużej liczby wyrazów, jakie należy zawrzeć w bazie. Poza tym nagrywanie słownika całych słów nie do końca ma sens, ponieważ brakuje przejść naturalnych pomiędzy słowami.

Konkatenacja sylab daje dość dobre rezultaty, jednak z uwagi na ich liczbę (np. w języku angielskim, 160 tys. przy jedynie 40 fonemach) też wydaje się być nie najlepszym rozwiązaniem. Bardzo często używana jest konkatenacja difonów, która umożliwia dobrą jakość syntezy mowy przy wykorzystaniu bazy zawierającej około 1500 jednostek.

Konkatenacyjna synteza mowy ma również swoje wady. Należą do nich:

• problem wyboru jednostek akustycznych,
• konkatenacja jednostek nagranych w  różnych kontekstach,
• problem intonacji i czasu trwania,
• problem kompresji nagranych segmentów.

Współczesne syntezatory mowy konkatenacyjnej generują mowę o jakości ocenianej jako bardzo dobra. Dlatego syntezatory na niej oparte wykorzystywane są często przez serwisy telefoniczne, w edukacji komputerowej czy też w mówiących zabawkach.

Synteza korpusowa

Relatywnie nowym rozwiązaniem jest metoda korpusowa (ang. unit selection), która jest wariantem syntezy konkatenacyjnej. W  bazie przechowywane są segmenty o różnej długości, np. temat i końcówka słowa. Do  konkatenacji wypowiedzi wybierane są możliwie najdłuższe segmenty. Dzięki temu udaje się uzyskać bardzo wysoką jakość syntezy dla często występujących w języku słów. Na przykładzie difonów można wyjaśnić to w ten sposób, że ich korpus w tej metodzie jest dużo większy, zawiera po kilka a nawet sto instancji danego difonu. W celu wygenerowania mowy obliczana jest funkcja kosztu, co daje połączenie pozwalające uzyskać najlepszą jakość mowy. 

M.U.