Wolna encyklopedia

Synteza mowy – polega na mechanicznej zamianie tekstu zapisanego w postaci znakowej na wypowiedź (mowę) w postaci dźwiękowej. Maszynę lub program komputerowy zamieniający tekst na mowę określa się mianem syntezatora mowy. W zależności od syntezatora, możemy uzyskać bardzo dokładną wymowę także słów nietypowych, literowanie różnych skrótów, odczytywanie liczb w tym również ułamków oraz odczytywanie dat poprzez dekomponowanie liczb. Syntezatory mowy mają wiele zastosowań. Pozwalają na zautomatyzowanie informowania bądź alarmowania użytkownika, są pomocne przy nauce języków obcych oraz tłumaczeniach, mogą także np. odczytywać dokumenty pisane alfabetem Brailla.

Spis treści

Sprzęt

Można wydzielić dwa rodzaje syntezatorów – programowe (programy komputerowe) i sprzętowe (urządzenia peryferyjne). Obecnie na rynku dostępnych jest wiele różnorodnych wersji oprogramowania komputerowego, które z dnia na dzień jest doskonalsze – obecnie najpopularniejsze w użyciu są tzw. screenreadery czytające tekst z ekranu. Jednak w użyciu powszechnym znajdują się również urządzenia peryferyjne komputerów (np. syntezator SMP-4) jak i urządzenia samodzielne, np. mówiące skanery (np. Poet compact), czytające drukowany tekst bezpośrednio z kartki, czy mówiące notesy (np. typowo polski Kajetek 2000) jako przenośne urządzenia pozwalające odsłuchiwać dokumenty tekstowe w podróży.

Synteza komputerowa

Aby wygenerować dźwięk używa się standardowego mechanizmu wbudowanego w systemy Windows (windows 3,X, 95, 98,Me, 2000, XP) – Multimedia Control Interface (MCI) lub w systemy Linuxrsynth. Dzięki temu mechanizmowi każdy, nawet najprostszy syntezator mowy może dobrze i bez konfliktów funkcjonować na wszystkich komputerach wyposażonych w prawidłowo zainstalowaną kartę dźwiękową.

Proces syntezy mowy TTS (ang. Text To Speech)

Obecnie najbardziej upowszechnionym systemem syntezy mowy jest TTS (z ang. text to speech tekst do mowy). Dzielimy go na dwa główne etapy, składające się z wielu pośrednich kroków, wymagających sporej wiedzy lingwistycznej i matematycznej. W pierwszym etapie program wydobywa z wprowadzonej frazy jak największą ilość informacji lingwistycznych – stara się zrozumieć tekst. Etap ten nazywany jest przetwarzaniem języka naturalnego – NLP (ang. Natural Language Processing).

W etapie NLP wyróżniamy następujące działania

Na podstawie zdobytych informacji następuje synteza dźwiękowej frazy – jest to etap cyfrowego przetwarzania sygnału DSP (ang. Digital Signal Processing).

Na etapie DSP zachodzą takie procesy jak

Rodzaje syntezy sygnału mowy

Niektóre syntezatory korzystają z alofonicznej metody syntezy mowy. Polega ona na składaniu potrzebnych słów z dźwięków elementarnych, odpowiadających mniej więcej pojedynczym literom alfabetu. Każdy z dźwięków zapamiętywany jest w pamięci komputera i w odpowiedniej chwili i kolejności zostaje odtworzony. Metoda wymaga dużych mocy obliczeniowych komputera a efekt końcowy jest trochę mechaniczny.

Drugą metodą jest metoda konkatencyjna. Polega na nagraniu dużej bazy prawdziwego głosu lektora (tzw. baza segmentów), jej oznaczeniu i przetworzeniu, a następnie w procesie syntezy mowy wybieraniu, modyfikowaniu oraz składaniu sygnału mowy z fragmentów wcześniejszych nagrań. Technika ta pozwala na uzyskanie mowy najbardziej naturalnej.

Firmy oraz przykładowe produkty branży syntezy mowy

Źródło: „haslo,Synteza_mowy