Модель синтеза речи
Схематически формантно-голосовая модель синтеза речи изображена на рис. 17. При построении модели использовались данные об артикуляционном аппарате человека, а также данные фонетики и лингвистики ([5]).
Формантно-голосовая модель синтеза речи

Рис. 17
Построение модели – это всегда упрощения того, что мы собираемся моделировать. Здесь важно найти компромисс между качеством модели (т.е. пригодностью её для решения поставленной задачи), и её сложностью. Для этого необходимо выбрать наиболее важные параметры исследуемой системы. В моей модели выбраны следующие основные параметры:
1. Частота основного тона. Определяющий параметр голосового источника, характеризует высоту голоса.
2. Частота шума. Образование шума – довольно сложный процесс и зависит от многих факторов – давления и скорости воздушной струи, геометрической формы воздушного тракта, акустических свойств материала – поэтому моделирование этого процесса на физическом уровне представляет собой серьезную задачу и требует построения всего речевого аппарата человека. Альтернатива этому – представить звук как белый шум, спектр которого распределен по некоторому закону (например, по Гауссу) относительно некоторой частоты. Закон распределения можно подобрать экспериментально, и у нас остается один переменный параметр – центральная частота, что намного упрощает моделирование.
3. Число формант. Число активных формант, участвующих в речеобразовании. Выбирается экспериментально, ориентировочно 4.
4. Центральная частота каждой форманты. т.к. форманта представляет собой резонанс в речевом тракте, у неё есть частота резонанса и огибающая. Вид огибающей также определяется экспериментально, в первом приближении это Гауссово распределение.
5. Вклад каждой форманты. Насколько сильно форманта воздействует на основной сигнал.
Жирным шрифтом выделены параметры, которые будут меняться в процессе речеобразования для получения различных звуков.