Методы
Для распознавания речи наиболее эффективными, по мнению производителей, считаются такие методы как СКРЫТАЯ МОДЕЛЬ МАРКОВА(СММ) и ИСКУССТВЕННЫЕ НЕЙРОННЫЙ СЕТИ (ИНС) и их комбинации.
Скытая Модель Маркова наиболее часто используется и выдает правильный результат в большинстве случаев. СММ определяется как множество состояний и переходов из одного состояния в другое. С каждым переходом из состояния А в состояние В связано распределение результирующих (выходных) вероятностей Р, которая определяет вероятность того, что при переходе произойдет событие Х из пространства наблюдений, т.е. если происходит переход, то с определенной вероятностью будут наблюдаться некие выходные данные. Кроме того, с каждым переходом связана вероятность Р2, представляющая собой вероятность перехода из состояния А в состояние В. Существует множество начальных и конечных состояний. Любая последовательность наблюдений является результатом перехода из одного из начальных состояний в один из конечных. Так как СММ хорошо описывает временные ряды со стохастическими воздействиями, то эта модель обеспечивает довольно естественное представление речи. СММ можно использовать для представления любой составляющей речевого сигнала - фонемы или слова. Рассмотрим СММ на простом примере не из распознавания речи. Предположим, что у нас есть девушка, которая гуляет или ходит в магазин когда солнечно. И прибирается дома, когда дождливо. По тому, что девушка делает мы можем узнать какая погода на улице. Где "ДОЖДЛИВО" и "СОЛНЕЧНО" множество скрытых состояний, а "гуляет", "в магазине" и "прибирается" - наблюдаемые результаты. Стрелки от скрытых состояний к наблюдаемым результатам условные зависимости, а стрелки между скрытыми состояниями - условные переходы из одного состояния в другое.Это и есть СММ.
Так как для потока речи характерна строгая направленность, то используется определенная топологическая схема направленного потока (слева направо). Было доказано, что ИНС можно использовать для усиления мощности тех распознавателей, чья структура основана на скрытой марковской модели. В частности, ИНС с простой уровневой структурой может обеспечить получение оценок вероятностей для СММ. Как было доказано на контрольных тестах, основанные на этом подходе системы распознавания речи оказались достаточно надежными и эффективными.
Гибридные ИНС/СММ распознаватели речи повышают точность традиционных СММ за счет моделирования корреляций между одновременными параметрами речевого сигнала и между текущими и последующими параметрами. Последние работы в рамках этих исследований посвящены моделированию долговременных корреляций и разработке адаптационных подходов (имеется в виду адаптация к голосу диктора).