Аннотация. Автоматическое распознавание речи является стремительно развивающей областью в машинном обучении. Самыми популярными системами распознавания речи на сегодня являются системы на основе интегральной (end-to-end) архитектуры, а особенно те модели, которые напрямую выводят последовательность слов с учетом входного звука в режиме реального времени, что представляют собой онлайновые модели end-to-end. Распознавание потоковой речи позволяет передавать поток звука в преобразование речи в текст и получать результаты распознавания речи потока в реальном времени по мере обработки звука. В данной статье рассмотрена и реализована популярная модель на основе RNN-T для распознавания казахской речи. Также приведен анализ работ, связанные с распознаванием казахской речи на основе модели CTC. Полученные результаты продемонстрировали, что модель на основе RNN-T может хорошо работать без дополнительных компонентов, как языковая модель и показала лучший результат на нашем наборе данных. В результате проведенных исследований система достигла 10.6% CER, что, является лучшим показателем среди других интегральных систем по распознаванию казахской речи.
Ключевые слова: Automatic speech recognition, end-to-end, RNN-T, CTC, sequence-to-sequence.