МОРФОЛОГИЧЕСКИЙ АНАЛИЗ И ГЕНЕРАЦИЯ ДЛЯ КАЗАХСКОГО ЯЗЫКА С ИСПОЛЬЗОВАНИЕМ, КОНЕЧНО-АВТОМАТНЫХ, ТРАНСДУКТОРОВ

Авторы: Әйтім Ә.Қ.
МРНТИ 16.21.19

Аннотация. Представлен подход, основанный на правилах, для морфологического анализа и генерации казахского языка — высокоагглютинативного и морфологически сложного языка. Компьютерное моделирование морфологии казахского языка требует точного и систематического подхода из-за широкого использования аффиксации и фонологических чередований, таких как сингармонизм и чередование согласных. Основной технологией выступают конечно-автоматные трансдукторы (КАТ), которые обеспечивают как строгость формального описания, так и вычислительную эффективность при точном моделировании регулярных закономерностей словообразования.
Система включает два основных компонента: морфологический генератор, создающий правильные поверхностные формы слов из абстрактных морфологических представлений, и морфологический анализатор, разбирающий поверхностные формы слов на корень и аффиксы с соответствующими грамматическими признаками. Для именных и глагольных парадигм (включая время, наклонение, аспект, лицо, число и падеж) архитектура КАТ кодирует морфотактические правила, фонологические ограничения и порядок аффиксов. Для поддержки трансдукторного анализа создан и структурирован подробный лексикон казахских лемм по частям речи. Охватывая как словоизменительную, так и словообразовательную морфологию, вручную созданные морфологические правила отражают лингвистическую структуру языка. Высокая точность в задачах анализа и генерации достигнута благодаря оценке на вручную размеченном корпусе современных казахских текстов.
Полученный инструмент служит базовым компонентом для таких прикладных задач обработки естественного языка, как определение частей речи, синтаксический разбор и машинный перевод. Выпущенная в виде модуля с открытым исходным кодом, система позволяет более широкое использование и дальнейшие исследования в области вычислительной лингвистики казахского языка и вносит вклад в развитие языковых технологий для малоресурсных языков.

Ключевые слова: казахский язык, морфологический анализ, морфологическая генерация, конечно-автоматные трансдукторы, агглютинативные языки, обработка естественного языка, системы на основе правил.