Аннотация. Машинный перевод – это одна из быстро развивающихся и широко применяемых современных технологий. Процесс глобализации и необходимость многоязычной коммуникации значительно повышают важность этой области. Для облегчения обмена информацией и взаимопонимания между различными странами и культурами активно используются инструменты машинного перевода. В частности, такие системы, как Google Translate и Яндекс Переводчик, являются наиболее популярными и эффективными платформами на международном уровне. Эти системы ежегодно внедряют новые алгоритмы и языковые модели, улучшая качество перевода. Однако, согласно последним исследованиям, качество перевода с английского языка на казахский и другие тюркские языки по-прежнему остается на низком уровне. Этот результат в первую очередь связан с особенностями морфологии и синтаксиса казахского языка, а также с порядком слов и контекстуальными значениями. Цель исследования – предложить эффективные методы улучшения качества нейромашинного перевода с английского на казахский язык с использованием адаптации трансформерных моделей и методов постредактирования.
С этой целью на платформе OpenNMT был разработан трансформер, адаптированный для казахского и других тюркских языков, который обучался на параллельном корпусе из 180 000 предложений. Оценка полученных результатов перевода была проведена с использованием метрики BLEU. Также для улучшения качества перевода был использован этап постредактирования с применением модели Kaz-RoBERTa. Результаты исследования показали, что увеличение качества и объема параллельных данных, а также адаптация трансформерной модели к особенностям конкретного языка значительно улучшает точность и понятность перевода.
Ключевые слова: нейромашинный перевод, метрика BLEU, параллельный корпус, открытый нейромашинный перевод, трансформерная модель, постредактирование, Kaz-RoBERTa модель.