ТІЛДЕР АРАСЫНДАҒЫ АУДАРМА САПАСЫН АРТТЫРУ: АҒЫЛШЫН-ҚАЗАҚ ТІЛДЕРІНДЕГІ ЖЕТІСТІКТЕР МЕН МҮМКІНДІКТЕР

Авторлар: Рахимова Д., Жігер А.Ж., Малых В., Владислав К., Бекарыстанқызы А.
ҒТАХА 20.19.00

Аңдатпа. Машиналық аударма – қазіргі таңда қарқынды дамып келе жатқан және кеңінен қолданылатын заманауи технологиялық салалардың бірі. Әлемдік жаһандану үдерісі мен көптілді коммуникация қажеттілігі бұл саланың маңыздылығын айтарлықтай арттыра түсті. Түрлі мемлекеттер мен мәдениеттер арасындағы ақпарат алмасу мен өзара түсіністікті жеңілдету мақсатында машиналық аударма құралдары кең көлемде қолданылуда. Атап айтқанда, Google Translate және Яндекс Аудармашы сияқты жүйелер халықаралық деңгейде ең танымал әрі тиімді платформалар қатарына жатады. Бұл жүйелер жыл сайын жаңа алгоритмдер мен тілдік модельдерді енгізу арқылы өз аударма сапасын жетілдіруде. Алайда соңғы зерттеулер нәтижесі бойынша, бұл платформаларда ағылшын тілінен қазақ тіліне немесе басқа түркі тілдеріне жасалатын аудармалардың сапасы әлі де төмен деңгейде қалып отыр. Мұндай нәтиже, ең алдымен, қазақ тілінің күрделі морфологиялық және синтаксистік құрылымымен, сондай-ақ сөз тәртібі мен контекстуалдық мағынаның ерекшеліктерімен байланысты. Зерттеудің мақсаты – ағылшын тілінен қазақ тіліне бағытталған нейромашиналық аударманың сапасын арттыру үшін трансформер модельдерін бейімдеу және пост-редакторлеу әдістерін қолдана отырып тиімді тәсілдер ұсыну.Осы мақсатта OpenNMT платформасында қазақ және басқа түркі тілдеріне бейімделген трансформер үлгісі әзірленіп, 180 000 сөйлемнен тұратын параллель корпус негізінде оқытылды. Алынған аударма нәтижелерін бағалау BLEU метрикасы арқылы жүзеге асырылды. Сонымен қатар, аударма сапасын арттыру үшін пост-редакторлеу кезеңінде Kaz-RoBERTa моделі қолданылды. Зерттеу қорытындылары көрсеткендей, параллель мәліметтердің сапасы мен көлемін ұлғайту, сондай-ақ трансформер моделін нақты тілдік ерекшеліктерге бейімдеу аударма нәтижелерінің дәлдігі мен түсініктілігін едәуір жақсартады.

Түйін сөздер: нейромашиналық аударма, BLEU аударма метрикасы, параллельді корпус, ашық нейромашиналық аударма, трансформер моделі, пост-редакторлеу, BLEU метрикасы, Kaz-RoBERTa моделі.