ҚҰҚЫҚТЫҚ МӘТІНДЕРДІ ҚАЗАҚ, ОРЫС ТІЛДЕРІНЕ НЕЙРОНДЫ МАШИНАЛЫҚ АУДАРУДЫҢ ӘДІСТЕРІ МЕН САПАЛЫҚ ТАЛДАУЫ

Авторлар: Рахимова Д., Жігер А.Ж.,Малых В.
ҒТАХА 20.19.00

Аңдатпа. Қазіргі таңда Қазақстан Республикасында құқық саласындағы мәтіндерді қазақ тілінен орыс және ағылшын тілдеріне, сондай-ақ осы тілдерден қазақ тіліне сапалы аудару – өзекті мәселелердің бірі болып отыр. Бұл ғылыми жұмыста кеңінен қолданылатын Яндекс пен Гугл секілді машиналық аударма жүйелері арқылы арнайы құқықтық дереккөздерден алынған мәтіндердің қазақ-орыс тіл жұбы негізінде аударылып, аударма сапасындағы қателіктерге талдау жүргізілді. Зерттеудің негізгі мақсаты – құқық саласына тән сөйлемдер мен терминдерді дәл әрі мағыналық тұрғыдан дұрыс аудару жолдарын қарастыру. Осы мақсатта құқықтық құжаттар, сот шешімдері мен ресми сайттардан арнайы бағдарлама көмегімен 96 555 сөйлем мен сөз тіркестерінен тұратын корпус жинақталды. Аталған корпус MarianMT нейронды машиналық аударма жүйесінде оқытылып, қазақ-орыс тіл жұбында аударма сапасы тәжірибе арқылы тексерілді. MarianMT моделінің нәтижелерін жақсарту үшін қосымша KazRobert трансформерлік моделі қолданылды. Жұмыста KazRobert моделінің архитектурасы мен оның математикалық негізі жан-жақты сипатталады. Аударма сапасы BLEU, TER және METEOR секілді халықаралық деңгейде мойындалған өлшемдер арқылы бағаланды. Жұмыста екі түрлі нәтиже салыстырмалы түрде көрсетілді: тек MarianMT жүйесінде алынған нәтиже және KazRobert моделінде оқытылған MarianMT жүйесінің нәтижесі. Талдау қорытындысы бойынша, ұсынылған әдіс OpenNMT негізіндегі бұрынғы аударма моделіне қарағанда сапалы нәтижелер көрсетті. Жүргізілген тәжірибелер корпус көлемі мен терминдердің саны артқан сайын аударма сапасының да жақсара түсетінін көрсетті. Сонымен қатар, зерттеу нәтижелері бұл әдісті құрылымдық жағынан қазақ тіліне жақын түркі тілдеріне де тиімді түрде бейімдеуге болатынын дәлелдеді.

Түйін сөздер: нейронды машиналық аударма, MarianMT машиналық аударма, KazRobert моделі, трансформер моделі, құқық саласындағы корпус, BLEU аударма көрсеткіші, TER аударма көрсеткіші, METEOR аударма көрсеткіші.