ТРАНСФОРМЕР МОДЕЛЬДЕРІ АРҚЫЛЫ ЖОЛАУШЫЛАР ПІКІРЛЕРІН ЖІКТЕУ: RUBERT ЖӘНЕ XLM-ROBERTA МОДЕЛЬДЕРІНІҢ ҚОЛДАНЫСЫ

Авторлар: Рахимжанов Д.,Бельгинова С.
ҒТАХА 50.05,50.41

Аңдатпа. Бұл зерттеу қоғамдық көлік жолаушыларының пікірлерін автоматты түрде жіктеу үшін трансформер негізіндегі модельдерді әзірлеу және олардың өнімділігін бағалауға бағытталған. Мақсаты — пікірлерді өңдеуді жетілдіру және мәселелерді шешуді оңтайландыру. Жолаушылардың кері байланысын тиімді өңдеу — қоғамдық көлік қызметтерін жақсартудың маңызды бөлігі, себебі шешілмеген шағымдар мен операциялық тиімсіздік жолаушылардың қанағаттануын төмендетіп, логистикалық қиындықтарға әкелуі мүмкін. Кілтсөздерге негізделген әдістер немесе классикалық машиналық оқыту (ML) алгоритмдері сияқты дәстүрлі мәтін жіктеу тәсілдері көптілді және әртүрлі мәтіндік деректермен, әсіресе ресурсы шектеулі тілдерде жұмыс істеуде қиындықтарға тап болады. Бұл зерттеуде аталған мәселе орыс және қазақ тілдеріндегі пікірлерді жіктеудегі трансформаторлық архитектураларды жүйелі түрде салыстыру арқылы шешіледі, олардың нақты қолданыстағы тиімділігін көрсетеді. Зерттеудің басты үлесі — жолаушылардың пікірлері негізінде тілге бейімделген және көптілді трансформерлерді бағалап, олардың жалпылау мүмкіндіктеріне талдау жүргізу. Бұған дейінгі зерттеулер көбіне ағылшын тіліндегі деректер жиынтығына сүйенсе, бұл жұмыс орыс және қазақ тілдеріндегі әртүрлі нақты сценарийлерді қамтитын, қолмен таңбаланған жаңа деректер жиынтығын ұсынады. Зерттеу аясында үш трансформер моделі: DeepPavlov/rubert-base-cased, XLM-RoBERTa-base және XLM-RoBERTa-large жаттықтырылып, олардың күрделі көптілді мәтіндерді өңдеу қабілеті бағаланды. Эксперимент нәтижелері көрсеткендей, XLM-RoBERTa-large ең жоғары дәлдікке (90%) жетіп, аралас тілдер мен көптілді пікірлерді жіктеуде үздік нәтиже көрсетті. Ал rubert-base-cased моделі орыс тіліндегі пікірлерді жіктеуде тұрақты түрде жақсы нәтиже көрсетті (87.667%), бұл оны біртілді тапсырмаларға тиімді етеді. XLM-RoBERTa-base дәлдік пен тұрақтылықтың теңгерімді нұсқасын ұсынып, әртүрлі пікірлерді өңдеуде тиімді шешім ретінде ерекшеленді (89.5%). Алайда, трансформер модельдері тиімді болғанымен, олар деректердің теңгерімсіздігі мен сирек кездесетін санаттарды өңдеу сияқты мәселелерге тап болады, әсіресе тілдер тең бөлінбеген немесе арнайы терминология қолданылатын жағдайларда. Бұл нәтижелер трансформер модельдерінің жолаушылар пікірлерін автоматты түрде жіктеуді едәуір жақсартатынын және қоғамдық көлік қызметтері үшін ауқымды шешім ұсынатынын дәлелдейді.

Түйін сөздер: Табиғи тілді өңдеу, мәтінді жіктеу, Трансформер, BERT, DeepPavlov, XLM-RoBERTa, жолаушылар пікірлерін талдау, көптілді модельдеу.