Аннотация. В этом исследовании изучается разработка и оценка производительности моделей на основе трансформеров для автоматической классификации отзывов пассажиров общественного транспорта с целью улучшения обработки обратной связи при оптимизации решения проблем. Эффективная обработка отзывов пассажиров имеет решающее значение для улучшения услуг общественного транспорта, поскольку нерешенные жалобы или эксплуатационная неэффективность могут снизить удовлетворенность пассажиров и создать логистические проблемы. Традиционные подходы к классификации текста, такие как методы на основе ключевых слов или классические алгоритмы машинного обучения (ML), испытывают трудности с многоязычными и неоднородными текстовыми данными, особенно на языках с низкими ресурсами. В этом исследовании этот пробел устраняется путем систематического сравнения архитектур на основе трансформаторов для классификации отзывов на русском и казахском языках, демонстрируя их эффективность в реальных приложениях. Ключевой вклад этого исследования заключается в оценке как языковых, так и многоязычных трансформеров на основе отзывов пассажиров, что дает представление об их возможностях обобщения. В отличие от предыдущих исследований, которые в основном фокусировались на наборах данных на английском языке, в этой работе представлен недавно созданный, вручную размеченный набор данных, охватывающий различные реальные сценарии на русском и казахском языках, что позволяет проводить объективный сравнительный анализ. Три модели трансформеры DeepPavlov/rubert-base-cased, XLM-RoBERTa-base и XLM-RoBERTa-large были обучены и протестированы для оценки их способности обрабатывать сложный многоязычный ввод. Экспериментальные результаты показывают, что XLM-RoBERTa-large достигает наивысшей точности классификации (90%), особенно для смешанных и многоязычных отзывов, тогда как DeepPavlov/rubert-base-cased работает стабильно хорошо для русскоязычных отзывов (87,667%), что подтверждает его пригодность для задач одноязычной классификации. XLM-RoBERTa-base демонстрирует сбалансированный компромисс между точностью и надежностью, что делает его жизнеспособным вариантом для обработки гетерогенных обзоров (89,5%). Несмотря на свою эффективность, модели на основе трансформера по-прежнему сталкиваются с проблемами, связанными с балансировкой данных и обработкой недостаточно представленных классов, особенно в сценариях с неравномерным распределением языков или терминологией, специфичной для предметной области. Эти результаты подтверждают, что модели трансформеры значительно улучшают автоматизацию классификации отзывов пассажиров, предоставляя масштабируемое решение для поставщиков общественного транспорта.
Ключевые слова: Обработка естественного языка, классификация текста, Transformers, BERT, DeepPavlov, XLM-RoBERTa, анализ отзывов пассажиров, многоязыковое моделирование.