СРАВНИТЕЛЬНЫЙ АНАЛИЗ МОДЕЛЕЙ ОБНАРУЖЕНИЯ ТЕКСТА, СГЕНЕРИРОВАННЫХ ИИ, В ТЕКСТОВЫХ ЗАДАНИЯХ СТУДЕНТОВ

Авторы: Сагынбаев А.А.,Кайбасова Д.Ж.,Сагынбаева А.А.
МРНТИ 28.23.25

Аннотация. Современные трансформерные модели существенно расширили возможности автоматической генерации текстов, что создаёт новые вызовы для обеспечения академической честности в вузах. Системы антиплагиата нередко не различают работы, написанные студентом, и материалы, сгенерированные искусственным интеллектом, что обуславливает актуальность разработки надёжных автоматических детекторов. В связи с этим в данной статье выполнен сравнительный анализ трёх подходов к обнаружению ИИ-генерированного текста в студенческих работах. Предмет исследования — особенности работы классификатора на базе GPT-2, гибридной архитектуры CNN-LSTM и классической LSTM-модели. Задачи включают формирование единого экспериментального протокола и оценку каждого метода в условиях ограниченных вычислительных ресурсов и различных требований к точности. Экспериментальная методика исследовательской работы состоит из единообразной предобработки размеченного корпуса студенческих работ, разделения данных на обучающую и валидационную выборки, обучения моделей в несколько эпох с одинаковыми параметрами токенизации и оптимизации, а также оценки их эффективности по показателям точности, полноты и F1-меры. Результаты исследования показывают, что детектор на основе трансформера обеспечивает наиболее глубокое контекстное представление, гибридный CNN-LSTM демонстрирует оптимальный баланс между скоростью обработки и качеством обнаружения, а LSTM-модель остаётся эффективным и ресурсосберегающим решением для систем без доступа к GPU. Авторы пришли к выводу, что выбор метода должен основываться на доступной инфраструктуре: трансформеры подходят для высокопроизводительных серверов с GPU, гибридные архитектуры — для платформ средней производительности, а LSTM-модули — для CPU-окружения. В качестве практической рекомендации авторами предлагается интегрировать гибридный детектор в образовательные платформы совместно с экспертным рецензированием и регулярно обновлять обучающую базу для адаптации к новым типам ИИ-контента.

Ключевые слова: Глубокое обучение, Текст, сгенерированный ИИ, Академическая честность, GPT-2, Гибридная модель CNN-LSTM, LSTM, Классификация текста, Трансформерные модели, Гибридные модели.