МУЛЬТИНОМИАЛЬНЫЙ НАИВНЫЙ БАЙЕСОВСКИЙ АНАЛИЗ ДЛЯ ОБНАРУЖЕНИЯ СПАМА НА КАЗАХСКОМ ЯЗЫКЕ: ИССЛЕДОВАНИЕ С МОРФОЛОГИЧЕСКИМ АНАЛИЗОМ

Авторы: Ламашева Ж.Б., Махажанова У.Т., Касекеева А.Б., Искаков Е.К.
МРНТИ 28.23.29

Аннотация. Растущее количество спам-сообщений в цифровой коммуникации подчеркивает острую необходимость в эффективных системах обнаружения спама, особенно для языков, не имеющих достаточных цифровых ресурсов, таких как казахский. Целью данного исследования является разработка подхода на основе машинного обучения, специально предназначенного для обнаружения спама в казахских сообщениях, с использованием различных методов и приемов предварительной обработки текста для повышения производительности модели.
Основной целью данного исследования является оценка эффективности алгоритма мультиномиального наивного байесовского анализа при классификации спам-сообщений и не спам-сообщений в наборе данных, состоящем из 200 вручную помеченных образцов. Методология включает несколько основных этапов, включая сбор данных, предварительную обработку для очистки и нормализации текста и извлечение признаков для преобразования сообщений в подходящий формат для анализа.
Результаты показывают, что предложенная модель достигает впечатляющего уровня точности в 95%, демонстрируя свой потенциал для эффективного обнаружения спама на казахском языке. Эта работа вносит значительный вклад в устранение существующего пробела в ресурсах обнаружения спама, специально разработанных для казахскоязычного сообщества. Практические последствия результатов значительны, поскольку они могут информировать о разработке более сложных систем фильтрации спама, тем самым улучшая пользовательский опыт и безопасность в цифровых коммуникациях. Более того, теоретическое значение заключается в ее вкладе в области обработки естественного языка и машинного обучения, поощряя дальнейшие исследования и разработку алгоритмов и методов, применимых к недостаточно представленным языкам. В исследовании излагаются шаги по обработке текста для повышения точности обнаружения спама в казахских сообщениях, улучшая способность моделей машинного обучения определять закономерности.

Ключевые слова: обнаружение спама, TF-IDF, Мультиномиальный Наивный Байесовский алгоритм, казахский язык, прогнозирование спама, машинное обучение.