ФЕДЕРАТИВНОЕ ОБУЧЕНИЕ ДЛЯ ЗАДАЧ КЛАССИФИКАЦИИ АГРЕССИВНОГО КОНТЕНТА: ПОДХОД НА ОСНОВЕ МОДЕЛИ ТРАНСФОРМАТОРА

Авторы: Омар А.Б., Мусиралиева Ш.Ж.

Рубрика: Компьютерные науки, приборостроения и автоматизация

МРНТИ 28.23.25

Аннотация. Стремительное развитие цифровых коммуникаций привело к увеличению количества постов агрессивного содержания в Интернете. Автоматическое обнаружение такого контента является одной из самых актуальных проблем нашего времени. Однако традиционные подходы, основанные на сборе данных на центральном сервере, могут поставить под угрозу конфиденциальность личной информации. Одним из способов решения этой проблемы является использование метода федеративного обучения. Данный метод подразумевает индивидуальное обучение модели на устройстве каждого пользователя, без отправки данных на центральный сервер. В ходе исследования был проведен обзор литературы научных работ и проанализирован опыт использования метода федеративного обучения. В качестве набора данных использовался специальный корпус, состоящий из 73 572 записей агрессивных и неагрессивных текстов. Для обучения модели использовалась модель DistilBERT, а набор данных был разделен между тремя клиентами, каждый из которых обучал только свои собственные записи по отдельности. В конце каждого раунда сервер использует алгоритм FedAvg для объединения параметров модели, предоставленных всеми клиентами на сервере, создавая общую глобальную модель. На основании полученных результатов можно сделать вывод, что метод федеративного обучения имеет два важных преимущества: во-первых, он работает с высокой точностью, а во-вторых, обеспечивает надежность и конфиденциальность информации.

Ключевые слова: федеративное обучение, обработка естественного языка, DistilBERT, FedAvg, сохранение конфиденциальности, агрессивный контент, классификация.

Скачать PDF статьи

Номер журнала:
№-4 (39) 2025

ФЕДЕРАТИВНОЕ ОБУЧЕНИЕ ДЛЯ ЗАДАЧ КЛАССИФИКАЦИИ АГРЕССИВНОГО КОНТЕНТА: ПОДХОД НА ОСНОВЕ МОДЕЛИ ТРАНСФОРМАТОРА

Рубрики

Журналы