Аннотация. Непрерывный рост объемов неструктурированных текстовых данных в системах технического обслуживания авиационной техники создает потребность в автоматизированных методах их анализа. Традиционная категоризация дефектов по стандартным кодам часто оказывается недостаточно детальной для понимания истинных причин отказов, смешивая рутинные операции и критические сбои в рамках одной системы. Предметом данного исследования является семантическая структура текстовых описаний неисправностей системы внешнего освещения (ATA 33-40) парка однотипных воздушных судов. Целью публикации является разработка и апробация метода автоматического выявления скрытых эксплуатационных паттернов и режимов отказа без использования размеченных данных. Методологическую основу исследования составляет вероятностное тематическое моделирование с использованием алгоритма латентного размещения Дирихле (LDA). Для повышения качества модели реализован специализированный алгоритм предобработки текста, включающий расшифровку отраслевых аббревиатур и удаление контекстного шума. Оптимальная конфигурация модели определялась на основе количественного анализа метрики когерентности (Cv) и оценки семантической устойчивости тем. Экспериментально установлено, что модель, содержащая шесть тем», обеспечивает наилучшую интерпретируемость данных. Анализ полученных кластеров позволил выявить конструктивно-обусловленные зоны возникновения дефектов, а также классифицировать неисправности по типу проявления. Автоматически выделены скрытые подгруппы, соответствующие отказам электрических цепей и механическим повреждениям элементов конструкции. Предложенный подход позволяет трансформировать неструктурированные записи техперсонала в детализированную диагностическую информацию. Это открывает возможности для совершенствования программ технического обслуживания и перехода к предиктивному управлению надежностью конкретных подсистем воздушного судна.
Ключевые слова: воздушное судно, техническое обслуживание, внешнее освещение, текстовые описания, обработка естественного языка, тематическое моделирование, латентное размещение Дирихле.