ҚАЗАҚ ТІЛІНДЕ СПАМДЫ АНЫҚТАУҒА АРНАЛҒАН МУЛЬТИНОМДЫҚ АҢҒАЛДЫҚ БАЙЕС ТАЛДАУЫ: МОРФОЛОГИЯЛЫҚ ТАЛДАУ МЕН ЗЕРТТЕУ

Авторлар: Ламашева Ж.Б., Махажанова У.Т., Касекеева А.Б., Искаков Е.К.
ҒТАХА 28.23.29

Аңдатпа. Сандық коммуникациядағы спам хабарлардың көбеюі, әсіресе жеткілікті сандық ресурстары жоқ қазақ тілі сияқты тілдер үшін тиімді спам анықтау жүйелеріне деген шұғыл қажеттілікті көрсетеді. Бұл зерттеу қазақ тіліндегі спам хабарламаларды анықтауға арналған машиналық оқытуға негізделген әдісті әзірлеуге бағытталған, ол модель өнімділігін арттыру үшін әртүрлі мәтіндерді алдын ала өңдеу әдістерін қолданады. Зерттеудің негізгі мақсаты – жасанды таңбаланған 200 үлгіден тұратын деректер жиынындағы спам және спам емес хабарламаларды жіктеудегі Мультиномдық Найв Байес алгоритмінің тиімділігін бағалау. Әдіснама деректерді жинау, мәтінді тазарту және қалыпқа келтіру үшін алдын ала өңдеу, сондай-ақ хабарларды талдауға қолайлы форматқа түрлендіру үшін ерекшеліктерді алу қадамдарын қамтиды.
Нәтижелер ұсынылған модельдің 95% дәлдік көрсеткішіне қол жеткізгенін көрсетеді, бұл қазақ тіліндегі спам хабарламаларды анықтаудың тиімділігі зор екендігін дәлелдейді. Бұл жұмыс қазақ тілді қауымдастыққа арнайы әзірленген спам анықтау ресурстарындағы бар олқылықтардың орнын толтыруға елеулі үлес қосады. Нәтижелердің практикалық маңызы зор, себебі олар қолданушылар тәжірибесі мен сандық коммуникациялардағы қауіпсіздікті арттыра отырып, күрделі спам сүзу жүйелерін әзірлеуге негіз бола алады. Теориялық тұрғыдан алғанда, бұл жұмыс табиғи тілді өңдеу және машиналық оқыту салаларына үлес қосып, қолдау таппаған тілдерге қолдануға болатын алгоритмдер мен әдістерді одан әрі зерттеуге және дамытуға ықпал етеді. Зерттеу қазақ тіліндегі спам хабарламаларды анықтау дәлдігін арттыру үшін мәтінді өңдеу қадамдарын ұсынады және машиналық оқыту модельдерінің үлгілерді тану қабілетін жақсартады.

Түйін сөздер: спамды анықтау, TF-IDF, Мультиномдық Найв Байес алгоритмі, қазақ тілі, спамды болжау, машиналық оқыту.