TY - JOUR AU - Тастемір, Б. AU - Маликова, Ф.У. AU - Айтбаева, Р.Б. PY - 2022/06/15 Y2 - 2024/03/28 TI - ЭЛЕКТРОНДЫҚ ПОШТА СПАМДЫ СҮЗГІЛЕУГЕ АРНАЛҒАН RANDOM FORESTS МАШИНАЛЫҚ ОҚЫТУ ӘДІСІ JF - Известия НАН РК. Серия физико-математическая JA - СФМН VL - IS - 2 SE - ИНФОРМАТИКА DO - 10.32014/2022.2518-1726.134 UR - https://journals.nauka-nanrk.kz/physics-mathematics/article/view/3100 SP - 130-141 AB - <p>Спам по электронной почте является одной из основных проблем, с которыми ежедневно сталкивается каждый пользователь электронной почты в мире. Ежедневно пользователи электронной почты получают сотни спам-писем нового содержания с анонимных адресов, которые автоматически генерируются программными агентами-роботами. Традиционные методы фильтрации спама, такие как использование черных и белых списков (домены, IP-адреса, почтовые адреса), оказались совершенно неэффективными в снижении угрозы спам-сообщений. Это привело к необходимости изобретения высоконадежных фильтров электронной почты для спама. В последнее время подход машинного обучения успешно применяется для обнаружения и фильтрации спам-писем. В этой статье предлагается использовать алгоритм машинного обучения случайного леса для эффективной классификации спам-сообщений электронной почты. Основная цель — разработать спам-фильтр электронной почты с большей точностью предсказания и меньшим количеством функций. Из общедоступного набора данных Enron, состоящего из 5180 электронных писем, как спама, так и обычных писем, был извлечен набор характерных признаков спама (из литературы), которые были применены с помощью алгоритма случайных лесов с результирующей точностью классификации 99,92%, очень низкой. ложноположительный результат (0,01) и очень высокий истинно положительный уровень 0,999. Все эксперименты проводятся в среде моделирования интеллектуального анализа данных и машинного обучения WEKA. Большинство существующих методов фильтрации спама в электронной почте неэффективно справляются с частью ежедневно рассылаемого спамерами спама. Это связано с тем, что спамеры продолжают изобретать более изощренные способы избежать обнаружения с помощью спам-фильтров. С постоянным использованием спамерами новых методов фильтрация электронной почты от спама стала горячей областью исследований для исследователей. В этом исследовании мы предложили алгоритм Random Forests для эффективной и действенной фильтрации спама в электронной почте. Чтобы определить эффективность и действенность алгоритма, Enron оценила производительность алгоритма RFs в наборе данных о спаме, используя точность, TPR, FPR, точность и F-размер. В заключение мы скажем, что RF является многообещающим алгоритмом, который можно использовать на почтовом сервере или на стороне почтового клиента для дальнейшего уменьшения количества спам-сообщений в папке входящих сообщений пользователей электронной почты.</p> ER -