ЭЛЕКТРОНДЫҚ ПОШТА СПАМДЫ СҮЗГІЛЕУГЕ АРНАЛҒАН RANDOM FORESTS МАШИНАЛЫҚ ОҚЫТУ ӘДІСІ
DOI:
https://doi.org/10.32014/2022.2518-1726.134Ключевые слова:
машиналық оқыту, спамды сүзу, кездейсоқ ормандар, нейрондық желілер, тірек векторлық Машиналар, аңғал БайесАннотация
Спам по электронной почте является одной из основных проблем, с которыми ежедневно сталкивается каждый пользователь электронной почты в мире. Ежедневно пользователи электронной почты получают сотни спам-писем нового содержания с анонимных адресов, которые автоматически генерируются программными агентами-роботами. Традиционные методы фильтрации спама, такие как использование черных и белых списков (домены, IP-адреса, почтовые адреса), оказались совершенно неэффективными в снижении угрозы спам-сообщений. Это привело к необходимости изобретения высоконадежных фильтров электронной почты для спама. В последнее время подход машинного обучения успешно применяется для обнаружения и фильтрации спам-писем. В этой статье предлагается использовать алгоритм машинного обучения случайного леса для эффективной классификации спам-сообщений электронной почты. Основная цель — разработать спам-фильтр электронной почты с большей точностью предсказания и меньшим количеством функций. Из общедоступного набора данных Enron, состоящего из 5180 электронных писем, как спама, так и обычных писем, был извлечен набор характерных признаков спама (из литературы), которые были применены с помощью алгоритма случайных лесов с результирующей точностью классификации 99,92%, очень низкой. ложноположительный результат (0,01) и очень высокий истинно положительный уровень 0,999. Все эксперименты проводятся в среде моделирования интеллектуального анализа данных и машинного обучения WEKA. Большинство существующих методов фильтрации спама в электронной почте неэффективно справляются с частью ежедневно рассылаемого спамерами спама. Это связано с тем, что спамеры продолжают изобретать более изощренные способы избежать обнаружения с помощью спам-фильтров. С постоянным использованием спамерами новых методов фильтрация электронной почты от спама стала горячей областью исследований для исследователей. В этом исследовании мы предложили алгоритм Random Forests для эффективной и действенной фильтрации спама в электронной почте. Чтобы определить эффективность и действенность алгоритма, Enron оценила производительность алгоритма RFs в наборе данных о спаме, используя точность, TPR, FPR, точность и F-размер. В заключение мы скажем, что RF является многообещающим алгоритмом, который можно использовать на почтовом сервере или на стороне почтового клиента для дальнейшего уменьшения количества спам-сообщений в папке входящих сообщений пользователей электронной почты.