TY  - JOUR
AU  - Тастемір, Б.
AU  - Маликова, Ф.У.
AU  - Айтбаева, Р.Б.
PY  - 2022/06/15
Y2  - 2024/07/26
TI  - ЭЛЕКТРОНДЫҚ ПОШТА СПАМДЫ СҮЗГІЛЕУГЕ АРНАЛҒАН RANDOM FORESTS МАШИНАЛЫҚ ОҚЫТУ ӘДІСІ
JF  - Известия НАН РК. Серия  физико-математическая
JA  - СФМН
VL  - 
IS  - 2
SE  - ИНФОРМАТИКА
DO  - 10.32014/2022.2518-1726.134
UR  - https://journals.nauka-nanrk.kz/physics-mathematics/article/view/3100
SP  - 130-141
AB  - &lt;p&gt;Спам по электронной почте является одной из основных проблем, с которыми ежедневно сталкивается каждый пользователь электронной почты в мире. Ежедневно пользователи электронной почты получают сотни спам-писем нового содержания с анонимных адресов, которые автоматически генерируются программными агентами-роботами. Традиционные методы фильтрации спама, такие как использование черных и белых списков (домены, IP-адреса, почтовые адреса), оказались совершенно неэффективными в снижении угрозы спам-сообщений. Это привело к необходимости изобретения высоконадежных фильтров электронной почты для спама. В последнее время подход машинного обучения успешно применяется для обнаружения и фильтрации спам-писем. В этой статье предлагается использовать алгоритм машинного обучения случайного леса для эффективной классификации спам-сообщений электронной почты. Основная цель — разработать спам-фильтр электронной почты с большей точностью предсказания и меньшим количеством функций. Из общедоступного набора данных Enron, состоящего из 5180 электронных писем, как спама, так и обычных писем, был извлечен набор характерных признаков спама (из литературы), которые были применены с помощью алгоритма случайных лесов с результирующей точностью классификации 99,92%, очень низкой. ложноположительный результат (0,01) и очень высокий истинно положительный уровень 0,999. Все эксперименты проводятся в среде моделирования интеллектуального анализа данных и машинного обучения WEKA. Большинство существующих методов фильтрации спама в электронной почте неэффективно справляются с частью ежедневно рассылаемого спамерами спама. Это связано с тем, что спамеры продолжают изобретать более изощренные способы избежать обнаружения с помощью спам-фильтров. С постоянным использованием спамерами новых методов фильтрация электронной почты от спама стала горячей областью исследований для исследователей. В этом исследовании мы предложили алгоритм Random Forests для эффективной и действенной фильтрации спама в электронной почте. Чтобы определить эффективность и действенность алгоритма, Enron оценила производительность алгоритма RFs в наборе данных о спаме, используя точность, TPR, FPR, точность и F-размер. В заключение мы скажем, что RF является многообещающим алгоритмом, который можно использовать на почтовом сервере или на стороне почтового клиента для дальнейшего уменьшения количества спам-сообщений в папке входящих сообщений пользователей электронной почты.&lt;/p&gt;
ER  -