IDENTIFICATION OF MALICIOUS DATA IN THE INFORMATION NETWORK BY USING THE STACKING METHOD
DOI:
https://doi.org/10.32014/2023.2518-1726.210Ключевые слова:
информационная безопасность, машинное обучение, стекинг алгоритмов, сетевой трафик, NSL-KDDАннотация
Информационная безопасность сейчас как никогда актуальна,
а информация теперь так же ценна для преступников, как и наше физическое
имущество. Мотивы злоумышленника могут включать кражу информации,
получение финансовой выгоды, шпионаж или саботаж. Организации должны
выделять средства на обеспечение безопасности и быть готовыми к
обнаружению,
реагированию и упреждающему предотвращению таких атак,
как фишинг, вредоносное программное обеспечение, вирусы, вредоносные
инсайдеры
и программы ― вымогатели. Поскольку количество киберугроз
быстро растет, организации не могут подготовиться ко всем из них.
Зачастую, имеющихся систем обеспечения информационной безопасности
недостаточно для выявления новых видов атак и уязвимостей. Необходимо
доукомплектовывать
существующие системы безопасности новыми интеллектуальными
решениями. В данной работе предлагается подход к решению
проблемы выявления вредоносного трафика в сетях передачи данных,
основанный
на обработке полученных кортежей информационных последовательностей
сетевых пакетов ансамблевым методом классификации
– стекингом
алгоритмов машинного обучения. Подход не требует специальной
подготовки данных и полученные ошибки классификации отдельных
алгоритмов сглаживаются решением метаклассификатора. Предложенное
решение с целью повышения показателей точности и полноты
выявления диструктивных воздействий дает возможность использовать
оптимизированные
для разных типов аномалий свои алгоритмы классификации,
которые обучены на собственных подмножествах данных, представленных
в виде кортежа значений информационных последовательностей
сетевых
пакетов. Приведено описание эксперимента с использованием классификаторов
машинного обучения Naïve Bayes, Hoeffding Tree, Random Tree, REP Tree и
J48. Оценка производилась с использованием классификаторов в отдельности
и с применением стекинга, в основе которого были использованы те же
классификаторы. Экспериментальные результаты получены на публичном
наборе данных NSL-KDD. Программная реализация подхода как полноценного
интеллектуального решения позволит более эффективно выявлять
диструктивные воздействия. Подход может быть применим как дополнение к
существующим системам мониторинга организаций, связанных с обработкой
сетевого трафика. Существенными преимуществами подхода является его
универсальность для различных технологий и систем обработки данных,
целью которых является точная классификация данных и масштабируемость
путем применения дополнительных алгоритмов сверх используемых в подходе.