РАЗРАБОТКА МОДУЛЬНОГО СЕРВИСА АНАЛИЗА ПЕРЕПИСОК НА ОСНОВЕ NLP ДЛЯ ЦИФРОВОЙ КРИМИНАЛИСТИКИ
DOI:
https://doi.org/10.32014/2025.2518-1726.354Ключевые слова:
цифровая криминалистика, трансформерные модели, семантический поиск, многоязычное NLP, обнаружение небезопасного контентаАннотация
В данной работе представлена разработка инновационной системы анализа переписок, предназначенной для цифровой криминалистики. Данный сервис использует технологии искусственного интеллекта, включая модели на базе трансформерной архитектуры и векторную базу данных, что позволяет анализировать текстовые сообщения с учетом их семантического значения, независимо от формулировки или языка. Внедрение автоматизированного перевода сообщений и детекция небезопасного контента существенно расширяют возможности аналитиков при проведении судебных расследований.
Предложенный метод поиска сообщений опирается на векторные представления текста и позволяет находить информацию не только по ключевым словам, но и по контексту, включая перефразированные формулировки. Дополнительно система поддерживает фильтрацию сообщений по метаданным, таким как отправитель, получатель, временные метки, геолокация и статус сообщения. Это существенно повышает точность и эффективность криминалистических анализов, позволяя сузить область поиска и оперативно выявлять критически важные сведения.
Для оценки эффективности системы были проведены эксперименты на синтетическом наборе данных, содержащем 7448 сообщений с различными метаданными. Результаты тестирования подтвердили точность поиска и идентификации небезопасного контента, а также продемонстрировали высокую производительность системы при обработке запросов в многоязычных наборах данных.
Отличительной особенностью разработанного модуля является интеграция инструментов визуализации данных, позволяющая выявлять основные коммуникационные тренды и динамику распространения сообщений, что дополнительно упрощает интерпретацию данных в ходе расследования.
Таким образом, предложенная система анализа переписок представляет собой эффективное решение для цифровой криминалистики, позволяющее быстро и точно анализировать большие объемы текстовых данных. Разработанный инструмент сочетает в себе масштабируемость, семантический поиск, возможность межъязыкового взаимодействия и детекцию небезопасного контента, что делает его перспективным для применения в правоохранительных органах и других сферах, требующих глубокой аналитики текстовой информации.