МОДЕЛИРОВАНИЕ ТЕМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ ИНТЕРНЕТА
DOI:
https://doi.org/10.32014/2022.2518-1726.137Ключевые слова:
веб-парсинг, моделирование, UML, диаграмма, извлечение данныхАннотация
Процесс подготовки для результативного извлечения данных из Интернета по различным тематикам сталкивается с проблемой структурирования и организации процесса поиска данных и и их извлечения. Для решения данной проблемы можно успешно применить моделирование действий, производимых во время поиска и извлечения информации из Интертнета. Были исследованы веб-парсинги с разных предметных областей, таких как финансовые данные, психологические исследования и другие. Описаны особенности работы веб-парсеров, способы хранения собранных данных. Исследованы понятия применяемые в области извлечения данных с Интернета. Также, в статье говорится о смежных темах, таких как NLP, глубокое и машинное обучение, и как они непосредственно связаны с процессом парсинга. В статье приведена модель поиска и извлечения текста из Интернета, работа программы описывается в виде диаграммы прецедентов и диаграммы активности. Данные диаграммы используются в первоначальном выполнении проекта и описании требований заказчика аналитиком. Для упрощения работы разработчика применяются различные виды диаграмм, но в большинстве случаев удобно использовать выше названные диаграммы для моделирования программного продукта. Также приведена схемаработы метода doc2bow, который используется в машинном обучении при извлечения текста по темам. Также проведен обзор на современные инструменты парсинга, работающие с языком программирования Python. А именно библиотека BeautifulSoup, фреймворк Scrapy и набор инструментов для автоматизации тестирования Selenium. В конечном результате, были построены UML-диаграммы модели, которые подробно показывают процесс веб-парсинга. Представленная модель извлечения данных из Интернета является визуализацией действий производимых приложением. Предлагаемая диаграмма может использоваться при разработке приложений по извлечению данных из Интернет ресурса.