МОДЕЛИРОВАНИЕ ТЕМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ ИНТЕРНЕТА

Акерке Аканова; А.А. Макашев; С.А. Наурызбаева; Н.Н.Оспанова

doi:10.32014/2022.2518-1726.137

Авторы

А.С. Аканова Казахский агротехнический университет имени С.Сейфуллина
А.А. Макашев Казахский агротехнический университет им. С. Сейфуллина, Казахстан
С.А. Наурызбаева 1Казахский агротехнический университет им. С. Сейфуллина, Казахстан
Н.Н.Оспанова Павлодарский университет имени С. Торайгырова, Казахстан

DOI:

https://doi.org/10.32014/2022.2518-1726.137

Ключевые слова:

веб-парсинг, моделирование, UML, диаграмма, извлечение данных

Аннотация

Процесс подготовки для результативного извлечения данных из Интернета по различным тематикам сталкивается с проблемой структурирования и организации процесса поиска данных и и их извлечения. Для решения данной проблемы можно успешно применить моделирование действий, производимых во время поиска и извлечения информации из Интертнета. Были исследованы веб-парсинги с разных предметных областей, таких как финансовые данные, психологические исследования и другие. Описаны особенности работы веб-парсеров, способы хранения собранных данных. Исследованы понятия применяемые в области извлечения данных с Интернета. Также, в статье говорится о смежных темах, таких как NLP, глубокое и машинное обучение, и как они непосредственно связаны с процессом парсинга. В статье приведена модель поиска и извлечения текста из Интернета, работа программы описывается в виде диаграммы прецедентов и диаграммы активности. Данные диаграммы используются в первоначальном выполнении проекта и описании требований заказчика аналитиком. Для упрощения работы разработчика применяются различные виды диаграмм, но в большинстве случаев удобно использовать выше названные диаграммы для моделирования программного продукта. Также приведена схемаработы метода doc2bow, который используется в машинном обучении при извлечения текста по темам. Также проведен обзор на современные инструменты парсинга, работающие с языком программирования Python. А именно библиотека BeautifulSoup, фреймворк Scrapy и набор инструментов для автоматизации тестирования Selenium. В конечном результате, были построены UML-диаграммы модели, которые подробно показывают процесс веб-парсинга. Представленная модель извлечения данных из Интернета является визуализацией действий производимых приложением. Предлагаемая диаграмма может использоваться при разработке приложений по извлечению данных из Интернет ресурса.

МОДЕЛИРОВАНИЕ ТЕМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ ИНТЕРНЕТА

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

flags

menu