МОДЕЛИРОВАНИЕ ТЕМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ ИНТЕРНЕТА

Авторы

  • А.С. Аканова Казахский агротехнический университет имени С.Сейфуллина
  • А.А. Макашев Казахский агротехнический университет им. С. Сейфуллина, Казахстан
  • С.А. Наурызбаева 1Казахский агротехнический университет им. С. Сейфуллина, Казахстан
  • Н.Н.Оспанова Павлодарский университет имени С. Торайгырова, Казахстан

DOI:

https://doi.org/10.32014/2022.2518-1726.137

Ключевые слова:

веб-парсинг, моделирование, UML, диаграмма, извлечение данных

Аннотация

Процесс подготовки для результативного извлечения данных из Интернета по различным тематикам сталкивается с проблемой структурирования и организации процесса поиска данных и и их извлечения. Для решения данной проблемы можно успешно применить моделирование действий, производимых во время поиска и извлечения информации из Интертнета. Были исследованы веб-парсинги с разных предметных областей, таких как финансовые данные, психологические исследования и другие. Описаны особенности работы веб-парсеров, способы хранения собранных данных. Исследованы понятия применяемые в области извлечения данных с Интернета. Также, в статье говорится о смежных темах, таких как NLP, глубокое и машинное обучение, и как они непосредственно связаны с процессом парсинга. В статье приведена модель поиска и извлечения текста из Интернета, работа программы описывается в виде диаграммы прецедентов и диаграммы активности. Данные диаграммы используются в первоначальном выполнении проекта и описании требований заказчика аналитиком. Для упрощения работы разработчика применяются различные виды диаграмм, но в большинстве случаев удобно использовать выше названные диаграммы для моделирования программного продукта. Также приведена схемаработы метода doc2bow, который используется в машинном обучении при извлечения текста по темам. Также проведен обзор на современные инструменты парсинга, работающие с языком программирования Python. А именно библиотека BeautifulSoup, фреймворк Scrapy и набор инструментов для автоматизации тестирования Selenium. В конечном результате, были построены UML-диаграммы модели, которые подробно показывают процесс веб-парсинга. Представленная модель извлечения данных из Интернета является визуализацией действий производимых приложением. Предлагаемая диаграмма может использоваться при разработке приложений по извлечению данных из Интернет ресурса.

Загрузки

Опубликован

2022-09-30

Как цитировать

Аканова, А., А.А. Макашев, С.А. Наурызбаева, & Н.Н.Оспанова. (2022). МОДЕЛИРОВАНИЕ ТЕМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ ИНТЕРНЕТА . Известия НАН РК. Серия физико-математическая, (3), 5–18. https://doi.org/10.32014/2022.2518-1726.137