АНАЛИЗ ТЕМАТИЧЕСКИХ КЛАСТЕРОВ ПУБЛИКАЦИЙ СМИ РЕСПУБЛИКИ КАЗАХСТАН ПО ТЕМЕ ПАНДЕМИИ COVID-19
DOI:
https://doi.org/10.32014/2022.2518-1726.151Аннотация
В настоящей работе сформирован корпус документов по данным русскоязычных СМИ Казахстана с помощью автоматического скрапинга. Корпус состоит из 761831 документа , которые относятся к ведущим новостным изданиям страны. Одним из основных инструментов применяемых для анализа крупных корпусов текстов является тематическое моделирование. Наиболее часто для формирования тематической модели исследователи используют так называемое латентное размещение Дирихле (LDA).
Мы использовали ARTM - расширение LDA, отличие которого заключается в применении конфигурируемых регуляризаторов, которые позволяют тонко настроить желаемый результат модели: в том числе уменьшить/увеличить склонность модели к включению слова и/или документа сразу в несколько топиков, изменить склонность модели к большему/меньшему количеству ненулевых весов в итоговой матрице. Анализ результатов показывает, как меняется отношение общества к проблемам COVID-19 в 2021-2022 годах. Во-первых, результаты отражают устойчивую тенденцию снижения интереса электронных СМИ к теме пандемии, хотя и в неравной степени для разных тематических групп. Во-вторых, выявилась тенденция к переносу фокуса внимания на более прагматичные вопросы, такие как вопросы удалённого обучения, удалённой работы, влияния карантинных ограничений на экономику.