ҚАЗАҚ ЖӘНЕ ОРЫС ТІЛДЕРІНДЕГІ ЖАЛҒАН ЖАҢАЛЫҚТАРДЫ TF-IDF АРҚЫЛЫ АНЫҚТАУ

У.А. Марасулов; Г. Казбекова

doi:10.32014/2026.2518-1726.439

Авторы

Марасулов У.А. PhD докторант, Қожа Ахмет Ясауи атындағы Халықаралық қазақ-түрік университеті, Түркістан, Қазақстан
Казбекова Г. кандидат технических наук, ассоциированный профессор, Международный казахско-турецкий университет имени Ходжи Ахмеда Ясави, Туркестан, Казахстан

DOI:

https://doi.org/10.32014/2026.2518-1726.439

Ключевые слова:

ложные новости, дезинформация, казахский язык, русский язык, TF-IDF, машинное обучение, кросс-языковая классификация.

Аннотация

Автоматическое распознавание ложных новостей становится значимой прикладной задачей обработки естественного языка в условиях быстрого распространения цифрового контента. Для казахского языка эта задача осложняется нехваткой открытых размеченных корпусов и ограниченной адаптацией готовых моделей к локальному медиаконтексту. В статье рассматривается сбалансированный казахско-русский набор данных fake/real, включающий 1808 текстов: по 452 fake и 452 real текста на каждом языке. Экспериментальная схема охватывает билингвальное обучение, отдельные казахский и русский режимы, а также перенос с казахского на русский и с русского на казахский. В качестве признаков использованы word-level и character-level TF-IDF, а в качестве классификаторов применены Logistic Regression, Linear SVM и Complement Naive Bayes. В одноязычных и билингвальном сценариях Macro-F1 достигал 0,985. При кросс-языковой оценке выявлена асимметрия: перенос с казахского на русский дал Macro-F1 = 0,654, тогда как перенос с русского на казахский достиг Macro-F1 = 0,926. Полученные результаты интерпретируются как объяснимый baseline для казахско-русской классификации fake/real с учетом возможных source, topic и temporal bias.

ВЫЯВЛЕНИЕ ЛОЖНЫХ НОВОСТЕЙ НА КАЗАХСКОМ И РУССКОМ ЯЗЫКАХ TF-IDF-МОДЕЛЯМИ

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

flags

menu