ВЫЯВЛЕНИЕ ЛОЖНЫХ НОВОСТЕЙ НА КАЗАХСКОМ И РУССКОМ ЯЗЫКАХ TF-IDF-МОДЕЛЯМИ
DOI:
https://doi.org/10.32014/2026.2518-1726.439Ключевые слова:
ложные новости, дезинформация, казахский язык, русский язык, TF-IDF, машинное обучение, кросс-языковая классификация.Аннотация
Автоматическое распознавание ложных новостей становится значимой прикладной задачей обработки естественного языка в условиях быстрого распространения цифрового контента. Для казахского языка эта задача осложняется нехваткой открытых размеченных корпусов и ограниченной адаптацией готовых моделей к локальному медиаконтексту. В статье рассматривается сбалансированный казахско-русский набор данных fake/real, включающий 1808 текстов: по 452 fake и 452 real текста на каждом языке. Экспериментальная схема охватывает билингвальное обучение, отдельные казахский и русский режимы, а также перенос с казахского на русский и с русского на казахский. В качестве признаков использованы word-level и character-level TF-IDF, а в качестве классификаторов применены Logistic Regression, Linear SVM и Complement Naive Bayes. В одноязычных и билингвальном сценариях Macro-F1 достигал 0,985. При кросс-языковой оценке выявлена асимметрия: перенос с казахского на русский дал Macro-F1 = 0,654, тогда как перенос с русского на казахский достиг Macro-F1 = 0,926. Полученные результаты интерпретируются как объяснимый baseline для казахско-русской классификации fake/real с учетом возможных source, topic и temporal bias.




