РАЗРАБОТКА ДАТАСЕТА ДЛЯ СОЗДАНИЯ БОЛЬШОЙ ЯЗЫКОВОЙ МОДЕЛИ (LLM) ДЛЯ КАЗАХСКОГО ЯЗЫКА

Авторы

  • Базарбек Ж.П. старший преподаватель кафедры Искусственного интеллекта и Big Data КазНУ имени аль-Фараби, Алматы, Казахстан
  • Тойганбаева Н.А. старший преподаватель кафедры Искусственного интеллекта и Big Data КазНУ имени аль-Фараби, Алматы, Казахстан
  • Мансурова М.Е. к.ф.-м.-н., профессор, Заведующая кафедрой Искусственного интеллекта и Big Data КазНУ имени Аль-Фараби, Алматы, Казахстан
  • Сарсембаева Т.С. старший преподаватель кафедры Искусственного интеллекта и Big Data КазНУ имени аль-Фараби, Алматы, Казахстан
  • Сакыпбекова М.Ж. старший преподаватель кафедры Искусственного интеллекта и Big Data КазНУ имени аль-Фараби

DOI:

https://doi.org/10.32014/2025.2518-1726.365

Ключевые слова:

искусственный интеллект, казахский язык, LLM, NLP, OCR, датасет

Аннотация

Эта работа относится к разработке значительного LLM  с учетом его различных морфологических, синтаксических и сортовых признаков. Цель исследования состоит в том, чтобы создать премиум -набор данных DATASET для обучения и улучшения моделей искусственного интеллекта, способных профессионально взаимодействовать с казахскими языковыми текстами. Задача рассматривает важные вопросы, такие как дефицитные лингвистические материалы, различные сценарии и сложную обработку диалекта и письменных манеров. В рамках этой инициативы были построены методы сбора данных и подготовки, включающие OCR Tech для оцифровки текста. Предлагаются методы регуляризации и структурирования информации, наряду с маркировкой для уточнения точности и надежности образовательных алгоритмов. Важно анализировать методологии LLM, такие как Mbert и GPT, и признание их ограничений с казахом, имеет важное значение. Подчеркивая создание исключительных наборов данных для лингвистически ограниченных языков и их основной вклад в эволюцию технологий ИИ. Результаты исследования имеют решающее значение для продвижения использования ИИ в таких секторах, как правительство, образование и торговля, и для улучшения анализа текста языка казахского языка.

Загрузки

Опубликован

2025-09-27

Как цитировать

Базарбек , Ж. ., Тойганбаева, Н., Мансурова, М. ., Сарсембаева, Т., & Сакыпбекова, М. (2025). РАЗРАБОТКА ДАТАСЕТА ДЛЯ СОЗДАНИЯ БОЛЬШОЙ ЯЗЫКОВОЙ МОДЕЛИ (LLM) ДЛЯ КАЗАХСКОГО ЯЗЫКА. Academic Scientific Journal of Computer Science, 355(3), 78–92. https://doi.org/10.32014/2025.2518-1726.365

Выпуск

Раздел

Информационно-коммуникационные технологии