ҚАЗАҚ ТІЛІНЕ АРНАЛҒАН ҮЛКЕН ТІЛ МОДЕЛІН (LLM) ЖАСАУ ҮШІН DATASET ӘЗІРЛЕУ

Ж.П.; Н.А. Тойганбаева; М.Е.  Мансурова; Т.С. Сарсембаева; М.Ж. Сакыпбекова

doi:10.32014/2025.2518-1726.365

Авторы

Базарбек Ж.П. старший преподаватель кафедры Искусственного интеллекта и Big Data КазНУ имени аль-Фараби, Алматы, Казахстан
Тойганбаева Н.А. старший преподаватель кафедры Искусственного интеллекта и Big Data КазНУ имени аль-Фараби, Алматы, Казахстан
Мансурова М.Е. к.ф.-м.-н., профессор, Заведующая кафедрой Искусственного интеллекта и Big Data КазНУ имени Аль-Фараби, Алматы, Казахстан
Сарсембаева Т.С. старший преподаватель кафедры Искусственного интеллекта и Big Data КазНУ имени аль-Фараби, Алматы, Казахстан
Сакыпбекова М.Ж. старший преподаватель кафедры Искусственного интеллекта и Big Data КазНУ имени аль-Фараби

DOI:

https://doi.org/10.32014/2025.2518-1726.365

Ключевые слова:

искусственный интеллект, казахский язык, LLM, NLP, OCR, датасет

Аннотация

Эта работа относится к разработке значительного LLM с учетом его различных морфологических, синтаксических и сортовых признаков. Цель исследования состоит в том, чтобы создать премиум -набор данных DATASET для обучения и улучшения моделей искусственного интеллекта, способных профессионально взаимодействовать с казахскими языковыми текстами. Задача рассматривает важные вопросы, такие как дефицитные лингвистические материалы, различные сценарии и сложную обработку диалекта и письменных манеров. В рамках этой инициативы были построены методы сбора данных и подготовки, включающие OCR Tech для оцифровки текста. Предлагаются методы регуляризации и структурирования информации, наряду с маркировкой для уточнения точности и надежности образовательных алгоритмов. Важно анализировать методологии LLM, такие как Mbert и GPT, и признание их ограничений с казахом, имеет важное значение. Подчеркивая создание исключительных наборов данных для лингвистически ограниченных языков и их основной вклад в эволюцию технологий ИИ. Результаты исследования имеют решающее значение для продвижения использования ИИ в таких секторах, как правительство, образование и торговля, и для улучшения анализа текста языка казахского языка.

РАЗРАБОТКА ДАТАСЕТА ДЛЯ СОЗДАНИЯ БОЛЬШОЙ ЯЗЫКОВОЙ МОДЕЛИ (LLM) ДЛЯ КАЗАХСКОГО ЯЗЫКА

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

flags

menu