РАЗРАБОТКА ДАТАСЕТА ДЛЯ СОЗДАНИЯ БОЛЬШОЙ ЯЗЫКОВОЙ МОДЕЛИ (LLM) ДЛЯ КАЗАХСКОГО ЯЗЫКА
DOI:
https://doi.org/10.32014/2025.2518-1726.365Ключевые слова:
искусственный интеллект, казахский язык, LLM, NLP, OCR, датасетАннотация
Эта работа относится к разработке значительного LLM с учетом его различных морфологических, синтаксических и сортовых признаков. Цель исследования состоит в том, чтобы создать премиум -набор данных DATASET для обучения и улучшения моделей искусственного интеллекта, способных профессионально взаимодействовать с казахскими языковыми текстами. Задача рассматривает важные вопросы, такие как дефицитные лингвистические материалы, различные сценарии и сложную обработку диалекта и письменных манеров. В рамках этой инициативы были построены методы сбора данных и подготовки, включающие OCR Tech для оцифровки текста. Предлагаются методы регуляризации и структурирования информации, наряду с маркировкой для уточнения точности и надежности образовательных алгоритмов. Важно анализировать методологии LLM, такие как Mbert и GPT, и признание их ограничений с казахом, имеет важное значение. Подчеркивая создание исключительных наборов данных для лингвистически ограниченных языков и их основной вклад в эволюцию технологий ИИ. Результаты исследования имеют решающее значение для продвижения использования ИИ в таких секторах, как правительство, образование и торговля, и для улучшения анализа текста языка казахского языка.




