МАШИНАЛЫҚ ОҚЫТУ ӘДІСТЕРІНЕ НЕГІЗДЕЛГЕН АНАФОРАНЫ ШЕШУ МОДЕЛЬІ

Kalman Gulzhamal; М.А.  Самбетбаева; Д.А.  Актаева; А.С.  Илюбаев

doi:10.32014/2022.2518-1726.156

Авторы

Kalman Gulzhamal ENU
М.А. Самбетбаева Л.Н. Гумилев атындағы Еуразиялық ұлттық университеті, Астана, Казақстан
Д.А. Актаева Абай Мырзахметов атындағы Көкшетау университеті, Көкшетау, Казақстан
А.С. Илюбаев Абай Мырзахметов атындағы Көкшетау университеті, Көкшетау, Казақстан

DOI:

https://doi.org/10.32014/2022.2518-1726.156

Аннотация

В настоящее время разрешение референций является одной из самых сложных и до сих пор не до конца решенных проблем в естественном языке, несмотря на это, обсуждаются и исследуются работы многих лингвистов и исследователей, требующих проектирования полных моделей разрешения референций.

В частности, одной из актуальных задач, стоящих перед компьютерной лингвистикой, является выделение информации о различных объектах: людях, организациях, событиях, местах и т. д., а также о связях между ними в текстовых документах. Каждый информационный объект соответствует определенному отношению области понятия/дисциплины и имеет определенную структуру. Можно предположить, что в будущем обработка текстов будет осуществляться в рамках определенной информационной системы, ограниченной и четко описанной на определенном официальном языке. Важными элементами автоматической обработки текста являются установление анафорических связей и выявление разных названий одного и того же объекта, например, какого-либо объекта, организации, лица и т. д., упоминаемых несколько раз в определенном контексте.

В данной исследовательской работе была предложена модель решения анафорических отношений в казахском языке на основе методов машинного обучения. Мы использовали алгоритмы классификации, учитывающие основные лингвистические особенности казахского языка. Машинное обучение использовало машины опорных векторов (SVM) и библиотеку Libsvm.

Основная идея SVM состоит в том, чтобы разместить гиперплоскость на плоскости принятия решений, изолируя положительные экземпляры и отрицательные экземпляры для достижения максимальной маргинализации.

Было проведено несколько экспериментов для сравнения результатов исследований. В качестве набора тестовых данных мы использовали подборку новостей Tengrinews.kz и выдержки из рассказов Г. Мустафина. Для сравнения результатов экспериментов были получены результаты, представленные в таблице 2.

Полученные результаты подтвердили эффективность предложенной модели для решения поставленных задач.

МАШИНАЛЫҚ ОҚЫТУ ӘДІСТЕРІНЕ НЕГІЗДЕЛГЕН АНАФОРАНЫ ШЕШУ МОДЕЛЬІ

Авторы

DOI:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

flags

menu