МАШИНАЛЫҚ ОҚЫТУ ӘДІСТЕРІНЕ НЕГІЗДЕЛГЕН АНАФОРАНЫ ШЕШУ МОДЕЛЬІ
DOI:
https://doi.org/10.32014/2022.2518-1726.156Аннотация
В настоящее время разрешение референций является одной из самых сложных и до сих пор не до конца решенных проблем в естественном языке, несмотря на это, обсуждаются и исследуются работы многих лингвистов и исследователей, требующих проектирования полных моделей разрешения референций.
В частности, одной из актуальных задач, стоящих перед компьютерной лингвистикой, является выделение информации о различных объектах: людях, организациях, событиях, местах и т. д., а также о связях между ними в текстовых документах. Каждый информационный объект соответствует определенному отношению области понятия/дисциплины и имеет определенную структуру. Можно предположить, что в будущем обработка текстов будет осуществляться в рамках определенной информационной системы, ограниченной и четко описанной на определенном официальном языке. Важными элементами автоматической обработки текста являются установление анафорических связей и выявление разных названий одного и того же объекта, например, какого-либо объекта, организации, лица и т. д., упоминаемых несколько раз в определенном контексте.
В данной исследовательской работе была предложена модель решения анафорических отношений в казахском языке на основе методов машинного обучения. Мы использовали алгоритмы классификации, учитывающие основные лингвистические особенности казахского языка. Машинное обучение использовало машины опорных векторов (SVM) и библиотеку Libsvm.
Основная идея SVM состоит в том, чтобы разместить гиперплоскость на плоскости принятия решений, изолируя положительные экземпляры и отрицательные экземпляры для достижения максимальной маргинализации.
Было проведено несколько экспериментов для сравнения результатов исследований. В качестве набора тестовых данных мы использовали подборку новостей Tengrinews.kz и выдержки из рассказов Г. Мустафина. Для сравнения результатов экспериментов были получены результаты, представленные в таблице 2.
Полученные результаты подтвердили эффективность предложенной модели для решения поставленных задач.