КЛАСТЕРЛЕУ ӘДІСІН ҚОЛДАНЫП КОРЕФЕРЕНЦИЯН ШЕШУ
DOI:
https://doi.org/10.32014/2023.2518-1726.173Ключевые слова:
кореференция, кластеризация, томита-парсер,анафора,Аннотация
В настоящее время обработка естественного языка, в том числе обработка референтных отношений, стала самой сложной и интересной темой. Одним из таких процессов обработки является извлечение референтных отношений внутри предложения.
Разрешение ссылки, которое часто происходит как разрешение референции, является вопросом разрешения ссылок на более ранние или более поздние элементы в дискурсе. решение обращения заключается в поиске текста, обобщении текста, интерпретации диалогов, получении информации и т. д. такая активная область исследований.
В лингвистике референция — это сопоставление текстового выражения с каким-либо неязыковым объектом и событием в реальном или абстрактном мире. Традиционная лингвистика рассматривает два основных класса опорных словосочетаний: лексические полные формы (именные словосочетания и т. д.) и сокращенные формы (например, местоимения, опорные местоимения, классификационные местоимения, личные местоимения). Задача разрешения ссылок состоит в том, чтобы идентифицировать конкретную текстовую ссылку на конкретный неязыковой объект с другими ссылками в этом тексте. Определение референциальных отношений в языкознании давно изучается для других языков, но по казахскому языку исследований еще очень мало. Учитывая эти вопросы, мы поставили цель решить референтные отношения в казахском языке.
В данной статье мы рассматриваем решение отношения кореферентности в казахском языке методом кластеризации. Целью изучаемой системы здесь является решение кореферентных отношений в казахском языке, то есть кластеризация личных имен, связанных с лицами (Тип лица). Другими словами, задача состоит в том, чтобы соединить в тексте все части имени (то есть звание, имя, фамилию, отчество каждого лица, упомянутого в тексте).
Для достижения цели мы использовали томита-парсер, словарь ключевых слов, грамматику для извлечения полного имени, грамматику для извлечения названий словарей, кластеризацию, парную модель, вектор признаков (Вектор призников), вектор парных весов.
Наш алгоритм состоит из двух этапов: первый этап, запись грамматик в парсер Tomita-parser (томита-парсер) для извлечения именованных объектов. На втором этапе использование кластеризации для объединения именованных объектов по их значению (архитектура работы представлена на рисунке 1).
Для реализации созданного алгоритма в качестве тестового набора данных мы использовали подборку новостей Tengrinews.kz.
Производительность алгоритма оценивалась с использованием традиционных метрик оценки, где алгоритмы tomita-parser и кластеризации оценивались по отдельности, а результаты представлялись в табличной форме. Полученные результаты по сравнению с другими методами, алгоритм tomita-parser составил 0,87%, а алгоритм кластеризации 0,81%, результаты были сведены в таблицу (представлены в Таблице 3 и Таблице 4).