@article{Gulzhamal_М.Ғ. Есмағанбет_М.М. Жаманкарин_А.И. Габдулина_Д.В. Плескачев_2023, title={КЛАСТЕРЛЕУ ӘДІСІН ҚОЛДАНЫП КОРЕФЕРЕНЦИЯН ШЕШУ}, url={https://journals.nauka-nanrk.kz/physics-mathematics/article/view/4957}, DOI={10.32014/2023.2518-1726.173}, abstractNote={<p>В настоящее время обработка естественного языка, в том числе обработка референтных отношений, стала самой сложной и интересной темой. Одним из таких процессов обработки является извлечение референтных отношений внутри предложения.</p> <p>Разрешение ссылки, которое часто происходит как разрешение референции, является вопросом разрешения ссылок на более ранние или более поздние элементы в дискурсе. решение обращения заключается в поиске текста, обобщении текста, интерпретации диалогов, получении информации и т. д. такая активная область исследований.</p> <p>В лингвистике референция — это сопоставление текстового выражения с каким-либо неязыковым объектом и событием в реальном или абстрактном мире. Традиционная лингвистика рассматривает два основных класса опорных словосочетаний: лексические полные формы (именные словосочетания и т. д.) и сокращенные формы (например, местоимения, опорные местоимения, классификационные местоимения, личные местоимения). Задача разрешения ссылок состоит в том, чтобы идентифицировать конкретную текстовую ссылку на конкретный неязыковой объект с другими ссылками в этом тексте. Определение референциальных отношений в языкознании давно изучается для других языков, но по казахскому языку исследований еще очень мало. Учитывая эти вопросы, мы поставили цель решить референтные отношения в казахском языке.</p> <p> </p> <p>В данной статье мы рассматриваем решение отношения кореферентности в казахском языке методом кластеризации. Целью изучаемой системы здесь является решение кореферентных отношений в казахском языке, то есть кластеризация личных имен, связанных с лицами (Тип лица). Другими словами, задача состоит в том, чтобы соединить в тексте все части имени (то есть звание, имя, фамилию, отчество каждого лица, упомянутого в тексте).</p> <p>Для достижения цели мы использовали томита-парсер, словарь ключевых слов, грамматику для извлечения полного имени, грамматику для извлечения названий словарей, кластеризацию, парную модель, вектор признаков (Вектор призников), вектор парных весов.</p> <p>Наш алгоритм состоит из двух этапов: первый этап, запись грамматик в парсер Tomita-parser (томита-парсер) для извлечения именованных объектов. На втором этапе использование кластеризации для объединения именованных объектов по их значению (архитектура работы представлена ​​на рисунке 1).</p> <p>Для реализации созданного алгоритма в качестве тестового набора данных мы использовали подборку новостей Tengrinews.kz.</p> <p>Производительность алгоритма оценивалась с использованием традиционных метрик оценки, где алгоритмы tomita-parser и кластеризации оценивались по отдельности, а результаты представлялись в табличной форме. Полученные результаты по сравнению с другими методами, алгоритм tomita-parser составил 0,87%, а алгоритм кластеризации 0,81%, результаты были сведены в таблицу (представлены в Таблице 3 и Таблице 4).</p>}, number={1}, journal={Известия НАН РК. Серия физико-математическая}, author={Gulzhamal, Kalman and М.Ғ. Есмағанбет and М.М. Жаманкарин and А.И. Габдулина and Д.В. Плескачев}, year={2023}, month={мар.}, pages={121–135} }