PreprintPDF Available

Обробка природної мови на основі торцевого добутку матриць

Authors:
  • Central Scientific Research Insitute of Armaments and Military Equipment of Armed Forces of Ukraine

Abstract

In this paper the method of the face-splitting product of matrices for NLP is considered.
Секція 3 ОБРОБКА ПРИРОДНОЇ МОВИ НА ОСНОВІ ТОРЦЕВОГО
ДОБУТКУ МАТРИЦЬ
Слюсар В. І.
Центральний науково-дослідний інститут озброєння та військової техніки
Збройних Сил України
Київ, Україна
Одним з напрямів застосування штучного інтелекту є обробка природної
мови (Natural Language Processing, NLP) [1], зокрема аналіз текстів. Ця сфера
отримала подальший розвиток завдяки застосуванню запропонованого
автором у 1996 р. торцевого добутку матриць [2].
Метою доповіді є розгляд особливостей використання торцевого
добутку для визначення кількості різних словосполучень в аналізованому
фрагменті тексту.
В основі пропонованого підходу лежить використання матриці
інцидентності G, рядки якої відповідають конкретному реченню, а стовпці -
окремо взятому слову з текста [1]. Для аналізу парних словосполучень
пропонується застосувати модифікацію матриці інцидентності, сформовану
як торцевий добуток двох вихідних матриць G. При цьому елементи рядків
отриманої матриці свідчать, скільки раз та чи інша пара слів зустрічається в
конкретному реченні. Квадратична форма, яка утворена з модифікованої на
основі торцевого добутку матриці інцидентності, надає інформацію про
розподіл не тільки пар слів, а й їх трійок та квартетних словосполучень.
Подальше розширення функціональних можливостей обробки тексту в
даному контексті завдань пропонується отримати завдяки переходу до
потрійного торцевого добутку матриць інцидентності G та його квадратичної
форми. Це дозволяє охопити в одному словосполученні максимальну
комбінацію з 6 слів або відстежити присутність у тексті двох різних трійок
слів (триграм) чи трьох пар слів (біграм).
В якості узагальнення слід зробити висновок, що максимальна кількість
слів N, яка доступна для аналізу за допомогою квадратичних форм від
торцевих добутків матриць G, дорівнює подвоєній кількості співмножників S
в торцевому добутку первинних матриць інцидентності (N=2S). При цьому
торцевий добуток дозволяє зменшити обсяг обчислень.
Список літератури
1. Bryan Bischof. Higher order co-occurrence tensors for hypergraphs via face-
splitting. Published 15 February, 2020, Mathematics, Computer Science, -
https://arxiv.org/abs/2002.06285 ArXiv
2. Слюсар В.И. Торцевые произведения матриц в радиолокационных приложе-
ниях// Известия высших учебных заведений. Радиоэлектроника.- 1998. - Том 41, № 3.-
С. 71 - 75.
ResearchGate has not been able to resolve any citations for this publication.
ResearchGate has not been able to resolve any references for this publication.