Content uploaded by Vadym Slyusar
Author content
All content in this area was uploaded by Vadym Slyusar on Nov 15, 2020
Content may be subject to copyright.
Секція 3 ОБРОБКА ПРИРОДНОЇ МОВИ НА ОСНОВІ ТОРЦЕВОГО
ДОБУТКУ МАТРИЦЬ
Слюсар В. І.
Центральний науково-дослідний інститут озброєння та військової техніки
Збройних Сил України
Київ, Україна
Одним з напрямів застосування штучного інтелекту є обробка природної
мови (Natural Language Processing, NLP) [1], зокрема аналіз текстів. Ця сфера
отримала подальший розвиток завдяки застосуванню запропонованого
автором у 1996 р. торцевого добутку матриць [2].
Метою доповіді є розгляд особливостей використання торцевого
добутку для визначення кількості різних словосполучень в аналізованому
фрагменті тексту.
В основі пропонованого підходу лежить використання матриці
інцидентності G, рядки якої відповідають конкретному реченню, а стовпці -
окремо взятому слову з текста [1]. Для аналізу парних словосполучень
пропонується застосувати модифікацію матриці інцидентності, сформовану
як торцевий добуток двох вихідних матриць G. При цьому елементи рядків
отриманої матриці свідчать, скільки раз та чи інша пара слів зустрічається в
конкретному реченні. Квадратична форма, яка утворена з модифікованої на
основі торцевого добутку матриці інцидентності, надає інформацію про
розподіл не тільки пар слів, а й їх трійок та квартетних словосполучень.
Подальше розширення функціональних можливостей обробки тексту в
даному контексті завдань пропонується отримати завдяки переходу до
потрійного торцевого добутку матриць інцидентності G та його квадратичної
форми. Це дозволяє охопити в одному словосполученні максимальну
комбінацію з 6 слів або відстежити присутність у тексті двох різних трійок
слів (триграм) чи трьох пар слів (біграм).
В якості узагальнення слід зробити висновок, що максимальна кількість
слів N, яка доступна для аналізу за допомогою квадратичних форм від
торцевих добутків матриць G, дорівнює подвоєній кількості співмножників S
в торцевому добутку первинних матриць інцидентності (N=2S). При цьому
торцевий добуток дозволяє зменшити обсяг обчислень.
Список літератури
1. Bryan Bischof. Higher order co-occurrence tensors for hypergraphs via face-
splitting. Published 15 February, 2020, Mathematics, Computer Science, -
https://arxiv.org/abs/2002.06285 ArXiv
2. Слюсар В.И. Торцевые произведения матриц в радиолокационных приложе-
ниях// Известия высших учебных заведений. Радиоэлектроника.- 1998. - Том 41, № 3.-
С. 71 - 75.