МЕТОД АУГМЕНТАЦІЇ ТЕКСТІВ ПРО СТАН МАСИВІВ ВОД НА ОСНОВІ ІНТЕЛЕКТУАЛЬНОЇ ПРИВ’ЯЗКИ ДО БАГАТОЗВ’ЯЗНИХ ГЕОІНФОРМАЦІЙНИХ СИСТЕМ ІМЕНОВАНИХ СУТНОСТЕЙ

Автор(и)

  • В. Б. Мокін Вінницький національний технічний університет
  • К. О. Бондалєтов Вінницький національний технічний університет
  • Є. М. Крижановський Вінницький національний технічний університет
  • В. О. Караваєв Вінницький національний технічний університет

DOI:

https://doi.org/10.31649/1997-9266-2023-168-3-55-65

Ключові слова:

аугментація текстів, іменовані сутності, просторові дані, багатозв’язні геоінформаційні системи, аналітична веб-система, інтелектуальна технологія, оброблення природномовного тексту

Анотація

Досліджено аугментацію україномовних текстів про стан масивів поверхневих вод басейну річки для тренування інтелектуальних моделей машинного навчання, які повинні автоматично розмічати ці тексти, тобто прив’язувати у просторі й часі та здійснювати їхню класифікацію.

Охарактеризовано стан створення авторами статті системи «Водна інформаційна система з просторовою і часовою прив’язкою для басейну Південного Бугу» («WISEST Southern Bug Basin» — «WISEST-SBB»), яка наповнюється розміченими даними про стан масивів вод басейну річки з використанням технологій та алгоритмів, розробленими авторами раніше. Зазначено, що досвід показав недостатність інформації для тренування інтелектуальних моделей машинного навчання, призначених для автоматизації її розмітки. Проведено аналіз сучасних методів аугментації текстової інформації, які можна застосувати до україномовних текстів, та відмічено їхні недоліки, передусім — високу ймовірність синтезу недостовірної інформації.

Запропоновано здійснювати аугментацію даних про масиви вод річкової мережі з урахуванням поширення достовірної інформації про одні масиви вод на інші, розташовані вище чи нижче за течією, або зв’язані з ними в інший спосіб. Для формалізації та автоматизації цього процесу запропоновано нову формалізацію річкової мережі у вигляді багатозв’язної геоінформаційної системи іменованих сутностей (БГСІС), яка передбачає виділення серед усіх об’єктів саме іменованих сутностей, а потім встановлення просторових зв’язків між ними. Охарактеризовано приклади БГСІС у вигляді гідрографічної чи екологічної мережі, мережі адміністративних утворень тощо. Удосконалено раніше запропонований авторами рекурсивний алгоритм прив’язування даних про масиви вод до іменованих сутностей БГСІС та розроблено його формалізований опис. Після прив’язування текстів до масивів вод запропоновано здійснювати їхню аугментацію з подальшою верифікацією результатів в напівавтоматизований спосіб, який, згодом, теж можна зробити автоматизованішим.

Охарактеризовано результати апробації запропонованого методу, алгоритму та підходів у системі «WISEST-SBB», які довели їхню ефективність.

Результати роботи можуть бути поширені й на інші типи БГСІС — як на басейни інших річок, так і на системи іншого характеру.

Біографії авторів

В. Б. Мокін, Вінницький національний технічний університет

д-р техн. наук, професор, завідувач кафедри системного аналізу та інформаційних технологій

К. О. Бондалєтов, Вінницький національний технічний університет

аспірант кафедри системного аналізу та інформаційних технологій

Є. М. Крижановський, Вінницький національний технічний університет

канд. техн. наук, доцент кафедри системного аналізу та інформаційних технологій

В. О. Караваєв, Вінницький національний технічний університет

студент факультету інтелектуальних інформаційних технологій та автоматизації

Посилання

В. Б. Мокін, М. А. Гораш, Є. М. Крижановський, і Т. Є. Вуж, «Інформаційна інтелектуальна технологія автоматизованої геоприв’язки екологічної текстової природно-мовної інформації,» Наукові праці ВНТУ, № 4, 2020. [Електронний ресурс]. Режим доступу: https://praci.vntu.edu.ua/index.php/praci/article/view/624 .

Directive 2000/60/ec of the European Parliament and of the Council. EUR-Lex – Access to European Union Law. [Electronic resource]. Available: https://eur-lex.europa.eu/resource.html?uri=cellar:5c835afb-2ec6-4577-bdf8-756d3d694eeb.0004.02/DOC_1&format=PDF . Access: 07.06.2023.

Верховна Рада України, Водний кодекс України, Кодекс України від 06.06.1995 р. № 213/95-ВР, станом на 19 серп. 2022 р. [Електронний ресурс]. Режим доступу: https://zakon.rada.gov.ua/laws/show/213/95-вр#Text . Дата звернення: 07.06.2023.

Кабінет міністрів України, Постанова від 18.05.2017 р. № 336, Про затвердження Порядку розроблення плану управління річковим басейном [Електронний ресурс]. Режим доступу: https://www.kmu.gov.ua/npas/249999756 . Дата звернення 04.06.2023.

В. Б. Мокін, і К. О. Бондалєтов, Інтелектуальні методи видобування ключових словосполучень із тексту для побудови онтологічних моделей інформаційно-пошукових систем. Інформаційно-комунікаційні технології тa сталий розвиток, колективна моногр. за матеріалами XXI Міжнародної науково-практичної конференції, Київ, 14-16 листопада 2022 р., С. О. Довгий, Заг. ред. Київ, Україна: ТОВ «Видавництво «стон», 2022, 242 с.

А. І. Лісовенко, і О. В. Бісікало, Інформаційна технологія підтримки функції «запитання-відповідь» на основі образного аналізу фахових текстів, моногр. Вінниця, Україна: ВНТУ, 2019, 180 с. ISBN 978-966-641-764-3. [Електронний ресурс]. Режим доступу: https://press.vntu.edu.ua/index.php/vntu/catalog/book/512 .

Vitalii Mokin, “NLP for WR: Summarizing using BERT, GPT2, XLNET,” Kaggle: Your Machine Learning and Data Science Community. [Electronic resource]. Available: https://www.kaggle.com/code/vbmokin/nlp-for-wr-summarizing-using-bert-gpt2-xlnet . Access: 07.06.2023.

Oleh Bisikalo, and Alexander Yahimovich, Keyword search based on lexical relationships in the text, Mauritius: Lap Lambert Academic Publishing, 2019, 57 p. ISBN 978-620-0-00314-0 .

A. Fiori, Trends and Applications of Text Summarization Techniques. IGI Global, 2019.

В. Б. Мокін, І. В. Варчук, і Є. М. Крижановський, Інформаційна технологія аналізу та оптимізації топологічної спостережуваності багатозв’язних геоінформаційних систем: моногр., Вінниця, Україна: ВНТУ, 2019, 121 с.

Vitalii Mokin, “NLP for UA : BERT CLS & 10 Classifiers,” Kaggle: Your Machine Learning and Data Science Community. [Electronic resource]. Available: https://www.kaggle.com/code/vbmokin/nlp-for-ua-bert-cls-10-classifiers. Access: 07.06.2023.

“Environmental indicators: typology and overview,” European Environment Agency. [Electronic resource]. Available: https://www.eea.europa.eu/publications/TEC25 .

В. М. Дубовой, Р. Н. Квєтний, О. І. Михальов, і А. В. Усов, Моделювання та оптимізація систем, підруч. Вінниця, Україна: ПП «ТД«Едельвейс», 2017, 804 с.

Vitalii Mokin, and Kostiantyn Bondaletov, “SpaCy for Ukrainian text similarity,” Kaggle: Your Machine Learning and Data Science Community. [Electronic resource]. Available: https://www.kaggle.com/code/bondaletov/spacy-for-ukrainian-text-similarity . Access: 07.06.2023.

##submission.downloads##

Переглядів анотації: 173

Опубліковано

2023-06-30

Як цитувати

[1]
В. Б. Мокін, К. О. Бондалєтов, Є. М. Крижановський, і В. О. Караваєв, «МЕТОД АУГМЕНТАЦІЇ ТЕКСТІВ ПРО СТАН МАСИВІВ ВОД НА ОСНОВІ ІНТЕЛЕКТУАЛЬНОЇ ПРИВ’ЯЗКИ ДО БАГАТОЗВ’ЯЗНИХ ГЕОІНФОРМАЦІЙНИХ СИСТЕМ ІМЕНОВАНИХ СУТНОСТЕЙ», Вісник ВПІ, вип. 3, с. 55–65, Черв. 2023.

Номер

Розділ

Інформаційні технології та комп'ютерна техніка

Метрики

Завантаження

Дані завантаження ще не доступні.

Статті цього автора (авторів), які найбільше читають

1 2 3 4 5 6 7 > >>