ВИЗНАЧЕННЯ ТЕМПОРАЛЬНОЇ СПРЯМОВАНОСТІ В ТЕКСТАХ: НЕЙРОМЕРЕЖЕВИЙ ПІДХІД ДЛЯ ХРОНОЛОГІЧНОГО ВПОРЯДКУВАННЯ НА ОСНОВІ АНАЛІЗУ ПАР СЛІВ
DOI:
https://doi.org/10.31649/1997-9266-2024-177-6-121-128Ключові слова:
інтелектуальні технології, машинне навчання, штучний інтелект, нейронні мережі, оброблення природної мови, темпоральна спрямованість, інформаційна технологіяАнотація
Запропоновано нейромережевий підхід до визначення темпоральної спрямованості у текстах, що дозволяє відтворювати хронологію подій, навіть за відсутності явних часових маркерів. Цей підхід визначає ймовірнісний порядок появи слів у текстах з урахуванням їхніх статистичних та лінгвістичних зв’язків. На відміну від традиційних підходів, які покладаються на явні часові вирази або дати публікацій, запропонований підхід дає змогу оцінювати порядок подій на основі виявлених взаємозв’язків між парами слів в документах, що описують події.
Для аналізу темпоральної спрямованості використовуються нейронні мережі, що дозволяють моделювати відносини між словами шляхом попарного порівняння їхньої появи в текстах. Запропоновано формули для обчислення показників темпоральної спрямованості, які базуються на частоті появи слів у датованих текстах. Отримані показники нормалізовані, що забезпечує кращу інтерпретацію результатів.
На основі цих показників сформовано набір ознак для тренування моделей машинного навчання за різними критеріями. Для перевірки ефективності створено україномовний корпус із 127 000 новин соціальних мереж та застосовано кілька моделей: Gradient Boosting Classifier, Random Forest Classifier, Decision Tree та Logistic Regression. Як приклад, вибрано 48 ознак, які характеризують ці новини. У ході експериментів виявлено, що модель Gradient Boosting Classifier показала найкращий результат з точністю 89,76 % на валідаційному датасеті, що перевищило точність інших моделей, таких як Random Forest (74,81 %) та Decision Tree (68,97 %).
Запропонований підхід підтвердив ефективність у моделюванні хронологічних зв’язків між подіями, що є важливим для задач автоматизації текстів. Підхід можна використовувати для аналізу новин, хронологічного впорядкування історичних подій і роботи з текстовими даними у великих масивах.
Посилання
W. Xiang, and B. Wang, “A survey of event extraction from text,” IEEE Access. vol. 7, pp. 173111-173137, 2019.
S. Zhang, L. Huang, and Q. Ning, “Extracting Temporal Event Relation with Syntactic-Guided Temporal Graph Transformer,” arXiv: 2104, 09570, 2021.
X. Xu, T. Gao, Y. Wang, and X. Xuan, “Event temporal relation extraction with attention mechanism and graph neural network,” Tsinghua Sci. Technol., vol. 27, pp. 79-90, 2021.
M. Ballesteros, O. Papadopoulou, and N. Goyal, “Severing the edge between before and after: Neural architectures for temporal ordering of events,” in Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020, pp. 5068-5079.
Q. Ning, Z. Feng, and D. Roth, “A Structured Learning Approach to Temporal Relation Extraction,” in Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP), Copenhagen, Denmark, 2017, pp. 1027-1037.
T. Goyal, and G. Durrett, “Embedding time expressions for deep temporal ordering models,” Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL), pp. 4401-4411, 2019.
Y. Liu, J. Ma, and P. Li, “Predicting higher-order patterns in temporal networks,” in Proceedings of the 30th ACM International Conference on Information and Knowledge Management (CIKM), 2021, pp. 3219-3228.
W. Xia, Y. Li, and S. Li, “Graph neural point process for temporal interaction prediction,” in Proceedings of the 39th International Conference on Machine Learning (ICML), 2023, pp. 1-10.
Q. Ning, S. Subramanian, and D. Roth, “An Improved Neural Baseline for Temporal Relation Extraction,” in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019, pp. 6203-6209.
A. Naik, L. Breitfeller, and C. Rose, “TDDiscourse: A dataset for discourse-level temporal ordering of events,” Proceedings of the 20th Annual SIGdial Meeting on Discourse and Dialogue, 2019, pp. 239-249.
В. Б. Мокін, i М. В. Дратований, Наука про дані: машинне навчання та інтелектуальний аналіз даних, електр. навч. посіб. комбінованого (локального та мережевого) використання. Вінниця, Україна: ВНТУ, 2024, 258 с. [Електронний ресурс]. Режим доступу: https://docs.vntu.edu.ua/card.php?id=8163.
##submission.downloads##
-
pdf
Завантажень: 1
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, згодні з такими умовами:
- Автори зберігають авторське право і надають журналу право першої публікації.
- Автори можуть укладати окремі, додаткові договірні угоди з неексклюзивного поширення опублікованої журналом версії статті (наприклад, розмістити її в інститутському репозиторії або опублікувати її в книзі), з визнанням її первісної публікації в цьому журналі.
- Авторам дозволяється і рекомендується розміщувати їхню роботу в Інтернеті (наприклад, в інституційних сховищах або на їхньому сайті) до і під час процесу подачі, оскільки це сприяє продуктивним обмінам, а також швидшому і ширшому цитуванню опублікованих робіт (див. вплив відкритого доступу).