ТЕХНОЛОГІЯ LLM-ВИДОБУВАННЯ ОЗНАК ТЕСТУВАННЯ ПАЦІЄНТІВ З ТЕКСТОВИХ ЗВІТІВ ДЛЯ УДОСКОНАЛЕННЯ ПРОГНОЗУВАННЯ КІЛЬКОСТІ ХВОРИХ НА КОРОНАВІРУС

Автор(и)

  • А. В. Лосенко Вінницький національний технічний університет
  • Є. М. Крижановський Вінницький національний технічний університет
  • І. М. Штельмах Вінницький національний технічний університет
  • І. В. Варчук Вінницький національний технічний університет

DOI:

https://doi.org/10.31649/1997-9266-2024-177-6-135-144

Ключові слова:

інформаційна технологія, інженерія ознак, прогнозування часових рядів, Prophet, штучний інтелект, великі мовні моделі, COVID-19

Анотація

Розглянуто застосування сучасних великих мовних моделей (LLM) для автоматизованого видобування важливих ознак з аналітичних текстових звітів про пандемію COVID-19 в Україні в період 2020—2022 років. Ці звіти охоплюють широкий спектр даних, включно з регіональними показниками захворюваності, динаміку тестування, результати вакцинації та демографічні характеристики пацієнтів. У дослідженні розглянуто інтеграцію цих видобутих ознак у моделі часових рядів для підвищення точності епідеміологічних прогнозів.

Центральним елементом дослідження є використання моделі Prophet, яку вдосконалено для врахування сезонних змін і аномалій у даних. У дослідженні вирішувалися такі виклики, як багатохвильовий характер часового ряду COVID-19, включно з різкими підйомами і спадами захворюваності. Здійснено коригування аномалій, спричинених змінами в карантинних заходах, політиці тестування та вакцинаційних кампаніях, особливо в періоди зимових сплесків.

Оптимізація моделі Prophet включала вдосконалене налаштування параметрів за допомогою таких методів, як Grid Search і стохастична оптимізація, адаптованих до специфічного епідеміологічного контексту України. Додатково у дослідженні оцінено потенціал нейромережевих моделей, зокрема LSTM (Long Short-Term Memory), для аналізу часових рядів. Здатність LSTM виявляти нелінійні залежності та обробляти велику кількість вхідних параметрів доповнює традиційні методи, забезпечуючи глибше розуміння довгострокових трендів і взаємозв’язків у даних.

Мета цієї статті полягає у створенні ефективного інструменту для прогнозування епідеміологічної динаміки, здатного враховувати багатофакторний характер даних, що описують пандемію COVID-19, шляхом інтеграції нових ознак, отриманих із текстових аналітичних звітів за допомогою великих мовних моделей (LLM), у часовий ряд.

Біографії авторів

А. В. Лосенко, Вінницький національний технічний університет

доктор філософії, асистент кафедри системного аналізу та інформаційних технологій

Є. М. Крижановський, Вінницький національний технічний університет

 канд. техн. наук, доцент, доцент кафедри системного аналізу та інформаційних технологій

І. М. Штельмах, Вінницький національний технічний університет

канд. техн. наук, асистент кафедри системного аналізу та інформаційних технологій

І. В. Варчук, Вінницький національний технічний університет

 канд. техн. наук, доцент кафедри системного аналізу та інформаційних технологій

Посилання

В. Б. Мокін, А. В. Лосенко, і А. Р. Ящолт, «Інформаційна технологія аналізу та прогнозування кількості нових випадків хвороби на коронавірус SARS-COV-2 в Україні на основі моделі Prophet», Вісник Вінницького політехнічного інституту, № 5, с. 71-83, 2020. https://doi.org/10.31649/1997-9266-2020-152-5-71-83 .

В. Б. Мокін, А. В. Лосенко, і А. Р. Ящолт, «Інформаційна технологія аналізу та прогнозування багатохвильової кількості нових випадків захворювань на коронавірус COVID-19 на основі моделі Prophet», Вісник Вінницького політехнічного інституту, № 6, с. 65-75, 2020. https://doi.org/10.31649/1997-9266-2020-153-6-65-75 .

В. Б. Мокін, М. В. Дратований, А. В. Лосенко, С. О. Жуков, «Прогнозування хвиль коронавірусу на основі відновленої когнітивної карти міжрегіонального впливу,» Інформаційні технології та комп’ютерна інженерія, т. 52, вип. 3, с. 86-94, 2021.

A. Vartholomaios, S. Karlos, E. Kouloumpris, and G. Tsoumakas, “Short-term Renewable Energy Forecasting in Greece using Prophet Decomposition and Tree-based Ensembles,” arXiv, Jul. 2021. [Electronic resource]. Available: https://arxiv.org/abs/2107.03825 . Accessed: 23 Nov. 2024.

dos Santos Junior, J. C. Hu, R. Song, and Y. Bai, “Domain-Driven LLM Development: Insights into RAG and Fine-Tuning Practices,” in Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, August. 2024, pp. 6416-6417. https://doi.org/10.1145/3637528.3671445 .

M. Arslan, S. Munawar, and C. Cruz, “Business insights using RAG–LLMs: a review and case study,” Journal of Decision Systems, pp.1-30, 2024. https://doi.org/10.1080/12460125.2024.2410040 .

Інститут проблем математичних машин і систем НАН України, Звіти робочої групи з математичного моделювання проблем, пов’язаних з епідемією коронавірусу SARS-CoV-2 в Україні, [Електронний ресурс]. Режим доступу: https://old.nas.gov.ua/UA//Activity/covid/Pages/wg.aspx . Дата звернення: 23 листопада. 2024.

Робоча група з математичного моделювання проблем, пов’язаних з епідемією коронавірусу SARS-CoV-2 в Україні, Прогноз розвитку епідемії COVID-19 в Україні на 23 лютого – 8 березня 2022 року («Прогноз РГ-62»). [Електронний ресурс]. Режим доступу: https://old.nas.gov.ua/UA/Messages/Pages/View.aspx?MessageID=8716 . Дата звернення: 23 листопада. 2024.

H. Tang, et al., “Time series forecasting with llms: Understanding and enhancing model capabilities,” arXiv, 2024. [Electronic resource]. Available: https://arxiv.org/abs/2402.10835. Accessed: 23 листопад 2024.

P. Cawood, and T. L. van Zyl, “Feature-weighted Stacking for Nonseasonal Time Series Forecasts: A Case Study of the COVID-19 Epidemic Curves,” arXiv, Aug. 2021. [Electronic resource]. Available: https://arxiv.org/abs/2108.08723. Accessed: 23 Nov. 2024.

B. VanBerlo, M. A. S. Ross, and D. Hsia, “Univariate Long-Term Municipal Water Demand Forecasting,” arXiv, May 2021. [Electronic resource]. Available: https://arxiv.org/abs/2105.08486. Accessed: 23 Nov. 2024.

J. Heaton, “An Empirical Analysis of Feature Engineering for Predictive Modeling,” arXiv, Apr. 2019. [Electronic resource]. Available: https://arxiv.org/abs/1701.07852. Accessed: 23 Nov. 2024.

B. S. Shaw, “False Prophet: Feature Engineering for a Homemade Time Series Regression,” Towards Data Science, Dec. 2020. [Electronic resource]. Available: https://towardsdatascience.com/false-prophet-feature-engineering-for-a-homemade-time-series-regression-1b3f7a1b1c7e. Accessed: 23 Nov. 2024.

H. Xue, and F. D. Salim, “Promptcast: A new prompt-based learning paradigm for time series forecasting,” IEEE Transactions on Knowledge and Data Engineering, 2023. https://doi.org/10.1109/TKDE.2023.3342137 .

B. S. Shaw, “Integrating Feature Engineering and Prophet for Enhanced Time Series Predictions,” Towards Data Science, Nov. 2020. [Electronic resource]. Available: https://towardsdatascience.com/integrating-feature-engineering-and-prophet-for-enhanced-time-series-predictions-cfd62a5d6351. Accessed: 23 Nov. 2024.

##submission.downloads##

Переглядів анотації: 5

Опубліковано

2024-12-27

Як цитувати

[1]
А. В. Лосенко, Є. М. Крижановський, І. М. . Штельмах, і І. В. . Варчук, «ТЕХНОЛОГІЯ LLM-ВИДОБУВАННЯ ОЗНАК ТЕСТУВАННЯ ПАЦІЄНТІВ З ТЕКСТОВИХ ЗВІТІВ ДЛЯ УДОСКОНАЛЕННЯ ПРОГНОЗУВАННЯ КІЛЬКОСТІ ХВОРИХ НА КОРОНАВІРУС», Вісник ВПІ, вип. 6, с. 135–144, Груд. 2024.

Номер

Розділ

Інформаційні технології та комп'ютерна техніка

Метрики

Завантаження

Дані завантаження ще не доступні.

Статті цього автора (авторів), які найбільше читають

1 2 3 > >>