ТЕХНОЛОГІЯ LLM-ВИДОБУВАННЯ ОЗНАК ТЕСТУВАННЯ ПАЦІЄНТІВ З ТЕКСТОВИХ ЗВІТІВ ДЛЯ УДОСКОНАЛЕННЯ ПРОГНОЗУВАННЯ КІЛЬКОСТІ ХВОРИХ НА КОРОНАВІРУС
DOI:
https://doi.org/10.31649/1997-9266-2024-177-6-135-144Ключові слова:
інформаційна технологія, інженерія ознак, прогнозування часових рядів, Prophet, штучний інтелект, великі мовні моделі, COVID-19Анотація
Розглянуто застосування сучасних великих мовних моделей (LLM) для автоматизованого видобування важливих ознак з аналітичних текстових звітів про пандемію COVID-19 в Україні в період 2020—2022 років. Ці звіти охоплюють широкий спектр даних, включно з регіональними показниками захворюваності, динаміку тестування, результати вакцинації та демографічні характеристики пацієнтів. У дослідженні розглянуто інтеграцію цих видобутих ознак у моделі часових рядів для підвищення точності епідеміологічних прогнозів.
Центральним елементом дослідження є використання моделі Prophet, яку вдосконалено для врахування сезонних змін і аномалій у даних. У дослідженні вирішувалися такі виклики, як багатохвильовий характер часового ряду COVID-19, включно з різкими підйомами і спадами захворюваності. Здійснено коригування аномалій, спричинених змінами в карантинних заходах, політиці тестування та вакцинаційних кампаніях, особливо в періоди зимових сплесків.
Оптимізація моделі Prophet включала вдосконалене налаштування параметрів за допомогою таких методів, як Grid Search і стохастична оптимізація, адаптованих до специфічного епідеміологічного контексту України. Додатково у дослідженні оцінено потенціал нейромережевих моделей, зокрема LSTM (Long Short-Term Memory), для аналізу часових рядів. Здатність LSTM виявляти нелінійні залежності та обробляти велику кількість вхідних параметрів доповнює традиційні методи, забезпечуючи глибше розуміння довгострокових трендів і взаємозв’язків у даних.
Мета цієї статті полягає у створенні ефективного інструменту для прогнозування епідеміологічної динаміки, здатного враховувати багатофакторний характер даних, що описують пандемію COVID-19, шляхом інтеграції нових ознак, отриманих із текстових аналітичних звітів за допомогою великих мовних моделей (LLM), у часовий ряд.
Посилання
В. Б. Мокін, А. В. Лосенко, і А. Р. Ящолт, «Інформаційна технологія аналізу та прогнозування кількості нових випадків хвороби на коронавірус SARS-COV-2 в Україні на основі моделі Prophet», Вісник Вінницького політехнічного інституту, № 5, с. 71-83, 2020. https://doi.org/10.31649/1997-9266-2020-152-5-71-83 .
В. Б. Мокін, А. В. Лосенко, і А. Р. Ящолт, «Інформаційна технологія аналізу та прогнозування багатохвильової кількості нових випадків захворювань на коронавірус COVID-19 на основі моделі Prophet», Вісник Вінницького політехнічного інституту, № 6, с. 65-75, 2020. https://doi.org/10.31649/1997-9266-2020-153-6-65-75 .
В. Б. Мокін, М. В. Дратований, А. В. Лосенко, С. О. Жуков, «Прогнозування хвиль коронавірусу на основі відновленої когнітивної карти міжрегіонального впливу,» Інформаційні технології та комп’ютерна інженерія, т. 52, вип. 3, с. 86-94, 2021.
A. Vartholomaios, S. Karlos, E. Kouloumpris, and G. Tsoumakas, “Short-term Renewable Energy Forecasting in Greece using Prophet Decomposition and Tree-based Ensembles,” arXiv, Jul. 2021. [Electronic resource]. Available: https://arxiv.org/abs/2107.03825 . Accessed: 23 Nov. 2024.
dos Santos Junior, J. C. Hu, R. Song, and Y. Bai, “Domain-Driven LLM Development: Insights into RAG and Fine-Tuning Practices,” in Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, August. 2024, pp. 6416-6417. https://doi.org/10.1145/3637528.3671445 .
M. Arslan, S. Munawar, and C. Cruz, “Business insights using RAG–LLMs: a review and case study,” Journal of Decision Systems, pp.1-30, 2024. https://doi.org/10.1080/12460125.2024.2410040 .
Інститут проблем математичних машин і систем НАН України, Звіти робочої групи з математичного моделювання проблем, пов’язаних з епідемією коронавірусу SARS-CoV-2 в Україні, [Електронний ресурс]. Режим доступу: https://old.nas.gov.ua/UA//Activity/covid/Pages/wg.aspx . Дата звернення: 23 листопада. 2024.
Робоча група з математичного моделювання проблем, пов’язаних з епідемією коронавірусу SARS-CoV-2 в Україні, Прогноз розвитку епідемії COVID-19 в Україні на 23 лютого – 8 березня 2022 року («Прогноз РГ-62»). [Електронний ресурс]. Режим доступу: https://old.nas.gov.ua/UA/Messages/Pages/View.aspx?MessageID=8716 . Дата звернення: 23 листопада. 2024.
H. Tang, et al., “Time series forecasting with llms: Understanding and enhancing model capabilities,” arXiv, 2024. [Electronic resource]. Available: https://arxiv.org/abs/2402.10835. Accessed: 23 листопад 2024.
P. Cawood, and T. L. van Zyl, “Feature-weighted Stacking for Nonseasonal Time Series Forecasts: A Case Study of the COVID-19 Epidemic Curves,” arXiv, Aug. 2021. [Electronic resource]. Available: https://arxiv.org/abs/2108.08723. Accessed: 23 Nov. 2024.
B. VanBerlo, M. A. S. Ross, and D. Hsia, “Univariate Long-Term Municipal Water Demand Forecasting,” arXiv, May 2021. [Electronic resource]. Available: https://arxiv.org/abs/2105.08486. Accessed: 23 Nov. 2024.
J. Heaton, “An Empirical Analysis of Feature Engineering for Predictive Modeling,” arXiv, Apr. 2019. [Electronic resource]. Available: https://arxiv.org/abs/1701.07852. Accessed: 23 Nov. 2024.
B. S. Shaw, “False Prophet: Feature Engineering for a Homemade Time Series Regression,” Towards Data Science, Dec. 2020. [Electronic resource]. Available: https://towardsdatascience.com/false-prophet-feature-engineering-for-a-homemade-time-series-regression-1b3f7a1b1c7e. Accessed: 23 Nov. 2024.
H. Xue, and F. D. Salim, “Promptcast: A new prompt-based learning paradigm for time series forecasting,” IEEE Transactions on Knowledge and Data Engineering, 2023. https://doi.org/10.1109/TKDE.2023.3342137 .
B. S. Shaw, “Integrating Feature Engineering and Prophet for Enhanced Time Series Predictions,” Towards Data Science, Nov. 2020. [Electronic resource]. Available: https://towardsdatascience.com/integrating-feature-engineering-and-prophet-for-enhanced-time-series-predictions-cfd62a5d6351. Accessed: 23 Nov. 2024.
##submission.downloads##
-
pdf
Завантажень: 1
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, згодні з такими умовами:
- Автори зберігають авторське право і надають журналу право першої публікації.
- Автори можуть укладати окремі, додаткові договірні угоди з неексклюзивного поширення опублікованої журналом версії статті (наприклад, розмістити її в інститутському репозиторії або опублікувати її в книзі), з визнанням її первісної публікації в цьому журналі.
- Авторам дозволяється і рекомендується розміщувати їхню роботу в Інтернеті (наприклад, в інституційних сховищах або на їхньому сайті) до і під час процесу подачі, оскільки це сприяє продуктивним обмінам, а також швидшому і ширшому цитуванню опублікованих робіт (див. вплив відкритого доступу).