МЕТОД ІДЕНТИФІКАЦІЇ ЛОКАЛЬНИХ АНОМАЛІЙ ЗНАЧЕНЬ ПОКАЗНИКІВ СТАНУ ДОВКІЛЛЯ З ВИКОРИСТАННЯМ ДЕКОМПОЗИЦІЇ НА ПІВХВИЛІ

Автор(и)

  • Д. О. Шмундяк Вінницький національний технічний університет
  • В. Є. Копняк Вінницький національний технічний університет

DOI:

https://doi.org/10.31649/1997-9266-2024-172-1-88-100

Ключові слова:

аналіз часових рядів, моделювання, машинне навчання, аномалії часових рядів, якість атмосферного повітря, декомпозиція часового ряду, EcoCity

Анотація

В епоху масової цифровізації всіх існуючих частин діяльності людства, кількість даних невпинно зростає і важливо мати навички з ними працювати для розв’язання різного роду задач. Однією з найпоширеніших структур збереження цих даних є часові ряди — послідовності точок, зазвичай, за певний хронологічний період. До цієї категорії відносяться фінансові показники, дані екологічного моніторингу, медичні показники тощо. Широкий перелік сфер застосування робить задачу аналізу часових рядів актуальною і важливою. Якість зробленого прогнозу часового ряду багато в чому залежить від якості проведеного аналізу, який може включати обробку та стандартизацію самих даних, виділення вагомих показників, пошук взаємозв’язків тощо. Серед цих кроків особливо вагоме місце посідає пошук аномалій. Аномалії — це точки набору даних, які певним чином відрізняються від інших значень або певних шаблонів поведінки. Наявність подібних записів сильно впливає на можливість моделей машинного навчання зробити точний прогноз, тому необхідно мати можливість ідентифікувати ці аномалії.

Розроблено новий метод ідентифікації локальних аномалій значень показників стану довкілля з використанням декомпозиції на півхвилі. Основна ідея методу полягає у декомпозиції часового ряду на півхвилі, використовуючи точки тенденції, де падіння змінюється на зростання, чи навпаки, та у розбитті ряду на фрагменти. Кожен окремий фрагмент аналізується окремо і на ньому виконується пошук аномалій комбінування багатьох методів. Точність роботи цих методів перевіряється за рахунок експертного методу. Описано основні кроки запропонованого методу, наведено приклад його роботи на реальних даних моніторингу якості атмосферного повітря, отриманих з однієї зі станцій мережі громадського моніторингу EcoCity у межах міжнародної програми «Чисте повітря для України».

На базі платформи Kaggle, розроблено на протестовано запропонований метод. Результат пошуку аномалій застосовано для побудови моделі Facebook Prophet та порівняно точність апроксимації з результатами роботи моделі Prophet з параметрами за замовчуванням. Випробування показали зменшення помилки апроксимації часового ряду на 11 % за метрикою RMSE та на 8 % за метрикою MAE. Це дозволило підтвердити ефективність розроблено методу.

Біографії авторів

Д. О. Шмундяк , Вінницький національний технічний університет

аспірант кафедри системного аналізу та інформаційних технологій

В. Є. Копняк, Вінницький національний технічний університет

аспірант кафедри системного аналізу та інформаційних технологій

Посилання

Б. І. Мокін, О. Б. Мокін, і В. Б. Мокін, Методологія та організація наукових досліджень, підруч., вид.3-е, змін. та доп. Вінниця, Україна: ВНТУ, 2023, 230 с.

Terence C. Mills, Chapter 3, ARMA Models for Stationary Time Series, Terence C. Mills. Ed, Applied Time Series Analysis, Academic Press, 2019, pp. 31-56. ISBN 9780128131176. https://doi.org/10.1016/B978-0-12-813117-6.00003-X .

Omar Salima , Ngadi Md, Jebur Hamid, and Benqdara Salima, “Machine Learning Techniques for Anomaly Detection: An Overview,” International Journal of Computer Applications, 79, 2013, https://doi.org/10.5120/13715-1478 .

В. Б. Мокін, О. В. Слободянюк, О. М. Давидюк, і Д. О. Шмундяк, «Інформаційна технологія пошуку можливих джерел підвищеного забруднення річки з використанням моделі Prophet,» Вісник Вінницького політехнічного інституту, № 4, с. 15-24, Верес. 2020. https://doi.org/10.31649/1997-9266-2020-151-4-15-24 .

О. Б. Мокін, В. Б. Мокін, і Б. І. Мокін, «Алгоритм методу ідентифікації моделі авторегресії — ковзного середнього, який узагальнює методику Юла–Уокера, та його програмна Python-реалізація,» Вісник Вінницького політехнічного інституту, № 4, с. 41-55, 2022. https://doi.org/10.31649/1997-9266-2022-163-4-41-55 .

R. K. Pearson, et al., “Generalized Hampel Filters,” EURASIP J. Adv. Signal Process, 87, 2016. https://doi.org/10.1186/s13634-016-0383-6 .

Julien Lesouple, Cédric Baudoin, Marc Spigai, and Jean-Yves Tourneret, “Generalized isolation forest for anomaly detection,” Pattern Recognition Letters, vol. 149, 2021, pp, 109-119. ISSN 0167-8655, https://doi.org/10.1016/j.patrec.2021.05.022 .

Yumin Chen, Duoqian Miao, and Hongyun Zhang, “Neighborhood outlier detection,” Expert Systems with Applications, vol. 37, issue 12, pp. 8745-8749, 2010. ISSN 0957-4174. https://doi.org/10.1016/j.eswa.2010.06.040 .

Markus M. Breunig, Hans-Peter Kriegel, Raymond T. Ng, and Jörg Sander. 2000. LOF: identifying density-based local outliers. SIGMOD Rec. 29, no. 2, pp. 93-104, June 2000. https://doi.org/10.1145/335191.335388 .

Vieira, Rafael G.; Leone Filho, Marcos A.; Semolini, Robinson, “An Enhanced Seasonal-Hybrid ESD Technique for Robust Anomaly Detection on Time Series,” in Simpósio Brasileiro De Redes De Computadores E Sistemas Distribuídos (SBRC), 36, 2018, Campos do Jordão. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2018. pp. 281-294. ISSN 2177-9384. https://doi.org/10.5753/sbrc.2018.2422 .

А. В. Лосенко, «Інформаційна технологія прогнозування часового ряду кількості хворих на коронавірус на основі моделі Facebook Prophet,» Вісник Вінницького політехнічного інституту, вип. 5, с. 50-59, 2023. https://doi.org/10.31649/1997-9266-2023-170-5-50-59 .

В. Б. Мокін, А. В. Лосенко, і А. Р. Ящолт, «Інформаційна технологія аналізу та прогнозування кількості нових випадків хвороби на коронавірус SARS-COV-2 в Україні на основі моделі Prophet,» Вісник Вінницького політехнічного інституту, № 5, с. 71-83, 2020. https://doi.org/10.31649/1997-9266-2020-152-5-71-83 .

В. Б. Мокін, А. В. Лосенко, і А. Р. Ящолт, «Інформаційна технологія аналізу та прогнозування багатохвильової кількості нових випадків захворювань на коронавірус COVID-19 на основі моделі Prophet», Вісник Вінницького політехнічного інституту, № 6, с. 65-75, 2020. https://doi.org/10.31649/1997-9266-2020-153-6-65-75 .

Д. О. Шмундяк, і В. Б. Мокін, «Метод ідентифікації параметрів гармонік та аномалій періодичного часового ряду на основі адаптивної декомпозиції,» Вісник Вінницького політехнічного інституту, № 6, с. 46-56, 2023. https://doi.org/10.31649/1997-9266-2023-171-6-46-56 .

Dmytro Shmundiak, and Vitalii Mokin, “Adaptive decomposition for harmonics and anomalies,” Kaggle Notebook. [Electronic resource]. Available: https://www.kaggle.com/code/dimashmundiak/adaptive-decomposition-for-harmonics-and-anomalies . Accessed:20.12.2023.

Vitalii Mokin, and Arsen Losenko, “COVID-19 Ukraine daily cases – EDA,” Kaggle Notebook. [Electronic resource]. Available: https://www.kaggle.com/code/vbmokin/covid-19-ukraine-daily-cases-eda . Accessed:12.10.2023.

Sklearn. API Reference. [Electronic resource]. Available: https://scikit-learn.org/stable/modules/classes.html. Accessed: 07.12.2023.

##submission.downloads##

Переглядів анотації: 74

Опубліковано

2024-02-27

Як цитувати

[1]
Д. О. . Шмундяк і В. Є. Копняк, «МЕТОД ІДЕНТИФІКАЦІЇ ЛОКАЛЬНИХ АНОМАЛІЙ ЗНАЧЕНЬ ПОКАЗНИКІВ СТАНУ ДОВКІЛЛЯ З ВИКОРИСТАННЯМ ДЕКОМПОЗИЦІЇ НА ПІВХВИЛІ», Вісник ВПІ, вип. 1, с. 88–100, Лют. 2024.

Номер

Розділ

Інформаційні технології та комп'ютерна техніка

Метрики

Завантаження

Дані завантаження ще не доступні.