ПОРІВНЯЛЬНИЙ АНАЛІЗ МОДЕЛЕЙ МАШИННОГО НАВЧАННЯ В ЗАДАЧІ ПЕРЕДБАЧЕННЯ ВИГОРАННЯ СПІВРОБІТНИКІВ

Автор(и)

  • С. С. Гладіголов Вінницький національний технічний університет
  • О. Б. Мокін Вінницький національний технічний університет

DOI:

https://doi.org/10.31649/1997-9266-2023-170-5-25-31

Ключові слова:

машинне навчання, баєсові моделі, синдром вигорання, малі набори даних

Анотація

Розглянуто задачу передбачення синдрому емоційного вигорання співробітників, актуальність якої пов’язана з високим рівнем стресу в сучасному світі. У дослідженні використано публічний набір даних “Are your employees burning out” зі змагання на платформі HackerEarth. Проведено порівняльний аналіз трьох традиційних моделей машинного навчання, основаних на класичних підходах машинного навчання (лінійна регресія, Random Forest, XGBoost) та трьох баєсових моделей (баєсова лінійна регресія, модель регресії зі змінним вільним членом, модель регресії зі змінним вільним членом та кутовим коефіцієнтом). Досліджено зміну якості моделей на різних розмірах наборів даних, починаючи від 13000 (тобто від повної тренувальної вибірки, яка склала 70 % від всіх даних) до 25 спостережень включно з перевіркою на повному наборі даних. Продемонстровано, що за великих обсягів даних найкращою моделлю є XGBoost. Однак зі зменшенням розміру тренувальної вибірки до менше ніж 5000 спостережень валідаційні показники XGBoost моделі суттєво погіршилися та стали нижчими ніж відповідні значення метрик для баєсових моделей. Після оптимізації таких гіперпараметрів, як глибина дерев, кількість дерев, швидкість навчання та інші, якість XGBoost суттєво покращилась, але не зробила її достатньо стійкою, щоб продемонструвати кращі результати, ніж баєсові моделі на вибірках менше 600 спостережень. Баєсові ж моделі окрім кращої якості на малих вибірках також дозволяють оцінювати «впевненість» у прогнозованих значеннях, що є важливою особливістю для низки задач. Проте, вони мають і значний недолік у вигляді набагато більшої обчислювальної складності, що призводить до збільшення часу навчання. У висновку підкреслено важливість ретельного вибору моделі, яка враховує особливості обсягу та якості наявних даних. Баєсові моделі проявили високу ефективність у разі невеликого обсягу даних, завдяки їхньої здатності враховувати невизначеність та недостатність інформації.

Біографії авторів

С. С. Гладіголов, Вінницький національний технічний університет

аспірант, кафедри системного аналізу та інформаційних технологій

О. Б. Мокін, Вінницький національний технічний університет

д-р техн. наук, професор, професор кафедри системного аналізу та інформаційних технологій

Посилання

D. A. J. Salvagioni, F. N. Melanda, A. E. Mesas, A. D. González, F. L. Gabani and S. M. de Andrade, “Physical, psychological and occupational consequences of job burnout: A systematic review of prospective studies,” PLOS ONE, no. 12, pp. e0185781, October 2017.

М. С. & І. С., “The Role of the Stress in Development of the Diseases: Array,” Precarpathian Bulletin of the Shevchenko Scientific Society Pulse, pp. 25-32, October 2019.

М. Гурська, «Я вигорів і боюсь звільнення — що робити? Топові IT-компанії відповіли, як вони реагують на вигоряння у працівників та кандидатів,» DOU.ua, 15.11.2022. [Електронний ресурс]. Режим доступу: https://dou.ua/lenta/articles/emotional-burnout-at-work . Дата звернення: 20.09.2023.

“Hacker Earth Machine Learning Challenge: Are your employees burning out?” HackerEarth, 21.10.2021. [Online]. Available: https://www.hackerearth.com/challenges/new/competitive/hackerearth-machine-learning-challenge-predict-burnout-rate. Accessed on: 20.09.2023.

L. Breiman, “Random Forests,” Machine Learning, no. 45, pp. 5-32, 2001.

T. Chen, and C. Guestrin, “XGBoost: A Scalable Tree Boosting System,” в Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA, 2016.

O. Abril-Pla, et al. “PyMC: a modern, and comprehensive probabilistic programming framework in Python,” PeerJ Computer Science, no. 9, pp. e1516, September 2023.

A. Gelma, and J. Hill, Data Analysis Using Regression and Multilevel/Hierarchical Models, Cambridge University Press, 2006.

##submission.downloads##

Переглядів анотації: 230

Опубліковано

2023-10-27

Як цитувати

[1]
С. С. Гладіголов і О. Б. Мокін, «ПОРІВНЯЛЬНИЙ АНАЛІЗ МОДЕЛЕЙ МАШИННОГО НАВЧАННЯ В ЗАДАЧІ ПЕРЕДБАЧЕННЯ ВИГОРАННЯ СПІВРОБІТНИКІВ», Вісник ВПІ, вип. 5, с. 25–31, Жовт. 2023.

Номер

Розділ

Інформаційні технології та комп'ютерна техніка

Метрики

Завантаження

Дані завантаження ще не доступні.

Статті цього автора (авторів), які найбільше читають

<< < 3 4 5 6 7 8