Обучение с подкреплением как технология искусственного интеллекта для решения социально-экономических задач: оценка производительности алгоритмов

Цифровые технологии и инновации в интеллектуальной экономике
Авторы:
Аннотация:

Обучение с подкреплением, с одной стороны, является классом методов машинного обучения и искусственного интеллекта, а с другой стороны – областью знания, в которой исследуется сама прикладная задача, а также методы ее решения. Одной из таких задач является задача управления социальными и экономическими системами, конструирование оптимального управления с учетом свойств самой системы, таких как разнообразие шкал характеристик изучаемых объектов, неоднородность выборок данных, неполнота и пропуски в данных, стохастичность данных, их мультиколлинеарность и гетероскедастичность. Методы обучения с подкреплением не чувствительны к этим особенностям и могут быть использованы с более высокой эффективностью в различных приложениях экономики, финансов и бизнеса. Обучение с подкреплением ближе всего к способам обучения людей, а решения возникающих проблем можно находить в области биологических самообучающихся систем на основе принципа проб и ошибок. Методы обучения с подкреплением представляет собой вычислительный подход к обучению, в ходе которого субъект управления (агент) обучается в процессе взаимодействия со сложным, динамическим, чаще стохастическим, объектом управления (средой) социально-экономической природы с целью максимизации общего вознаграждения. В процессе моделирования возникает проблема выбора таких алгоритмов обучения, которые адекватно отражают стохастическую динамику моделируемого объекта, и имеют высокую производительность. Бизнес-метрики и метрики качества, приемлемые для оценки качества методов обучения с учителем и без учителя в машинном обучении не вполне пригодны для оценки эффективности методов обучения с подкреплением, так как отсутствуют эмпирические данные для оценки. В работе предложены ряд показателей качества обучения для сгенерированных на основе методов обучения с подкреплением управленческих решений. На примере задачи управления человеческим капиталом предприятия произведено сравнение алгоритмов обучения – DQN, DDQN, SARSA, PRO для конструирования оптимальных траекторий профессионального развития работников предприятия. Осуществлена оценка предложенных показателей качества для всей группы методов обучения и выбран один из алгоритмов с наивысшей производительностью.