Применение методов машинного обучения для управления поведением агента

Авторы: Федотов М.А., Чапаев А.Ю.
Опубликовано в выпуске: #11(88)/2023
DOI: 10.18698/2541-8009-2023-11-952
Раздел: Информатика, вычислительная техника и управление \| Рубрика: Информационные технологии. Компьютерные технологии. Теория вычислительных машин и систем
Ключевые слова: искусственная нейронная сеть, методы машинного обучения, обучение с подкреплением, Double Deep Q-learning, алгоритм оптимизации, управление агентом, гиперпараметры, скорость обучения
Опубликовано: 19.12.2023

Работа посвящена применению методов машинного обучения для управления агентом. Рассмотрен метод обучения с подкреплением. Выполнено сравнение алгоритмов обучения с подкреплением: Q-learning, SARSA, EV-SARSA, DDQN, при этом DDQN является наиболее подходящим для управления поведением агента в недетерминированной среде. Реализован алгоритм DDQN на языке программирования C++. Разработанная реализация метода машинного обучения применена для управления агентом в игровом приложении «Змейка». Представлены вычислительные эксперименты по исследованию эффективности разработанного метода машинного обучения для управления поведением агента. Эксперименты демонстрируют преимущества использования DDQN в условиях изменяющихся условий среды, подтверждая эффективность алгоритма для решения задач управления поведением агента.

Литература

[1] Козов А.В. Сравнение эффективности некоторых модификаций алгоритма эволюционной стратегии. Политехнический молодежный журнал, 2018, № 5 (22). http://dx.doi.org/10.18698/2541-8009-2018-5-309

[2] Воронцов К. Математические методы обучения по прецедентам (теория обучения машин). URL: http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf (дата обращения 15.10.2023).

[3] Sutton R.S., Barto A.G. Reinforcement Learning: An Introduction. London, MIT Press, 1998, pp. 1–11.

[4] Littman M.L. Markov decision processes. International Encyclopedia of the Social and Behavioral Sciences, 2012, pp. 573–575. http://doi.org/10.1016/b0-08-043076-7/00614-8

[5] Кузьмин В. Использование нейронных сетей в алгоритме Q-learning. Транспорт и телекоммуникации, 2003, т. 4, № 1, с. 74–86.

[6] Melo F.S. Convergence of Q-learning: a simple proof. Institute for Systems and Robotics. URL: https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.413.2350&rep=rep1&type=pdf (accessed October 15, 2023).

[7] Herrmann M. RL 5: On-policy and off-policy algorithms. University of Edinburgh, School of Informatics. URL: https://www.inf.ed.ac.uk/teaching/courses/rl/slides15/rl05.pdf (accessed October 15, 2023).

[8] Hasselt H. van, Guez A., Silver D. Deep Reinforcement Learning with Double Q-learning. Proceedings of the AAAI Conference on Artificial Intelligence, 2015, vol. 30 (1). http://doi.org/10.1609/aaai.v30i1.10295