|

Методы мультиагентного обучения с подкреплением с использованием алгоритмов теории игр

Авторы: Большаков В.Э.
Опубликовано в выпуске: #11(52)/2020
DOI: 10.18698/2541-8009-2020-11-652


Раздел: Информатика, вычислительная техника и управление | Рубрика: Системный анализ, управление и обработка информации, статистика

Ключевые слова: глубокое обучение, теория игр, мультиагентное обучение с подкреплением, равновесие Нэша, нейронные сети, стохастические игры, StarCraft II, поиск равновесия, матричные игры

Опубликовано: 26.11.2020

Рассмотрены методы мультиагентного обучения с подкреплением для стохастических игр с общей суммой. В качестве алгоритма обучения с подкреплением предлагается использовать Q-обучение и его различные модификации, в том числе глубокое Q-обучение. Теоретико-игровой составляющей являются алгоритмы, опирающиеся на такие понятия, как совместные действия агентов, равновесие Нэша и матричные игры. Описана успешная попытка совмещения методов обучения с подкреплением и теории игр для среды мультиагентных стратегических взаимодействий в StarCraft II. Предложен и реализован алгоритм глубокого обучения с подкреплением с поиском равновесия Нэша, или Deep Nash Q-Network (Nash-DQN).


Литература

[1] Hausknecht M., Stone P. Deep recurrent Q-learning for partially observable MDPs. AAAI Fall Symp. Sequential Decision Making for Intelligent Agents, 2015. URL: https://arxiv.org/pdf/1507.06527.pdf (дата обращения: 15.06.2020).

[2] Nash J. Non-cooperative games. Ann. Math., 1951, vol. 54, no. 2, pp. 286–295. DOI: https://doi.org/10.2307/1969529

[3] Abernethy J., Lai K.A., Wibisono A. Fictitious play: convergence, smoothness, and optimism. arxiv.org: веб-сайт. URL: https://arxiv.org/abs/1911.08418v1 (дата обращения: 15.06.2020).

[4] Wellman M.P., Hu J. Nash Q-learning for general-sum stochastic games. J. Mach. Learn. Res., 2003, vol. 4, no. 4, pp. 1039–1069.

[5] Lemke C.E., Howson J.T.Jr. Equilibrium points of bimatrix games. J. Soc. Ind. Appl. Math., 1964, vol. 12, no. 2, pp. 413–423. DOI: https://doi.org/10.1137/0112033

[6] Foerster J., Nardelli N., Farquhar G., et al. Stabilising experience replay for deep multi-agent reinforcement learning. Proc. 34th Int. Conf. Machine Learning, 2017, pp. 1146–1155.

[7] Krizhevsky A., Sutskever I., Hinton G.E. Imagenet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 2012, pp. 1097–1105.

[8] Алфимцев А.Н. Декларативно-процессная технология разработки интеллектуальных мультимодальных интерфейсов. Автореф. дисc. ... док. тех. наук. М., ИПУ РАН, 2016.

[9] Dai D., Tan W., Zhan H. Understanding the feedforward artificial neural network model from the perspective of network flow. arxiv.org: веб-сайт. URL: https://arxiv.org/abs/1704.08068 (дата обращения: 15.06.2020).

[10] Samvelyan M., Rashid T., de Witt C.S., et al. The starcraft multi-agent challenge. accepted at the workshop on deep reinforcement learning. arxiv.org: веб-сайт. URL: https://arxiv.org/abs/1902.04043 (дата обращения: 15.06.2020).