El Agente Rainbow en pocas palabras: de RL a la combinación de mejora de DQN

Alex Eduardo Pozo Valdiviezo

Resumen


En este documento, nuestro objetivo es centrarnos en alguna noción básica sobre el Aprendizaje por Refuerzo particularmente el algoritmo Q-learning. Luego cruzaremos el marco de RL dentro de la tecnología Neural Network, ya que un entorno de estado fuerte como los videojuegos no se puede administrar dentro de una simple optimización de la tabla Q. Este proceso de acoplamiento les da nacimiento a la Deep-Q-Network (DQN) que son la primera etapa de la llamada "Inteligencia Artificial". Vamos a aprovechar el algoritmo Vanilla DQN como punto de referencia y presentaremos las mejoras DQN más famosas y las clasificaremos dentro de la mejora de pérdida de error TD o la mejora de arquitectura: Double Deep Q-Network, Dueling Network, Priority Experience Replay, RL distributional, Dueling Network, aprendizaje Multi-Step Q. Cómo podemos combinarlos genuinamente para superar todos los algoritmos de márgenes y nuestro benchmark Vanilla DQN, llamaremos a esta combinación inteligente de todas estas mejoras como el agente Rainbow. Analizaremos su rendimiento utilizando líneas de base y comprenderemos el peso efectivo de cada componente mediante el método de ablación. También se examinaría el establecimiento de la metodología de los hiperparámetros. Se daría un código y una aplicación para la mayoría de los métodos. Nuestro punto de partida es el artículo de Hessel, M., Modayil, J., Van Hasselt, H., Schaul, T., Ostrovski, G., Dabney, W., & Silver, D. (2018, April), del cual tomamos la iniciativa de enfatizar un poco este efecto de investigación ilustrando el uso extensivo del agente de Rainbow en la mayoría de los concursos de Game como Sonic podría testificar.


Palabras clave


Palabras clave: Agente Rainbow; Framework RL; Algoritmo Vanilla DQN.

Texto completo:

PDF HTML

Referencias


FORTUNATO, M., AZAR, M. G., PIOT, B., MENICK, J., OSBAND, I., GRAVES, A., ... & LEGG, S. (2017). Noisy networks for exploration. arXiv preprint arXiv:1706.10295..

GRIGSBY, J. (2018). “Advanced DQNs: Playing Pac-man with Deep Reinforcement Learning.” Retrieved (https://towardsdatascience.com/advanced-dqns-playing-pac-man-with-deep-reinforcement-learning-3ffbd99e0814).

HESSEL, M., MODAYIL, J., VAN HASSELT, H., SCHAUL, T., OSTROVSKI, G., DABNEY, W., ... & SILVER, D. (2018, April). Rainbow: Combining improvements in deep reinforcement learning. In Thirty-second AAAI conference on artificial intelligence.

SIMONINI, T. “Deep Q Learning with Atari© Space Invaders©”. Retrieved (https://simoninithomas.github.io/Deep_reinforcement_learning_Course/).

SUTTON, R. S. (1988). Learning to predict by the methods of temporal differences. Machine learning, 3(1), 9-44.

SUTTON, R. S., AND BARTO, A. G. (1998). Reinforcement Learning: An Introduction. The MIT press, Cambridge MA.

TALKINGCOMICSSITE. (2020). “Megadrive Programming: Hello World.” Retrieved (https://8bitheaven.home.blog/2020/02/01/megadrive-programming-hello-world/).

TURNER, A. J., & MILLER, J. F. (2015). Introducing a cross platform open source cartesian genetic programming library. Genetic Programming and Evolvable Machines, 16(1), 83-91.

VAN HASSELT, H., GUEZ, A., & SILVER, D. (2016, March). Deep reinforcement learning with double q-learning. In Proceedings of the AAAI conference on artificial intelligence (Vol. 30, No. 1).

WANG, Z., SCHAUL, T., HESSEL, M., HASSELT, H., LANCTOT, M., & FREITAS, N. (2016, June). Dueling network architectures for deep reinforcement learning. In International conference on machine learning (pp. 1995-2003). PMLR.

ZHANG, T. (2021). “Deep Q-network.” Retrieved (https://github.com/moduIo/Deep-Q-network).




DOI: https://doi.org/10.23857/pc.v7i7.4382

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/