{rfName}
Co

Llicència i ús

Icono OpenAccess

Altmetrics

Grant support

This work was supported in part by the Horizon Europe CODECO Project under Grant 101092696, in part by the Horizon Europe NEMO Project under Grant 101070118, and in part by the UNICO-5G I+D (B5GEMINI-AIUC) Project funded by the Ministry of Economic Affairs and Digital Transformation of the Spanish Government and the NextGeneration EU (Recovery, Transformation and Resilience Plan-PRTR) under Grant TSI063000-2021-79.

Anàlisi d'autories institucional

Del Rio, AlbertoAutor (correspondència)Jimenez D.Autor o coautorJimenez, DavidAutor o coautorSerrano, JavierAutor o coautor

Compartir

29 d’octubre de 2024
Publicacions
>
Article

Comparative Analysis of A3C and PPO Algorithms in Reinforcement Learning: A Survey on General Environments

Publicat a:Ieee Access. 12 146795-146806 - 2024-01-01 12(), DOI: 10.1109/ACCESS.2024.3472473

Autors: del Rio, A; Jimenez, D; Serrano, J

Afiliacions

Univ Politecn Madrid, Escuela Tecn Super Ingn Sistemas Informat ETSISI, Informat Syst Dept, Madrid 28031, Spain - Autor o coautor
Univ Politecn Madrid, Escuela Tecn Super Ingn Telecomunicac ETSIT, Phys Elect Elect Engn & Appl Phys Dept, Madrid 28040, Spain - Autor o coautor
Univ Politecn Madrid, Escuela Tecn Super Ingn Telecomunicac ETSIT, Signals Syst & Radiocommun Dept, Madrid 28040, Spain - Autor o coautor

Resum

This research article presents a comparison between two mainstream Deep Reinforcement Learning (DRL) algorithms, Asynchronous Advantage Actor-Critic (A3C) and Proximal Policy Optimization (PPO), in the context of two diverse environments: CartPole and Lunar Lander. DRL algorithms are widely known for their effectiveness in training agents to navigate complex environments and achieve optimal policies. Nevertheless, a methodical assessment of their effectiveness in various settings is crucial for comprehending their advantages and disadvantages. In this study, we conduct experiments on the CartPole and Lunar Lander environments using both A3C and PPO algorithms. We compare their performance in terms of convergence speed and stability. Our results indicate that A3C typically achieves quicker training times, but exhibits greater instability in reward values. Conversely, PPO demonstrates a more stable training process at the expense of longer execution times. An evaluation of the environment is needed in terms of algorithm selection, based on specific application needs, balancing between training time and stability. A3C is ideal for applications requiring rapid training, while PPO is better suited for those prioritizing training stability.

Paraules clau

A3cCartpoleComparisonConvergenceEnvironment complexityHeuristic algorithmsLunar landerMoonPerformance analysisPpoPrediction algorithmsReinforcement learningReliabilitySample efficiencySoftware algorithmsSpace vehiclesStabilitStabilityStability analysisSurveysTraining

Indicis de qualitat

Impacte bibliomètric. Anàlisi de la contribució i canal de difusió

El treball ha estat publicat a la revista Ieee Access a causa de la seva progressió i el bon impacte que ha aconseguit en els últims anys, segons l'agència Scopus (SJR), s'ha convertit en una referència en el seu camp. A l'any de publicació del treball, 2024 encara no hi ha indicis calculats, però el 2023, es trobava a la posició , aconseguint així situar-se com a revista Q1 (Primer Cuartil), en la categoria Engineering (Miscellaneous).

Independentment de l'impacte esperat determinat pel canal de difusió, és important destacar l'impacte real observat de la pròpia aportació.

Segons les diferents agències d'indexació, el nombre de citacions acumulades per aquesta publicació fins a la data 2025-07-08:

  • WoS: 1
  • Scopus: 13

Impacte i visibilitat social

Des de la dimensió d'influència o adopció social, i prenent com a base les mètriques associades a les mencions i interaccions proporcionades per agències especialitzades en el càlcul de les denominades "Mètriques Alternatives o Socials", podem destacar a data 2025-07-08:

  • L'ús d'aquesta aportació en marcadors, bifurcacions de codi, afegits a llistes de favorits per a una lectura recurrent, així com visualitzacions generals, indica que algú està fent servir la publicació com a base del seu treball actual. Això pot ser un indicador destacat de futures cites més formals i acadèmiques. Aquesta afirmació està avalada pel resultat de l'indicador "Capture", que aporta un total de: 30 (PlumX).

És fonamental presentar evidències que recolzin l'alineació plena amb els principis i directrius institucionals sobre Ciència Oberta i la Conservació i Difusió del Patrimoni Intel·lectual. Un clar exemple d'això és:

  • El treball s'ha enviat a una revista la política editorial de la qual permet la publicació en obert Open Access.

Anàlisi del lideratge dels autors institucionals

Hi ha un lideratge significatiu, ja que alguns dels autors pertanyents a la institució apareixen com a primer o últim signant, es pot apreciar en el detall: Primer Autor (DEL RIO PONCE, ALBERTO) i Últim Autor (SERRANO ROMERO, JAVIER).

l'autor responsable d'establir les tasques de correspondència ha estat DEL RIO PONCE, ALBERTO.