{rfName}
Co

Licencia y uso

Icono OpenAccess

Altmetrics

Grant support

This work was supported in part by the Horizon Europe CODECO Project under Grant 101092696, in part by the Horizon Europe NEMO Project under Grant 101070118, and in part by the UNICO-5G I+D (B5GEMINI-AIUC) Project funded by the Ministry of Economic Affairs and Digital Transformation of the Spanish Government and the NextGeneration EU (Recovery, Transformation and Resilience Plan-PRTR) under Grant TSI063000-2021-79.

Análisis de autorías institucional

Del Rio, AlbertoAutor (correspondencia)Jimenez D.Autor o CoautorJimenez, DavidAutor o CoautorSerrano, JavierAutor o Coautor

Compartir

Publicaciones
>
Artículo

Comparative Analysis of A3C and PPO Algorithms in Reinforcement Learning: A Survey on General Environments

Publicado en:Ieee Access. 12 146795-146806 - 2024-01-01 12(), DOI: 10.1109/ACCESS.2024.3472473

Autores: del Rio, A; Jimenez, D; Serrano, J

Afiliaciones

Univ Politecn Madrid, Escuela Tecn Super Ingn Sistemas Informat ETSISI, Informat Syst Dept, Madrid 28031, Spain - Autor o Coautor
Univ Politecn Madrid, Escuela Tecn Super Ingn Telecomunicac ETSIT, Phys Elect Elect Engn & Appl Phys Dept, Madrid 28040, Spain - Autor o Coautor
Univ Politecn Madrid, Escuela Tecn Super Ingn Telecomunicac ETSIT, Signals Syst & Radiocommun Dept, Madrid 28040, Spain - Autor o Coautor

Resumen

This research article presents a comparison between two mainstream Deep Reinforcement Learning (DRL) algorithms, Asynchronous Advantage Actor-Critic (A3C) and Proximal Policy Optimization (PPO), in the context of two diverse environments: CartPole and Lunar Lander. DRL algorithms are widely known for their effectiveness in training agents to navigate complex environments and achieve optimal policies. Nevertheless, a methodical assessment of their effectiveness in various settings is crucial for comprehending their advantages and disadvantages. In this study, we conduct experiments on the CartPole and Lunar Lander environments using both A3C and PPO algorithms. We compare their performance in terms of convergence speed and stability. Our results indicate that A3C typically achieves quicker training times, but exhibits greater instability in reward values. Conversely, PPO demonstrates a more stable training process at the expense of longer execution times. An evaluation of the environment is needed in terms of algorithm selection, based on specific application needs, balancing between training time and stability. A3C is ideal for applications requiring rapid training, while PPO is better suited for those prioritizing training stability.

Palabras clave

A3cCartpoleComparisonConvergenceEnvironment complexityHeuristic algorithmsLunar landerMoonPerformance analysisPpoPrediction algorithmsReinforcement learningReliabilitySample efficiencySoftware algorithmsSpace vehiclesStabilitStabilityStability analysisSurveysTraining

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista Ieee Access debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia Scopus (SJR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2024 aún no existen indicios calculados, pero en 2023, se encontraba en la posición , consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Engineering (Miscellaneous).

2025-06-16:

  • WoS: 1
  • Scopus: 11

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2025-06-16:

  • La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 30 (PlumX).

Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

  • El trabajo se ha enviado a una revista cuya política editorial permite la publicación en abierto Open Access.

Análisis de liderazgo de los autores institucionales

Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (DEL RIO PONCE, ALBERTO) y Último Autor (SERRANO ROMERO, JAVIER).

el autor responsable de establecer las labores de correspondencia ha sido DEL RIO PONCE, ALBERTO.