{rfName}
Ev

APC

3 030,00 Euros
Elsevier
Transformative agreement with library

Licencia y uso

Icono OpenAccess

Altmetrics

Investigadores/as Institucionales

Luna-Jimenez, CristinaAutor (correspondencia)Gil-Martin, ManuelAutor o CoautorD'Haro, Luis FernandoAutor o CoautorFernandez-Martinez, FernandoAutor o CoautorSan-Segundo, RubenAutor o Coautor

Compartir

21 de julio de 2024
Publicaciones
>
Artículo
Hybrid Gold

Evaluating emotional and subjective responses in synthetic art-related dialogues: A multi-stage framework with large language models

Publicado en: EXPERT SYSTEMS WITH APPLICATIONS. 255 124524- - 2024-12-01 255(), DOI: 10.1016/j.eswa.2024.124524

Autores:

Luna-Jimenez, Cristina; Gil-Martin, Manuel; D'Haro, Luis Fernando; Fernandez-Martinez, Fernando; San-Segundo, Ruben
[+]

Afiliaciones

Univ Politecn Madrid, Grp Tecnol Habla & Aprendizaje Automat THAU Grp, Informat Proc & Telecommun Ctr, ETSI Telecomunicac, Av Complutense 30, Madrid 28040, Spain - Autor o Coautor

Resumen

The appearance of Large Language Models (LLM) has implied a qualitative step forward in the performance of conversational agents, and even in the generation of creative texts. However, previous applications of these models in generating dialogues neglected the impact of 'hallucinations' in the context of generating synthetic dialogues, thus omitting this central aspect in their evaluations. For this reason, we propose an opensource and flexible framework called GenEvalGPT framework: a comprehensive multi-stage evaluation strategy utilizing diverse metrics. The objective is two-fold: first, the goal is to assess the extent to which synthetic dialogues between a chatbot and a human align with the specified commands, determining the successful creation of these dialogues based on the provided specifications; and second, to evaluate various aspects of emotional and subjective responses. Assuming that dialogues to be evaluated were synthetically produced from specific profiles, the first evaluation stage utilizes LLMs to reconstruct the original templates employed in dialogue creation. The success of this reconstruction is then assessed in a second stage using lexical and semantic objective metrics. On the other hand, crafting a chatbot's behaviors demands careful consideration to encompass a diverse range of interactions it is meant to engage in. Synthetic dialogues play a pivotal role in this context, as they can be deliberately synthesized to emulate various behaviors. This is precisely the objective of the third stage: evaluating whether the generated dialogues adhere to the required aspects concerning emotional and subjective responses. To validate the capabilities of the proposed framework, we applied it to recognize whether the chatbot exhibited one of two distinct behaviors in the synthetically generated dialogues: being emotional and providing subjective responses, or remaining neutral. This evaluation will encompass traditional metrics and automatic metrics generated by the LLM. In our use case of art-related dialogues, our findings reveal that the capacity to recover templates or profiles is more effective for information or profile items that are objective and factual, in contrast to those related to mental states or subjective facts. For the emotional and subjective behavior assessment, rule-based metrics achieved a 79% of accuracy in detecting emotions or subjectivity (anthropic), and an 82% on the LLM automatic metrics. The combination of these metrics and stages could help to decide which of the generated dialogues should be maintained depending on the applied policy, which could vary from preserving between 57% to 93% of the initial dialogues.
[+]

Palabras clave

Affective-computinAffective-computingData and text miningDialogues evaluationDialogues generation

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista EXPERT SYSTEMS WITH APPLICATIONS debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia WoS (JCR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2024 aún no existen indicios calculados, pero en 2023, se encontraba en la posición 7/106, consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Operations Research & Management Science. Destacable, igualmente, el hecho de que la Revista está posicionada por encima del Percentil 90.

Independientemente del impacto esperado determinado por el canal de difusión, es importante destacar el impacto real observado de la propia aportación.

Según las diferentes agencias de indexación, el número de citas acumuladas por esta publicación hasta la fecha 2026-04-27:

  • Google Scholar: 4
  • WoS: 6
  • Scopus: 6
[+]

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2026-04-27:

  • La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 53 (PlumX).

Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

  • El trabajo se ha enviado a una revista cuya política editorial permite la publicación en abierto Open Access.
  • Asignación de un Handle/URN como identificador dentro del Depósito en el Repositorio Institucional: https://oa.upm.es/82496/

Como resultado de la publicación del trabajo en el repositorio institucional, se han obtenido datos estadísticos de uso que reflejan su impacto. En términos de difusión, podemos afirmar que, hasta la fecha

  • Visualizaciones: 241
  • Descargas: 129
[+]

Análisis de liderazgo de los autores institucionales

Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (LUNA JIMENEZ, CRISTINA) y Último Autor (SAN SEGUNDO HERNANDEZ, RUBEN).

el autor responsable de establecer las labores de correspondencia ha sido LUNA JIMENEZ, CRISTINA.

[+]

Reconocimientos ligados al ítem

This work was funded by Project ASTOUND (101071191 - HORIZON-EIC-2021-PATHFINDERCHALLENGES-01) of the European Commission. The work was also supported by the Spanish Ministry of Science and Innovation through the projects GOMINOLA (PID2020-118112RB-C21 and PID2020-118112RB-C22) , AMIC-PoC (PDC2021-120846-C42) and BeWord (PID2021-126061OB-C43) , funded by MCIN/AEI/10.13039/501100011033 and by the European Union "NextGenerationEU/PRTR". We want to give thanks to MS Azure services (and Irving Kwong) for their sponsorship that allowed us to use OpenAI and Azure Cognitive Services for processing the dataset.
[+]