Large language models: a new approach for privacy policy analysis at scale

Indexado en

APC

1 973,00 Euros

Springer

Transformative agreement with library

Licencia y uso

Citaciones

107

Cited 25 times in Scopus logo

Cited 12 times in Web of Science logo

Cited 57 times in Google Scholar logo

Altmetrics

Investigadores/as Institucionales

Rodriguez, DavidAutor o CoautorDel Alamo, Jose MAutor (correspondencia)

15 de septiembre de 2024

Publicaciones

Artículo

Sí

Large language models: a new approach for privacy policy analysis at scale

Publicado en: COMPUTING. 106 (12): 3879-3903 - 2024-12-01 106(12), DOI: 10.1007/s00607-024-01331-9

Autores:

Rodriguez, D; Yang, I; Del Alamo, JM; Sadeh, N

[+]

Afiliaciones

Carnegie Mellon Univ, Sch Comp Sci, Forbes Ave, Pittsburgh, PA 15213 USA - Autor o Coautor

Univ Politecn Madrid, ETSI Telecomunicac, Madrid, Spain - Autor o Coautor

Resumen

The number and dynamic nature of web sites and mobile applications present regulators and app store operators with significant challenges when it comes to enforcing compliance with applicable privacy and data protection laws. Over the past several years, people have turned to Natural Language Processing (NLP) techniques to automate privacy compliance analysis (e.g., comparing statements in privacy policies with analysis of the code and behavior of mobile apps) and to answer people's privacy questions. Traditionally, these NLP techniques have relied on labor-intensive and potentially error-prone manual annotation processes to build the corpora necessary to train them. This article explores and evaluates the use of Large Language Models (LLMs) as an alternative for effectively and efficiently identifying and categorizing a variety of data practice disclosures found in the text of privacy policies. Specifically, we report on the performance of ChatGPT and Llama 2, two particularly popular LLM-based tools. This includes engineering prompts and evaluating different configurations of these LLM techniques. Evaluation of the resulting techniques on well-known corpora of privacy policy annotations yields an F1 score exceeding 93%. This score is higher than scores reported earlier in the literature on these benchmarks. This performance is obtained at minimal marginal cost (excluding the cost required to train the foundational models themselves). These results, which are consistent with those reported in other domains, suggest that LLMs offer a particularly promising approach to automated privacy policy analysis at scale.

[+]

Palabras clave

68m1168m1468m1568m2568p2768t5068u15Data protectionFeature extractioFeature extractionLarge language modelsNatural language processingPrivacyPrivacy policies

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista COMPUTING debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia Scopus (SJR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2024 aún no existen indicios calculados, pero en 2023, se encontraba en la posición , consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Computational Theory and Mathematics.

Independientemente del impacto esperado determinado por el canal de difusión, es importante destacar el impacto real observado de la propia aportación.

Según las diferentes agencias de indexación, el número de citas acumuladas por esta publicación hasta la fecha 2026-04-27:

Google Scholar: 57
WoS: 12
Scopus: 25

[+]

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2026-04-27:

El uso, desde el ámbito académico evidenciado por el indicador de la agencia Altmetric referido como agregaciones realizadas por el gestor bibliográfico personal Mendeley, nos da un total de: 70.
La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 66 (PlumX).

Con una intencionalidad más de divulgación y orientada a audiencias más generales podemos observar otras puntuaciones más globales como:

El Score total de Altmetric: 5.
El número de menciones en la red social X (antes Twitter): 2 (Altmetric).
El número de menciones en Wikipedia: 1 (Altmetric).

Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

El trabajo se ha enviado a una revista cuya política editorial permite la publicación en abierto Open Access.
Asignación de un Handle/URN como identificador dentro del Depósito en el Repositorio Institucional: https://oa.upm.es/87559/

Como resultado de la publicación del trabajo en el repositorio institucional, se han obtenido datos estadísticos de uso que reflejan su impacto. En términos de difusión, podemos afirmar que, hasta la fecha

Visualizaciones: 162
Descargas: 41

[+]

Análisis de liderazgo de los autores institucionales

Este trabajo se ha realizado con colaboración internacional, concretamente con investigadores de: United States of America.

Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (RODRIGUEZ TORRADO, DAVID) .

el autor responsable de establecer las labores de correspondencia ha sido ALAMO RAMIRO, JOSE MARIA DEL.

[+]

Reconocimientos ligados al ítem

This work has been partially supported by the TED2021-130455A-I00 project funded by MCIN/AEI/10.13039/501,100,011,033 and by the European Union "NextGenerationEU"/PRTR. Jose M. del Alamo has received a grant from the Spanish "Ministerio de Universidades" through the "Movilidad" sub-programme of the "Programa Estatal para Desarrollar, Atraer y Retener Talento", within the "Plan Estatal de Investigacion Cientifica, Tecnica y de Innovacion 2021-2023". This research has also been partially supported by the National Science Foundation under its Security and Trustworthy Computing Program (grant CNS-1914486).

[+]

Indexado en

APC

Licencia y uso

Citaciones

Altmetrics

Investigadores/as Institucionales

Compartir

Large language models: a new approach for privacy policy analysis at scale

Afiliaciones

Resumen

Palabras clave

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

Impacto y visibilidad social

Análisis de liderazgo de los autores institucionales

Reconocimientos ligados al ítem