Perturbation-based error detection and correction (PBEDC) in dependable large-scale machine learning systems

31 de julio de 2025

Publicaciones

>

Artículo

Green

Perturbation-based error detection and correction (PBEDC) in dependable large-scale machine learning systems

Publicado en: Future Generation Computer Systems-The International Journal of eScience. 173 107928- - 2025-12-01 173(), DOI: 10.1016/j.future.2025.107928

Autores:

Wang, ZH; Reviriego, P; Liu, SS; Niknia, F; Tang, XC; Gao, Z; Lombardi, F

[+]

Afiliaciones

Northeastern Univ, Dept Elect & Comp Engn, Boston, MA 02115 USA - Autor o Coautor

Tianjin Univ, Sch Elect & Informat Engn, Tianjin 300072, Peoples R China - Autor o Coautor

Univ Elect Sci & Technol China, Sch Informat & Commun Engn, Chengdu 611731, Peoples R China - Autor o Coautor

Univ Politecn Madrid, Escuela Tecn Super Ingn Telecomunicac, Dept Ingn Sistemas Telemat, Madrid 28040, Spain - Autor o Coautor

Resumen

Conventional error-tolerant schemes for Neural Networks (NNs) usually require either redundancy, or changes in normal operation, leading to considerable overheads. They are not feasible for large-scale Machine Learning (ML) systems that typically employ several complex networks. This paper proposes a Perturbation-Based Error Detection and Correction (PBEDC) scheme designed to perform error detection and correction by reutilizing the inference process. Dependable performance is defined by the ability to operate correctly in the presence of errors and is a key characteristic under consideration. PBEDC employs a compact set of representative samples that are selected to monitor a few check nodes with intermediate signals. The effectiveness of PBEDC is evaluated by taking Contrastive Language-Image Pre-Training (CLIP) networks as a case study. Compared with traditional schemes that use the final prediction as the check node, PBEDC achieves a superior error detection rate (> 95 %) and can handle single bit-flip errors in the weights (which cannot be captured in existing schemes). This also enables the correction of errors when the proposed scheme is combined with the use of parity codes. Furthermore, in this paper, the analysis and simulation results show that the number of PBEDC samples required for achieving a satisfactory error tolerance is very small; the complexity of the proposed scheme does not scale up with the network size and this advantage is very pronounced with large-scale ML systems.

[+]

Palabras clave

CliClimate actionClipContrastive language-image pre-trainingError correctionError detectionError detection and correctionErrors correctionImage codingLarge-scale machine learningLarge-scale neural networkLarge-scale neural networksLarge-scalesMachine learning systemsMultilayer perceptronNeural-networksPartial fault-tolerancePre-trainingSoft errorSoft errors

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista Future Generation Computer Systems-The International Journal of eScience debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia WoS (JCR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2025, se encontraba en la posición 15/147, consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Computer Science, Theory & Methods. Destacable, igualmente, el hecho de que la Revista está posicionada por encima del Percentil 90.

Independientemente del impacto esperado determinado por el canal de difusión, es importante destacar el impacto real observado de la propia aportación.

Según las diferentes agencias de indexación, el número de citas acumuladas por esta publicación hasta la fecha 2026-04-25:

Scopus: 1

[+]

Análisis de liderazgo de los autores institucionales

Este trabajo se ha realizado con colaboración internacional, concretamente con investigadores de: China; United States of America.

[+]

Objetivos del proyecto

La aportación persigue los siguientes objetivos: analizar las limitaciones de los esquemas convencionales de tolerancia a errores en redes neuronales para sistemas de aprendizaje automático a gran escala; proponer un esquema de detección y corrección de errores basado en perturbaciones (PBEDC) que reutilice el proceso de inferencia; caracterizar la capacidad del PBEDC para operar correctamente en presencia de errores, definiendo así un rendimiento fiable; evaluar la efectividad del PBEDC mediante un estudio de caso con redes CLIP; comparar la tasa de detección de errores del PBEDC (> 95 %) con esquemas tradicionales; y determinar la escalabilidad y complejidad del PBEDC en función del tamaño de la red, destacando su eficiencia en sistemas de gran escala.

[+]

Resultados más relevantes

El estudio presenta un esquema innovador de detección y corrección de errores basado en perturbaciones (PBEDC) para sistemas de aprendizaje automático a gran escala. Los resultados más relevantes son: PBEDC reutiliza el proceso de inferencia para detectar y corregir errores, logrando una tasa de detección superior al 95 %; es capaz de manejar errores de bit único en los pesos, no capturados por esquemas tradicionales; la corrección de errores es posible al combinar PBEDC con códigos de paridad; se requiere un número muy reducido de muestras PBEDC para alcanzar una tolerancia al error satisfactoria; y la complejidad del método no aumenta con el tamaño de la red, destacando su eficacia en sistemas de aprendizaje automático complejos y extensos.

[+]

Indexado en

Licencia y uso

Citaciones

Altmetrics

Impacto en los Objetivos de Desarrollo Sostenible (ODS)

Investigadores/as Institucionales

Compartir

Perturbation-based error detection and correction (PBEDC) in dependable large-scale machine learning systems

Afiliaciones

Resumen

Palabras clave

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

Análisis de liderazgo de los autores institucionales

Objetivos del proyecto

Resultados más relevantes

Indexado en

Licencia y uso

Citaciones

Altmetrics

Impacto en los Objetivos de Desarrollo Sostenible (ODS)

Investigadores/as Institucionales

Compartir

Perturbation-based error detection and correction (PBEDC) in dependable large-scale machine learning systems

Afiliaciones

Resumen

Palabras clave

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

Impacto y visibilidad social

Análisis de liderazgo de los autores institucionales

Objetivos del proyecto

Resultados más relevantes