Publications - AImageLab

Apprendimento Continuo in Condizioni Rumorose e con Composizionalità

Authors: Millunzi, Monica

Per stare al passo con la natura in continua evoluzione dei dati, i moderni sistemi di intelligenza artificiale richiedono frequenti … (Read full abstract)

Per stare al passo con la natura in continua evoluzione dei dati, i moderni sistemi di intelligenza artificiale richiedono frequenti e costosi riaddestramenti su tutti gli esempi già visti, per evitare il fenomeno del catastrophic forgetting. Questa esigenza ha stimolato un crescente interesse verso il Continual Learning (CL), in cui i modelli apprendono in modo incrementale dai flussi di dati conservando al contempo le conoscenze acquisite. Tuttavia, nonostante i notevoli progressi, permane una fonte di incertezza spesso trascurata: la presenza di etichette rumorose o non affidabili. Le reti neurali profonde devono gran parte del loro successo a grandi dataset puliti, ma in contesti reali e dinamici tali condizioni ideali sono rare. Questo pone una domanda cruciale: come può un sistema continuare ad apprendere efficacemente quando la supervisione stessa è imperfetta? Per affrontare il problema dell’apprendimento con etichette rumorose in scenari incrementali, proponiamo Alternate Experience Replay (AER), una strategia che alterna fasi di apprendimento e “dimenticanza” del buffer, favorendo la separazione tra campioni puliti e rumorosi. In questo modo, il modello affina progressivamente le proprie rappresentazioni interne limitando la propagazione del rumore. A complemento, introduciamo Asymmetric Balanced Sampling (ABS), un meccanismo di campionamento che bilancia dinamicamente la conservazione di esempi puliti e complessi durante l’aggiornamento del buffer. La combinazione di questi approcci migliora la robustezza e la stabilità del modello, dimostrando come anche semplici meccanismi di replay possano ridurre l’impatto della supervisione imperfetta. La robustezza da sola, tuttavia, non basta. Una seconda sfida riguarda la capacità del modello di comporre e riutilizzare le conoscenze tra compiti diversi, proprietà nota come composizionalità. In questa tesi, mostriamo come rappresentazioni modulari e prospettive di ottimizzazione di secondo ordine possano favorire questa capacità. Introduciamo due paradigmi complementari: Incremental Task Arithmetic (ITA), che ottimizza ciascun modello addestrato su un singolo task individualmente, e Incremental Ensemble Learning (IEL), che ottimizza direttamente la loro composizione. Insieme, questi approcci permettono di combinare componenti apprese progressivamente in sistemi che non solo resistono alla dimenticanza, ma generalizzano per costruzione, adattandosi a nuove e inattese combinazioni di task di apprendimento. Queste due prospettive, robustezza alla supervisione rumorosa e adattamento composizionale, delineano un modello di Continual Learning resiliente e strutturato. Attraverso analisi empiriche approfondite, mostriamo come i meccanismi intrinseci delle reti neurali possano essere sfruttati per sviluppare modelli incrementali più affidabili e robusti. La tesi contribuisce alla ricerca nel campo del Continual Learning, migliorando la robustezza sia in presenza di supervisione rumorosa sia attraverso la composizione modulare della conoscenza. Forniamo una panoramica dello stato dell’arte, approfondimenti metodologici e studi sperimentali accurati su task incrementali complessi, con l’obiettivo di favorire lo sviluppo futuro di sistemi di apprendimento più adattivi e affidabili.

2026 Tesi di dottorato

IRIS

Scalare l’Intelligenza Artificiale per l’Analisi di Immagini Orali e Dentali

Authors: Lumetti, Luca

La tomografia computerizzata a fascio conico (Cone Beam Computed Tomography, CBCT) è centrale nella pratica odontoiatrica e maxillo-facciale contemporanea, ma … (Read full abstract)

La tomografia computerizzata a fascio conico (Cone Beam Computed Tomography, CBCT) è centrale nella pratica odontoiatrica e maxillo-facciale contemporanea, ma i progressi nell’analisi automatizzata sono stati limitati dalla scarsità di dataset pubblici disponibili. Questa tesi affronta tale collo di bottiglia creando un ecosistema aperto ed estensibile che combina dataset, strumenti di annotazione, progressi algoritmici e dimostra come questi elementi interagiscano ciclicamente per accelerare la ricerca e la traduzione in prodotti clinici. Il dataset Maxillo è stato il primo nel suo genere, fornendo 91 volumi densamente annotati e 256 scansioni annotate in modo sparso per l’annotazione del Canale Alveolare Inferiore. La serie ToothFairy, a cui questa tesi ha contribuito, si è basata su queste fondamenta: la prima versione di ToothFairy ha aumentato le annotazioni dense a 156 volumi; ToothFairy2 si è espansa fino a 480 volumi CBCT, ciascuno con 42 classi semantiche; e ToothFairy3 ha ulteriormente ampliato il corpus a 532 volumi e 77 classi, migliorando al contempo la qualità delle annotazioni e la diversità degli scanner utilizzati. A complemento delle CBCT, il dataset Bits2Bites, anch'esso parte di questa tesi, ha fornito 200 coppie di scansioni intra-orali registrate con annotazioni multi-etichetta di occlusione. Tutte le risorse sono state rilasciate in modo aperto per consentire benchmarking riproducibili e sviluppi successivi. Per scalare le annotazioni senza sacrificare la fedeltà clinica, ho sviluppato strumenti di annotazione semi-automatizzati e una rigorosa pipeline di controllo qualità che combina modelli predittivi con la revisione da parte di esperti. Fondamentalmente, la creazione dei dataset, gli strumenti e lo sviluppo dei modelli sono progrediti in modo ciclico: dati aggiuntivi hanno permesso modelli migliori; modelli migliori hanno alimentato strumenti di annotazione più rapidi e accurati; e strumenti migliorati hanno a loro volta prodotto dataset più grandi e di qualità superiore, costituendo il contributo intellettuale centrale di questo lavoro. Su questa base di dati, ho migliorato i metodi di segmentazione volumetrica: moduli basati su architettura transformer che codificano esplicitamente le relazioni spaziali tra patch per preservare il dettaglio a livello di voxel aggregando al contempo il contesto a lungo raggio, e adattamenti dell'architettura Mamba per una segmentazione 3D efficiente e ad alta precisione. Infine, ho introdotto U-Net Transplant, un framework di fusione di modelli che propone tecniche innovative per aggiornare e specializzare modelli clinici senza un riaddestramento completo, riducendo i costi di rideploy, lo spazio di archiviazione e i rischi di esposizione dei dati. Nel complesso, questo ecosistema ha fornito il più grande benchmark CBCT aperto per la segmentazione maxillo-facciale fino ad oggi, insieme a un insieme coerente di metodi e strumenti che hanno migliorato in modo sostanziale l’accuratezza, l’efficienza e la gestione del ciclo di vita dell’IA clinica, abilitando una ricerca e un’implementazione dell’IA dentale più rapide, sicure e riproducibili.

2026 Tesi di dottorato

IRIS

Tecniche avanzate di Intelligenza Artificiale per l’apprendimento continuo e robusto su dati strutturati

Authors: Menabue, Martin

I metodi di Intelligenza Artificiale hanno raggiunto risultati notevoli in diversi ambiti, ma la loro applicazione efficace a dati dinamici … (Read full abstract)

I metodi di Intelligenza Artificiale hanno raggiunto risultati notevoli in diversi ambiti, ma la loro applicazione efficace a dati dinamici e strutturati rimane una sfida significativa. Questa tesi indaga tecniche avanzate di IA per l’apprendimento continuo e robusto in scenari in cui i dati evolvono nel tempo e presentano complesse dipendenze. La ricerca esplora diverse direzioni complementari per affrontare le limitazioni dei modelli attuali in termini di adattabilità e resilienza. In primo luogo, vengono studiati metodi di apprendimento continuo per consentire alle reti neurali di apprendere da flussi sequenziali di dati senza dimenticare le conoscenze acquisite in precedenza. Viene proposto un approccio basato sulla distillazione che sfrutta i Vision Transformer, in cui le rappresentazioni di attenzione vengono trasferite tra modelli teacher e student, migliorando la stabilità. Inoltre, viene sviluppata una strategia di prompt learning basata sugli embedding del modello CLIP, che seleziona dinamicamente prompt specifici per ciascun task, migliorando le prestazioni. La seconda linea di ricerca della tesi riguarda il federated learning, un contesto distribuito in cui le informazioni strutturate emergono naturalmente dalla collaborazione tra i client. Viene introdotto un nuovo meccanismo di difesa contro gli attacchi backdoor, che sfrutta le proprietà spettrali delle rappresentazioni locali dei dati per identificare e mitigare i partecipanti malevoli attraverso tecniche di sintesi e allineamento dei dati. Infine, la tesi analizza attacchi backdoor adattivi e le relative difese, sottolineando come tali vulnerabilità rappresentino una minaccia critica per i processi e le infrastrutture industriali. Nel complesso, il lavoro contribuisce alla progettazione di modelli di IA capaci di adattamento continuo, collaborazione sicura e sfruttamento efficace delle informazioni strutturali per applicazioni reali e industriali.

2026 Tesi di dottorato

IRIS

An Attention-Based Representation Distillation Baseline for Multi-label Continual Learning

Authors: Menabue, Martin; Frascaroli, Emanuele; Boschini, Matteo; Bonicelli, Lorenzo; Porrello, Angelo; Calderara, Simone

Published in: LECTURE NOTES IN COMPUTER SCIENCE

The field of Continual Learning (CL) has inspired numerous researchers over the years, leading to increasingly advanced countermeasures to the … (Read full abstract)

The field of Continual Learning (CL) has inspired numerous researchers over the years, leading to increasingly advanced countermeasures to the issue of catastrophic forgetting. Most studies have focused on the single-class scenario, where each example comes with a single label. The recent literature has successfully tackled such a setting, with impressive results. Differently, we shift our attention to the multi-label scenario, as we feel it to be more representative of real-world open problems. In our work, we show that existing state-of-the-art CL methods fail to achieve satisfactory performance, thus questioning the real advance claimed in recent years. Therefore, we assess both old-style and novel strategies and propose, on top of them, an approach called Selective Class Attention Distillation (SCAD). It relies on a knowledge transfer technique that seeks to align the representations of the student network – which trains continuously and is subject to forgetting – with the teacher ones, which is pretrained and kept frozen. Importantly, our method is able to selectively transfer the relevant information from the teacher to the student, thereby preventing irrelevant information from harming the student’s performance during online training. To demonstrate the merits of our approach, we conduct experiments on two different multi-label datasets, showing that our method outperforms the current state-of-the-art Continual Learning methods. Our findings highlight the importance of addressing the unique challenges posed by multi-label environments in the field of Continual Learning. The code of SCAD is available at https://github.com/aimagelab/SCAD-LOD-2024.

2025 Relazione in Atti di Convegno

DOI IRIS

Continual Facial Features Transfer for Facial Expression Recognition

Authors: Maharjan, R. S.; Bonicelli, L.; Romeo, M.; Calderara, S.; Cangelosi, A.; Cucchiara, R.

Published in: IEEE TRANSACTIONS ON AFFECTIVE COMPUTING

2025 Articolo su rivista

DOI IRIS

Semantic Residual Prompts for Continual Learning

Authors: Menabue, M.; Frascaroli, E.; Boschini, M.; Sangineto, E.; Bonicelli, L.; Porrello, A.; Calderara, S.

Published in: LECTURE NOTES IN COMPUTER SCIENCE

Prompt-tuning methods for Continual Learning (CL) freeze a large pre-trained model and train a few parameter vectors termed prompts. Most … (Read full abstract)

Prompt-tuning methods for Continual Learning (CL) freeze a large pre-trained model and train a few parameter vectors termed prompts. Most of these methods organize these vectors in a pool of key-value pairs and use the input image as query to retrieve the prompts (values). However, as keys are learned while tasks progress, the prompting selection strategy is itself subject to catastrophic forgetting, an issue often overlooked by existing approaches. For instance, prompts introduced to accommodate new tasks might end up interfering with previously learned prompts. To make the selection strategy more stable, we leverage a foundation model (CLIP) to select our prompts within a two-level adaptation mechanism. Specifically, the first level leverages a standard textual prompt pool for the CLIP textual encoder, leading to stable class prototypes. The second level, instead, uses these prototypes along with the query image as keys to index a second pool. The retrieved prompts serve to adapt a pre-trained ViT, granting plasticity. In doing so, we also propose a novel residual mechanism to transfer CLIP semantics to the ViT layers. Through extensive analysis on established CL benchmarks, we show that our method significantly outperforms both state-of-the-art CL approaches and the zero-shot CLIP test. Notably, our findings hold true even for datasets with a substantial domain gap w.r.t. the pre-training knowledge of the backbone model, as showcased by experiments on satellite imagery and medical datasets. The codebase is available at https://github.com/aimagelab/mammoth.

2025 Relazione in Atti di Convegno

DOI IRIS

Towards on-device continual learning with Binary Neural Networks in industrial scenarios

Authors: Vorabbi, L.; Carraggi, A.; Maltoni, D.; Borghi, G.; Santi, S.

Published in: IMAGE AND VISION COMPUTING

This paper addresses the challenges of deploying deep learning models, specifically Binary Neural Networks (BNNs), on resource-constrained embedded devices within … (Read full abstract)

This paper addresses the challenges of deploying deep learning models, specifically Binary Neural Networks (BNNs), on resource-constrained embedded devices within the Internet of Things context. As deep learning continues to gain traction in IoT applications, the need for efficient models that can learn continuously from incremental data streams without requiring extensive computational resources has become more pressing. We propose a solution that integrates Continual Learning with BNNs, utilizing replay memory to prevent catastrophic forgetting. Our method focuses on quantized neural networks, introducing the quantization also for the backpropagation step, significantly reducing memory and computational requirements. Furthermore, we enhance the replay memory mechanism by storing intermediate feature maps (i.e. latent replay) with 1bit precision instead of raw data, enabling efficient memory usage. In addition to well-known benchmarks, we introduce the DL-Hazmat dataset, which consists of over 140k high-resolution grayscale images of 64 hazardous material symbols. Experimental results show a significant improvement in model accuracy and a substantial reduction in memory requirements, demonstrating the effectiveness of our method in enabling deep learning applications on embedded devices in real-world scenarios. Our work expands the application of Continual Learning and BNNs for efficient on-device training, offering a promising solution for IoT and other resource-constrained environments.

2025 Articolo su rivista

DOI IRIS

Towards Unbiased Continual Learning: Avoiding Forgetting in the Presence of Spurious Correlations

Authors: Capitani, Giacomo; Bonicelli, Lorenzo; Porrello, Angelo; Bolelli, Federico; Calderara, Simone; Ficarra, Elisa

Published in: IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION

2025 Relazione in Atti di Convegno

DOI IRIS

Enabling On-Device Continual Learning with Binary Neural Networks and Latent Replay

Authors: Vorabbi, Lorenzo; Maltoni, Davide; Borghi, Guido; Santi, Stefano

On-device learning remains a formidable challenge, especially when dealing with resource-constrained devices that have limited computational capabilities. This challenge is … (Read full abstract)

On-device learning remains a formidable challenge, especially when dealing with resource-constrained devices that have limited computational capabilities. This challenge is primarily rooted in two key issues: first, the memory available on embedded devices is typically insufficient to accommodate the memory-intensive back-propagation algorithm, which often relies on floating-point precision. Second, the development of learning algorithms on models with extreme quantization levels, such as Binary Neural Networks (BNNs), is critical due to the drastic reduction in bit representation. In this study, we propose a solution that combines recent advancements in the field of Continual Learning (CL) and Binary Neural Networks to enable on-device training while maintaining competitive performance. Specifically, our approach leverages binary latent replay (LR) activations and a novel quantization scheme that significantly reduces the number of bits required for gradient computation. The experimental validation demonstrates a significant accuracy improvement in combination with a noticeable reduction in memory requirement, confirming the suitability of our approach in expanding the practical applications of deep learning in real-world scenarios.

2024 Relazione in Atti di Convegno

DOI IRIS

Latent spectral regularization for continual learning

Authors: Frascaroli, Emanuele; Benaglia, Riccardo; Boschini, Matteo; Moschella, Luca; Fiorini, Cosimo; Rodolà, Emanuele; Calderara, Simone

Published in: PATTERN RECOGNITION LETTERS

While biological intelligence grows organically as new knowledge is gathered throughout life, Artificial Neural Networks forget catastrophically whenever they face … (Read full abstract)

While biological intelligence grows organically as new knowledge is gathered throughout life, Artificial Neural Networks forget catastrophically whenever they face a changing training data distribution. Rehearsal-based Continual Learning (CL) approaches have been established as a versatile and reliable solution to overcome this limitation; however, sudden input disruptions and memory constraints are known to alter the consistency of their predictions. We study this phenomenon by investigating the geometric characteristics of the learner’s latent space and find that replayed data points of different classes increasingly mix up, interfering with classification. Hence, we propose a geometric regularizer that enforces weak requirements on the Laplacian spectrum of the latent space, promoting a partitioning behavior. Our proposal, called Continual Spectral Regularizer for Incremental Learning (CaSpeR-IL), can be easily combined with any rehearsal-based CL approach and improves the performance of SOTA methods on standard benchmarks.

2024 Articolo su rivista

DOI IRIS