Machine vision nell'industria: come funziona, cosa serve e quando conviene

Quando le macchine guardano

Il processo di controllo qualità sa essere complicato. Test visivi, analisi a campione, risultati che dipendono dall’esperienza di chi si occupa di QA e dalla mente fresca di chi è il linea. Eppure quando si parla di riconoscimento di immagini viene automatico pensare AI! E infatti la machine vision come categoria è una tecnologia consolidata: sistemi di ispezione visiva basati su algoritmi classici sono embedded in macchine utensili, confezionatrici e linee di assemblaggio da decenni. La variante basata su deep learning è più recente: matura nei grandi impianti di elettronica, semiconduttori e automotive, ancora in fase di adozione nella manifattura italiana di medie dimensioni.

Abbiamo già parlato di riconoscimento di immagini nel passato, ma quali metodi esistono? E come si integra in linea?

AI-based machine vision

I sistemi di AI per il machine vision sono basati su modelli di deep learning che elaborano matrici di pixel per generare una predizione: ad esempio conformità di un pezzo, tipo di difetto, posizionamento…

Sappiamo bene che le vie dell’AI sono infinite, e anche in questo caso ci sono molti metodi tra cui possiamo scegliere. Tra i vari metodi utili in industria però possiamo differenziare due macrocategorie: rilevamento supervisionato (quando ho le foto dei difetti) e rilevamento non supervisionato (quando le foto non ci sono).

La scelta pratica tra i due approcci dipende principalmente da due domande: quante immagini di difetti reali sono disponibili? I difetti attesi sono ben definiti e categorizzabili, o sono per natura eterogenei e imprevedibili? Nella pratica industriale, i due approcci vengono spesso combinati.

Quando ci sono le immagini

Il caso più noto prevede la presenza di immagini già etichettate, ovvero foto con il nome e cognome dei difetti che si vogliono identificare. In questi casi, le reti neurali convoluzionali – affiancate negli ultimi anni dai Vision Transformers – imparano ad associare in modo autonomo specifici pattern geometrici all’etichetta associata all’immagine.

Il limite principale è facile da immaginare: servono molti esempi etichettati per ogni classe di difetto. Se un tipo di difetto compare raramente in produzione, costruire un training set rappresentativo richiede tempo e attenzione. Un articolo di revisione sistematica pubblicato su Engineering Applications of Artificial Intelligence (ScienceDirect, 2024) che analizza la letteratura 2020–2023 conferma che la disponibilità di dati etichettati rimane il collo di bottiglia principale nei sistemi di ispezione supervisionata industriale.

Anomaly detection non supervisionata (VAE e affini)

Quando i difetti sono rari o imprevedibili, o quando raccogliere immagini di pezzi difettosi richiederebbe attendere che i problemi effettivamente si presentino in produzione, l’approccio non supervisionato è spesso più pratico. Il modello viene addestrato solo su pezzi conformi: impara la distribuzione tipica dell’aspetto del prodotto, e segnala come anomalia tutto ciò che si discosta in modo significativo da quella distribuzione.

L’algoritmo più usato in letteratura è il Variational Autoencoder (VAE): il modello comprime l’immagine in una rappresentazione latente e poi la ricostruisce. Se la ricostruzione è fedele, il pezzo è normale. Se ci sono discrepanze significative – un graffio, un’inclusione, una deformazione – il modello non riesce a ricostruire correttamente quella zona, e la differenza diventa il segnale di anomalia.

Il dataset MVTec AD, introdotto da Bergmann et al. (CVPR 2019 e International Journal of Computer Vision, 2021) e oggi standard di riferimento accademico per il benchmarking di metodi di anomaly detection industriale, contiene oltre 5.000 immagini ad alta risoluzione di quindici categorie di prodotti reali, con oltre 70 tipologie di difetti annotati a livello di pixel. È lo strumento con cui la comunità di ricerca valuta comparativamente i diversi approcci.

Cosa serve per costruire un modello

Quante immagini servono?

La risposta dipende dall’approccio:

Per l’anomaly detection la letteratura indica che modelli ben configurati possono raggiungere performance accettabili con alcune centinaia di immagini di pezzi conformi.
Per la classificazione, il numero sale significativamente: alcune centinaia per classe in condizioni favorevoli (variabilità limitata, illuminazione controllata), migliaia o decine di migliaia in scenari complessi.

Nella pratica, contano più la qualità e la varietà delle immagini che il numero assoluto. Un dataset di 500 immagini che coprono tutte le varianti di illuminazione, orientamento e difetto è spesso più utile di 5.000 immagini quasi identiche.

Ci sono però dei modi per ‘barare’, se si può dire così. Addestrare da zero una CNN profonda su dati industriali infatti è raramente necessario – e spesso controproducente. Il transfer learning riduce drasticamente la necessità di dati e i tempi di addestramento, nella maggior parte dei sistemi di ispezione industriale commerciali è già il paradigma di default.

Partendo da un modello pre-trained il sistema impara più velocemente e meglio. Fonte

Le etichette non crescono sugli alberi

La fase più sottovalutata nella costruzione di un modello supervisionato è l’etichettatura. Ogni immagine di difetto deve essere annotata con precisione: qual è il tipo di difetto, dov’è localizzato, qual è il suo contorno (davvero! Da disegnare in modo chiaro e riconoscibile). Questo lavoro richiede personale esperto che conosce bene il processo e che deve dedicare tempo significativo a un’attività il cui valore aggiunto non è immediato.

Il modello impara a riconoscere quello che è stato etichettato, con il livello di dettaglio dell’etichetta stessa. Fonte

Se il team di etichettatura include diverse persone, la definizione condivisa e documentata dei criteri di accettazione è un prerequisito fondamentale. Se il Responsabile Qualità e il tecnico non sono d’accordo su cosa costituisce un difetto accettabile, nemmeno il modello lo sarà. E infatti le etichette inconsistenti tra annotatori diversi degradano le performance del modello, in modo spesso non immediatamente visibile nelle metriche aggregate.

La telecamera giusta, nel posto giusto

Una volta costruito il sistema di machine vision si è a metà dell’opera. I modelli infatti sono utili solo se processano immagini in real time, e queste immagini devono essere raccolte in qualche modo. Diciamo, con hardware in campo per la raccolta di immagini.

Smart camera vs. sistema separato

Sul mercato esistono due architetture principali.

Le smart camera (o vision sensor integrati) integrano nello stesso dispositivo il sensore ottico, il processore di inferenza e il software: un singolo oggetto da montare in linea, con uscita digitale diretta verso il PLC.

I sistemi separati abbinano una o più telecamere industriali a un PC edge dedicato che esegue il modello: più flessibili, più potenti per applicazioni complesse o multi-camera, ma con cablaggio, installazione e manutenzione più articolati.

Training-inference match

Un aspetto facile da sottovalutare nei rollout ma che potrebbe costare l’intero PoC è addestrare il modello con immagini acquisite in condizioni diverse da quelle di produzione. Se il dataset di training è stato costruito con immagini a 2 megapixel in luce controllata e il sistema in linea lavora con una telecamera da 5 megapixel in illuminazione fluorescente variabile, le performance di previsione dei difetti in real time crolleranno. La risoluzione, l’angolo di ripresa, le condizioni di illuminazione e la distanza soggetto-obiettivo devono essere identiche tra training e inference. Anche se con il senno di poi sembra ovvio, in pratica è una delle cause più comuni di performance deludenti nei primi mesi di esercizio.

Edge inference, cloud training

Per applicazioni di controllo qualità in linea, la risposta è quasi invariabilmente edge. Le ragioni sono tecniche e pratiche: la latenza di un round-trip cloud (tipicamente 200ms–2s a seconda della connessione e del carico del servizio) è incompatibile con linee che scorrono a cadenze di poche centinaia di millisecondi per pezzo. L’inferenza edge su hardware dedicato scende sotto i 50ms in modo deterministico, indipendente dalla connettività di rete.

Ci sono eccezioni: l’addestramento di nuove versioni del modello si fa tipicamente in cloud o su server centralizzato, dove le risorse di calcolo sono più disponibili e facili da gestire. Il pattern più comune è edge per l’inferenza, cloud o server centrale per il training. Va considerata anche la riservatezza dei dati: le immagini di produzione possono contenere informazioni sensibili su processi proprietari che l’azienda preferisce non trasmettere verso infrastrutture esterne.

Cosa valutare nell’hardware: cinque domande prima di scegliere

Un sistema di machine vision funzionante non è solo un modello accurato. L’hardware è la parte che dovrà resistere per anni nell’ambiente di produzione reale. Prima di firmare un ordine:

Classe di protezione IP: l’ambiente è polveroso, umido, esposto a liquidi di raffreddamento? IP65 è il minimo per ambienti produttivi standard; ambienti più aggressivi richiedono rating superiori.
Certificazione ATEX: se l’ambiente è a rischio esplosione (presenza di polveri o gas infiammabili), la certificazione ATEX non è opzionale.
Range di temperatura operativa: le temperature in fonderia, vicino a forni o in celle frigorifere escludono hardware consumer. Verificare il range certificato, non solo quello nominale.
Protocollo di comunicazione industriale: il sistema parla con il PLC via Profinet, EtherNet/IP, OPC-UA? La compatibilità con l’automazione esistente deve essere verificata prima dell’acquisto, non dopo l’installazione.
Disponibilità di ricambi e supporto nel lungo periodo: un fornitore che esca dal mercato o che discontinui un modello di telecamera dopo tre anni è un rischio reale per un sistema che si prevede attivo per un decennio.

Il retraining

Lo abbiamo ripetuto molte volte: il modello una volta allenato non è un item statico ma diventa un asset immateriali da manutenere. Una volta in produzione, il modello incontra una realtà che cambia: un nuovo lotto di materia prima con caratteristiche leggermente diverse, una lampada più efficiente che però cambia le condizioni di illuminazione, l’usura del macchinario che modifica l’aspetto del prodotto. Quando i dati di produzione iniziano a differire sistematicamente dai dati di training, le performance del modello degradano, spesso in modo silenzioso, senza che il sistema generi errori espliciti.

Concept drift e data drift. Fonte

Questo fenomeno di data drift è ampliamente noto, e la sua gestione è uno degli aspetti più trascurati nella selezione di un sistema di machine vision. Le strategie per gestire il drift si dividono in due famiglie. Le soluzioni reattive rilevano un calo nelle performance (aumento dei falsi positivi, aumento degli falsi negativi) e innescano un riaddestramento. Le soluzioni di tracking aggiornano il modello continuamente su campioni recenti – più difficile vista l’importanza delle etichette, che può essere gestito con un processo di human in the loop. In entrambi i casi, è necessario che l’azienda abbia un processo definito: chi si accorge del calo di performance, chi raccoglie e valida le nuove immagini di training, chi approva il deployment del modello aggiornato…

Machine vision e qualità

La machine vision è una tecnologia matura. Il controllo qualità visivo automatizzato esiste in forma industriale dagli anni ’90, e i sistemi basati su deep learning sono in produzione in ambienti reali da almeno un decennio, dimostrando affidabilità industriale:

Ispezione superficiale: rilevamento di graffi, cricche, inclusioni, macchie su superfici metalliche, plastiche, tessili, ceramiche, vetro, semiconduttori.
Controllo assemblaggio: verifica della presenza, della posizione e dell’orientamento di componenti in un assembly (connettori, viti, etichette, coperchi). Applicazione molto diffusa nell’elettronica e nell’automotive.
Misurazione dimensionale: verifica di tolleranze geometriche tramite elaborazione d’immagine, in sostituzione o a integrazione del controllo manuale con strumenti di misura.
Lettura codici e tracciabilità: OCR su etichette, lettura di DataMatrix, QR code, serial number – spesso integrato nei sistemi MES.
Sicurezza e DPI: rilevamento della presenza di dispositivi di protezione individuale (guanti, occhiali, caschetti) nelle aree a rischio.

Le sfide che spesso non compaiono nelle brochure

Falsi positivi: un sistema che scarta troppi pezzi buoni genera un costo operativo reale e un problema di credibilità. Il bilanciamento tra sensibilità e specificità è una scelta che l’azienda deve fare consapevolmente, non lasciare al fornitore. In applicazioni ad alto rischio (farmaceutico, aeronautico) si accetta un tasso di falsi positivi elevato per minimizzare gli escape; in altri contesti, il rapporto si inverte.
Closed-loop vs. human-in-the-loop: non tutti i sistemi di machine vision devono azionare automaticamente uno scarto o un fermo linea. In molti contesti, la scelta corretta è mantenere un operatore nel ciclo di decisione, almeno nelle prime fasi di deployment, e usare il sistema come supporto al giudizio umano piuttosto che come sostituto. L’escalation automatica verso il fermo linea si giustifica quando il tasso di falsi negativi è verificato e la conseguenza del difetto non rilevato è grave.
Variabilità delle condizioni di illuminazione: la luce naturale che entra da lucernari o finestre, i cambi di turno con illuminazione artificiale diversa, i riflessi su superfici metalliche lucide — sono tutti fattori che degradano la consistenza delle immagini. I sistemi professionali includono illuminatori dedicati proprio per eliminare la variabilità ambientale, ma il costo e l’ingombro non sono trascurabili.
Ambienti difficili: fonderia, verniciatura, lavorazione meccanica con lubrorefrigeranti, ambienti criogenici o a rischio ATEX richiedono soluzioni hardware specifiche. Il dispositivo più accurato sul mercato è inutile se si guasta per condensazione o contaminazione dopo due mesi.

Quali savings aspettarsi

I numeri che circolano online (ROI del 374% in tre anni, 37% di riduzione dei difetti) provengono quasi interamente da materiale prodotto da fornitori di software o consulenti e non sono calcolati in modo indipendente. La valutazione del ritorno atteso deve partire dal costo reale della qualità nell’impianto specifico: costo dello scarto, costo del rework, costo delle non conformità arrivate al cliente, costo del personale di ispezione. Un modello ROI costruito su questi dati interni produce stime molto più affidabili di qualunque benchmark di settore. Come al solito quindi quando si parla di ROI serve prima di tutto capire quanto costa un singolo difetto oggi, e quale impatto sui costi totali ha.

Machine vision nell’industria: come funziona, cosa serve e quando conviene

Quando le macchine guardano