Curva P-F AI-driven, ovvero come vedere nel futuro

Come convinco l’AI a prevedere i guasti?

I sistemi di AI sono molto usati per fare manutenzione predittiva. In questo articolo (e anche qui, qui e qui) abbiamo parlato di come l’AI riesce a riconoscere i guasti e perché è utile. Abbiamo visto che l’AI non prevede un guasto ma ne intercetta i sintomi, associandoli ad un modo di guasto se questo si è presentato nel passato. Abbiamo anche citato la curva Potential – Failure, che rappresenta i tempi in cui un guasto si sviluppa – chiamato intervallo P-F.

Intervallo P-F, utile per capire quanto prima si può prevedere un guasto. Alcuni guasti hanno intervalli P-F di mesi, altri di ore o di minuti.

Conoscendo l’intervallo P-F e le modalità con cui un guasto evolve, è possibile definire l’orizzonte di previsione per un sistema di manutenzione predittiva. Ma come si fa a riconoscere l’intervallo P-F o intercettare i sintomi di un guasto potenziale?

L’intervallo P-F

Se capire l’intervallo P-F a livello qualitativo è facile, definire modi precisi di calcolarlo diventa una sfida da un milione. Ci sono strategie diverse per il suo calcolo, che sottostanno a ipotesi più o meno forti – ad esempio calcolare il tasso di degrado di un macchinario raccogliendo i dati che lo rappresentano per proiettarlo nel futuro, o utilizzare il tasso di guasto e il tempo dall’ultimo fermo. Questi metodi però spesso sottovalutano interazioni tra condizioni e parametri di funzionamento che accelerano o rallentano la curva P-F – e quindi alla fine fanno stime sbagliate.

Fortuna che abbiamo l’AI, giusto? Usiamo un sistema di anomaly detection o manutenzione predittiva per trovare l’intervallo P-F, che problema c’è?

Curva P-F e anomaly detection

Se vogliamo intercettare un’anomalia, dobbiamo costruire un modello di anomaly detection. Abbiamo visto che l’anomaly detection non fa diagnosi o indicazione di quanto tempo rimane per intervenire, ma dice solo che c’è un’anomalia di qualche tipo. Per capire cosa sta succedendo, sistemi di eXplainable AI possono venire in nostro aiuto, suggerendoci quali tra i parametri di input al modello sono più influenti nella predizione di quella anomalia.

Ma anche se sappiamo che ci sarà un’anomalia e magari a quali parametri è probabilmente legata, ancora non sappiamo quanto tempo manca prima di raggiungere il punto F. Siamo fermi intorno al punto P, e non abbiamo strumenti per guardare nel futuro fino al punto F ricostruendo con precisione l’intervallo che li separa.

I Sistemi di anomaly detection non sono sufficienti per stimare l’intervallo P-F, sappiamo solo che iniziano a intercettare qualcosa nell’intorno del punto P.

Intervallo P-F e manutenzione predittiva

Per vedere nel futuro servirebbe proprio un sistema che preveda l’evoluzione del guasto identificando una tempistica specifica. Qualcosa tipo la manutenzione predittiva. E il modo più sicuro per fare manutenzione predittiva è usare modelli che associno un set di condizioni ad uno stato preciso – un sistema di classificazione.

Questi sistemi di classificazione, ovvero gli algoritmi di machine learning che decidono quanto un set di dati è simile a qualcosa che hanno osservato nel passato, sono sistemi di apprendimento supervisionato. Ovvero, imparano a fare previsione basandosi su qualcosa che mostri cosa è successo per davvero – le famose etichette o label. Queste si possono tirare fuori dai CMMS, che però segnaleranno solo che il guasto è avvenuto: il punto F della curva insomma.

Se alleno un modello solo con quel dato, il modello non farà manutenzione predittiva, ma sarà uno strumento molto costoso per generare ticket di manutenzione quando il guasto c’è già stato. Correttiva 4.0.

Invece, devo trovare un modo intelligente per estendere le etichette nel passato, in modo da segnalare al modello quali sono i dati che potrebbero essere collegati ad un guasto potenziale, prima che questo diventi un fermo macchina. In questo modo, il sistema impara a riconoscere i pattern dei sintomi piuttosto che quelli del guasto effettivo, ed è in grado di segnalare quanto i dati che sta vedendo sono simili a quelli che normalmente portano ad un guasto nel futuro.

I sintomi del guasto iniziano proprio nel punto P dell’intervallo P-F.

Per identificare l’intervallo P-F quindi servirebbe un modello di manutenzione predittiva fatto bene. Per costruire un modello di manutenzione fatto bene servirebbe sapere in anticipo l’intervallo P-F. Siamo appena cascat* in un sistema di equazioni con troppe incognite, come ne usciamo?

Stimare l’intervallo P-F con l’AI

Per risolvere questo dilemma e sbloccare il gioco senza rendere tutto troppo complicato, facciamo qualche ipotesi.

Abbiamo un sistema che presenta un modo di guasto specifico, su cui ci concentreremo
Questo modo di guasto si presenta con sintomi sempre simili, anche se questi sono rappresentati da molte variabili contemporaneamente e sono difficili da intercettare monitorando una sola variabile (se no che divertimento c’è?)
L’intervallo P-F è più o meno stabile per il modo di guasto.

Queste tre ipotesi sono ragionevoli, anche se molti dei sistemi nel mondo reale ne rompono almeno una. Per ora facciamo finta che valgano.

Ce lo dicono i dati

Per risolvere il nostro paradosso matematico, seguiamo la più classica delle strategie: imbarchiamoci in un viaggio nel magico oceano del trial-and-error. Se siamo furbi, possiamo usare strumenti di ottimizzazione per velocizzare il processo, ma al cuor non si comanda e sappiamo che i data scientist amano chilometri di notebook senza grandi automazioni.

Il processo procede più o meno così:

Rietichettiamo i dati grezzi in base a quello che sappiamo:
- Selezioniamo il breve periodo in cui ci aspettiamo che il guasto sia sicuramente visibile dal nostro modello – tipo quando il guasto è stato segnalato nel CMMS
- Ipotizziamo un periodo in cui possiamo suppore che i sintomi del guasto siano in qualche modo intercettabili con buona confidenza – magari chiacchierando con chi conosce bene il processo e il modo in cui il guasto evolve
- Identifichiamo un periodo altrettanto ragionevole in cui ci aspettiamo che il sistema dia sano – di nuovo, chiedere un parere a chi conosce il sistema è una splendida idea
- Facciamo un po’ di taglia e cuci sul nostro dataset: etichettiamo come guasto, pre-guasto e sano i vari periodi che abbiamo selezionato nei punti precedenti
- Rimarrà una zona non etichettata tra l’ultimo momento in cui siamo confidenti che il sistema sia a posto e il primo momento in cui abbiamo la ragionevole certezza che si possa già considerare in preguasto: escludiamo dal dataset di allenamento tutta quella zona grigia e teniamolo da parte
Alleniamo il modello di classificazione multiclasse, che avrà il compito di riconoscere le condizioni di guasto, preguasto e corretto funzionamento in base ai parametri di processo che selezioniamo
Quando il modello è sufficientemente performante, proviamo ad applicarlo alla zona grigia: il modello etichetterà i vari momenti secondo quello che ha imparato dai dati, e inizierà a chiarire meglio cosa ci stanno dicendo i dati in merito alle condizioni di preguasto.
A questo punto, ritorniamo al punto 1 in base alle previsioni che sta facendo il modello, modificando i periodi di guasto, pre-guasto e sano in base ai primi risultati.

Ripetendo questo processo, si convergerà ad un periodo di pre-guasto per cui – con i parametri di processo disponibili – è possibile prevedere il guasto. Il periodo che il modello identifica come pre-guasto diventa quindi il nostro intervallo P-F.

E se le ipotesi saltano?

Questo procedimento funziona bene su un singolo modo di guasto ben rappresentabile dai parametri disponibili. Le ipotesi però potrebbero non reggere in molti dei casi reali, come facciamo?

Se il sistema presenta molti modi di guasto differenti, la via più sicura è ripetere il processo per ogni modo di guasto, per identificare i periodi corretti per ognuno.
Se i sintomi variano molto, forse i dati di processo che abbiamo a disposizione non sono sufficienti per spiegare il 100% delle evoluzioni del modo di guasto. Potremmo raccogliere altri parametri, o usare un sistema di clusterizzazione per identificare condizioni simili e trattare ogni condizione come un modo di guasto a sé.
Similmente, se l’intervallo P-F varia molto al variare delle condizioni, possiamo utilizzare la strategia di clusterizzazione suggerita al punto sopra,. Oppure imbarcarci in un’analisi tempovariante del periodo P-F in base ai parametri di input – ma forse questo va bene per un progetto di dottorato e non per un sistema da sviluppare in breve tempo.

We cracked the code

Utilizzando strumenti di data science e facendoci aiutare dai modelli di classificazione allenati man mano, possiamo ricostruire in modo empirico l’intervallo P-F di uno specifico modo di guasto. Per farlo servono i parametri di processo che possano rappresentarne i sintomi, qualcuno che sa come evolve il modo di guasto, e l’indicazione precisa di quando il guasto è stato registrato. Ah, e tanto tempo e pazienza per ripetere i vari test.

Alla fine, avremo costruito una curva P-F precisa, e un modello di manutenzione predittiva che è predittivo per davvero.

Non male, no?

Curva P-F AI-driven, ovvero come vedere nel futuro

Come convinco l’AI a prevedere i guasti?