Audio Spectrogram Transformer – Vladimiro Colombi

Uno studio, pubblicato di recente e intitolato “Vocal Biomarkers for Parkinson’s Disease Classification Using Audio Spectrogram Transformers” (edito su riviste del circuito ScienceDirect / Journal of Voice), rappresenta un passo avanti molto importante nell’uso dell’intelligenza artificiale per la diagnosi precoce e non invasiva del morbo di Parkinson.

Ecco una spiegazione dettagliata e strutturata di come funziona lo studio, degli strumenti utilizzati e dei risultati ottenuti.

Il contesto: perché la voce?

Il morbo di Parkinson è una malattia neurodegenerativa che colpisce il sistema motorio. Tra i primissimi sintomi, che spesso compaiono molto prima dei classici tremori visibili, ci sono le alterazioni della voce e della parola (una condizione nota come disartria, che colpisce fino al 90% dei pazienti). I pazienti affetti da Parkinson mostrano spesso:

Riduzione del volume della voce (ipofonia).
Parlata monotona e priva di intonazione.
Voce roca, affannata o tremula.
Articolazione imprecisa delle parole.

Poiché registrare la voce è un’operazione economica, rapida e totalmente non invasiva (eseguibile anche da remoto tramite uno smartphone), la ricerca scientifica sta cercando di trasformare la voce in un biomarcatore digitale per diagnosticare la malattia.

L’innovazione tecnologica: l’Audio Spectrogram Transformer (AST)

I metodi tradizionali di intelligenza artificiale analizzavano la voce estraendo parametri acustici manuali (come il jitter per l’instabilità della frequenza o lo shimmer per l’ampiezza), oppure trasformavano l’audio in un’immagine (lo spettrogramma) per poi analizzarlo con reti neurali nate per le immagini (i CNN).

Questo studio introduce l’uso dell’Audio Spectrogram Transformer (AST).

Cos’è uno spettrogramma? È una rappresentazione visiva di un suono che mostra come variano le frequenze nel tempo.
Cos’è un Transformer? È l’architettura di intelligenza artificiale alla base dei moderni modelli di linguaggio (come GPT o Gemini). I Transformer utilizzano un meccanismo chiamato “self-attention” (auto-attenzione).

Come funziona l’AST nel Parkinson: Il modello non guarda l’audio come un semplice blocco, ma lo scompone in “patch” (frammenti) di tempo e frequenza, analizzando le relazioni tra i diversi momenti della parlata. L’auto-attenzione permette al modello di catturare anomalie micro-acustiche e correlazioni a lungo termine nel parlato che i modelli tradizionali non riuscivano a rilevare.

Come è stato condotto lo studio (I Dati)

I ricercatori hanno testato il modello AST su registrazioni vocali provenienti da 150 partecipanti, suddivisi in due database principali:

PC-GITA (Colombia): 100 partecipanti (50 pazienti con Parkinson e 50 controlli sani) di lingua spagnola.
ITA (Italia): 50 partecipanti (28 pazienti con Parkinson e 22 controlli sani) di lingua italiana.

I partecipanti hanno eseguito diversi compiti vocali, tra cui la fonazione di vocali sostenute (ad esempio, tenere la “A” o la “O” per diversi secondi) e la lettura di frasi o testi continui.

L’AST è stato messo a confronto con i modelli di deep learning tradizionali più forti del settore (come le reti ResNet, VGG16, VGG19 e i classici Vision Transformer). Il modello AST ha superato nettamente tutte le altre architetture tradizionali, dimostrando un’accuratezza straordinaria:

97,14% di accuratezza sul dataset italiano (ITA).
91,67% di accuratezza sul dataset colombiano (PC-GITA).
92,73% di accuratezza combinando insieme i dati.

I risultati migliori in assoluto sono stati ottenuti analizzando le vocali sostenute (con una precisione del 97% e un recupero/recall del 96%). Questo accade perché mantenere una vocale stabile richiede un controllo motorio fine e continuo delle corde vocali, che nel Parkinson viene a mancare precocemente, creando micro-interruzioni e instabilità che l’AST intercetta perfettamente.

La generalizzazione cross-linguistica (Il vero punto di forza)

Uno dei problemi storici dei modelli di analisi vocale è che spesso funzionano solo sulla lingua per cui sono stati addestrati, poiché le diverse lingue hanno ritmi, accenti e fonetiche proprie. L’aspetto più rivoluzionario di questo studio è che l’AST ha dimostrato una robusta capacità di generalizzazione cross-linguistica. Superando gli altri modelli del 5%-10%, l’AST si concentra sulle alterazioni biomeccaniche universali della laringe e dell’apparato fonatorio del Parkinson, indipendentemente dal fatto che il paziente parli italiano o spagnolo.

Conclusioni e impatto futuro

Lo studio conclude che l’Audio Spectrogram Transformer è uno strumento estremamente affidabile per la classificazione del morbo di Parkinson.

Cosa significa per il futuro della medicina? Apre le porte allo sviluppo di strumenti di screening clinico accessibili a tutti. In futuro, un medico di base o un paziente da casa potrebbe semplicemente registrare pochi secondi di voce su un’applicazione per smartphone. L’algoritmo AST potrebbe analizzare lo spettrogramma in tempo reale, offrendo un segnale di allarme precoce sul Parkinson, permettendo di intervenire tempestivamente con le terapie prima che i sintomi motori gravi si manifestino.

Tag: Audio Spectrogram Transformer

L’UTILIZZO DEI BIOMARCATORI VOCALI PER LO STUDIO DELLE NEURODEGENERAZIONI

Il contesto: perché la voce?

L’innovazione tecnologica: l’Audio Spectrogram Transformer (AST)

Come è stato condotto lo studio (I Dati)

La generalizzazione cross-linguistica (Il vero punto di forza)

Conclusioni e impatto futuro