Politecnico di Torino | Servizi per la didattica

KEYWORD

DAUIN - GR-04 - DATABASE AND DATA MINING GROUP - DBDM

Esplorazione delle Tecniche di Deep learning per Migliorare la Diagnosi di Disturbi della Voce

Parole chiave DEEP LEARNING, DISTURBI VOCDEEP LEARNING, VOICE RECOGNITION, VOIC, RICONOSCIMENTO VOCALE

Gruppi di ricerca DAUIN - GR-04 - DATABASE AND DATA MINING GROUP - DBDM

Tipo tesi EXPERIMENTAL/MODELLING

Descrizione I disturbi della voce rappresentano una sfida significativa per una diagnosi e classificazione accurate, richiedendo spesso competenze specializzate e valutazioni soggettive. Questa tesi esplorerà l'applicazione delle tecniche di deep learning nell'analisi di campioni vocali di pazienti con diversi tipi di disturbi della voce, mirando a migliorare l'accuratezza e l'efficienza della diagnosi. La metodologia di ricerca prenderà in considerazione un dataset diversificato di campioni vocali provenienti da pazienti con diverse diagnosi di disturbi della voce, tra cui noduli alle corde vocali, polipi, paralisi delle corde vocali e cancro alla laringe. Questi campioni vocali saranno prima sottoposti a preprocessamento per estrarre caratteristiche acustiche rilevanti, come tonalità, jitter, shimmer e caratteristiche spettrali, che serviranno da input per i modelli di deep learning.

Diverse architetture di deep learning, incluse le reti neurali convoluzionali (CNN), saranno addestrate e valutate sul dataset per classificare accuratamente i disturbi della voce. Saranno impiegate anche tecniche di transfer learning per sfruttare modelli pre-addestrati e ottimizzare le prestazioni. Infine, verranno considerati anche approcci innovativi End-to-End (E2E) basati sull'architettura Transformer che consentono di preprocessare direttamente il campione vocale senza preprocessamento. Questi approcci hanno recentemente raggiunto prestazioni all'avanguardia in diversi benchmark di classificazione audio. Il loro impiego nel campo dell'identificazione dei disturbi della voce deve ancora essere studiato.

Inoltre, saranno impiegate tecniche di interpretabilità per analizzare le rappresentazioni apprese dai modelli di deep learning, fornendo potenzialmente interessanti spunti sulle caratteristiche discriminatorie che contribuiscono a una classificazione accurata. Queste conoscenze possono aiutare i clinici a comprendere le caratteristiche sottostanti dei disturbi della voce e a prendere decisioni informative sul trattamento.

Conoscenze richieste Python, Machine Learning, nozioni basilari di Deep Learning

Scadenza validita proposta 13/11/2024 PROPONI LA TUA CANDIDATURA