Portale della Didattica

Apprendimento statistico

01VJVNG

A.A. 2023/24

Lingua dell'insegnamento

Italiano

Corsi di studio

Corso di Laurea Magistrale in Ingegneria Matematica - Torino

Organizzazione dell'insegnamento

Didattica	Ore
Lezioni	40
Esercitazioni in aula	20

Docenti

Docente	Qualifica	Settore	h.Lez	h.Es	h.Lab	h.Tut	Anni incarico
Mastrantonio Gianluca	Professore Associato	STAT-01/A	20	10	0	0	3

Collaboratori

Espandi

Didattica

SSD	CFU	Attivita' formative	Ambiti disciplinari
MAT/03 SECS-S/01	3 3	D - A scelta dello studente D - A scelta dello studente	A scelta dello studente A scelta dello studente

Date d'appello

Orario delle lezioni

Statistiche superamento esami

Anno accademico di inizio validità

2023/24

Presentazione

L'obiettivo principale dell'insegnamento è di dare agli studenti le basi matematiche per comprendere e usare le più importanti tecniche di apprendimento statistico (o machine learning), sia supervisionato che non supervisionato. L'insegnamento è progettato per fornire agli studenti una solida comprensione dei metodi avanzati utilizzati per analizzare e interpretare dati complessi e si concentrerà su classificazione, analisi serie temporali (SARIMA), e metodi simulativi (Monte Carlo). L'insegnamento offre agli studenti la conoscenza e le competenze necessarie per affrontare sfide analitiche complesse, fornendo loro una base solida per carriere in ambiti come l'analisi dei dati, la previsione e la modellizzazione statistica.

The main objective of the teaching is to provide students with the mathematical foundations to understand and use the most important techniques of statistical learning (or machine learning), both supervised and unsupervised. The teaching is designed to provide students with a solid understanding of advanced methods used to analyze and interpret complex data, and will focus on classification, time series analysis (SARIMA), and simulation methods (Monte Carlo). The teaching offers students the knowledge and skills necessary to tackle complex analytical challenges, providing them with a solid foundation for careers in fields such as data analysis, prediction, and statistical modeling.

Risultati attesi

Al termine dell'insegnamento si chiederà allo studente di: - acquisire una conoscenza approfondita dei concetti fondamentali delle serie temporali, inclusi trend, stagionalità, autocorrelazione e stazionarietà. - applicare metodi statistici e tecniche di modellizzazione per analizzare le serie temporali, inclusi modelli autoregressivi (AR), modelli a media mobile (MA), modelli ARIMA e SARIMA. - essere in grado di utilizzare modelli di previsione per stimare valori futuri delle serie temporali e comprendere i concetti di valutazione delle prestazioni nella previsione delle serie temporali. - acquisire una comprensione dei principi e delle applicazioni del metodo Monte Carlo per la generazione di campioni casuali e la simulazione di processi complessi. - applicare le tecniche di simulazione Monte Carlo per risolvere problemi complessi, valutare l'incertezza e stimare distribuzioni di probabilità. - acquisire una conoscenza dettagliata della matematica alla base delle tecniche di apprendimento più diffuse e conoscere i limiti delle varie tecniche - comprendere e applicare algoritmi di machine learning per l'analisi di dati reali Gli studenti dovranno essere in grado di valutare criticamente i risultati ottenuti dall'analisi e di interpretare in modo accurato e significativo i risultati ottenuti, e applicare le conoscenze e le competenze acquisite in contesti real

Prerequisiti

Si presume che gli studenti conoscano gli argomenti trattati dai corsi standard di matematica impartiti nei corsi di ingegneria. Inoltre, è richiesta la conoscenza di concetti base di probabilità e statistica: pdf, distribuzione normale, valore atteso, varianza, covarianza. Si richiede inoltre una conoscenza di base del software R e/o Python.

Programma

- Metodi Simulativi: Montecarlo, Bootstrap; - Classificazione: regressione logistica; analisi discriminante, lineare, quadratica e di Fisher, Näive Bayes Classifier, Alberi decisionali; - Metodi basati su nuclei e regolarizzazione: SVM, PCA, Lasso, Ridge, Pruning, Sparsità, Stabilità indotta dalla regolarizzazione; - Metodi di ensemble: Random Forest, Boosting (ADA e Alberi); - Serie temporali: Analisi descrittiva, predizione, decomposizione, modelli stocastici (SARIMA e sottomodelli).

Sustainable development goals

Note

Organizzazione dell'insegnamento

Verranno impartite lezioni e esercitazioni. Mediamente, 3 ore di lezioni a settimana più un'ora e mezza di esercitazioni. Durante le lezioni si farà uso di lucidi e note scritte a mano (su tablet). Occasionalmente si farà anche uso della lavagna. Per meglio comprendere molti dei concetti e/o modelli, si farà ricorso all'uso del computer per simulazioni o per mostrare le analisi su dataset. I linguaggi usati saranno per la maggior parte R (serie temporali, e Monte Carlo) e Python (machine learning). Gli script usati durante le lezioni faranno parte del materiale didattico dato agli studenti.

Bibliografia

An Introduction to Statistical Learning with Applications in R, first edition Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani New York Springer, ISBN 1461471370 http://www-bcf.usc.edu/~gareth/ISL/ Mathematics for machine learning, first edition Deisenroth, Marc Peter, A. Aldo Faisal, and Cheng Soon Ong. Cambridge University Press, 2020, ISBN 110845514X https://mml-book.github.io/ Forecasting: principles and practice, third edition Rob J Hyndman and George Athanasopoulos https://otexts.com/fpp3/ Introductory Time Series with R, first edition Paul S.P. Cowpertwait and Andrew V. Metcalfe New York Springer, ISBN 978-0-387-88697-8 Dataset disponibili su https://github.com/prabeshdhakal/Introductory-Time-Series-with-R-Datasets Introducing Monte Carlo Methods with R Christian Robert, George Casella https://link.springer.com/book/10.1007/978-1-4419-1576-4 Argomenti avanzati per approfondimenti Data Science and Machine Learning: Mathematical and Statistical Methods, first edition Dirk P. Kroese, Zdravko I. Botev, Thomas Taimre, Radislav Vaisman CRC Press, 2019, ISBN 9781138492530 https://people.smp.uq.edu.au/DirkKroese/DSML/

Materiale di supporto allo studio

Slides; Libro di testo; Esercitazioni di laboratorio;

Criteri, regole e procedure per l'esame

Modalità di esame: Prova orale obbligatoria; Elaborato scritto individuale;

Exam: Compulsory oral exam; Individual essay;

... L'obiettivo dell'esame è quello di testare la conoscenza del candidato sugli argomenti inseriti nel programma, la conoscenza dettagliata della matematica alla base delle tecniche di apprendimento più diffuse, i loro limiti, e di testare le capacità nell'analisi dei dati utilizzando i modelli illustrati a lezione dimostrando di saper determinare il dominio di applicabilità delle varie tecniche rispetto alla natura dei dati. La votazione totale sarà di 15 punti assegnabili per la parte di machine learning, e 15 punti per serie storiche e Monte Carlo Per ognuna delle due parti, è possibile sostenere l'esame in due modalità MODALITA' 1 L'esame consiste in due parti: in primo luogo il candidato scriverà una tesina sull'analisi di un set di dati eseguita utilizzando le metodologie presentate a lezione. Lo studente è libero di usare il software che preferisce: per esempio Orange, R, Matlab, Rapidminer, Python, C++ ecc. La tesina va caricata sul portale del corso, almeno una settimana prima della data ufficiale dell'esame che si vuole sostenere. Lo studente presenta la tesina in una prova orale durante la quale il docente porrà domande anche sugli aspetti teorici dei metodi utilizzati. Sul sito web verranno forniti esempi di lavoro degli anni precedenti. Non sono previsti lavori di gruppo o consegne intermedie per le tesine. Un massimo di 7.5 punti su 15 sono assegnabili al lavoro svolto nella tesina, mentre gli altri 7.5 sono assegnabili in base alle conoscenze teoriche. MODALITA' 2 L'esame consiste in una prova orale in cui, oltre agli aspetti teorici, possono essere discussi anche gli script fatti durante le esercitazioni. Un massimo di 3 punti su 15 sono assegnabili alla conoscenza degli script, mentre gli altri 12 sono assegnabili in base alle conoscenze teoriche.

Gli studenti e le studentesse con disabilità o con Disturbi Specifici di Apprendimento (DSA), oltre alla segnalazione tramite procedura informatizzata, sono invitati a comunicare anche direttamente al/la docente titolare dell'insegnamento, con un preavviso non inferiore ad una settimana dall'avvio della sessione d'esame, gli strumenti compensativi concordati con l'Unità Special Needs, al fine di permettere al/la docente la declinazione più idonea in riferimento alla specifica tipologia di esame.