Politecnico di Torino
Politecnico di Torino
   
Login  
en
Politecnico di Torino
Anno Accademico 2017/18
01RLPNG
Data spaces
Corso di Laurea Magistrale in Ingegneria Matematica - Torino
Docente Qualifica Settore Lez Es Lab Tut Anni incarico
SSD CFU Attivita' formative Ambiti disciplinari
MAT/03
SECS-S/01
4
2
B - Caratterizzanti
C - Affini o integrative
Discipline matematiche, fisiche e informatiche
Attività formative affini o integrative
Esclusioni:
01RLO
Presentazione
L’obiettivo primario di questo corso è di fornire agli studenti solide basi matematiche delle principali tecniche del machine-statistical learning.
Risultati di apprendimento attesi
- Conoscenza e comprensione delle principali tecniche di apprendimento automatico da un punto di vista matematico e operative (conoscenza dettagliata della matematica soggiacente le principali tecniche di apprendimento automatico; consapevolezza delle limitazioni matematiche ed epistemologiche delle varie tecniche; conoscenza dei problemi strutturali ad esempio "the curse of dimensionality")

- Applicazione pratica all’analisi dei dati delle conoscenze acquisite (abilità nell’identificare i domini di applicazione delle varie tecniche; capacità di estrarre informazioni da insiemi di dati, reali o simulati, e di interpretarle attraverso l’uso di software packages o di programmi sviluppati ad-hoc).
Prerequisiti / Conoscenze pregresse
Agli studenti è richiesta la conoscenza dei contenuti dei corsi standard in matematica e statistica della laurea triennale in Ingegneria. In particolare è necessaria una conoscenza, anche di base, di concetti della probabilità e statistica quali probabilità di base, pdf, variabile aleatoria, distribuzione normale, media, espettazione, varianza- covarianza. La Singular Value Decomposition sarà spiegata lungo il corso.
Programma
GENERALITIES ON DATA REPRESENTATION.
Spazi metrici e topologici. Curse of dimensionality; legge dei grandi numeri; la geometria in alta dimensione: proprietà delle sfere unitarie; generazione casuale di punti da una sfera; distribuzione gaussiana in alta dimensione; proiezioni stocastiche e il Lemma di Johnson-Lindenstrauss.

STATISTICAL LEARNING
Che cosa è l’apprendimento statistic. Stime. Il trade-off accuratezza vs interpretabilità. Apprendimento supervisionato e non supervisionato. Confronto regressione – apprendimento/classificazione. Accuratezza dei modelli. Qualitá del Fit. Trade-off Bias-Varianza.

LINEAR REGRESSION
Regressione lineare semplice e multipla.

CLASSIFICATION
Regressione logistica semplice e multipla. Regressione logistica per più di due classi di risposta. Analisi discriminante lineare e quadratica. Comparazione dei metodi di classificazione. K-Nearest Neighbours.

RESAMPLING METHODS (Cenni)
Cross-Validation. Leave-One-Out Cross-Validation. k-Fold Cross-Validation. Cross-Validation on Classification Problems. The Bootstrap.

TREE-BASED METHODS
Decision Trees. Regression Trees. Classification Trees. Bagging, Random Forests, Boosting.

SUPPORT VECTOR MACHINES. Classificazione mediante Separating Hyperplane. The Maximal Margin Classifier. Caso non separabile. Support Vector Classifiers. Support Vector Machines. SVMs con più di due classi. OVO and OVA. Relazione con la regression logistica.

UNSUPERVISED LEARNING. Principal Components Analysis. Clustering. K-means clustering. Hierarchical Clustering. Richiami e aspetti teorici: teorema di impossibilità di Kleinberg.
Organizzazione dell'insegnamento
Il Corso consta di lezioni ed esercitazioni in aula, nonché di esercitazioni di laboratorio.
Testi richiesti o raccomandati: letture, dispense, altro materiale didattico
An Introduction to Statistical Learning 
with Applications in R 
Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani 

https://www.amazon.it/Introduction-Statistical-Learning-Applications/dp/1461471370/ref=sr_1_1?ie=UTF8&qid=1474898531&sr=8-1&keywords=An+Introduction+to+Statistical+Learning+with+Applications+in+R 

freely available at

http://www-bcf.usc.edu/~gareth/ISL/ 
Criteri, regole e procedure per l'esame
L’obiettivo dell’esame è di verificare le conoscenze del candidato sugli argomenti del corso e la verifica delle competenze e capacita acquisite nell’analisi dei dati mediante i metodi introdotti nel corso.

L’esame consiste di due parti: dapprima il candidato scriverà una tesina riguardante un’analisi di dati da esso effettuata usando I metodi appresi. Ciò potrà essere realizzato mediante l’uso di software pre-esistenti, quali, ma non solo, Orange, Rapidminer, R, Matlab, oppure realizzando del software ad-hoc in python, java, C++ o altri da concordare.
Quando la tesina viene approvata dal docente, il candidato può sostenere l’esame orale che consisterà in una presentazione critica della tesina (20 min.) durante la quale potranno essere fatte domande riguardanti anche aspetti teorici delle tecniche utilizzate.

Tesine di esempio saranno caricate nel materiale del corso.
Statistiche superamento esami

Programma definitivo per l'A.A.2017/18
Indietro



© Politecnico di Torino
Corso Duca degli Abruzzi, 24 - 10129 Torino, ITALY
WCAG 2.0 (Level AA)
Contatti