L'analisi dei dati, in particolare quando si lavora con i Big Data e con dati caratterizzati da dipendenze strutturate, richiede una profonda comprensione del meccanismo generativo dei dati, delle fonti di rumore e delle variabili confondenti. Per questo motivo, la capacità di formalizzare un modello che descriva accuratamente le relazioni tra variabili osservate e variabili/processi latenti, e di implementare un algoritmo di stima nel contesto appropriato, è fondamentale per chi intende lavorare nel campo dell'analisi dei dati, sia come statistico sia come data scientist.
L'insegnamento della Statistica Computazionale mira a fornire le basi teoriche e pratiche necessarie per affrontare problemi complessi di analisi dei dati mediante strumenti computazionali avanzati. L'insegnamento permette di acquisire conoscenze che ampliano e rafforzano quelle ottenute nei programmi di laurea triennale, migliorando la comprensione dei metodi e delle tecniche avanzate utilizzate nella statistica inferenziale e computazionale. Inoltre, l'insegnamento fornisce gli strumenti necessari per applicare le conoscenze acquisite in contesti pratici, progettare e implementare soluzioni a problemi statistici reali, e formulare ipotesi su informazioni incomplete o limitate.
Data analysis, particularly when working with Big Data and data characterized by structured dependencies, requires a deep understanding of the generative mechanism of the data, the sources of noise, and confounding variables. For this reason, the ability to formalize a model that accurately describes the relationships between observed variables and latent variables/processes, and to implement an estimation algorithm in the appropriate context, is fundamental for those intending to work in the field of data analysis, whether as a statistician or a data scientist.
The teaching of Computational Statistics aims to provide the theoretical and practical foundations necessary to tackle complex data analysis problems using advanced computational tools. The course allows for the acquisition of knowledge that expands and strengthens what is obtained in undergraduate programs, enhancing the understanding of advanced methods and techniques used in inferential and computational statistics. Additionally, the course provides the necessary tools to apply the acquired knowledge in practical contexts, design and implement solutions to real statistical problems, and formulate hypotheses on incomplete or limited information.
Al termine dell’insegnamento si chiederà allo studente di:
- comprendere la rappresentazione gerarchici dei modelli probabilistici
- comprendere il concetto di variabile latente e la loro utilità nei modelli
- essere in grado di formalizzare un modello gerarchico, sia in ottica Bayesiana che frequentista
- essere in grado di implementare un algoritmo per stimare un modello gerarchico
- essere in grado di formalizzare e applicare modelli a dati reali complessi
- essere in grado di simulare dati da modello utilizzando metodi Monte Carlo
- sviluppare la capacità di formalizzare ipotesi circa le relazioni tra variabili osservate e latenti
- sviluppare la capacità di valutare criticamente la bontà e aderenza del modello ai dati
The student will learn how to apply in practice the statistical methods s/he has studied in theory, in order to use all of their methodological potentials.
Si presume che gli studenti conoscano gli argomenti trattati dai corsi standard di matematica impartiti nei corsi di ingegneria. Inoltre, è richiesta la conoscenza di concetti base di probabilità e statistica, quali pmf/pdf, stimatori di massima verosimiglianza, condizionamento, distribuzioni multivariate, teorema di Bayes (una preparazione equivalente a 15 crediti di Probabilità e Statistica Matematica) e del software R.
Previous education equivalent to 15 credits of Probability and Mathematical Statistics.
L'insegnamento è diviso in 3 moduli.
Modulo 1 (6 CFU). In questo modulo si affronteranno gli argomenti teorici generali
- DAG per la rappresentazione di modelli
- Stimatori Monte Carlo
- Markov Chains
- Algoritmi Markov chain Monte Carlo e Expectation Maximization
Modulo 2 (4 CFU) - In questo modulo si studieranno modelli per dati con dipendenza strutturata
- Processi Gaussiani e loro utilizzo per modelli non parametrici
- Geostatistica
- Serie Storiche
- Teorema di Hammersley–Clifford e Lemma di Brooks
- Automodelli e Modelli su Grafo
Modulo 3 (2 CFU) - in questo modulo si studieranno i modelli di tipo mistura
- Modelli mistura
- Modelli mistura per serie temporali: Hidden Markov Model
- Algoritmo di VIterbi
- Change-point model e modelli per anomaly detection
Linear models and their applications.
Generalized linear models.
Principles of clinical and biomedical experimentation.
Parametric and nonparametric survival and reliability.
Principal components
Discriminant analysis.
Introduction to Bayesian networks.
Categorical data.
R, OpenBUGS and other specialized software.
Verranno impartite lezioni e esercitazioni. Mediamente, 3 ore di lezioni a settimana più un'ora e mezza di esercitazioni. Durante le lezioni si farà uso di lucidi e note scritte a mano (su tablet). Occasionalmente si farà anche uso della lavagna. Per meglio comprendere molti dei concetti e/o modelli, si farà ricorso all'uso del computer per simulazioni o per mostrare le analisi su dataset. I linguaggi usati saranno per la maggior parte R, JAGS, STAN, INLA. Gli script usati durante le lezioni faranno parte del materiale didattico dato agli studenti.
Traditional exercise sessions will complement lectures, whereas appropriate statistical software will be used in computer lab sessions.
Modulo 1
- Introducing Monte Carlo Methods with R. By Christian Robert, George Casella
- A Student’s Guide to Bayesian Statistics 1st Edition, by Ben Lambert
- The EM Algorithm and Extensions 2nd Edition. By Geoffrey J. McLachlan, Thriyambakam Krishnan
Modulo 2
- Hierarchical Modeling and Analysis for Spatial Data, 2nd Edition. By Sudipto Banerjee, Bradley P. Carlin, Alan E. Gelfand
Modulo 3
- Hidden Markov Models for Time Series. An Introduction Using R, Second Edition. By Walter Zucchini, Iain L. MacDonald, Roland Langrock
- An Introduction to Statistical Learning
with Applications in R
Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
http://faculty.marshall.usc.edu/gareth-james/ISL/
- The BUGS Book: A Practical Introduction to Bayesian Analysis
by David Lunn, Chris Jackson, Nicky Best, Andrew Thomas, David Spiegelhalter. Chapman & Hall.
- Categorical Data Analysis
by Alan Agresti. Wiley
- Statistical analysis of designed experiments
by Ajit C. Tamhane. Wiley
- Foundations of Linear and Generalized Linear Models
by Alan Agresti
Slides; Libro di testo;
Lecture slides; Text book;
Modalità di esame: Prova orale obbligatoria; Elaborato scritto individuale; Elaborato scritto prodotto in gruppo;
Exam: Compulsory oral exam; Individual essay; Group essay;
...
L’esame ha l’obiettivo di verificare la conoscenza degli argomenti elencati nel programma e la capacità di applicare teoria e algoritmi per fare inferenza sui parametri di modelli statistici applicati a dati reali.
L’esame si compone di due parti:
1) Elaborati scritti
Gli studenti devono consegnare una serie di elaborati composti da 2–3 esercizi ciascuno, almeno il giorno prima della data d'esame. Gli elaborati devono essere completati individualmente, utilizzando tutto il materiale che verrà fornito agli studenti durante l'insegnamento.
Questa parte dell’esame ha lo scopo di valutare la capacità di:
• simulare dati da modelli utilizzando metodi Monte Carlo,
• stimare modelli gerarchici,
• impostare algoritmi MCMC per l’inferenza,
• utilizzare software statistici per l’implementazione,
• formalizzare ipotesi sulle relazioni tra variabili osservate e latenti.
Il punteggio massimo per questa parte è di 7 punti.
2) Prova orale
La prova orale verte sugli aspetti teorici e pratici trattati a lezione ed è finalizzata a valutare:
• la comprensione delle rappresentazioni gerarchiche dei modelli probabilistici,
• la comprensione del concetto di variabile latente e della loro utilità nei modelli,
• l’abilità nel formalizzare un modello (sia in ottica bayesiana che frequentista) e applicarlo a dati reali complessi,
• la capacità di valutare criticamente la bontà e l’aderenza del modello ai dati.
Gli studenti possono scegliere tra due modalità:
A) sostenere un colloquio orale individuale, della durata di circa 30 minuti;
B) produrre una tesina contenente l’analisi di un dataset a loro scelta sia individualmente che in gruppo (massimo 7 persone). In questo caso l’esame prevede:
• una presentazione di circa 15 minuti (individuale o di gruppo),
• seguita da un colloquio orale individuale, della durata di circa 15 minuti, che verterà principalmente sui temi affrontati nella tesina, al fine di valutare sia le conoscenze dello studente sia il reale apporto fornito alla stesura della tesina.
La tesina deve comprendere:
• un file descrittivo contenente la spiegazione dei dati, del modello e della teoria,
• uno script con il codice utilizzato, scritto nel linguaggio di programmazione scelto dal gruppo e impiegato per produrre i risultati riportati nella tesina.
In entrambe le tipologie (A o B) possono essere fatte domande anche sulla risoluzione degli esercizi presenti negli elaborati scritti.
Il punteggio massimo attribuibile alla prova orale è di 25 punti.
• Nel caso A) tutti i 25 punti sono assegnati sulla base del colloquio orale.
• Nel caso B) fino a 7 punti sono attribuiti alla tesina e i restanti 18 al colloquio orale individuale.
La lode viene assegnata solo a chi raggiunge almeno 31 punti effettivi (senza arrotondamenti).
Gli studenti e le studentesse con disabilità o con Disturbi Specifici di Apprendimento (DSA), oltre alla segnalazione tramite procedura informatizzata, sono invitati a comunicare anche direttamente al/la docente titolare dell'insegnamento, con un preavviso non inferiore ad una settimana dall'avvio della sessione d'esame, gli strumenti compensativi concordati con l'Unità Special Needs, al fine di permettere al/la docente la declinazione più idonea in riferimento alla specifica tipologia di esame.
Exam: Compulsory oral exam; Individual essay; Group essay;
The exam will be an oral conversation about two out of around twenty case studies seen in class
In addition to the message sent by the online system, students with disabilities or Specific Learning Disorders (SLD) are invited to directly inform the professor in charge of the course about the special arrangements for the exam that have been agreed with the Special Needs Unit. The professor has to be informed at least one week before the beginning of the examination session in order to provide students with the most suitable arrangements for each specific type of exam.