PERIODO: PRIMAVERA 2024
Il corso presenta la chemiometria come un set di strumenti per l’acquisizione dei dati sperimentali, il loro processamento, esplorazione e analisi, con l’obiettivo di ottimizzare e massimizzare l’estrazione di informazione chimico-fisica utile, attraverso un approccio multivariato. Il corso prevede sia lezioni frontali che sessioni di esercizio pratico, in aula e a casa a gruppi. Durante gli esercizi verranno applicate le tecniche chemiometriche introdotte durante le lezioni teoriche, lavorando su dataset reali sia forniti dai docenti che proposti, qualora fossero disponibili, dagli studenti stessi.
PERIOD: PRIMAVERA 2024
The course presents Chemometrics as a set of tools for experimental data acquisition, preprocessing, exploration and analysis aimed at optimizing and maximizing the extraction of valuable physico-chemical information through a multivariate approach. The course consists of both frontal lessons, during which the chemometric techniques will be introduced, and practical sessions in which the students will be challenged on case studies proposed either by the lecturers or by the students themselves.
Analisi matematica, fondamenti di algebra lineare, Excel, basi di MATLAB consigliate
Mathematical analysis, fundaments of linear algebra, Excel, MATLAB basics suggested
Il corso è costituito da una parte teorica con lezioni frontali, e da una parte pratica fortemente focalizzata sul problem solving. Nella parte pratica, gli studenti potranno mettersi alla prova lavorando su dataset da cui estrarre informazioni utilizzando le tecniche di analisi dati multivariata esposte durante il corso.
Le tecniche chemiometriche proposte nel corso saranno applicate a dataset reali proposti sia dai docenti, che dagli studenti. Sottolineiamo che è fortemente incoraggiato il lavoro sui propri dati, qualora siano disponibili!
Le esercitazioni saranno svolte su MATLAB con set di toolbox freeware (https://michem.unimib.it/download/matlab-toolboxes/).
Di seguito i sette moduli del corso:
1) INTRODUCTION: Cosa è la chemiometria? Dati e informazione, l’approccio multivariato, cosa sono i dati?
2) EXPLORATORY DATA ANALYSIS (analisi esplorativa dei dati): l’analisi delle componenti principali (Principal Component Analysis, PCA), costruire e interpretare un modello PCA su dati reali, ispezione dei residui, individuazione di outlier, overfitting e underfitting, l’importanza dei metadati.
3) DATA PREPROCESSING: pre-trattamento e pre-processamento dei dati, ispezione visuale dei dati.
4) MULTIVARIATE REGRESSION (regressione multivariata): regressione multilineare (Multiple Linear Regression, MLR), Principal Component Regression (PCR), regressione Partial Least Squares (PLS), costruire e interpretare un modello PLS di dati reali
5) MULTIVARIATE CLASSIFICATION (classificazione multivariata): analisi discriminante vs modellazione di classe, Partial Least Squares-Discriminant Analysis (PLS-DA), Soft Independent Modelling of Class Analogy (SIMCA), costruire e interpretare un modello PLS-DA, ispezione dei parametri di classificazione (matrice di confusione, specificità, sensitività, non-error rate, accuratezza)
6) MODEL VALIDATION (validazione): validazione con test set, selezione di un test set, cross-validazione (concetto, schemi), quando bisogna validare un modello? (…sempre!)
7) DESIGN OF EXPERIMENTS (DoE): una introduzione al design sperimentale partendo dalla necessità di pianificare gli esperimenti, passando per la selezione dei fattori da esplorare, fino alle strategie di modellazione in generale.
ATTENZIONE: per una trattazione più approfondita del Design of Experiments vi rimandiamo al corso complementare di III livello dedicato “Practical Design of Experiments”, tenuto dagli stessi docenti (Cavallini e Savorani).
I due corsi non hanno una priorità temporale e possono essere seguiti nell'ordine più confacente allo studente.
The course consists of a theoretical part with lectures and a practical part strongly focused on problem solving. In the practical part, students will be able to test themselves by working on datasets from which they will extract information using multivariate data analysis techniques presented during the course.
The chemometric techniques proposed in the course will be applied to real datasets provided by both the instructors and the students. We emphasize that working on your own data, if available, is highly encouraged!
The exercises will be carried out on MATLAB using freeware toolboxes (https://michem.unimib.it/download/matlab-toolboxes/).
Below are the seven modules of the course:
1) INTRODUCTION: What is Chemometrics? Data and information, the multivariate approach, what is data?
2) EXPLORATORY DATA ANALYSIS: the concept behind Principal Component Analysis (PCA), building and interpreting a PCA model on real data, residuals inspection, outlier detection, overfitting and underfitting, the importance of metadata.
3) DATA PREPROCESSING: data pretreatment, data preprocessing, visual inspection of the data.
4) MULTIVARIATE REGRESSION: Multiple Linear Regression (MLR), Principal Component Regression (PCR), Partial Least Squares (PLS) regression, building and interpreting a PLS model on real data
5) MULTIVARIATE CLASSIFICATION: discriminant analysis vs class modelling, Partial Least Squares-Discriminant Analysis (PLS-DA), Soft Independent Modelling of Class Analogy (SIMCA), building and interpreting a PLS-DA model, inspection of classification measures (confusion matrix, specificity, sensitivity, non-error rate, accuracy)
6) MODEL VALIDATION: test set validation, selection of a test set, cross-validation (concept, schemes), when is it needed to validate a model? (…always!)
7) DESIGN OF EXPERIMENTS (DoE): an introduction to experimental design starting from the need to plan experiments, moving through the selection of factors to explore, up to general modeling strategies.
NOTE: for a more in-depth treatment of Design of Experiments, we refer you to the complementary dedicated course 'Practical Design of Experiments', taught by the same instructors (Cavallini and Savorani).
The two complementary courses do not have a temporal priority and can be attended in any order by the students.
In presenza
On site
Sviluppo di project work in team - Presentazione orale