PERIODO: MARZO - APRILE 2023
Il corso presenta la chemiometria come un set di strumenti per l’acquisizione dei dati sperimentali, il loro processamento, esplorazione e analisi, con l’obiettivo di ottimizzare e massimizzare l’estrazione di informazione chimico-fisica utile, attraverso un approccio multivariato. Il corso prevede sia lezioni frontali che sessioni di esercizio pratico, in aula e a casa a gruppi. Durante gli esercizi verranno applicate le tecniche chemiometriche introdotte durante le lezioni teoriche, lavorando su dataset reali sia forniti dai docenti che proposti, qualora fossero disponibili, dagli studenti stessi.
PERIOD: MARCH - APRIL 2023
The course presents Chemometrics as a set of tools for experimental data acquisition, preprocessing, exploration and analysis aimed at optimizing and maximizing the extraction of valuable physico-chemical information through a multivariate approach. The course consists of both frontal lessons, during which the chemometric techniques will be introduced, and practical sessions in which the students will be challenged on case studies proposed either by the lecturers or by the students themselves.
Analisi matematica, fondamenti di algebra lineare, Excel, basi di MATLAB consigliate
Mathematical analysis, fundaments of linear algebra, Excel, MATLAB basics suggested
Il corso è costituito da una parte teorica con lezioni frontali, e da una parte pratica fortemente focalizzata sul problem solving. Nella parte pratica, gli studenti potranno mettersi alla prova lavorando su dataset da cui estrarre informazioni utilizzando le tecniche chemiometriche esposte durante il corso.
-- Moduli --
1) Introduction: Cosa è la chemiometria? Dati e informazione, l'approccio multivariato, cosa sono i dati?
2) Exploratory Data Analysis (analisi esplorativa dei dati): l’analisi delle componenti principali (Principal Component Analysis, PCA), costruire e interpretare un modello PCA di dati reali, ispezione dei residui, individuazione di outlier, overfitting e underfitting, l’importanza dei metadati.
3) Data Preprocessing: pre-trattamento e pre-processamento dei dati, ispezione visuale dei dati.
4) Multivariate Regression (regressione multivariata): regressione multilineare (Multiple Linear Regression, MLR), Principal Component Regression (PCR), regressione Partial Least Squares (PLS), costruire e interpretare un modello PLS di dati reali
5) Multivariate Classification (classificazione multivariata): analisi discriminante vs modellazione di classe, Partial Least Squares-Discriminant Analysis (PLS-DA), Soft Independent Modelling of Class Analogy (SIMCA), costruire e interpretare un modello PLS-DA, ispezione delle misure di classificazione (matrice di confusione, specificità, sensitività, non-error rate, accuratezza)
6) Model Validation (validazione): validazione con test set, selezione di un test set, cross-validazione (concetto, schemi), quando bisogna validare un modello? (…sempre!)
7) Design of experiment (DoE): come pianificare gli esperimenti, fattori e livelli, il dominio sperimentale, perché variare un fattore alla volta non è proprio il metodo migliore, design sperimentali e superfici di risposta, altri utilizzi delle tecniche di disegno sperimentale (D-optimal per la selezione di sottoset di dati).
-- Casi studio –
Le tecniche chemiometriche proposte nel corso saranno applicate a dataset reali proposti sia dai docenti, che dagli studenti. È fortemente incoraggiato il lavoro sui propri dati, qualora fossero disponibili.
The course will consist of a theoretical part with frontal lectures and a practical part strongly focused on problem solving, during which the students will be challenged on some datasets from which information has to be extracted using the chemometric techniques explained in the course.
-- Modules --
1) Introduction: What is Chemometrics? Data and information, the multivariate approach, what is data?
2) Exploratory Data Analysis: the concept behind Principal Component Analysis (PCA), building and interpreting a PCA model on real data, residuals inspection, outlier detection, overfitting and underfitting, clustering. The importance of metadata.
3) Data Preprocessing: data pretreatment, data preprocessing, visual inspection of the data.
4) Multivariate Regression: Multiple Linear Regression (MLR), Principal Component Regression (PCR), Partial Least Squares (PLS) regression, building and interpreting a PLS model on real data
5) Multivariate Classification: discriminant analysis vs class modelling, Partial Least Squares-Discriminant Analysis (PLS-DA), Soft Independent Modelling of Class Analogy (SIMCA), building and interpreting a PLS-DA model, inspection of classification measures (confusion matrix, specificity, sensitivity, non-error rate, accuracy)
6) Model Validation: test set validation, selection of a test set, cross-validation (concept, schemes), when is it needed to validate a model? (…always!)
7) Design of experiment (DoE): how to plan the experiments, factors and levels i.e. the experimental domain, why changing “one factor at the time” is not at all the best approach, experimental designs and response surfaces, other uses of experimental design (D-optimal for subset selection).
-- Case studies –
The proposed chemometric techniques will be applied to real-life datasets proposed either by the lecturers or the students themselves (working on one's own data will be strongly encouraged).
In presenza
On site
Presentazione orale - Sviluppo di project work in team
Oral presentation - Team project work development
P.D.2-2 - Marzo
P.D.2-2 - March
Requisiti software: è necessario che Matlab venga installato nei computer dei partecipanti. Le toolbox per l'analisi dei dati verranno fornite e il loro utilizzo spiegato durante il corso.
Software requirements: MATLAB should be installed. Toolboxes for data analysis will be provided and their use explained throughout the course.