PORTALE DELLA DIDATTICA

PORTALE DELLA DIDATTICA

PORTALE DELLA DIDATTICA

Elenco notifiche



Statistical data processing

02QUBRS

A.A. 2023/24

Course Language

Inglese

Degree programme(s)

Doctorate Research in Urban And Regional Development - Torino

Course structure
Teaching Hours
Lezioni 20
Lecturers
Teacher Status SSD h.Les h.Ex h.Lab h.Tut Years teaching
Piras Marco   Professore Ordinario CEAR-04/A 12 0 0 0 3
Co-lectures
Espandi

Context
SSD CFU Activities Area context
*** N/A ***    
Questo corso è parte del percorso tematico "Techniques and Technologies for a Spatial-based Sustainable Development" del Dottorato di Ricerca in Urban and Regional Development (URD). Le società moderne si basano su big data, open data e libera informazione, ma il problema è: come elaborare questi dati? Qual è il loro significato statistico? L'enorme quantità di dati forniti dalle tecnologie avanzate, richiede un trattamento tanto necessario da parte di nuovi processi. Va quindi incoraggiato un uso migliorato dei metodi classici, già appresi in studi precedenti. Quando il fenomeno indagato deve essere considerato da più punti di vista, è difficile la corretta scelta di un metodo di analisi. Tale scelta è legata all'ambito dell'analisi: l'analisi multivariata è il nome collettivo: riduzione e organizzazione dei dati, ricerca della dipendenza tra variabili, inferenze statistiche. Il corso intende fornire spunti e metodi generali, anche considerando il livello pratico per persone già in possesso di conoscenze di base di Statistica. Inoltre, il corso spera di rendere immediatamente utilizzabili i metodi spiegati il prima possibile. Il corso si basa sul motto "LEARNING BY DOING", dove gli studenti devono applicare la teoria a casi reali.
This PhD course is part of the thematic path "Techniques and Technologies for a Spatial-based Sustainable Development" of the PhD programme in Urban and Regional Development (URD). Modern societies are based on big data, open data and free information, but the problem is: how to process these data? What is the statistical meaning of them? The huge amount of data supplied by advanced technologies, requires a much needed treatment by new processes. So, an improved usage of classic methods, already learned in previous studies, is to be encouraged. When the investigated phenomenon is to be considered from a number of different point of vies, it is hard the proper choice of a method for analysis. The said choice is linked to the scope of analysis: the multivariate analysis is the collective name reduction and organization of the data, search of dependence among variables, statistical inferences. The course desires to give a basic ideas and methods about these concepts, even giving a practicable aspects to the students with some basic knowledge of Statistics. Also, the course hopes to give competences which are immediately usable into the PhD research and studies. The course is based on the motto "LEARNING BY DOING", where the students have to apply the theory into real cases.
E' consigliato avere alcune conoscenze di base di statistica elementare. Le lezioni sono comunque aperte a tutti.
Some basic knowledge of elementary statistics are required, but lessons are open to everyones.
l corso è composto da più parti (sia teoriche che pratiche), in particolare 1) Aspetti dell'Analisi Multivariata e applicazioni delle Tecniche Multivariate. Verranno prese in considerazione alcune applicazioni che utilizzano dati geospaziali e open data, partendo dalle reali esigenze della classe. 2) Organizzazione e rappresentazione dei dati. La geometria del campione. La distribuzione normale multivariata. Inferenze su un vettore medio. Il test di Hotelling. Regioni di fiducia e confronto simultaneo delle componenti medie. Confronto dei vettori medi di due popolazioni. 3) Confronto di vettori medi di diverse popolazioni multivariate: Analisi Multivariata della Varianza (metodi MANOVA: unidirezionale, bidirezionale, unidirezionale con interazione, ...). Analisi multivariata di varianza-covarianza (MANCOVA). La soluzione classica: modello di regressione multipla. Inferenze sul modello di regressione. Regressione multipla multivariata 4) Riduzione e interpretazione dei dati: Analisi delle Componenti Principali e Analisi Fattoriale. Confronto dell'analisi delle componenti principali e della regressione della cresta, dei minimi quadrati parziali e dei minimi quadrati totali. Confronto tra analisi fattoriale e analisi delle componenti principali. 5) Discriminazione e classificazione: la funzione discriminante di Fisher per separare due o più popolazioni. Confronto con la regressione logistica. Kriging. Una parte del corso sarà dedicata alle parti pratiche (applicazioni e problem solving), utilizzando strumenti R-Code e GIS. L'esame sarà un report di un caso reale, riguardante i temi di ricerca degli studenti.
The course is composed by several parts (both theoreticals and practicals), in particular: 1) Aspects of Multivariate Analysis and applications of Multivariate Techniques. Some applications using geospatial data and open data will be considered, starting by real needs of the class. 2) Organization and representation of the data. The geometry of the sample. The multivariate normal distribution. Inferences about a mean vector. Hotelling’s T2 test. Confidence regions and simultaneous comparisons of components means. Comparing mean vectors from two populations. 3) Comparing mean vectors from several multivariate populations: Multivariate Analysis of Variance (MANOVA methods: one way, two way, one way with interaction, ...). Multivariate Analysis of Variance-Covariance (MANCOVA). The classic solution: multiple regression model. Inferences about the regression model. Multivariate multiple regression 4) Data reduction and interpretation: Principal Components Analysis and Factor Analysis. Comparing Principal Components Analysis and Ridge Regression, Partial Least Square and Total Least Square. Comparing Factor Analysis and Principal Component Analysis. 5) Discrimination and classification: Fisher’s discriminant function to separate two or several populations. Comparison with Logistic regression. Kriging. A part of the course will be dedicated to practical parts (applications and problem solving), using R-Code and GIS tools. The exam will be a final reportof a real case about the topic of the PHD students.
In presenza
On site
Presentazione report scritto
Written report presentation
P.D.1-1 - Febbraio
P.D.1-1 - February
Le esercitazioni verranno svolto con software open source e gli studenti dovranno utilizzare i propri laptop.
Labs will be carried out using open source software and the students will use their own laptops.