Insegnamento facoltativo per la Laurea Magistrale in Ingegneria Gestionale e Ingegneria Matematica, collocato al II pd del II anno. Con il termine business intelligence per big data si descrivono tutte le attività di analisi di elevati volumi di dati per il supporto delle decisioni aziendali. Il corso descrive le modalità di storicizzazione, gestione e interrogazione delle basi di dati destinate all’analisi dei dati. Queste basi di dati sono normalmente denominate data warehouse e sono tipicamente caratterizzate dalla necessità di gestire grandi volumi di dati. Nel corso sono descritte sia i sistemi di data warehouse relazionali sia quelli non relazionali, sia le tecniche più tradizionali di analisi OLAP (On Line Analytical Processing) dei dati, sia le analisi complesse basate su tecniche di data mining. Le attività di laboratorio permettono di sperimentare vari strumenti per l’analisi dei dati.
The course, which is an optional choice for the Master's degree in both Industrial and Management Engineering and Mathematical Engineering, is offered in the 2nd semester of the 2nd year. Business intelligence for big data means a variety of data analytics activities to effectively support business decision making. The course introduces techniques for storing, managing, analyzing, and querying large data collections. Such databases, denoted data warehouses, are exploited to support strategic decision support. Relational and non-relational database technologies, together with the traditional OLAP (On-Line Analytical Processing) analysis techniques and complex data mining techniques will be addressed. Laboratory sessions allow experimental activities on data analysis and exploit the most widespread commercial and open-source products.
• Conoscenza dell’architettura dei sistemi per l’analisi dei dati (data warehouse) e delle metodologie di progettazione concettuale, logica e fisica di un data warehouse.
• Capacità di progettare un data warehouse.
• Conoscenza dei costrutti del linguaggio SQL per la formulaz ione di interrogazioni OLAP per data warehouse.
• Capacità di scrivere interrogazioni OLAP nel linguaggio SQL.
• Conoscenza dei sistemi no relazionali
• Conoscenza dei principali algoritmi di data mining per la classificazione, il clustering e l’estrazione di regole di associazione
• Conoscenza delle tecniche di analisi dei dati per il CRM (Customer Relationship Management).
• Capacità di svolgere analisi dei dati mediante tecniche di data mining.
• Knowledge of data warehouse architecture and of the methodology for the conceptual, logical, and physical design of a data warehouse.
• Ability to design a data warehouse.
• Knowledge of the SQL statements for OLAP queries in a data warehouse.
• Ability to write OLAP queries in the SQL language.
• Knowledge of the NoSQL databases
• Knowledge of the major data mining algorithms for classification, clustering, and association rule mining.
• Knowledge of data analysis techniques applied to CRM (Customer Relationship Management).
• Ability to perform data analysis by means of data mining techniques.
Conoscenza del modello relazionale e del linguaggio SQL e competenze di base di programmazione.
Knowledge of the relational model and SQL language and basic programming skills.
Argomenti trattati nelle lezioni e relativo peso in crediti:
• Data warehouse: architettura, metodologie di progettazione concettuale, logica e fisica, istruzioni in linguaggio SQL per la formulazione di interrogazioni OLAP (1.5 cfu)
• Basi di dati non relazionali (0.3 cfu)
• Algoritmi di data mining: classificazione, clustering ed estrazione di regole di associazione (2.0 cfu)
• Studio di casi applicativi di progettazione di data warehouse e analisi dei dati (0.6 cfu).
• Data warehouses: architecture, the methodology for conceptual, logical, and physical design, SQL statements for OLAP queries (1.5 cfu)
• Non relational databases (0.3 cfu)
• Data mining algorithms: classification, clustering, and association rule mining (2.0 cfu)
• Applicative case studies for data warehouse design and data analysis (0.6 cfu).
L'insegnamento comprende esercitazioni in aula inerenti gli argomenti trattati nelle lezioni, e in particolare sul linguaggio SQL e sulla progettazione concettuale, logica e fisica di data warehouse (1.6 cfu). Gli studenti svolgeranno inoltre esercitazioni individuali durante il corso, per cui dovranno predisporre una relazione che contribuirà a determinare il voto finale. L'insegnamento comprende esercitazioni in laboratorio sull’utilizzo del linguaggio SQL, sulla progettazione di data warehouse e sulle tecniche di data mining. L’attività di laboratorio prevede lo sviluppo di un progetto completo basato su casi di studio (2.0 cfu). L'attività di laboratorio permette di sperimentare l'uso sia di prodotti commerciali sia alcune librerie open-source.
The course includes practices on the lecture topics, and in particular SQL language, and conceptual, logical, and physical data warehouse design (1.6 cfu). Students will prepare an individual written report on exercises proposed during the course. The report will contribute to the final exam grade. The course includes laboratory sessions on the SQL language. data warehouse design, and data mining techniques. The laboratory sessions entail the development of a complete data warehouse design based on case studies (2.0 cfu). Laboratory sessions allow experimental activities on the most widespread commercial products and open-source libraries.
Testi di riferimento:
- Golfarelli, Rizzi, "Data warehouse: teoria e pratica della progettazione", 2 ed., McGraw Hill, 2006.
- Tan, Steinbach, Kumar, "An introduction to data mining", Addison Wesley, 2005.
Sono disponibili copie dei lucidi utilizzati nelle lezioni, esempi di scritti di esame ed esercizi, e i manuali per le esercitazioni di laboratorio. Tutto il materiale didattico è scaricabile da un sito web o attraverso il portale.
Reference books:
- Golfarelli, Rizzi, "Data warehouse: teoria e pratica della progettazione", 2 ed., McGraw Hill, 2006.
- Tan, Steinbach, Kumar, "An introduction to data mining", Addison Wesley, 2005.
Copies of the slides used during the lectures, examples of written exams and exercises, and manuals for the activities in the laboratory will be made available. All teaching material is downloadable from the course website or the Portal.
Slides; Esercizi; Esercizi risolti; Esercitazioni di laboratorio; Esercitazioni di laboratorio risolte; Video lezioni dell’anno corrente; Strumenti di auto-valutazione;
Lecture slides; Exercises; Exercise with solutions ; Lab exercises; Lab exercises with solutions; Video lectures (current year); Self-assessment tools;
Modalità di esame: Elaborato scritto individuale; Elaborato progettuale in gruppo; Prova scritta in aula tramite PC con l'utilizzo della piattaforma di ateneo;
Exam: Individual essay; Group project; Computer-based written test in class using POLITO platform;
...
L'esame è costituito da una prova scritta della durata di 90 minuti, dalla valutazione delle relazioni sulle esercitazioni individuali assegnate durante l'erogazione dell'insegnamento e dalla valutazione del progetto di analisi di dati da svolgersi in gruppo (da 5 studenti/studentesse). Le esercitazioni individuali sono facoltative. A discrezione del docente, potrà essere richiesta una prova integrativa a conferma della valutazione ottenuta. Il voto finale è definito in base alla valutazione della prova scritta ed eventualmente dalle relazioni delle esercitazioni e della valutazione della relazione sul progetto di analisi di dati su un dataset reale. Le relazioni delle esercitazioni individuali sono considerate solo se la valutazione della prova scritta è pari o superiore a 18. Il voto finale è una media (approssimata) del voto della prova scritta, del voto delle relazioni individuali e del voto dell'elaborato progettuale. La lode si conferisce se il voto finale è maggiore o uguale a 31.
Valutazione degli obiettivi di apprendimento
L’esame scritto valuterà:
- le conoscenze operative per progettare un data warehouse e gli aspetti principali dei diversi modelli di data warehouse (modello concettuale, logico e fisico)
- la capacità di progettare un data warehouse per la storicizzazione di elevati volumi di dati in contesti applicativi eterogenei.
- la capacità di scrivere query OLAP in linguaggio SQL per accedere a un grande volume di dati
L'elaborato progettuale in gruppo su un progetto di analisi di dati da svolgere in gruppo (da 5 studenti/studentesse) valuterà:
- la conoscenza delle tecniche di preparazione dei dati e dei principali algoritmi di data mining per la classificazione, la regressione, il clustering e il mining delle regole di associazione su un caso di studio reale.
I progetti individuali valuteranno:
- la conoscenza dei principali algoritmi di data mining per la classificazione e la regressione in un caso di studio reale.
- la capacità di progettare e interrogare un database non relazionale.
Struttura dell'esame e criteri di valutazione
La prova scritta comprende domande a risposta aperta e a risposta chiusa. Le risposte errate alle domande a risposta chiusa possono comportare una penalizzazione. Le risposte mancanti valgono zero. Il valore di ogni esercizio sarà indicato prima del testo dell’esercizio. Durante la prova scritta gli studenti non possono consultare libri o appunti e non possono utilizzare dispositivi elettronici di nessun tipo, a parte quello utilizzato per l’esame stesso.
La prova scritta comprende:
• 1-3 domande teoria/esercizi su data analytics e principali argomenti trattati durante il corso (data warehouse, basi di dati non relazionali, algoritmi di data mining, tecniche di analisi dei dati) (max. 5 punti)
• 1-3 esercizi su progettazione concettuale di data warehouse (max. 8 punti).
• 1-2 esercizi su progettazione logica di data warehouse (max. 2 punti).
• 2-3 esercizi di SQL esteso (max. 13 punti).
• 1-2 esercizi sulle viste materializzate (max. 4 punti).
La valutazione degli esercizi della prova scritta si basa sulla correttezza del risultato e sull'appropriatezza delle metodologie di risoluzione applicate.
L'elaborato progettuale in gruppo verte su progetto di analisi di dati su un dataset reale da svolgersi in gruppo (max 30 Lode che equivale a 32 nel calcolo del voto finale).
Le relazioni individuali assegnate durante l'erogazione dell'insegnamento vertono sui principali argomenti trattati durante l'insegnamento e sono opzionali (max 2 punti).
Gli studenti e le studentesse con disabilità o con Disturbi Specifici di Apprendimento (DSA), oltre alla segnalazione tramite procedura informatizzata, sono invitati a comunicare anche direttamente al/la docente titolare dell'insegnamento, con un preavviso non inferiore ad una settimana dall'avvio della sessione d'esame, gli strumenti compensativi concordati con l'Unità Special Needs, al fine di permettere al/la docente la declinazione più idonea in riferimento alla specifica tipologia di esame.
Exam: Individual essay; Group project; Computer-based written test in class using POLITO platform;
The exam includes a written part, the evaluation of the reports on the individual practices assigned during the course, and an oral part on a data analytics project on a real dataset developed in a team of two students. The individual practices are optional. The written part lasts 2 hours. The final score is defined by considering the evaluation of the written part, and, optionally, of the individual practices, and the oral part on the data analytics project. The individual practices are considered only if the grade of the written part is 18 or above. The final grade is the (approximated) average computed on the grade on the written part, the evaluation of the report on the individual practices, and the grade on the oral part.
The written part includes:
- 1 exercise on data warehousing, including the conceptual and logical design of a data warehouse (max 12 points)
- 3 queries for data access through the extended SQL language (max 15 points)
- 1 exercise on physical design of a data warehouse (max 2 points)
- discussion of the data warehouse issue related to the slowly changing dimension (max 1 point)
Students can use textbooks or notes during the exam. Exercises are evaluated according to the correctness of the proposed solution and to the appropriateness of the adopted resolution methodologies.
The oral part includes the presentation of the developed team project on data analytics and questions on the main topics of the lectures (max 30 with honors). Reports on the individual practices assigned during the course are on the main topics of the lectures (max 2 points).
In addition to the message sent by the online system, students with disabilities or Specific Learning Disorders (SLD) are invited to directly inform the professor in charge of the course about the special arrangements for the exam that have been agreed with the Special Needs Unit. The professor has to be informed at least one week before the beginning of the examination session in order to provide students with the most suitable arrangements for each specific type of exam.