Insegnamento facoltativo per la Laurea Magistrale in Ingegneria Gestionale e Ingegneria Matematica, collocato al II pd del II anno. Con il termine business intelligence per big data si descrivono tutte le attività di analisi di elevati volumi di dati per il supporto delle decisioni aziendali. Il corso descrive le modalità di storicizzazione, gestione e interrogazione delle basi di dati destinate all’analisi dei dati. Queste basi di dati sono normalmente denominate data warehouse e sono tipicamente caratterizzate dalla necessità di gestire grandi volumi di dati. Nel corso sono descritte sia i sistemi di data warehouse relazionali sia quelli non relazionali, sia le tecniche più tradizionali di analisi OLAP (On Line Analytical Processing) dei dati, sia le analisi complesse basate su tecniche di data mining. Le attività di laboratorio permettono di sperimentare vari strumenti per l’analisi dei dati.
The course, which is an optional choice for the Master degree in both Industrial and Management Engineering and Mathematical Engineering, is offered on the 2nd semester of the 2nd year. Business intelligence for big data means a variety of data analytics activities to effectively support the business decision making. The course introduces techniques for storing, managing, analyzing and querying large data collections. Such databases, denoted data warehouses, are exploited to support strategic decision support. Relational and non relational database technologies, together with the traditional OLAP (On Line Analytical Processing) analysis techniques and complex data mining techniques will be addressed. Laboratory sessions allow experimental activities on data analysis and exploit the most widespread commercial and open-source products.
• Conoscenza dell’architettura dei sistemi per l’analisi dei dati (data warehouse) e delle metodologie di progettazione concettuale, logica e fisica di un data warehouse.
• Capacità di progettare un data warehouse.
• Conoscenza dei costrutti del linguaggio SQL per la formulaz ione di interrogazioni OLAP per data warehouse.
• Capacità di scrivere interrogazioni OLAP nel linguaggio SQL.
• Conoscenza dei sistemi no relazionali
• Conoscenza dei principali algoritmi di data mining per la classificazione, il clustering e l’estrazione di regole di associazione
• Conoscenza delle tecniche di analisi dei dati per il CRM (Customer Relationship Management).
• Capacità di svolgere analisi dei dati mediante tecniche di data mining.
• Knowledge of data warehouse architecture and of the methodology for conceptual, logical, and physical design of a data warehouse.
• Ability to design a data warehouse.
• Knowledge of the SQL statements for OLAP queries in a data warehouse.
• Ability to write OLAP queries in the SQL language.
• Knowledge of the NoSQL databases
• Knowledge of the major data mining algorithms for classification, clustering, and association rule mining.
• Knowledge of data analysis techniques applied to CRM (Customer Relationship Management).
• Ability to perform data analysis by means of data mining techniques.
Conoscenza del modello relazionale e del linguaggio SQL e competenze di base di programmazione.
Knowledge of the relational model and SQL language and basic programming skills.
Argomenti trattati nelle lezioni e relativo peso in crediti:
• Data warehouse: architettura, metodologie di progettazione concettuale, logica e fisica, istruzioni in linguaggio SQL per la formulazione di interrogazioni OLAP (1.5 cfu)
• Basi di dati non relazionali (0.3 cfu)
• Algoritmi di data mining: classificazione, clustering ed estrazione di regole di associazione (1.8 cfu)
• Tecniche di analisi dei dati per il CRM (Customer Relationship Management) (0.2 cfu)
• Studio di casi applicativi di progettazione di data warehouse e analisi dei dati (0.6 cfu).
• Data warehouses: architecture, methodology for conceptual, logical, and physical design, SQL statements for OLAP queries (1.5 cfu)
• Non relational databases (0.3 cfu)
• Data mining algorithms: classification, clustering, and association rule mining (1.8 cfu)
• Data analysis techniques for CRM (Customer Relationship Management) (0.2 cfu)
• Applicative case studies for data warehouse design and data analysis (0.6 cfu).
Il corso comprende esercitazioni in aula inerenti gli argomenti trattati nelle lezioni, e in particolare sul linguaggio SQL e sulla progettazione concettuale, logica e fisica di data warehouse (1.6 cfu). Gli studenti svolgeranno inoltre esercitazioni individuali durante il corso, per cui dovranno predisporre una relazione che contribuirà a determinare il voto finale. Il corso comprende esercitazioni in laboratorio sull’utilizzo del linguaggio SQL, sulla progettazione di data warehouse e sulle tecniche di data mining. L’attività di laboratorio prevede lo sviluppo di un progetto completo basato su casi di studio (2.0 cfu). L'attività di laboratorio permette di sperimentare l'uso sia di prodotti commerciali sia alcune librerie open-source.
The course includes practices on the lecture topics, and in particular SQL language, and conceptual, logical, and physical data warehouse design (1.6 cfu). Students will prepare an individual written report on exercises proposed during the course. The report will contribute to the final exam grade. The course includes laboratory sessions on the SQL language. data warehouse design, and data mining techniques. The laboratory sessions entail the development of a complete data warehouse design based on case studies (2.0 cfu). Laboratory sessions allow experimental activities on the most widespread commercial products and open-source libraries.
Testi di riferimento:
- Golfarelli, Rizzi, "Data warehouse: teoria e pratica della progettazione", 2 ed., McGraw Hill, 2006.
- Tan, Steinbach, Kumar, "An introduction to data mining", Addison Wesley, 2005.
Sono disponibili copie dei lucidi utilizzati nelle lezioni, esempi di scritti di esame ed esercizi, e i manuali per le esercitazioni di laboratorio. Tutto il materiale didattico è scaricabile da un sito web o attraverso il portale.
Reference books:
- Golfarelli, Rizzi, "Data warehouse: teoria e pratica della progettazione", 2 ed., McGraw Hill, 2006.
- Tan, Steinbach, Kumar, "An introduction to data mining", Addison Wesley, 2005.
Copies of the slides used during the lectures, examples of written exams and exercises, and manuals for the activities in the laboratory will be made available. All teaching material is downloadable from the course website or the Portal.
Modalità di esame: Prova scritta (in aula); Prova orale obbligatoria; Elaborato scritto individuale; Progetto di gruppo;
Exam: Written test; Compulsory oral exam; Individual essay; Group project;
...
L'esame è costituito da una prova scritta della durata di 2 ore, dalla valutazione delle relazioni sulle
esercitazioni individuali assegnate durante il corso e da una prova orale su un progetto di analisi di dati da svolgersi in coppia con un altro studente. Le esercitazioni individuali sono facoltative. Il voto finale è definito in base alla valutazione della prova scritta ed eventualmente dalle relazioni delle esercitazioni e della valutazione della prova orale sul progetto di analisi di dati su un dataset reale. Le relazioni delle esercitazioni individuali sono considerate solo se la valutazione della prova scritta è pari o superiore a 18. Il voto finale è una media (approssimata) del voto della prova scritta, del voto delle relazioni individuali e del voto dell'orale.
La prova scritta comprende:
- 1 esercizio sulla progettazione concettuale e logica di un data warehouse (max 12 punti)
- la scrittura di 3 interrogazioni di accesso ai dati mediante il linguaggio SQL esteso (max 15 punti)
- la progettazione fisica di un data warehouse (max 2 punti)
- la discussione della dinamicità dei dati memorizzati nel data warehouse (max 1 punto)
Durante la prova scritta gli studenti possono consultare libri o appunti. La valutazione degli esercizi della prova scritta si basa sulla correttezza del risultato e sull'appropriatezza delle metodologie di risoluzione applicate.
La prova orale verte sul progetto di analisi di dati su un dataset reale da svolgersi in coppia con un altro studente (max 30 Lode). Le relazioni individuali assegnate durante il corso vertono sui principali argomenti trattati durante il corso (max 2 punti).
Gli studenti e le studentesse con disabilità o con Disturbi Specifici di Apprendimento (DSA), oltre alla segnalazione tramite procedura informatizzata, sono invitati a comunicare anche direttamente al/la docente titolare dell'insegnamento, con un preavviso non inferiore ad una settimana dall'avvio della sessione d'esame, gli strumenti compensativi concordati con l'Unità Special Needs, al fine di permettere al/la docente la declinazione più idonea in riferimento alla specifica tipologia di esame.
Exam: Written test; Compulsory oral exam; Individual essay; Group project;
The exam includes a written part, the evaluation of the reports on the individual practices assigned during the course, and an oral part on a data analytics project on a real dataset developed in a team of two students. The individual practices are optional. The written part lasts 2 hours. The final score is defined by considering the evaluation of the written part, and, optionally, of the individual practices, and the oral part on the data analytics project. The individual practices are considered only if the grade of the written part is 18 or above. The final grade is the (approximated) average computed on the grade on the written part, the evaluation of the report on the individual practices, and the grade on the oral part.
The written part includes:
- 1 exercise on data warehousing, including the conceptual and logical design of a data warehouse (max 12 points)
- 3 queries for data access through the extended SQL language (max 15 points)
- 1 exercise on physical design of a data warehouse (max 2 points)
- discussion of the data warehouse issue related to the slowly changing dimension (max 1 point)
Students can use textbooks or notes during the exam. Exercises are evaluated according to the correctness of the proposed solution and to the appropriateness of the adopted resolution methodologies.
The oral part includes the presentation of the developed team project on data analytics and questions on the main topics of the lectures (max 30 with honors). Reports on the individual practices assigned during the course are on the main topics of the lectures (max 2 points).
In addition to the message sent by the online system, students with disabilities or Specific Learning Disorders (SLD) are invited to directly inform the professor in charge of the course about the special arrangements for the exam that have been agreed with the Special Needs Unit. The professor has to be informed at least one week before the beginning of the examination session in order to provide students with the most suitable arrangements for each specific type of exam.