Insegnamento facoltativo per la Laurea Magistrale in Ingegneria Gestionale e Ingegneria Matematica, collocato al II pd del II anno. Con il termine business intelligence per big data si descrivono tutte le attività di analisi di elevati volumi di dati per il supporto delle decisioni aziendali. Il corso descrive le modalità di storicizzazione, gestione e interrogazione delle basi di dati destinate all’analisi dei dati. Queste basi di dati sono normalmente denominate data warehouse e sono tipicamente caratterizzate dalla necessità di gestire grandi volumi di dati. Nel corso sono descritte sia i sistemi di data warehouse relazionali sia quelli non relazionali, sia le tecniche più tradizionali di analisi OLAP (On Line Analytical Processing) dei dati, sia le analisi complesse basate su tecniche di data mining. Le attività di laboratorio permettono di sperimentare vari strumenti per l’analisi dei dati.
The course, which is an optional choice for the Master's degree in both Industrial and Management Engineering and Mathematical Engineering, is offered in the 2nd semester of the 2nd year. Business intelligence for big data means a variety of data analytics activities to effectively support business decision making. The course introduces techniques for storing, managing, analyzing, and querying large data collections. Such databases, denoted data warehouses, are exploited to support strategic decision support. Relational and non-relational database technologies, together with the traditional OLAP (On-Line Analytical Processing) analysis techniques and complex data mining techniques will be addressed. Laboratory sessions allow experimental activities on data analysis and exploit the most widespread commercial and open-source products.
• Conoscenza dell’architettura dei sistemi per l’analisi dei dati (data warehouse) e delle metodologie di progettazione concettuale, logica e fisica di un data warehouse.
• Capacità di progettare un data warehouse.
• Conoscenza dei costrutti del linguaggio SQL per la formulaz ione di interrogazioni OLAP per data warehouse.
• Capacità di scrivere interrogazioni OLAP nel linguaggio SQL.
• Conoscenza dei sistemi no relazionali
• Conoscenza dei principali algoritmi di data mining per la classificazione, il clustering e l’estrazione di regole di associazione
• Conoscenza delle tecniche di analisi dei dati per il CRM (Customer Relationship Management).
• Capacità di svolgere analisi dei dati mediante tecniche di data mining.
• Knowledge of data warehouse architecture and of the methodology for the conceptual, logical, and physical design of a data warehouse.
• Ability to design a data warehouse.
• Knowledge of the SQL statements for OLAP queries in a data warehouse.
• Ability to write OLAP queries in the SQL language.
• Knowledge of the NoSQL databases
• Knowledge of the major data mining algorithms for classification, clustering, and association rule mining.
• Knowledge of data analysis techniques applied to CRM (Customer Relationship Management).
• Ability to perform data analysis by means of data mining techniques.
Conoscenza del modello relazionale e del linguaggio SQL e competenze di base di programmazione.
Knowledge of the relational model and SQL language and basic programming skills.
Argomenti trattati nelle lezioni e relativo peso in crediti:
• Data warehouse: architettura, metodologie di progettazione concettuale, logica e fisica, istruzioni in linguaggio SQL per la formulazione di interrogazioni OLAP (1.5 cfu)
• Basi di dati non relazionali (0.3 cfu)
• Algoritmi di data mining: classificazione, clustering ed estrazione di regole di associazione (2.0 cfu)
• Studio di casi applicativi di progettazione di data warehouse e analisi dei dati (0.6 cfu).
• Data warehouses: architecture, the methodology for conceptual, logical, and physical design, SQL statements for OLAP queries (1.5 cfu)
• Non relational databases (0.3 cfu)
• Data mining algorithms: classification, clustering, and association rule mining (2.0 cfu)
• Applicative case studies for data warehouse design and data analysis (0.6 cfu).
L'insegnamento comprende esercitazioni in aula inerenti gli argomenti trattati nelle lezioni, e in particolare sul linguaggio SQL e sulla progettazione concettuale, logica e fisica di data warehouse (1.6 cfu). Gli studenti svolgeranno inoltre esercitazioni individuali durante il corso, per cui dovranno predisporre una relazione che contribuirà a determinare il voto finale. Il corso comprende esercitazioni in laboratorio sull’utilizzo del linguaggio SQL, sulla progettazione di data warehouse e sulle tecniche di data mining. L’attività di laboratorio prevede lo sviluppo di un progetto completo basato su casi di studio (2.0 cfu). L'attività di laboratorio permette di sperimentare l'uso sia di prodotti commerciali sia alcune librerie open-source.
The course includes practices on the lecture topics, and in particular SQL language, and conceptual, logical, and physical data warehouse design (1.6 cfu). Students will prepare an individual written report on exercises proposed during the course. The report will contribute to the final exam grade. The course includes laboratory sessions on the SQL language. data warehouse design, and data mining techniques. The laboratory sessions entail the development of a complete data warehouse design based on case studies (2.0 cfu). Laboratory sessions allow experimental activities on the most widespread commercial products and open-source libraries.
Testi di riferimento:
- Golfarelli, Rizzi, "Data warehouse: teoria e pratica della progettazione", 2 ed., McGraw Hill, 2006.
- Tan, Steinbach, Kumar, "An introduction to data mining", Addison Wesley, 2005.
Sono disponibili copie dei lucidi utilizzati nelle lezioni, esempi di scritti di esame ed esercizi, e i manuali per le esercitazioni di laboratorio. Tutto il materiale didattico è scaricabile da un sito web o attraverso il portale.
Reference books:
- Golfarelli, Rizzi, "Data warehouse: teoria e pratica della progettazione", 2 ed., McGraw Hill, 2006.
- Tan, Steinbach, Kumar, "An introduction to data mining", Addison Wesley, 2005.
Copies of the slides used during the lectures, examples of written exams and exercises, and manuals for the activities in the laboratory will be made available. All teaching material is downloadable from the course website or the Portal.
Modalità di esame: Prova scritta (in aula); Prova orale obbligatoria; Elaborato scritto individuale;
Exam: Written test; Compulsory oral exam; Individual essay;
...
L'esame è costituito da una prova scritta della durata di 90 minuti, dalla valutazione delle relazioni sulle esercitazioni individuali assegnate durante il corso e da una prova orale su un progetto di analisi di dati da svolgersi in coppia con un altro studente. Le esercitazioni individuali sono facoltative. Il voto finale è definito in base alla valutazione della prova scritta ed eventualmente dalle relazioni delle esercitazioni e della valutazione della prova orale sul progetto di analisi di dati su un dataset reale. Le relazioni delle esercitazioni individuali sono considerate solo se la valutazione della prova scritta è pari o superiore a 18. Il voto finale è una media (approssimata) del voto della prova scritta, del voto delle relazioni individuali e del voto dell'orale.
Valutazione degli obiettivi di apprendimento
L’esame scritto valuterà:
- le conoscenze operative per progettare un data warehouse e gli aspetti principali dei diversi modelli di data warehouse (modello concettuale, logico e fisico)
- la capacità di progettare un data warehouse per la storicizzazione di elevati volumi di dati in contesti applicativi eterogenei.
- la capacità di scrivere query OLAP in linguaggio SQL per accedere a un grande volume di dati
La prova orale (su un progetto di analisi di dati da svolgere in coppia) valuterà:
- la conoscenza delle tecniche di preparazione dei dati e dei principali algoritmi di data mining per la classificazione, la regressione, il clustering e il mining delle regole di associazione su un caso di studio reale.
I progetti individuali valuteranno:
- la conoscenza dei principali algoritmi di data mining per la classificazione e la regressione in un caso di studio reale.
- la capacità di progettare e interrogare un database non relazionale.
Struttura dell'esame e criteri di valutazione
Lo prova scritta è costituita da esercizi che prevedono una risposta aperta. Il valore di ogni esercizio sarà indicato prima del testo dell’esercizio. Le risposte mancanti valgono zero. Durante la prova scritta gli studenti non possono consultare libri o appunti e non possono utilizzare dispositivi elettronici di nessun tipo, a parte quello utilizzato per l’esame stesso.
La prova scritta comprende:
• 1-3 esercizi su progettazione concettuale di data warehouse con risposta aperta (max. 10 punti).
• 1-2 esercizi su progettazione logica di data warehouse con risposta aperta (max. 2 punti).
• 3 esercizi di SQL esteso con risposta aperta (max. 15 punti).
• 2 esercizi sulle viste materializzate con risposta aperta (max. 3 punti).
• 1 esercizio su come gestire la dinamicità (variazioni) dei dati all’interno delle dimensioni. (max. 1 punto).
La valutazione degli esercizi della prova scritta si basa sulla correttezza del risultato e sull'appropriatezza delle metodologie di risoluzione applicate.
La prova orale verte sul progetto di analisi di dati su un dataset reale da svolgersi in coppia con un altro studente (max 30 Lode).
Le relazioni individuali assegnate durante il corso vertono sui principali argomenti trattati durante il corso e sono opzionali (max 2 punti).
Gli studenti e le studentesse con disabilità o con Disturbi Specifici di Apprendimento (DSA), oltre alla segnalazione tramite procedura informatizzata, sono invitati a comunicare anche direttamente al/la docente titolare dell'insegnamento, con un preavviso non inferiore ad una settimana dall'avvio della sessione d'esame, gli strumenti compensativi concordati con l'Unità Special Needs, al fine di permettere al/la docente la declinazione più idonea in riferimento alla specifica tipologia di esame.
Exam: Written test; Compulsory oral exam; Individual essay;
The exam includes a written part, the evaluation of the reports on the individual practices assigned during the course, and an oral part on a data analytics project on a real dataset developed in a team of two students. The individual practices are optional. The written part lasts 2 hours. The final score is defined by considering the evaluation of the written part, and, optionally, of the individual practices, and the oral part on the data analytics project. The individual practices are considered only if the grade of the written part is 18 or above. The final grade is the (approximated) average computed on the grade on the written part, the evaluation of the report on the individual practices, and the grade on the oral part.
The written part includes:
- 1 exercise on data warehousing, including the conceptual and logical design of a data warehouse (max 12 points)
- 3 queries for data access through the extended SQL language (max 15 points)
- 1 exercise on physical design of a data warehouse (max 2 points)
- discussion of the data warehouse issue related to the slowly changing dimension (max 1 point)
Students can use textbooks or notes during the exam. Exercises are evaluated according to the correctness of the proposed solution and to the appropriateness of the adopted resolution methodologies.
The oral part includes the presentation of the developed team project on data analytics and questions on the main topics of the lectures (max 30 with honors). Reports on the individual practices assigned during the course are on the main topics of the lectures (max 2 points).
In addition to the message sent by the online system, students with disabilities or Specific Learning Disorders (SLD) are invited to directly inform the professor in charge of the course about the special arrangements for the exam that have been agreed with the Special Needs Unit. The professor has to be informed at least one week before the beginning of the examination session in order to provide students with the most suitable arrangements for each specific type of exam.
Modalità di esame: Prova orale obbligatoria; Elaborato scritto individuale; Prova scritta tramite PC con l'utilizzo della piattaforma di ateneo;
L'esame è costituito da una prova scritta della durata di 90 minuti, dalla valutazione delle relazioni sulle esercitazioni individuali assegnate durante il corso e da una prova orale su un progetto di analisi di dati da svolgersi in coppia con un altro studente. Le esercitazioni individuali sono facoltative. Il voto finale è definito in base alla valutazione della prova scritta ed eventualmente dalle relazioni delle esercitazioni e della valutazione della prova orale sul progetto di analisi di dati su un dataset reale. Le relazioni delle esercitazioni individuali sono considerate solo se la valutazione della prova scritta è pari o superiore a 18. Il voto finale è una media (approssimata) del voto della prova scritta, del voto delle relazioni individuali e del voto dell'orale.
Valutazione degli obiettivi di apprendimento
L’esame scritto valuterà:
- le conoscenze operative per progettare un data warehouse e gli aspetti principali dei diversi modelli di data warehouse (modello concettuale, logico e fisico)
- la capacità di progettare un data warehouse per la storicizzazione di elevati volumi di dati in contesti applicativi eterogenei.
- la capacità di scrivere query OLAP in linguaggio SQL per accedere a un grande volume di dati
La prova orale (su un progetto di analisi di dati da svolgere in coppia) valuterà:
- la conoscenza delle tecniche di preparazione dei dati e dei principali algoritmi di data mining per la classificazione, la regressione, il clustering e il mining delle regole di associazione su un caso di studio reale.
I progetti individuali valuteranno:
- la conoscenza dei principali algoritmi di data mining per la classificazione e la regressione in un caso di studio reale.
- la capacità di progettare e interrogare un database non relazionale.
Struttura dell'esame e criteri di valutazione
Lo prova scritta è costituita da esercizi che prevedono una risposta aperta. Il valore di ogni esercizio sarà indicato prima del testo dell’esercizio. Le risposte mancanti valgono zero. Durante la prova scritta gli studenti non possono consultare libri o appunti e non possono utilizzare dispositivi elettronici di nessun tipo, a parte quello utilizzato per l’esame stesso.
La prova scritta comprende:
• 1-3 esercizi su progettazione concettuale di data warehouse con risposta aperta (max. 10 punti).
• 1-2 esercizi su progettazione logica di data warehouse con risposta aperta (max. 2 punti).
• 3 esercizi di SQL esteso con risposta aperta (max. 15 punti).
• 2 esercizi sulle viste materializzate con risposta aperta (max. 3 punti).
• 1 esercizio su come gestire la dinamicità (variazioni) dei dati all’interno delle dimensioni. (max. 1 punto).
La valutazione degli esercizi della prova scritta si basa sulla correttezza del risultato e sull'appropriatezza delle metodologie di risoluzione applicate.
La prova orale verte sul progetto di analisi di dati su un dataset reale da svolgersi in coppia con un altro studente (max 30 Lode).
Le relazioni individuali assegnate durante il corso vertono sui principali argomenti trattati durante il corso e sono opzionali (max 2 punti).
Exam: Compulsory oral exam; Individual essay; Computer-based written test using the PoliTo platform;
The exam includes a written part, the evaluation of the reports on the individual practices assigned during the course, and an oral part on a data analytics project on a real dataset developed in a team of two students. The individual practices are optional. The written part lasts 90 minutes. The final score is defined by considering the evaluation of the written part, and, optionally, of the individual practices, and the oral part on the data analytics project. The individual practices are considered only if the grade of the written part is 18 or above. The final grade is the (approximated) average computed on the grade on the written part, the evaluation of the report on the individual practices, and the grade on the oral part.
Learning objectives assessment
The written part will assess
- the working knowledge to design a data warehouse and the major aspects of conceptual, logical, and physical models.
- the ability to design a data warehouse for big data in real-life settings.
- the ability to write OLAP queries in the SQL language to access a large volume of data.
The oral part (on a data analysis project to be carried out in team) will evaluate:
- knowledge of data preparation techniques and of the main data mining algorithms for classification, regression, clustering and mining of association rules on a real-life case.
The individual practices will assess:
- the knowledge of the major data mining algorithms for classification and regression in a real case study.
- the ability to design and query a non-relational database.
Exam structure and grading criteria
The written part includes:
- 1-3 exercises on data warehousing on the conceptual design of a data warehouse (max 10 points)
- 1-2 exercises on data warehousing on the logical design of a data warehouse (max 2 points)
- 3 queries for data access through the extended SQL language (max 15 points)
- 1-2 exercises on physical design of a data warehouse (max 3 points)
- 1 exercise on the data warehouse issue related to the slowly changing dimension (max 1 point)
Students are not allowed to use textbooks, notes, or additional electronic devices apart from the one used for the exam.
The oral part includes the presentation of the developed team project on data analytics and questions on the main topics of the lectures (max 30 with honors). Reports on the individual practices assigned during the course are on the main topics of the lectures and they are optional (max 2 points).
Modalità di esame: Prova orale obbligatoria; Elaborato scritto individuale; Prova scritta tramite PC con l'utilizzo della piattaforma di ateneo;
L'esame è costituito da una prova scritta della durata di 90 minuti, dalla valutazione delle relazioni sulle esercitazioni individuali assegnate durante il corso e da una prova orale su un progetto di analisi di dati da svolgersi in coppia con un altro studente. Le esercitazioni individuali sono facoltative. Il voto finale è definito in base alla valutazione della prova scritta ed eventualmente dalle relazioni delle esercitazioni e della valutazione della prova orale sul progetto di analisi di dati su un dataset reale. Le relazioni delle esercitazioni individuali sono considerate solo se la valutazione della prova scritta è pari o superiore a 18. Il voto finale è una media (approssimata) del voto della prova scritta, del voto delle relazioni individuali e del voto dell'orale.
Valutazione degli obiettivi di apprendimento
L’esame scritto valuterà:
- le conoscenze operative per progettare un data warehouse e gli aspetti principali dei diversi modelli di data warehouse (modello concettuale, logico e fisico)
- la capacità di progettare un data warehouse per la storicizzazione di elevati volumi di dati in contesti applicativi eterogenei.
- la capacità di scrivere query OLAP in linguaggio SQL per accedere a un grande volume di dati
La prova orale (su un progetto di analisi di dati da svolgere in coppia) valuterà:
- la conoscenza delle tecniche di preparazione dei dati e dei principali algoritmi di data mining per la classificazione, la regressione, il clustering e il mining delle regole di associazione su un caso di studio reale.
I progetti individuali valuteranno:
- la conoscenza dei principali algoritmi di data mining per la classificazione e la regressione in un caso di studio reale.
- la capacità di progettare e interrogare un database non relazionale.
Struttura dell'esame e criteri di valutazione
Lo prova scritta è costituita da esercizi che prevedono una risposta aperta. Il valore di ogni esercizio sarà indicato prima del testo dell’esercizio. Le risposte mancanti valgono zero. Durante la prova scritta gli studenti non possono consultare libri o appunti e non possono utilizzare dispositivi elettronici di nessun tipo, a parte quello utilizzato per l’esame stesso.
La prova scritta comprende:
• 1-3 esercizi su progettazione concettuale di data warehouse con risposta aperta (max. 10 punti).
• 1-2 esercizi su progettazione logica di data warehouse con risposta aperta (max. 2 punti).
• 3 esercizi di SQL esteso con risposta aperta (max. 15 punti).
• 2 esercizi sulle viste materializzate con risposta aperta (max. 3 punti).
• 1 esercizio su come gestire la dinamicità (variazioni) dei dati all’interno delle dimensioni. (max. 1 punto).
La valutazione degli esercizi della prova scritta si basa sulla correttezza del risultato e sull'appropriatezza delle metodologie di risoluzione applicate.
La prova orale verte sul progetto di analisi di dati su un dataset reale da svolgersi in coppia con un altro studente (max 30 Lode).
Le relazioni individuali assegnate durante il corso vertono sui principali argomenti trattati durante il corso e sono opzionali (max 2 punti).
Exam: Compulsory oral exam; Individual essay; Computer-based written test using the PoliTo platform;
The exam includes a written part, the evaluation of the reports on the individual practices assigned during the course, and an oral part on a data analytics project on a real dataset developed in a team of two students. The individual practices are optional. The written part lasts 90 minutes. The final score is defined by considering the evaluation of the written part, and, optionally, of the individual practices, and the oral part on the data analytics project. The individual practices are considered only if the grade of the written part is 18 or above. The final grade is the (approximated) average computed on the grade on the written part, the evaluation of the report on the individual practices, and the grade on the oral part.
Learning objectives assessment
The written part will assess
- the working knowledge to design a data warehouse and the major aspects of conceptual, logical, and physical models.
- the ability to design a data warehouse for big data in real-life settings.
- the ability to write OLAP queries in the SQL language to access a large volume of data.
The oral part (on a data analysis project to be carried out in team) will evaluate:
- knowledge of data preparation techniques and of the main data mining algorithms for classification, regression, clustering and mining of association rules on a real-life case.
The individual practices will assess:
- the knowledge of the major data mining algorithms for classification and regression in a real case study.
- the ability to design and query a non-relational database.
Exam structure and grading criteria
The written part includes:
- 1-3 exercises on data warehousing on the conceptual design of a data warehouse (max 10 points)
- 1-2 exercises on data warehousing on the logical design of a data warehouse (max 2 points)
- 3 queries for data access through the extended SQL language (max 15 points)
- 1-2 exercises on physical design of a data warehouse (max 3 points)
- 1 exercise on the data warehouse issue related to the slowly changing dimension (max 1 point)
Students are not allowed to use textbooks, notes, or additional electronic devices apart from the one used for the exam.
The oral part includes the presentation of the developed team project on data analytics and questions on the main topics of the lectures (max 30 with honors). Reports on the individual practices assigned during the course are on the main topics of the lectures and they are optional (max 2 points).