Servizi per la didattica
PORTALE DELLA DIDATTICA

Big data processing and programming

01TRARV

A.A. 2020/21

Lingua dell'insegnamento

Italiano

Corsi di studio

Dottorato di ricerca in Ingegneria Elettrica, Elettronica E Delle Comunicazioni - Torino

Organizzazione dell'insegnamento
Didattica Ore
Lezioni 20
Docenti
Docente Qualifica Settore h.Lez h.Es h.Lab h.Tut Anni incarico
Trevisan Martino   Docente esterno e/o collaboratore   14 0 0 0 2
Collaboratori
Espandi

Didattica
SSD CFU Attivita' formative Ambiti disciplinari
*** N/A ***    
Valutazione CPD /
Nell'era dei big data, i metodi tradizionali per la gestione e l'analisi dei dati non sono più adeguati per processare efficientemente enormi quantità di dati. Pertanto, sono necessari nuovi modelli di dati, paradigmi di programmazione e sistemi per la gestione delle basi di dati. Questo corso affronta le tematiche che emergono nel processamento dei big data, analizzandone le tecniche principali. In particolare, nel corso verrà spiegato come collezionare, archiviare, leggere e analizzare i big data per trarre conoscenza da essi. Il corso spiegherà anche i nuovi paradigmi di programmazione basati su Apache Spark (RDD e DataFrame) e discuterà come ingegneri e ricercatori possono sfruttarli per estrarre conoscenza dai dati. Il corso prevede attività di laboratorio in cui gli studenti svolgeranno esercizi su Apache Spark.
In the big data era, traditional data management and analytic systems are no more adequate to efficiently and effectively analyzed a large amount of data. Hence, novel data models, programming paradigms and database management systems are needed. The course addresses the challenges arising in the Big Data era, examining big data processing and knowledge extraction for big data. Specifically, the course covers how to collect, store, retrieve, and analyze big data to mine useful knowledge. The course covers not only data analytics aspects but also novel programming paradigms (Spark RDD and DataFrame programs in particular) and discusses how they can be exploited to support engineers and researchers to extract knowledge from data. The course includes laboratory activity during which the students will complete assignments consisting of simple Apache Spark applications.
Programmazione in Python (livello base) Concetti di database e statistica
Python programming language (basic level) Basic knowledge on databases and statistics
Lezione (15 ore): • Introduzione ai Big data (1.5 ore) • L'ecosistema Hadoop (1.5 ore) • Architettura di Apache Spark (2 ore) • Programmazione con Spark RDD (5 ore) • Programmazione con Spark DataFrame (5 ore) Esercitazioni (5 ore): • Sviluppo di applicazioni Spark usando Python (5 hours)
Lectures (15 hours) • Introduction to Big data: characteristics, problems, opportunities (1.5 hours) • Hadoop and its ecosystem: infrastructure and basic components (1.5 hours) • Apache Spark Architecture (2 hours) • Spark RDD programming (5 hours) • Spark DataFrame programming (5 hours) Laboratory activities (5 hours) • Developing of applications by means of Spark using Python (5 hours)
In presenza
On site
Presentazione orale - Presentazione report scritto
Oral presentation - Written report presentation
P.D.1-1 - Gennaio
P.D.1-1 - January


© Politecnico di Torino
Corso Duca degli Abruzzi, 24 - 10129 Torino, ITALY
Contatti