PORTALE DELLA DIDATTICA

PORTALE DELLA DIDATTICA

PORTALE DELLA DIDATTICA

Elenco notifiche



Big data processing and programming

01TRARV

A.A. 2021/22

Course Language

Inglese

Degree programme(s)

Doctorate Research in Ingegneria Elettrica, Elettronica E Delle Comunicazioni - Torino

Course structure
Teaching Hours
Lezioni 20
Lecturers
Teacher Status SSD h.Les h.Ex h.Lab h.Tut Years teaching
Co-lectures
Espandi

Context
SSD CFU Activities Area context
*** N/A ***    
Nell'era dei big data, i metodi tradizionali per la gestione e l'analisi dei dati non sono più adeguati per processare efficientemente enormi quantità di dati. Pertanto, sono necessari nuovi modelli di dati, paradigmi di programmazione e sistemi per la gestione delle basi di dati. Questo corso affronta le tematiche che emergono nel processamento dei big data, analizzandone le tecniche principali. In particolare, nel corso verrà spiegato come collezionare, archiviare, leggere e analizzare i big data per trarre conoscenza da essi. Il corso spiegherà anche i nuovi paradigmi di programmazione basati su Apache Spark (RDD e DataFrame) e discuterà come ingegneri e ricercatori possono sfruttarli per estrarre conoscenza dai dati. Il corso prevede attività di laboratorio in cui gli studenti svolgeranno esercizi su Apache Spark.
In the big data era, traditional data management and analytic systems are no more adequate to efficiently and effectively analyzed a large amount of data. Hence, novel data models, programming paradigms and database management systems are needed. The course addresses the challenges arising in the Big Data era, examining big data processing and knowledge extraction for big data. Specifically, the course covers how to collect, store, retrieve, and analyze big data to mine useful knowledge. The course covers not only data analytics aspects but also novel programming paradigms (Spark RDD and DataFrame programs in particular) and discusses how they can be exploited to support engineers and researchers to extract knowledge from data. The course includes laboratory activity during which the students will complete assignments consisting of simple Apache Spark applications.
Programmazione in Python (livello base) Concetti di database e statistica
Python programming language (basic level) Basic knowledge on databases and statistics
Lezione (15 ore): • Introduzione ai Big data (1.5 ore) • L'ecosistema Hadoop (1.5 ore) • Architettura di Apache Spark (2 ore) • Programmazione con Spark RDD (5 ore) • Programmazione con Spark DataFrame (5 ore) Esercitazioni (5 ore): • Sviluppo di applicazioni Spark usando Python (5 hours)
Lectures (15 hours) • Introduction to Big data: characteristics, problems, opportunities (1.5 hours) • Hadoop and its ecosystem: infrastructure and basic components (1.5 hours) • Apache Spark Architecture (2 hours) • Spark RDD programming (5 hours) • Spark DataFrame programming (5 hours) Laboratory activities (5 hours) • Developing of applications by means of Spark using Python (5 hours)
In presenza
On site
Presentazione report scritto - Presentazione orale
Written report presentation - Oral presentation
P.D.1-1 - Gennaio
P.D.1-1 - January