Politecnico di Torino

Anno Accademico 2017/18

01SCTIU
Text mining and analytics

Dottorato di ricerca in Ingegneria Informatica E Dei Sistemi - Torino

Docente	Qualifica	Settore	Lez	Es	Lab	Tut	Anni incarico
Cagliero Luca	A2	IINF-05/A	15	0	0	0	5

SSD	CFU	Attivita' formative	Ambiti disciplinari
* N/A *

Presentazione

PERIODO: NOVEMBRE 2017

La diffusione di librerie digitali e piattaforme social ha prodotto una quantità enorme di dati testuali scritti in lingue e stili differenti memorizzati in svariati formati, strutturati e non. L’analisi di dati testuali provenienti da domini applicativi anche molto differenti tra loro ha come obiettivo comune l’estrazione automatica di conoscenza utile ad analisti ed esperti. Esempi di conoscenza estratta sono: (i) riassunti di notiziari pubblicati su diverse testate giornalistiche e abstract di testi scientifici o normativi, (ii) selezioni di parole chiave o gruppi di termini "semanticamente correlati" presenti in testi pubblicati su piattaforme social, (iii) opinioni di analisti ed esperti ("sentiment").

L’obiettivo del corso è fornire un’introduzione alle principali tecniche di analisi dei testi e ai principali strumenti open-source oggigiorno disponibili per la preparazione e l’analisi dei dati.

The diffusion of digital libraries and social platforms has produced a huge amount of textual data written in different languages, with different styles, and stored in various formats, structured and not. The analysis of textual data coming from heterogeneous application domains has as common objective the automatic extraction of knowledge useful for analysts and domain experts. Examples of extracted knowledge are (i) summaries of news published by different online newspapers and abstracts of scientific books or regulations, (ii) subsets of keywords or groups of "semantically related" terms occurring in textual content published on social platforms, (iii) opinions (sentiment) of analysts and domain experts.

The goal of the course is to overview the main techniques aimed at analyzing textual data as well as to introduce the main opensource instruments nowadays available for text preparation and analysis.

Programma

- Introduzione al text mining
- Modelli di rappresentazione di dati testuali
- Tecniche di trasformazione e preparazione di dati testuali (ad es. Principal Component Analysis, Latent Semantic Analysis)
- Riconoscimento di entità e disambiguazione
- Analisi di associazioni tra dati testuali
- Riconoscimento di topic
- Opinion mining
- Generazione e validazione di riassunti di documenti
- Panoramica sulle principali librerie e dei software open-source per l’analisi di dati testuali (ad es. RapidMiner, Lucene, Yago, WordNet)

Questo corso fa parte di un percorso di approfondimento sul tema Data Science. Il percorso è composto da
- un corso introduttivo (Data Mining: Concepts and Algorithms), che introduce gli aspetti di base dell'analisi dei dati e costituisce un prerequisito culturale per i corsi successivi
- 5 corsi tematici, che approfondiscono temi specifici di Data Science, quali diverse tipologie di algoritmi o di dominio applicativo:
Text Mining and Analytics
Data Analytics for Science and Society
Machine Learning for Pattern Recognition
Mimetic Learning
Visualization and Visual Analytics

- Introduction to text mining
- Text trasformation techniques and representation models (e.g. Principal Component Analysis, Latent Semantic Analysis)
- Text preparation and cleaning
- Entity recognition and disambiguation
- Association analysis of textual data
- Topic detection
- Opinion mining
- Text summarization and validation of the generated summaries
- Overview of the main open-source libraries and software for textual l’analisi di dati testuali (e.g. RapidMiner, Lucene, Yago, WordNet)

This course belongs to an educational path on Data Science. The path is composed by
- an introductory course (Data Mining: Concepts and Algorithms), covering data analytics fundamentals, which is a cultural prerequisite for the other courses
- 5 thematic courses dealing in depth with specific Data Science topics, such as different algorithm types or application domains:
Text Mining and Analytics
Data Analytics for Science and Society
Machine Learning for Pattern Recognition
Mimetic Learning
Visualization and Visual Analytics

Orario delle lezioni

Statistiche superamento esami

Programma provvisorio per l'A.A.2017/18