PORTALE DELLA DIDATTICA

PORTALE DELLA DIDATTICA

PORTALE DELLA DIDATTICA

Elenco notifiche



Text mining and analytics

01SCTIU

A.A. 2020/21

Course Language

Inglese

Degree programme(s)

Doctorate Research in Ingegneria Informatica E Dei Sistemi - Torino

Course structure
Teaching Hours
Lezioni 15
Lecturers
Teacher Status SSD h.Les h.Ex h.Lab h.Tut Years teaching
Cagliero Luca   Professore Associato IINF-05/A 15 0 0 0 5
Co-lectures
Espandi

Context
SSD CFU Activities Area context
*** N/A ***    
La diffusione di librerie digitali e piattaforme social ha permesso la generazione di un'enorme mole di dati testuali scritti in diverse lingue e disponibili in vari formati. L'analisi dei dati testuali provenienti da contesti applicativi differenti si pone come obiettivo primario l'estrazione automatica di conoscenza utile per analisti ed esperti di dominio. Esempi di conoscenza estratta sono (i) i sommari dei notiziari pubblicati sulle principali testate giornalistiche online, gli abstract di libri, documenti tecnici e regolamenti, (ii) le selezioni di keyword o gruppi di parole semanticamente correlate selezionati da piattaforme social, e (iii) le opinioni e il sentiment di analisti e esperti di dominio. L'obiettivo del corso è introdurre i fondamenti del text mining, presentare le tecniche di text summarization allo stato dell'arte e descrivere le rappresentazioni vettoriali dei testi, basati su modelli di Deep NLP, più utilizzate. Saranno inoltre presentati i principali strumenti opensource a disposizione dei ricercatori per la preparazione e l'analisi dei testi.
The diffusion of digital libraries and social platforms has produced a huge amount of textual data written in different languages, with different styles, and stored in various formats, structured and not. The analysis of textual data coming from heterogeneous application domains has as common objective the automatic extraction of knowledge useful for analysts and domain experts. Examples of extracted knowledge are (i) summaries of news published by different online newspapers and abstracts of scientific books or regulations, (ii) subsets of keywords or groups of “semantically related” terms occurring in textual content published on social platforms, (iii) opinions (sentiment) of analysts and domain experts. The goal of the course is to introduce the fundamentals of the text mining process, present the state-of-the-art techniques for text summarization and the most established vector representations of text, based on Deep NLP models. The main opensource instruments nowadays available for text preparation and analysis are presented as well.
Fondamenti di data analytics. Per gli studenti che necessitano di integrare le conoscenze base è raccomandato il seguente corso di III livello: 01QTEIU "Data Mining: Concepts and Algorithms".
Data analytics fundamentals. For students who need to acquire basic skills on data analytics and mining the III-level course 01QTEIU "Data Mining: Concepts and Algorithms" is recommended.
- Introduzione al text mining - Preparazione e pulizia dei dati - Tecniche e modelli di trasformazione dei dati testuali basati sulle occorrenze di parole nel testo (ad es. Latent Semantic Analysis) - Fondamenti di Deep NLP: modelli latenti per la rappresentazione vettoriale di testi (ad es., Word2Vec, FastText, Glove, BERT) - Entity recognition e disambiguation - Tecniche di text mining non supervisionate - Tecniche di summarization dei testi - Librerie open source e software per NLP e Deep NLP (ad es., RapidMiner, SK-Learn, Lucene, Yago, WordNet)
- Introduction to text mining - Text preparation and cleaning - Word occurrence-based Text transformation techniques and models (e.g., Latent Semantic Analysis) - Fundamentals of Deep NLP: Vector representations of text (e.g., Word2Vec, FastText, Glove, BERT) - Entity recognition and disambiguation - Overview of unsupervised text mining techniques - Text summarization techniques - Open-source libraries and software for NLP e Deep NLP (e.g. RapidMiner, SK-Learn, Lucene, Yago, WordNet)
A distanza in modalità sincrona
On line synchronous mode
Presentazione orale
Oral presentation
P.D.2-2 - Luglio
P.D.2-2 - July