TEORIE, MODELLI E TECNICHE INFORMATICHE E DI ANALISI DEI DATI
Anno accademico 2018/2019 - 2° anno- TECNICHE DI ANALISI MONOVARIATA E MULTIVARIATA: Cesare Garofalo
- INTRODUZIONE AL DATA MINING: Giovanni Giuffrida
SSD
- SPS/07 - Sociologia generale
- INF/01 - Informatica
Semestre: 2°
Obiettivi formativi
- TECNICHE DI ANALISI MONOVARIATA E MULTIVARIATA
Tecniche di analisi monovariata e multivariata
- INTRODUZIONE AL DATA MINING
Introduzione al data mining
Modalità di svolgimento dell'insegnamento
- TECNICHE DI ANALISI MONOVARIATA E MULTIVARIATA
Lezioni frontali
- INTRODUZIONE AL DATA MINING
L'insegnamento è organizzato in una serie di lezioni frontali. Esercitazioni sono svolte in classe all'interno delle lezioni stesse. Un paio di speakers esterni sono normalmente invitati per esporre su temi avanzati di Computational Social Science.
Prerequisiti richiesti
- TECNICHE DI ANALISI MONOVARIATA E MULTIVARIATA
Corso di statistica di base
- INTRODUZIONE AL DATA MINING
Nozioni di base di informatica e di gestione dati.
Frequenza lezioni
- TECNICHE DI ANALISI MONOVARIATA E MULTIVARIATA
Praticamente obbligatoria.
- INTRODUZIONE AL DATA MINING
Non obbligatoria ma fortemente consigliata.
Contenuti del corso
- TECNICHE DI ANALISI MONOVARIATA E MULTIVARIATA
Il corso si focalizzerà sullo studio dell’analisi monovariata, bivariata e multivariata utilizzando il linguaggio R, ossia un ambiente open source per la gestione dei dati, l’analisi statistica, la produzione di grafici e, più in generale, per l’uso di moltissimi metodi formali (Networks Analysis, Time Series Analysis, Differential Equations, Machine Learning, Multivariate Statistics, ecc.).
Il corso prevede la trattazione di:
1) nozioni basilari di matematica e logica propedeutiche alla programmazione informatica;
2) operazioni su vettori, matrici, fattori, liste, tabelle, data frame, mediante il linguaggio R;
3) operazioni di lettura e scrittura su file esterni mediante in linguaggio R;
4) rappresentazioni grafiche dei dati mediante il linguaggio R;
5) programmazione con R: definizioni di nuove funzioni, costrutti di controllo, costrutti condizionali e
costrutti iterativi (if, ifelse, for, while, break, repeat, next);
6) statistica descrittiva univariata e bivariata mediante il linguaggio R;
7) correlazione e regressione lineare mediante il linguaggio R;
8) analisi delle componenti principali mediante il linguaggio R;
9) cluster analysis mediante il linguaggio R;
10) network analysis mediante il linguaggio R;
- INTRODUZIONE AL DATA MINING
Il corso intende dare una panoramica dei sistemi di gestione delle basi di dati sia da un punto di vista teorico che pratico. L’enorme quantità di dati di tipo “sociale” oggi disponibile rende necessaria una corretta gestione informatica di tali dati al fine di poter comprendere al meglio ed analizzare in maniera più proficua i fenomeni sociali che possono essere estratti da questa enorme quantità di dati. Strumenti quali Facebook, la lettura di quotidiani online, lo scambio di email, ecc., forniscono oggi allo scienziato sociale una nuova dimensione di analisi difficilmente gestibile con tecniche convenzionali per via della numerosità dei dati stessi.
Si intende formare lo studente con le conoscenze teoriche necessarie alla comprensione delle tecniche di archiviazione delle basi di dati. Inoltre si vuole dare una conoscenza pratica e metodologica di un sistema di gestione delle basi di dati di larga diffusione. Esploreremo inoltre i principi dei Big Data e della loro interazione con le scienze sociali.
Testi di riferimento
- TECNICHE DI ANALISI MONOVARIATA E MULTIVARIATA
Dispense del docente
- INTRODUZIONE AL DATA MINING
- Slides fornite dal docente
- Albano-Ghelli-Orsini, Basi di Dati Relazionali e a Oggetti, Zanichelli, 1997
- Ullman, Basi di Dati e Basi di Conoscenza
- Big data. Una rivoluzione che trasformerà il nostro modo di vivere e già minaccia la nostra libertà. Viktor Mayer-Schönberger, Kenneth N. Cukier e R. Merlini
- Machine Learning: The Art and Science of Algorithms That Make Sense of Data, Peter Flach, Cambridge University Press
- Basi di Dati,Modelli e linguaggi di interrogazione, Atzeni,Ceri,Paraboschi,Torlone, terza edizione, McGraw-Hill 2002
Programmazione del corso
TECNICHE DI ANALISI MONOVARIATA E MULTIVARIATA | |||
Argomenti | Riferimenti testi | ||
---|---|---|---|
1 | 1) nozioni basilari di matematica e logica propedeutiche alla programmazione informatica; | Dispense del docente | |
2 | 2) operazioni su vettori, matrici, fattori, liste, tabelle, data frame, mediante il linguaggio R; | Dispense del docente | |
3 | 3) operazioni di lettura e scrittura su file esterni mediante in linguaggio R; | Dispense del docente | |
4 | 4) rappresentazioni grafiche dei dati mediante il linguaggio R; | Dispense del docente | |
5 | 5) programmazione con R: definizioni di nuove funzioni, costrutti di controllo, costrutti condizionali e costrutti iterativi (if, ifelse, for, while, break, repeat, next); | Dispense del docente | |
6 | 6) statistica descrittiva univariata e bivariata mediante il linguaggio R; | Dispense del docente | |
7 | 7) correlazione e regressione lineare mediante il linguaggio R; | Dispense del docente | |
8 | 8) analisi delle componenti principali mediante il linguaggio R; | Dispense del docente | |
9 | 9) cluster analysis mediante il linguaggio R; | Dispense del docente | |
10 | 10) network analysis mediante il linguaggio R; | Dispense del docente | |
INTRODUZIONE AL DATA MINING | |||
Argomenti | Riferimenti testi | ||
1 | Dai dati all’informazione: Sistemi informativi e informatici; Dato e informazione; Organizzazione relazionale dei dati; Interrogazione; Sistemi di interrogazione evoluti | Atzeni,Ceri,Paraboschi,Torlone, Basi di Dati,Modelli e linguaggi di interrogazione, terza edizione, McGraw-Hill 2002. • Albano-Ghelli-Orsini, Basi di Dati Relazionali e a Oggetti, Zanichelli, 1997Ullman, Basi di Dati e Basi di Conoscenza | |
2 | Introduzione alla Computational Social Science; Nozioni di «Big Data» e Aritificial Intelligence; Concetti e cenni di algoritmi di «profilazione utente»; Social Networks e Social Network Analysis; | slides fornite dal docente; Machine Learning: The Art and Science of Algorithms That Make Sense of Data, Peter Flach, Cambridge University Press; Big data. Una rivoluzione che trasformerà il nostro modo di vivere e già minaccia la nostra libertà. Viktor M |
Verifica dell'apprendimento
Modalità di verifica dell'apprendimento
- TECNICHE DI ANALISI MONOVARIATA E MULTIVARIATA
prova pratica al computer
- INTRODUZIONE AL DATA MINING
L'esame è in formato scritto con una serie di domande a risposta multipla V/F.
Esempi di domande e/o esercizi frequenti
- TECNICHE DI ANALISI MONOVARIATA E MULTIVARIATA
Uso delle funzioni di base principali di R.
Come si installano e si caricano i pacchetti in R.
Come si costruisce e si opera su un vettore, una matrice, un dataframe in R.
Come si costruisce un grafico in R.
Come si costruisce una funzione in R.
Come si svolge l’analisi di correlazione e regressione in R.
Come si costruisce un Network con R e come si misurano gli indici di centralità mediante il pacchetto “igraph” .
Come si esegue una Cluster Analysis con R. - INTRODUZIONE AL DATA MINING
Il modello relazionale dei dati è quello tipicamente utilizzato nei DBMS: V/F?
Un ipertesto è un testo distribuito su vari computer: V/F?
Un DBMS aiuta nella soluzione al problema della ridondanza dei dati: V/F?