Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Raccolta, manipolazione e rappresentazione dei dati

No description
by

Antonio Notarangelo

on 8 May 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Raccolta, manipolazione e rappresentazione dei dati

Conseguenze di dati impropriamente raccolti
Incapacità di rispondere alle domande di ricerca accuratamente.
Incapacità di ripetere e convalidare lo studio.
Provocano spreco di risorse e possono indurre in errore altri ricercatori a perseguire strade infruttuose di indagine.
Manipolazione dei dati
La
manipolazione dei dati
è quel processo che prevede l'utilizzo di operazioni quali ordinamento, fusione, input/output e generazione di report senza alterare il significato dei dati di partenza. La verifica e la convalida dei dati sono inclusi in questo processo.
1) caso banale
: direttamente da spreadsheet
2) caso semi-banale
: xslt (perchè i dati erano già xml e si voleva ancora xml)
3) casi non banali
: java
Raccolta dati
La
raccolta dei dati
è il processo di collezione e misurazione di informazioni sulle variabili di interesse in modo sistematico e permette di rispondere a determinate domande di ricerca, testare ipotesi, e valutare i risultati.
La nostra raccolta dati
Siti turistici visitabili
Sedi dei consolati
Agenzie di viaggio
Luoghi di accoglienza
Luoghi di interesse
Cosa fare
Affluenza dei turisti
Redditi e popolazioni dal 1995 al 2011 di ogni regione
Numero degli occupati in ogni regione
Auto circolanti e immatricolate
Raccolta, manipolazione e rappresentazione dei dati
Obiettivi
Mentre i metodi variano a seconda della disciplina, l'enfasi sul garantire una collezione accurata dei dati rimane la stessa.
L'obiettivo è quello di catturare le prove di qualità che poi si traducono in ricche analisi dei dati e permettono la costruzione di una risposta convincente e credibile alle domande poste.
I pinguini Adélie vengono identificati e pesati ogni volta che oltrepassano un varco verso il male.
I problemi dei dati di partenza
Diversi formati adottati per i dataset (csv, xml, xlsx, ecc...)
Utilizzo di nomi non significativi
Valori dei campi ripetuti o senza senso
Dati non normalizzati
Esempi
Tipo;Nome del sito;descrizione del sito;indirizzo;info;orario ingresso;note orario ingresso;biglietto;indirizzo mail;sito web;note visite guidate;accessibilità
VILLE e GIARDINI;Città dei Ragazzi;All'interno attività ludico-creative, con laboratori manipolativi per bambini e ragazzi ed altre iniziative. Info allo 0916714373;Viale degli Abruzzi, 1D;tel. 091 6714373;;Chiusa per inattività dal 01/09/2012;costi: intero 2,00 - ridotto 1,00 per scolaresche su prenotazione telefonica - 5,00 abbonamento;;;;
<DATA_RECORD>
<ID>10</ID>
<DENOMINAZIONE>I Colori del Mondo</DENOMINAZIONE>
<DIPENDENZA>della DA.NI.MA s.a.s di Lo Cascio Nicoletta & C.</DIPENDENZA>
<CATEGORIA>A ill.</CATEGORIA>
<CITTA>Palermo</CITTA>
<INDIRIZZO>Via Leonardo Da Vinci, 32</INDIRIZZO>
<CAP>90145</CAP>
<TELEFONO>0919768143</TELEFONO>
<FAX>0919768145</FAX>
<EMAIL>icoloridelmondo@pinguinoviaggi.net</EMAIL>
<WEB>0</WEB>
<ANNOTAZIONI>0</ANNOTAZIONI>
</DATA_RECORD>
<DATA_RECORD>
<ID>5</ID>
<STATO>Bangladesh</STATO>
<INDIRIZZO>Piazza Vittorio Emanuele Orlando, 41</INDIRIZZO>
<TELEFONO>091 6111484</TELEFONO>
<MOBILE>3356316148</MOBILE>
<FAX>091 6111484</FAX>
<EMAIL>studiolegaleditanto@libero.it</EMAIL>
<PEC>0</PEC>
<ANNOTAZIONI>
Cav. Avv. Vincenzo Di Tanto Console Generale Onorario del
Bangladesh Circoscrizione: Palermo, Trapani, Agrigento orari Dal lunedì al venerdì: 16.30-18.30
</ANNOTAZIONI>
</DATA_RECORD>
Siti turistici
Consolati
Agenzie di viaggi
Obiettivi
Organizzare i dati coerentemente
Renderli più facilmente leggibili
Eliminare le ridondanze
Decomporre relazioni con concetti tra loro indipendenti
La nostra manipolazione dei dati
Risultato finale
<luogo>
<id>510</id>
<nome>Phi Beach</nome>
<indirizzo>Lungomare Cristoforo Colombo, 2351</indirizzo>
<numero-civico/>
<cap>90142</cap>
<quartiere/>
<citta>Palermo - Addaura</citta>
<geolocazione/>
<telefono>091/6849217</telefono>
<fax/>
<mobile>3296999079</mobile>
<email/>
<web/>
<tipi>divertimento, ristoro</tipi>
<tipi-specifici>Cocktail bar</tipi-specifici>
<divertimento-e-ristoro>
<cucina/>
<orari> <giorni>lunedi,martedi,mercoledi,giovedi,venerdi,sabato,domenica</giorni>
<apertura>09:00</apertura>
<chiusura>02:00</chiusura>
<note/>
</orari>
<informazioni>Stabilimento balneare di giorno elegante lounge bar di sera </informazioni>
</divertimento-e-ristoro>
<icon>bars</icon>
</luogo>
La nostra manipolazione dei dati - Casi non banali
3.1) da csv a json gerarchici
3.2) quando occorre cambiare il formato del "value" (perchè, ad esempio, xslt non ha metodi per manipolare stringhe/numeri - es: from UTC date to Epoch)
Rappresentazione dei dati
Un
grafico
è una rappresentazione grafica di dati, in cui i dati vengono rappresentati da simboli, come le barre in un grafico a barre, linee in un grafico a linee, o sezioni in un grafico a torta. Un grafico può rappresentare dati numerici tabulati, funzioni o alcuni tipi di struttura qualitativa e fornisce informazioni diverse.
Obiettivi
Facilitare la comprensione di grandi quantità di dati
Mettere in correlazione parti di dati
Aiutare l'analisi e l'interpretazione delle informazioni
Riassumere le informazioni in maniera pertinente
Psicologia della Gestalt
La
psicologia della Gestalt
(la parola tedesca Gestalt significa forma, schema, rappresentazione), detta anche psicologia della forma, è una corrente psicologica i cui esponenti si focalizzarono soprattutto sugli studi della percezione e del problem-solving.
L'idea portante della psicologia della Gestalt è che non è corretto dividere l’esperienza umana nelle sue componenti elementari, da analizzare separatamente, perché
un insieme è più della somma delle sue parti
.
Questo avviene nella percezione visiva: gli elementi che ci si presentano nel campo visivo interagiscono fra loro in modo complesso, e quello che percepiamo è sostanzialmente diverso dalla loro semplice somma.
Esempio
Design dell'interazione e comunicazione visiva
Esempio
I processi dell'invenzione
Mimesi
: riprodurre un prodotto già esistente, tipicamente realizzandolo con tecnologie differenti
Ibridazione
: concepire un oggetto nuovo mescolando e integrando fra loro aspetti e funzioni di più oggetti diversi
I processi dell'invenzione
Metafora
: due domini semantici indipendenti vengono messi in contatto: questo fa sì che uno dei due domini venga compreso facendo riferimento all’altro
Variazione
: progettare variazioni, in qualche senso migliorative, di sistemi esistenti. Queste potranno generare prodotti concorrenti di quelli originali, o nuove versioni evolutive degli stessi
<luogo>
<id>63</id>
<nome>San Paolo Palace Hotel</nome>
<indirizzo>Via Messina Marine, 91</indirizzo>
<numero-civico/>
<cap>90123</cap>
<quartiere/>
<citta>Palermo</citta>
<geolocazione/>
<telefono>091/211112</telefono>
<fax>091/215300</fax>
<mobile>335 5296364</mobile>
<email>hotel@sanpaolopalace.it</email>
<web>http://www.sanpaolopalace.it</web>
<tipi>accoglienza</tipi>
<tipi-specifici>Hotel</tipi-specifici>
<accoglienza>
<stelle>4</stelle>
<camere>290</camere>
<sale_meeting>10</sale_meeting>
<residences/>
<descrizione/>
<direttore>Marcello Pizzuto</direttore>
<gestione/>
</accoglienza>
<icon>h_blue</icon>
</luogo>
Le nostre rappresentazioni grafiche
D3
D3
(Data-Driven Documents) è una libreria javascript che permette la manipolazione nativa (inline) di dati strutturati secondo il modello DOM.
La libreria usa un paradigma di sviluppo di tipo dichiarativo, e presenta una sintassi basata sul pattern chaining, strutturato su 3 fasi: (data) input, transform, (new data) output.
CSS3
: possibilità di aggiungere/rimuovere elementi dinamicamente, non solo di dare uno stile dinamicamente
JQuery
: possibilità di di aggiungere/rimuovere elementi in base ai dati sui quali si fa match - i dati, inoltre, non sono caricati in una qualche variabile javascript più o meno globale, ma sono "agganciati" allo specifico nodo (html) nel quale saranno successivamente manipolati
XSLT
: permette manipolazioni complesse, e visualizzazioni interattive e di vario tipo - oltre ad offrire una sintassi (semi)imperativa.
D3 vs
Barhierarchy
Bubblechart
Choropleth
CodeFlower
Collapsible indented tree
Collapsible tree
Google stacklines
Google timeline
Multidimensional timeline
OpenHours
Partition
Radial reingold
Rickshaw
Timeline
TreeMap
Zoomable Circle
Riferimenti
Chart
- http://en.wikipedia.org/wiki/Chart
Data collection
- http://en.wikipedia.org/wiki/Data_collection
D3
- http://d3js.org/
Facile da usare
- Roberto Polillo - Ed. Apogeo
Grafici implementati
- http://opendataexperiment.esy.es
Chropleth
Richshaw
Hierarchical bar chart
Bubble chart
CodeFlower
Collapsible indented tree
Collapsible tree
OpenHours
Timeline
Partition
Radial reingold
Multidimensional timeline
Treemap
Zoomable circle
Turisti stranieri del 2011
country,population
au,9646
be,14522
bu,1651
cy,280
da,6986
en,506
fi,3677
fr,111063
gm,74911
gr,5449
ei,3687
lg,634
lh,1055
lu,613
mt,1802
nl,19028
pl,11349
po,3906
uk,32540
ez,2309
ro,7152
lo,696
si,2885
sp,61533
sw,11606
hu,3449
hr,2338
ic,329
no,9558
rs,12208
sz,13822
tu,3684
up,1081
ca,8918
us,66182
mx,1770
ve,1127
br,7914
ar,12240
ch,4639
ja,17038
ks,1034
in,1570
is,8718
eg,503
as,12840
nz,1458
{
"label": "Tonnara Florio (Kursal Tonnara Vergine Maria)",
"indirizzo": "Discesa Tonnara",
"numeroCivico": "4",
"cap": "90142",
"quartiere": "",
"citta": "Palermo",
"geolocazione": "38.151101,13.374156",
"telefono": "091/6375611",
"mobile": "",
"email": "discoteca@tonnaraflorio.com",
"web": "http://www.tonnaraflorio.com/discoteca.htm",
"tipi": "divertimento",
"tipiSpecifici": "Discoteca",
"tipiSpecificiReduced": "Discoteca",
"times": [
{
"starting_time": "64800000",
"ending_time": "86400000"
}
]
}
Orari di apertura e chiusura di attività per il divertimento e il ristoro
{
"nome": "Tonnara Florio (Kursal Tonnara Vergine Maria)",
"openhours": "Mon-Sun 19:00 pm - 1:00 am",
"geolocazione": "38.151101,13.374156",
"indirizzo": "Discesa Tonnara",
"numeroCivico": "4",
"cap": "90142",
"quartiere": "",
"citta": "Palermo",
"telefono": "091/6375611",
"fax": "",
"mobile": "",
"email": "discoteca@tonnaraflorio.com",
"web": "http://www.tonnaraflorio.com/discoteca.htm",
"tipi": "divertimento",
"tipiSpecifici": "Discoteca"
}
Auto circolanti e immatricolate dal 1999 al 2011
series: [
{ data: [ { x: 1999, y: 25977 },{ x: 2000, y: 25956 },{ x: 2001, y: 27117 },{ x: 2002, y: 26850 },{ x: 2003, y: 25184 },{ x: 2004, y: 27906 },{ x: 2005, y: 24869 },{ x: 2006, y: 22914 },{ x: 2007, y: 24649 },{ x: 2008, y: 20873 },{ x: 2009, y: 20213 },{ x: 2010, y: 17682 },{ x: 2011, y: 13634 } ] },
{ data: [
{ x: 1999, y: 25977 },{ x: 2000, y: 25956 },{ x: 2001, y: 27117 },{ x: 2002, y: 26850 },{ x: 2003, y: 25184 },{ x: 2004, y: 27906 },{ x: 2005, y: 24869 },{ x: 2006, y: 22914 },{ x: 2007, y: 24649 },{ x: 2008, y: 20873 },{ x: 2009, y: 20213 },{ x: 2010, y: 17682 },{ x: 2011, y: 13634 } ] }
]
Reddito, popolazione e occupazione dal 1995 al 2011
{
"nomeRegione": "Valle d'Aosta - Vallée d'Aoste",
"area": "Nord-Ovest",
"reddito": [
[
1995,
1720.553809
],
[
1996,
1805.519343
],
[
1997,
1854.282147
],
[
1998,
1917.123725
],
[
1999,
1964.244599
],
[
2000,
2048.790456
],
[
2001,
2221.311411
],
[
2002,
2283.464812
],
[
2003,
2350.8489
],
[
2004,
2451.727397
],
[
1996,
54.788
],
[
1997,
54.904
],
[
1998,
54.696
],
[
1999,
54.839
],
[
2000,
56.439
],
[
2001,
57.277
],
[
2002,
58.069
],
[
2003,
56.073
],
[
2004,
55.512
],
[
2005,
54.797
],
[
2006,
55.577
],
[
2007,
56.641
],
[
2008,
56.927
],
[
2005,
2476.675775
],
[
2006,
2540.594406
],
[
2007,
2605.752038
],
[
2008,
2704.646876
],
[
2009,
2542.493327
],
[
2010,
2587.300433
],
[
2011,
2617.815204
]
],
"popolazione": [
[
1995,
116.9
],
[
1996,
117.3
],
[
1997,
117.8
],
[
1998,
118.4
],
[
1999,
118.8
],
[
2000,
119.1
],
[
2001,
119.4
],
[
2002,
120.2
],
[
2003,
121.5
],
[
2004,
122.5
],
[
2005,
123.4
],
[
2006,
124.4
],
[
2007,
125.4
],
[
2008,
126.5
],
[
2009,
127.5
],
[
2010,
128
],
[
2011,
128.5
]
],
"occupazione": [
[
1995,
53.823
],
[
2009,
56.401
],
[
2010,
57.05
],
[
2011,
56.79
]
]
}
Google stacklines
Google timeline
Attività di Palermo ripartite per gerarchie
{
"name": "tipi",
"children": [
{
"name": "Agenzia di Viaggi",
"children": []
},
{
"name": "Consolato",
"children": []
},
{
"name": "Accoglienza",
"children": []
},
{
"name": "Divertimento",
"children": []
},
{
"name": "Ristoro",
"children": []
},
{
"name": "Luogo da visitare",
"children": []
},
{
"name": "Spazio verde",
"children": []
},
{
"name": "Parcheggio Pubblico",
"children": [
{
"name": "Parcheggio Orlando",
"size": 1
}
]
}
]
}
Versione animata dell'originale Reingold-Tilford. Il layout ad albero implementa l'algoritmo Reingold-Tilford per una efficiente, disposizione ordinata di nodi a più livelli. La profondità dei nodi viene calcolata in base alla distanza dalla radice, con conseguente aspetto irregolare. Orientamenti radiali sono supportati.
Variante dell'originale Reingold-Tilford, con i nodi distribuiti in circonferenze. Il layout ad albero implementa l'algoritmo Reingold-Tilford per una efficiente, disposizione ordinata di nodi a più livelli. La profondità dei nodi viene calcolata in base alla distanza dalla radice, con conseguente aspetto irregolare. Orientamenti radiali sono supportati.
Un layout ad albero indentato per la libreria D3 adatto a visualizzare liste gerarchiche, directory di file,ecc... Questa versione animata permette di espandere o richiudere i figli di un nodo che li possiede attraverso il click del mouse.
Una treemap suddivide ricorsivamente le aree in rettangoli; l'area di qualsiasi nodo corrisponde al suo valore. Il colore di ogni rettangolo varia in base al nodo padre di appartenza.
Il Bubble Chart codifica i dati nelle aree dei cechi. Nonostante sia un grafico percettivamente meno accurato rispetto ad un grafico a barre, esso può racchiudere in se centinaia di valori in un piccolo spazio.
Questo layout associa ogni nodo ad un rettangolo la cui grandezza varia a seconda del numero di nodi figlio che possiede. Il grafico si estende orizzontalmente sino ad arrivare ai nodi foglia.
Questo grafico a barre visualizza dati gerarchici utilizzando D3. Ogni barra blu rappresenta una cartella, la cui lunghezza codifica la dimensione totale di tutti i file in quella cartella (e tutte le sottocartelle). Cliccando su una barra si apre una cartella, mentre cliccando sullo sfondo si torna indietro fino alla cartella principale.
Questo grafico è una versione interattiva del Circle Packing. Esso utilizza dei contenitori per rappresentare le gerarchie. Sebbene non è efficiente nella gestione dello spazio come una treemap, esso rivela meglio le gerarchie.
Questo esperimento visualizza gerarchie utilizzando un albero interattivo. Ogni disco rappresenta un file, con un raggio proporzionale al numero di linee di codice (LOC). Tutto il rendering è fatto sul lato client, in JavaScript. Passando il puntatore su un nodo si vedrà il numero LOC, cliccare sui nodi directory per chiuderli e trascinare i nodi per riorganizzare il layout.
Choropleth map: dal greco "xoro" (area) e "pletòs" (moltitudine), questo grafico visualizza misure numeriche su una cartografia, mappando l'intervallo dei valori ad un range di colori. In questo caso l'intervallo numerico è Min-Max, e quindi il range dei colori va dal bianco ad un colore scuro. È spesso utilizzata per visualizzare dati geopolitici (risultati di elezioni, ecc).
Timeline è un grafico a barre orizzontali il cui intervallo è "orario di apertura - orario di chiusura" dell'attività commerciale riportata come label. In questo caso sono stati utilizzati alcuni dataset open forniti dal comune di Palermo: in particolare, sono riportati gli orari di apertura/chiusura delle attività catalogate come "divertimento" e "ristoro".
OpenHours: è visualizzazione interattiva, tramite linee orizzontali, degli orari di apertura/chiusura di attività commerciali, la cui funzionalità di interazione è fornita da una vertical bar che permette di filtrare i risultati in base all'orario. Sono stati utilizzati alcuni dataset forniti dal comune di Palermo: in particolare, sono riportati gli orari di apertura/chiusura delle attività catalogate come "divertimento" e "ristoro".
RickShaw è un'estensione di D3 che permette di ottenere classici grafici "stacked", ma la cui visualizzazione (bar, line, scatter, etc) è modificabile a runtime tramite alcuni form objects. Inoltre, mostra una terza dimensione (oltre le X e Y) tramite un "mouseover" sul grafico medesimo.
Il demo utilizza un dataset fornito dal Comune di Palermo, riportante il numero di auto circolanti e immatricolate tra il 1995 e il 2011.
Stackline fornito da GoogleChart, con una terza dimensione mostrata tramite "hover" sul grafico.
Il demo utilizza un dataset fornito dal Comune di Palermo, riportante il numero di auto circolanti e immatricolate tra il 1995 e il 2011.
Uno stackline interattivo, che mostra una terza dimensione visualizzabile tramite etichette "hover", e permette lo zoom sulla dimensione delle ascisse (rappresentante il tempo).
Il demo utilizza un dataset fornito dal Comune di Palermo, riportante il numero di auto circolanti e immatricolate tra il 1995 e il 2011.
Timeline multidimensione visualizzante circonferenze colorate su un grafico cartesiano bidimensionale. Gli assi delle ascisse e delle ordinate sono due delle dimensioni disponibili, cui si aggiunge il tempo (inteso come evoluzione del sistema), mostrato tramite animazione interattiva, una terza dimensione associata al raggio delle circonferenze, e infine una categoria di appartenenza delle entità riportate, per le quali si utilizza un range di colori.
Il demo utilizza due dataset forniti dall'ISTAT: il primo riporta i redditi e l'andamento demografico degli italiani nel periodo 1995-2011; il secondo riporta il numero di occupati, nel medesimo periodo.
Full transcript