Loading presentation...
Prezi is an interactive zooming presentation

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Soccer-extractor

No description
by

Simone Papalini

on 21 November 2015

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Soccer-extractor

DECISIONE
Soccer-Extractor
Creare un’applicazione in grado di interrogare diversi dataset in formato RDF al fine di estrarre informazioni utili alla generazione di domande a cui gli utenti finali avrebbero dovuto rispondere.
PROBLEMA
Carenza di dataset RDF inerenti al nostro problema.
OBIETTIVI e MOTIVAZIONI
Attenzione focalizzata sul dataset RDF che DBpedia Italia mette a disposizione.
DBpedia
Estrae informazioni strutturate dalle pagine di Wikipedia e rilascia queste informazioni sul Web come Linked Open Data in formato RDF.

Problematiche sui dati di it.DBpedia
Perchè se i dati presenti nelle pagine della wikipedia italiana e inglese sono presentati e “intabellati”, quasi, nello stesso modo, c’è una tale discrepanza tra le DBpedia italiana e quella inglese?

Struttura dei dati in Wikipedia
Una pagina Wikipedia, al netto del testo naturale non strutturato, è organizzata secondo l’uso di
TEMPLATE
.

In Wikipedia un template è una pagina speciale creata per essere inclusa in altre pagine tramite il meccanismo dell’inclusione.

Scopi
: Inserire automaticamente elementi ripetuti; Possibilità di programmare alcuni template.





Importanza dei template
parametrici
:
parametri chiamati per nome; {{nome template|nome=Tizio|cognome=Caio|data=martedì}}
parametri in
ordine progressivo
; {{nome template|Tizio|Caio|martedì}}

Template "Carriera sportivo"
Template parametrico con parametri espressi in ordine progressivo. Serve per descrivere le tappe della carriera di uno sportivo.
Di nostro interesse, questi dati non sono presenti in it.DBpedia

Estrazione dati in DBpedia
Cerchiamo di comprendere come mai ci siano differenze qualitative e quantitative tra i dataset della DBpedia italiana e quella della versione inglese.

Tutte le versioni localizzate di DBpedia fanno riferimento ad un unica ontologia

Strumenti per comporre e aggiornare il proprio dataset RDF:
Fact Extractor
; si occupa di estrarre informazioni da contenuti non strutturati, solitamente un testo
Extraction Framework
; estrae diversi tipi di informazioni strutturate da Wikipedia
Custom Extractor
; software appositamente sviluppati per l’estrazione di dati semi-strutturati o non strutturati

Extraction Framework (accenno)
L’Extraction Framework prende in input il dump di Wikipedia di un determinato Paese e regole di mappaggio tra ontologia di Dbpedia e dati strutturati di Wikipedia. L'EF si concentra sui dati presenti nei template nella forma di chiave-valore realizzando in output un dataset in formato RDF.
Mapping Extractor
: estrae dati strutturati dagli infobox di Wikipedia in base ai mapping tra i campi dell’Infobox di tipo “chiave=valore” e l’ontologia di DBpedia.
Infobox Extractor
: estrae tutti le proprietà degli InfoBox anche quando non c'è correlazione tra dati dell’Infobox e l’ontologia DBpedia.
Approcci di soluzione al problema
1) Modificare Extraction Framework per farlo lavorare anche su questi template
Soluzione esclusa perché avrebbe violato la mission dello strumento (estrazione dei soli dati in formato chiave-valore)
2) Progettare nostro estrattore Custom che realizza un dataset RDF che risulti integrabile con it.DBpedia (stessa ontologia).
Custom Extractor
Vogliamo ottenere un dataset RDF con dati sulle carriere dei calciatori. (Template: Carriera Sportivo)
Soccer extractor
Script in Python che raggiunge l'obiettivo

2 strumenti fondamentali:

JSONpedia
; libreria e web service che legge e trasforma un qualsiasi contenuto di tipo WikiText in formato JSON
RDFLib
; libreria Python per lavorare con dati RDF
Soccer extractor
select ?s as ?calciatori
where
{
?s a <http://dbpedia.org/ontology/SoccerPlayer>.
?s <http://it.dbpedia.org/property/wikiPageUsesTemplate> <http://it.dbpedia.org/resource/Template:Sportivo>
}

Output script
soccer.ttl (1)
Output script
soccer-extractor.log
Per ogni risorsa di tipo calciatore abbiamo associato la proprietà dell’ontologia ‘careerStation’ .
Ad ogni risorsa creata si associano queste proprietà, già definite nell’ontologia generale
Miglioramento del nostro dataset rispetto DBpedia.org

youthClub
team
team

nationalTeam

years
startYear
endYear

2 Obiettivi:

-Aiutare gli sviluppatori

-Indicare agli Editor quali sono le pagine di Wikipedia con errori.

Per ogni tipologia di dato errato si genera un messaggio di errore corrispondente.
Query
Conclusioni
Script capace di Iterare tutti i calciatori di Wiki, con buoni risultati:

50 mila calciatori
iterati
1,5 milioni di triple
create
0,6 % calciatori "persi"
durante il processo
95,4% triple create correttamente
Indirizzo del nostro endpoint sparql

http://52.10.180.189:8890/sparql
Lo script, il dataset e il Log sono disponibili online http://bitbucket.org/tsiteam/soccer-extractor/.
Moduli:
Vogliamo estrarre dati dai template parametrici in ordine progressivo (chiave anonima) da it.Wikipedia mentre in Wikipedia inglese sono di tipo chiave-valore.
Output script
soccer.ttl (2)
prefix db: <http://dbpedia.org/resource/>
prefix dbont: <http://dbpedia.org/ontology/>
prefix dbit: <http://it.dbpedia.org/resource/>
prefix dbpropit: <http://it.dbpedia.org/property/>
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>

select ?monumento ?immagine
from <http://dbpedia.org/sparql>
where
{
SERVICE <http://52.10.180.189:8890/sparql> {
dbit:Andrea_Pirlo__9 dbont:team ?squadra.
}
SERVICE <http://it.dbpedia.org/sparql> {
?squadra dbpropit:città ?citta.
?monumento a dbont:Building .
?monumento dbont:locationCity ?citta.
?monumento dbont:thumbnail ?immagine.
FILTER REGEX (?monumento, 'Duomo','i')
}
}

A breve, integrazione del dataset con it.DBpedia.org
Federico Fioravanti
1064708
Marco Mariani
1065689
Simone Papalini
1065688
Tecnologie per i Sistemi Informativi
Costruzione di un dataset RDF sul tema del calcio al fine di espandere it.DBpedia.org
Full transcript