Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Copy of Il crawling

No description
by

Valerio De Dominicis

on 24 September 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Copy of Il crawling

Il punto di partenza
Il crawling
La crescita
Nonostante le sue già enormi dimensioni, il web è in continua crescita.
I link
TUTTI i documenti presenti sul web sono interconnessi da LINK. Questi permettono di navigare nel web, cioè di spostarsi da un documento all'altro.
Il crawling
Ricercare manualmente le informazioni in questo oceano di pagine sarebbe impossibile.
Il focused crawling
E' una delle strategie in fase di studio. Consiste nel reperire il maggior numero possibile di documenti attinenti ad uno specifico topic (o ambito semantico) attraversando il minor numero possibile di pagine.
Focused Crawler
Unendo tutti i componenti di cui sopra nasce un crawler focalizzato che ci permetterà di reperire informazioni sempre aggiornate su uno specifico topic. Ad esempio la coltivazione di mele :)
Il web
Spesso immaginato come una foresta od una rete, ad oggi è un'enorme collezione di documenti individuali interconnessi che al momento consta di UN TRILIONE di pagine.
1 TRILIONE = 1 000 000 000 000
Questo fa si che il web sia un grande IPERTESTO, cioè una sorta di unico documento in cui ci si può spostare da un argomento all'altro tramite, appunto, i link
Al momento non ci sono stime riguardo al numero, sicuramente inimmaginabilmente grande, di link presenti sul web!
Nasce nel 1991 da opera di Tim Berners Lee con l'intento di scambiare conoscenza.
Questo è dovuto alla sua sempre maggiore importanza in ogni ambito. Ad oggi il numero di utente di internet si conta nell'ordine dei MILIARDI
Per questo sono stati creati i MOTORI DI RICERCA
I motori di ricerca navigano il web tramite i crawlers. Questi sono programmi che scaricano le informazioni che trovano navigando la rete attraverso i link. In questo modo ...
2008 : 1.5 MILIARDI di utenti
2010 : 1.97 MILIARDI di utenti
2012 : 2.40 MILIARDI di utenti
... pagina dopo pagina ...
... si costruisce un'archivio che viene mantenuto ordinato analizzando il contenuto delle pagine (ed altri fattori) ...
... infine si tiene traccia di tutto ciò che è presente nell'archivio tramite un indice opportunamente costruito. E' questo che viene consultato quando scriviamo qualcosa in Google!! :)
Le strategie di visita
Esistono diverse strategie per attraversare e scaricare informazioni sfruttando l'intricata rete di interconnessioni fra pagine. Immaginiamo la rete come un'albero....
Breadth-first strategy : consiste nel visitare le pagine in ordine di livello. Prima tutte le pagine a livello 1, poi tutte le pagine a livello 2 e così via. Le foglie (pagine di livello più alto che non hanno link uscenti) verranno analizzate per ultime.
Depth-first strategy : consiste nell'arrivare alla pagina di livello più elevato (le pagine foglia), visitarla, e poi visitare tutte quelle che hanno condotto a questa.
Ad oggi, per esplorare completamente il web, i crawlers di google impiegano circa 20 giorni. A causa della quantità di pagine a cui accedere da anni si stanno studiando strategie alternative
Si distingue dal crawling "classico" perchè si analizzano gli outlink dei documenti e si scartano quelli che puntano a pagine classificate come off-topic.
Tipi di focused crawlers
Gli approcci più utilizzati per realizzarli sono essenzialmente due :
- Crawlers basati su ontologie
- Crawlers che sfruttano la struttura delle pagine
I crawlers sfruttano le ontologie per correlare la pagina in analisi all'ambito semantico cui appartiene, e tramite questo calcolano la rilevanza della pagina stessa. Questo è fatto PRIMA che la pagina venga scaricata
Utilizzo di :
- link a pagine di dominio
- totalità degli elementi HTML

per determinare la rilevanza delle pagine linkate dalla pagina in cui ci si trova. Si può anche usare la struttura di pagine notoriamente rilevanti per definire regole di attinenza al dominio.
Problemi principali
Individuazione dell'ambito semantico di un documento
Predizione del grado di attinenza a tale ambito di un documento non ancora visitato.
Tunnelling : raggiunta di pagine rilevanti attraversando pagine non rilevanti
Esistono però anche altri approcci, ibridi o basati su metodi completamente diversi.
relevance calculator
meccanismo di priorità
coda di download
downloader
I risultati che si ottengono consultando l'archivio vengono ordinati secondo diversi criteri di rilevanza e presentati all'utente.

NB. Lo SPAM viene eliminato!!
Full transcript