Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

TER

No description
by

prtoue dzfin

on 28 April 2010

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of TER

Un logiciel des requêtes sur Google Première approche! Malheureusement cette idée ne marche pas! Google protège jalousement ses données.


Limite de requêtes par jour et par IP (~1000) Solution adoptée: Google AJAX API Avantages: Inconvénients: Format JSON (JavaScript Object Notation)

Accès à Google Books, Google Patent, Google Blogs, etc. 64 résulats par requête Le Parsing 1. Accéder à toutes les pages afin d'en recueillir les données.

2. Le faire de la façon la plus rapide possible (Threadé).

3. Arriver à sortir quelque chose de clair du balisage HTML.

4. La recherche est-elle présente dans le paragraphe?

5. Le découpage en lignes. 1. Accéder à toutes les pages afin d'en recueillir les données. Se faire passer pour un navigateur internet:
"Mozilla/5.0 (Windows; U; Windows NT 6.1; fr; rv:1.9.2) Gecko/20100115 Firefox/3.6"


Indiquer un référant:
"www.google.com"


Aller au plus simple lors de la récuparation du code HTML. 2. Le faire de la façon la plus rapide possible (Threadé). Proposer à l'utilisateur de choisir le nombre de Threads.

Empêcher de créer trop de thread avec un traitement par thread.

Accès sans inter-blocage aux données critiques.

De base 6 Thread, selon moi le meilleur compromis!

Passer à un niveau d'abstraction supérieur.

Voir google comme un jeu de couleurs et non du simple code HTML.

Etapes:
Accéder au CSS.

Trouver la couleur correspondante à la balise.

Identifier la partie du Snippet. 3. Arriver à sortir quelque chose de clair du balisage HTML. <div id="1">
Texte1
<div id="2">
Autre
</div>
Texte2
</div> Une pile LIFO:

Lorsque l'on arrive à la div 2 on met
Texte1 sur la pile, à la fermeture de la div 2
on sait que le texte "Autre" est complet, on
passe alors à la fermeture de la div 1 et on
concatène Texte1 et Texte2. Les paragraphes sont ainsi reconstitués! 4. La recherche est-elle présente dans le paragraphe? Pour se faire: Traduire la recherche google en expression régulière.

OR => |

+ => .

(space) => .

"test exemple"=> test\sexemple 5. Le découpage en lignes. Utilisation d'une expréssion régulière découpant le paragraphe en lignes.

[\\.\\!\\?]\\s+ Cetter expréssion régulière marche à condition que la phrase se
finisse de façon classique.

Pour plus d'éfficacité je me suis tourné vers http://www.regexlib.com/ me proposant cette
expréssion:

\\b((([&quot;'/,&amp;%\\[\\]\\:\\(\\)\\$\\+\\-\\*\\w\\000-\\032])|
(-*\\d+\\.\\d+[%]*))+[\\s]+)+\\b[\\w&quot;',%\\(\\)]+[.!?](['&quot;\\s]|$)



Techniquement:

Utilisation de HTMLEditorKit / ParserDelegator / ParserCallback Conclusion Google ne facilite pas la tâche.

Google Patent décroche au bout de 1000 requêtes journalières
par IP ce qui rend très difficile le développement.

Un Thread finit toujours par ralentir les autres.

Du travail pour finaliser le programme reste à faire,
débuggage approfondi, et l'API. Questions? Merci pour votre attention, bon courage aux suivants <3
Full transcript