Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Agence Bee4 : Découvrez la face cachée des performances de votre référencement naturel

Appuyez-vous sur le Web sémantique et la Big data pour mettre en place une stratégie de référencement performante grâce à l'analyse de données!
by

Agence Bee4

on 28 April 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Agence Bee4 : Découvrez la face cachée des performances de votre référencement naturel

Nous suivre sur :





@Bee4_Agence facebook.com/bee4agency

TF & IDF
Comment calculer les poids des termes ?
SEO & Big Data
Les bots de Google
Entêtes HTTP et crawl
Conjecture de Luhn
Comment pourrait-on pondérer les termes?
Cosinus de Salton
Comment connaître la similarité entre 2 contenus ?
Crawl des URLs
Questions fréquentes / Croyances :
Googlebot prend une URL canonique, regarde son contenu et "voit" les liens vers les autres URLs, stocke les URLs et y accède dans un second temps.
Observations :
OUI
Comportement du crawl identique entre plusieurs catégories et pages associées et ceci via plusieurs IPs de Google.

Remarques / Hypothèses :
Une "communication" entre IPs de Google pour faciliter le crawl de la totalité du site paraît plus que logique.
Certains crawlers ne s'attardent pas à crawler les URLs "filles". Très souvent, les URLs catégories et les URLs "filles" sont crawlées plusieurs fois par jour par des bots différents.
Questions fréquentes / Croyances :
Google attribue plus d'importance au crawl des URLs canoniques.
Observations :
OUI MAIS
En effet, en volume de crawls, Google passe plus de temps sur les URLs canoniques, mais s'intéresse également beaucoup aux URLs intégrant des balises Canonical, NoIndex...
Remarques / Hypothèses :
Placer des canonical link correctes sur vos pages (defaut certains CMS).
Questions fréquentes / Croyances :
Chaque robot spécifique de Google possède sa propre IP.
Observations :
NON
les IP sont partagées, googlebot, google image et google vidéo par exemple peuvent avoir la même IP, c'est l'user agent de Google qui change.
De nombreuses IP sont déployées pour le crawl, certaines plus actives que d'autres.
INDEXATION
Questions fréquentes / Croyances :
La mise en place de la balise canonical sans balise méta robots interdisant l'indexation ne sert à rien.
Observations :
NON
la balise canonical link est privilégiée au crawl et permet de maîtriser l'indexation (pas d'url paginée/tri etc) même si la meta robots n'est pas présente.
Remarques / Hypothèses :
Lorsque plusieurs variantes d'URLs sont disponibles, placer une balise canonical, la méta robots n'est pas obligatoire.
Remarques / Hypothèses :
Certaines IP semblent crawler uniquement des redirections. alors que d'autres sont "multi -tâche".
Questions fréquentes / Croyances :
Quel impact quand le bot tape une entête HTTP 5XX? Les réponses 5XX laissent le bot en attente pour l'URL en question, il garde l'info et repasse plus tard.
Observations :
OUI
Il revient vers une autre IP pour la tester.

Remarques / Hypothèses :
Il est obligé de revenir rapidement suite à une URL affichant un code 5XX
SiteMap Vidéo
Questions fréquentes / Croyances :
La mise en place du SiteMap vidéo est obligatoire pour prétendre à une indexation par google video, et l'apparition de vignettes dans les SERPS.
Observations :
OUI
sans SiteMap l'activité google vidéo est nulle, avec un SiteMap vidéo, le bot vient régulièrement.
L'apparition des vignettes dans les SERPs (en moins d'une heure).
Remarques / Hypothèses :
Ajouter un fichier SiteMap pour vos vidéos. Sur les tests réalisés, l'ajout de vignette a fait progresser le positionnement (+10 position pour requête générique)
Google Mobile
Le modèle vectoriel est un méthode permettant d’extraire la représentation mathématique du contenu du document. Cette représentation se base sur les mots extraits du document.
Calcul de la présence des mots clés d'un document au sein d'un corpus de document
TF : Fréquence d'apparition des termes dans un document

IDF : Rareté du terme dans le corpus de document (le site)

Permet de calculer un rapport entre les mots de contenu et les mots de la thématique général pour ajuster la pertinence de chaque contenu
Espace des termes d’un document / méthodes d’extraction de mots par de l’analyse syntaxique et lexicale
Extraire les mots les plus importants par pondération et regroupement en utilisant plusieurs techniques :

• Lémmatisation: Réduction de l’espace de mots en regroupant les termes ayant la même terminaison grammaticale (on agrège habitués, habitueriez, habituerait en habituer).

• Mots vides: Nettoyage du l’espace construit en retirant les mots considérés “vides” de sens.

• Stemmatisation: Réduction des mots à leur racine dans le language: chercher devientcherch

Le vecteur représentant le document est ensuite définit par son espace de terme et leur pondération.
Informativité = Quantité de sens des mots dans un texte en fonction de leur fréquence.

Les mots de rang extrême, faible ou élevé ont un pouvoir expressif limité.
Les mots de rang faible sont les mots les plus fréquents dans le document.
Ces mots reviennent souvent et ne permettent pas de distinguer les documents les uns des autres.
Les mots de rang élevé sont les mots rares. Ils sont peu utilisés et n’ont pas de pouvoir expressif.
Les descripteurs pertinents = descripteurs de rangs intermédiaires.
Questions fréquentes / Croyances :
Le fichier SiteMap est inutile.
Observations :
OUI
lorsque le domaine est déjà bien présent et indexé.
NON
lorsqu'on lance le site.
Remarques / Hypothèses :
Un fichier SiteMap au lancement accélère le crawl; les URLs sont visitées en deux jours avec un sitemap, en 20 jours sans sitemap (ni backlinks).

Questions fréquentes / Croyances :
Lors d'un 1er crawl, le bot de Google crawle tous les liens à partir de l'index.
Observations :
NON
les liens sont crawlés sans ordre défini, néanmoins les liens du menu sont crawlés en premier, sans distinction entre catégorie / sous catégorie.
Remarques / Hypothèses :
Marche aléatoire confirmée
Questions fréquentes / Croyances :
L'user Agent Googlebot-mobile n'est plus d'actualité.
Observations :
OUI
Depuis le 10 fevrier 2014, l'user agent Google-mobile est abandonné et devient Googlebot.
Remarques / Hypothèses :
Il n'est plus possible de bloquer le robot google dédié au smartphone, à la prochaine refonte, prévoir une version mobile.
Google distingue le web mobile des smartphones et celui des téléphones dit multimédia. Le crawler pour les smartphones ne s'appelera plus googlebot-mobile, on peut plus le bloquer. Par contre googlebot-mobile va persister pour les téléphone dit multimédia
Questions fréquentes / Croyances :
En cas de refonte les redirections 301 sont magiques et permettent de désindexer les anciennes URLs, de mettre à jour les données Google pour qu'il ne crawle plus ces urls.
Observations :
OUI
et
NON
Google n'indexe plus les URLs et les remplace par la nouvelle version
Cependant, les liens externes qui pointaient vers les anciennes urls sont toujours crawlées et suivies par Google (et ceci 12 mois plus tard !)
Remarques / Hypothèses :
Veiller à ne plus avoir de liens en redirection sur votre site
Entreprendre une réparation de linking : demande de modification de liens/ profiter pour ré-optimiser

Agence Bee4
"Découvrez la face cachée des performances de votre référencement naturel"
http://www.bee4.fr/
http://www.bee4.fr/
contact@bee4.fr
Agence Bee4 Paris
38 bis, rue du fer à Moulin
75005 Paris
01.55.43.50.91
Agence Bee4 Lyon
206 rue de Gerland
69007 Lyon
04.26.17.57.27
Full transcript