Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Copy of Web Sites

No description
by

midou djer

on 28 October 2015

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Copy of Web Sites

Plan de travail
Problematique
Extraction des Connaissances à partir des Données (ECD)
Lundi 08 Juin 2014
Présenté par :
Web Mining
Exploration des traces de navigation sur le Web.
Nom:
Herrouz
Prenom:
Hichem
option:
Informatique industrielle
Objectif
Web Usage Mining
Processus du Web Usage Mining
Vise à extraire des informations relatives au contenu des pages d’un site Web , Ça peut être du texte, des images, des vidéos ou des enregistrements structurés comme les listes et les tables .

Web mining
C’ est l'extraction du comportement de navigation de l'internaute en utilisant des techniques d'exploration de données sur les données web ( fichiers Logs http) pour répondre aux besoins des visiteurs de manière spécifique et adaptée (personnaliser les services) et faciliter la navigation .
Les technique du Web Usage Mining
Nom:
Djerbaoui
Prenom:
Imad Eddine
option:
Informatique industrielle
Dans les dernières années il y a eu une croissance exponentielle du nombre de sites web et de leurs usagers.
Cette croissance phénoménale a produit une quantité de données énorme liées aux interactions d'utilisateurs avec les sites web, stockés par les serveurs web dans des fichiers Logs.
Ces fichiers logs peuvent être utilisés par les administrateurs de sites web pour découvrir les intérêts de leurs visiteurs afin d'améliorer le service par l’adaptation du contenu et de la structure des sites à leurs préférences. L'analyse des fichiers logs permet à identifier des modèles du comportement des usagers, ce qui peut être exploité à la personnalisation du site web.

Introduction

* Introduction
*
Extraction des Connaissances à partir des Données
* Web Mining
* Axes de développement du Web Mining
* Web Usage Mining
* Processus WUM
* Les techniques du Web Usage Mining
* Les fichiers LOG
* Réalisation
* Expérimentation
* Conclusion
> Grande taille des fichiers log.
> L’absence de structuration et la grande quantité de bruit existant dans les données brutes d’usage.
> Structurer et nettoyer les données contenues dans les fichiers log pour les préparer à une future analyse.
> Réalisation d’une application qui extrait l’information à partir du fichier Log du serveur Web
C'est quoi le DataMining ?
Ensemble de techniques d'exploration de données permettant d'extraire d'une base des connaissances des modèles de description afin de :
> décrire le comportement actuel des données ;
> prédire le comportement futur des données .
Extraction des Connaissances à partir des Données (ECD)
> cycle de découverte dʼinformation regroupant la conception de grandes bases des données ou entrepôts de données (Data Warehouse) .
> tous les traitements à effectuer pour extraire de l ʼinformation des données .
> l ʼun de ces traitement est la Fouille de données (Data Mining) .
Processus ECD
Le Web Mining (WM) est l’application des techniques du data mining pour l’extraction d’informations pertinentes à partir des ressources disponibles sur le Web ; une ressource Web peut être un document ou un service Web.
Web Content Mining
Consiste à analyser la structure des liens entre les pages ou les sites Web dans le but de développer leur ergonomie par la suppression ou l'ajout de nouveaux liens entre les pages.

Web Structure Mining
Web Usage Mining
Sert à l’analyse de comportement des utilisateurs d’un site Web par exemple déterminer les navigations les plus fréquentes afin d’améliorer le site ou le rendre adaptatif.


Dans cette methode on peut calculer plusieurs types de grandeurs en statistique descriptive (fréquences, moyennes, médiane…) sur les variables telles que les visites des pages, les temps de visites et les longueurs des chemins parcourus.
Analyse Statistique
Une règle d’association prend la forme d’une implication (si antécédent alors conséquence [Support, Confiance]), par exemple une règle du genre A.html, B.html implique C.html, exprime que si l’utilisateur a visité les pages A et B, alors il est très probable (selon la confiance de la règle) qu’il a visité aussi la page C dans la même session.
Règles d’association
Le clustering est une technique regroupant des items ayant des caractéristiques similaires. Dans le domaine du web usage mining, il y a deux types de clusters à découvrir : les clusters d’utilisateurs et les clusters de pages.
Clustering
La classification est la tâche consistant à mapper un item parmi une ou plusieurs classes prédéfinies. Par exemple, la classification au niveau d’un certain site peut amener à découvrir d’intéressantes règles du genre : 30% des utilisateurs ont consulté la page telechargment.html appartiennent au groupe 18-25 ans et habitent la Côte Ouest.
Classification
La technique sur la découverte des motifs séquentiels consiste à trouver des modèles de sessions tels que la présence d’un ensemble d’items soit suivie par un autre item dans un ensemble ordonné de sessions ou d’épisodes. En utilisant cette approche, les webmarketer peuvent prédire les modèles des visites futures qui permettront par exemple de mettre des avertissements visant un certain groupe d’utilisateurs.
Motifs séquentiels
Le fichier LOG est un fichier texte, appelé aussi journal des connexions, qui conserve les traces des requêtes et des opérations traitées par le serveur.
Chaque fois qu’un utilisateur effectue une requête au serveur, une ligne est inscrite dans le fichier log.
Fichier Log
Les Format du fichier log
Définition
Exemple d'un fichier log format ELF

Chaque ligne de ce fichier donne une information sur l'utilisateur, son matériel, la date et l'heure de la requête, la page requise, le statut de la page requise, la page de référence ainsi que quelques informations liées au protocole d'échange de données et le le referrer (désignant le navigateur, le système exploitation du l'ordinateur client et ainsi d'autres paramètres éventuelles.

Ceci a le même structure que ELF (Extended Log Format) mais ne contient pas le referrer.

Extended Log Format (ELF) :
Common Log Format (CLF) :
Ligne d'un fichier log
41.142.67.130 - - [15/Mar/2015:03:43:04 +0100] "GET /index.php/fr
HTTP/1.1" 200 76641 (Windows XP SP3) Chrome/29.0.1547.76

Problèmes spécifiques aux données des fichiers Logs
Le Web caching
une copie de certaines pages est sauvegardée au niveau du navigateur local de l'utilisateur, afin de ne pas les télécharger chaque fois qu'un utilisateur les demande. Dans ce cas, une page peut être consultée plusieurs fois sans qu'il y' ait autant d'accès au serveur.
Ces protections d'accès à un réseau masquent l'adresse IP des utilisateurs; dans ce cas, impossible d'identifier et de distinguer les visiteurs

Les firewalls
Les Robots
Le fichier log considère les robots envoyés par les moteurs de recherche comme un visiteur réel.
Modalisation de notre application
Diagramme de cas d’utilisation
Diagramme d’état de transition
Diagramme de séquence
20 years old
From Lares
Major: Biomedics
Second Year
Future goals: Be a medical technologist
Mignelissa Torres de Jesus
19 years old
From Lares
Second year
Major: Biomedics
Future goals:
Ashley Ann Perez
Diego Diaz
Réalisation
Outils de dèveloppment
Chargment du fichier log sur la
base de données
Nettoyage des données
Pour cela, on est amené à supprimer de notre base de données les URLs qui ont les formes suivantes :

("delete from TABLOG where url_des_pages like '%.gif%”)
("delete from TABLOG where url_des_pages like '%.jpg%”)
("delete from TABLOG where url_des_pages like '%.png")
("delete from TABLOG where url_des_pages like '%.ico”)
("delete from TABLOG where url_des_pages like '%.css")
("delete from TABLOG where url_des_pages like '%.js")


Pour l’exploration et l’analyse du fichier Log, une application web a été conçue et réalisée on l'a nommée «WuStat », dont l’interface est comme suit :
Acceuil
Analyse personnalisée
Analyse par heures d'une journèe
Les pages populaires
Les pages impopulaires
Les téléchargements populaires
Les pages erronées
Les attaques des hackers
La sécurité de l’application WuStat
20 years old
From Lares
Major: Biomedics
Second Year
Future goals: Be a medical technologist
Mignelissa Torres de Jesus
19 years old
From Lares
Second year
Major: Biomedics
Future goals:
Ashley Ann Perez
Diego Diaz
20 years old
From Lares
Major: Biomedics
Second Year
Future goals: Be a medical technologist
Mignelissa Torres de Jesus
19 years old
From Lares
Second year
Major: Biomedics
Future goals:
Ashley Ann Perez
Diego Diaz
Expérimentation
Conclusion
Dans ce mémoire on a essayé d'étudier le comportement des usagers d'un site Web en extrayant l'information disponible dans les fichiers Logs.
Par ailleur on a présenté une méthodologie de prétraitement des fichiers Logs permettant de transformer l'ensemble de requêtes enregistrées dans les fichiers Logs à des données structurées et exploitables dans une base de données.


Axes de développement du Web Mining
Quel est l’objectif de votre site web ?
Consultez-vous les fichiers logs de votre
site web pour comprendre le comportement
de vos visiteurs ?
Grace à notre outil les créateurs des sites web concernés arrivent à bien comprendre le comportement de leurs visiteurs, par conséquant ils arrivent à fidéliser les internautes fréquentant leurs sites web et à attirer de nouveaux visiteurs en améliorant et personnalisant l’utilisation de leurs sites. Aussi ils arrivent à sécuriser et à protéger leurs sites web des attaques des pirates.

Bilan de l’expérimentation
Full transcript