Introducing
Your new presentation assistant.
Refine, enhance, and tailor your content, source relevant images, and edit visuals quicker than ever before.
Trending searches
Les types d'arbre de décision sont basés sur le type devariable cible que nous avons. Il peut être de deux types:
Temps = beau ?
Conditions d'arrêt du partitionnement :
1. Tous les enregistrements d'un nœud se trouvent dans la même classe,
2. Il n'y a plus d'attributs pour faire le partitionnement, dans ce cas, le nœud est transformé en feuille et la classe associée est la
plus fréquente dans l'ensemble,
3. Il n'y a plus d'enregistrements.
Vrai
Faux
Algorithme d'apprentissage générique
entrée : langage de description ; échantillon S
début
Initialiser à l'arbre vide ; la racine est le noeud courant
répéter
Décider si le noeud courant est terminal
Si le noeud est terminal alors
Affecter une classe
sinon
Sélectionner un test et créer le sous-arbre
FinSi
Passer au noeud suivant non exploré s'il en existe
Jusqu'à obtenir un arbre de décision
fin
vrai
faux
vrai
faux
vrai
vrai
faux
Temps=beau
vrai
faux
vrai
vrai
vrai
faux
faux
faux
Décision
OUI
OUI
OUI
OUI
NON
NON
NON
NON
Maman de bonne
humeur
faux
vrai
vrai
faux
vrai
vrai
faux
vrai
Goûter pris
faux
vrai
faux
vrai
vrai
faux
vrai
faux
Devoirs finis
vrai
faux
vrai
vrai
faux
faux
vrai
vrai
E(DF)=5/8 I(DF=vrai)+3/8 I(DF=faux)
I(DF=vrai)= -3/5 log(3/5)-2/5 log(2/5)
I(DF=faux)= -1/3 log(1/5)-2/3 log(2/3)
E(DF)=0.95, E(BH)=0.93, E(TB)=0.8, E(GP)=1
Choix de Meilleur attribut (attribut de division)
– Il s'agit d'évaluer localement quel attribut apporte « le plus d'information » (ou encore « est le plus corrélé ») au résultat à prédire.
– Différentes mesures introduites:
Température < 37
Non
Malade
Oui
Gorge irritée
Non
Oui
Bien portant
Malade
SI Température < 37 ET gorge irritée ALORS malade
SI Température <37 ET NON(gorge irritée) ALORS bien portant
SI NON(Température < 37) ALORS malade
Malade
oui
non
non
non
oui
Gorge irritée
oui
non
non
non
oui
Température
>37
<=37
<=37
>37
>37
1
2
3
4
5
Questions:
– Comment choisir les attributs ?
– Comment isoler les valeurs discriminantes?
• Deux problèmes vont intervenir :
– Le problème du nœud : quelle variable choisit-on à chaque nœud ?
– Le problème de la branche : quelles branches définit-on sous chaque nœud. Autrement dit quelles catégories choisit-on pour les prédicteurs ?
SI Température < 37 ET gorge irritée ALORS malade
– Pour chaque nœud, on choisit la variable qui sépare le mieux les individus en fonction des catégories de la variable cible.
– On répète l'opération jusqu'à ce qu'elle ne soit plus possible ou plus souhaitable
– Les feuilles ainsi construites sont toutes majoritairement constitués d'individus d'$une seule classe.
– La branche allant de la racine à une feuille constitue une règle de classification.
– L'ensemble des règles constitue le modèle
--> Plus intuitives et populaires du Data Mining :
--> Les arbres de décision:
Hiérarchique,
Descendante.
Nora El-Haouirich
Nawfal El Manfaloti
Maman de bonne
humeur
vrai
vrai
faux
vrai
Goûter pris
vrai
faux
vrai
faux
Devoirs finis
faux
faux
vrai
vrai
Décision
OUI
NON
NON
NON
Maman de bonne
humeur
faux
vrai
faux
vrai
Goûter pris
faux
faux
vrai
vrai
Décision
OUI
OUI
OUI
NON
Devoirs finis
vrai
vrai
vrai
faux