Introducing 

Prezi AI.

Your new presentation assistant.

Refine, enhance, and tailor your content, source relevant images, and edit visuals quicker than ever before.

Loading…
Transcript

Conclusion

ARC : une méthode polyvalente pour l'extraction de connaissance

Comment extraire du sens ?

Contexte

  • Produites en masse
  • Ressource clef
  • Non étiquetées
  • Relationnelles

Données

Découverte de connaissance

Découvrir des patterns

- significatifs

- réutilisable

Support pour la prise de décision

Matériel pour la réinjection dans un modèle

Decouverte de Connaissances : But

Découverte de connai assance : processus

  • Préprocessing des données

  • Analyse et fouille des données

  • Interprétation

Découverte de connai assance : processus

Extraction d'ontologies

Clustering

Methode statistique

Regles d'association

Découverte de connai acssance : Approches

Découverte de connai acssance : Approches

Extraction de règles

Forme :

Humain, Joue d'au moins un instrument --> Musicien

Support : #Humain, jouant d'un instrument, Musicien

Confiance : %Musiciens parmi les humains jouant d'un instrument

Règle d'association

Règles d'association

Facilement interpretable

mesurable / quantifiable

Règles d'association

Nombre exponentiel de règles par rapport au nombre d'attributs

Besoin : construire une base de representation

Problématique

- sans perte

- solide

- informative

Conditions (changer titre)

impossible de produire une regle de la forme

Humain, joue-Min1-Instrument --> Musicien

Exemples de méthode

  • FCA
  • Arbre de Decision C4.5

Limites actuelles

Pas d'aspect relationnel

Limites actuelles

Limites actuelles

Format restreint

Nécessite une grammaire pour produire des règles

Exemple :

- un seul attribut d'arité 1 suivi d'attributs d'arité 2

Humain(X), joueInstru(X,Y) --> concuPar(Y,Z),represente(X,Z)

- Limité à une conclusion mono-attribut

Exemples de méthode

  • WarmR
  • AMIE

Limites actuelles

Étiquetage obligatoire

Apprend des règles en fonction d'exemples positifs et négatifs

Exemples de méthode

ILP

DL-Learner

Foil

Création de circuits

Limites actuelles

La description en point fixe est complexe à interpréter

Humain-->a2Parents(Humain)

_____

Humain --> a-deux(Parent)

Parent --> géniteur-au-moins-1(Humain)

Exemples de méthode

RCA

Contribution

La circularité n'est pas inhérente à l'ARC

Solution :

Extraire la partie non circulaire de chaque regle

Contribution

FCA

Objectifs :

  • -Extraire un ensemble minimal de règles d’association pour un type de données
  • Calculer les métriques de support et confiance

Méthode :

  • -Regrouper les objets selon leur caractéristiques communes
  • Hiérarchiser ces groupes pour limiter les règles et simplifier le calcul des métriques

Objectifs et méthode

Processus

Classe d’ équivalence composée d’ensembles d’attributs portés par les mêmes objets

Générateurs minimaux d’une classe d’équivalence

Règle exacte Générateur->Intension directe \ Générateur

{nd} ->{cp,nd}\ {nd}

Règle approximatives Générateur

->Intension inférieure \ Générateur

{cp} -> {cp,pu}\ {cp}

RCA

Objectifs :

Intégrer différents type d’objets

Intégrer des relations entre objets

Méthode :

Créer des attributs traduisant les relations entre objets

Limiter aux concepts distants

RCA

Propositionnalisation

Propositionnalisation

Exemple voiture

Processus

Processus

  • Définitions et preuves des intuitions
  • Identification des concepts
  • Etude de la circularité
  • Études des avantages de RCA sur FCA

  • Ajouts à RCA
  • nouveaux opérateurs
  • Suppression de redondance

Limiteset

solutions

Contributions

Identification des concepts

Concept

Dans FCA un concept formel est une paire (X,Y) où :

  • X est l'ensemble des objets portant

tous les attributs de Y

  • Y est l'ensemble de tous les attributs
  • portés communément par tous les objets de X\

Non Concept

Solidification du cadre théorique

Concept

K_6

el

cp

Er1

zo

Dans RCA, les contextes évoluent :

  • Les paires précedemment

calculées ne forment plus

des concepts formels

Identification des concepts

On a démontré que :

  • Les extensions sont préservées entre les itérations
  • Pour chaque extension, l'intension est croissante avec les itérations

On peut donc définir un concept comme une paire (X , (Y) ) où (Y) est la suite des intensions selon les itérations

Concept

K_5

el el el

cp cp cp ...

Er1 Er1

...

zo

Les définitions circulaires sont difficiles à interpréter

Exemple :

si une voiture est compacte

alors elle est conduite par au moins un individu :

- homme

- grand

- qui a au moins une voiture compacte et conduite

-homme

...

On a démontré que la première intension d'un concept

ne participe jamais à des définitions circulaires

Circularité

Circularité

Les générateurs canoniques sont les générateurs minimaux par l'ordre lexicographique.

les générateurs canoniques sont composés uniquement d'élément de la première intension.

Ils peuvent être calculés a prosteriori

Ils sont donc de bons candidats pour remplacer la référence de concept

Ils permettent la définitions d'attributs indépendants et sans cycle

Comparaison avec FCA

Étude de deux configurations :

  • Semi-Jointure
  • Agregation par propositionnalisation

On a montré que :

  • Pour tout concept de la table unique (FCA)

  • On trouve par RCA des concepts de même extension

  • L'intension de ces concepts inclut celle de la table unique

Ajout d'un nouvel opérateur

Pour un des cas d'applications nous avons développé l'opérateur d'image partielle

Au moins p% des objet de l'image d'un objet est inclus dans l'extension d'un concept

Ajouts à RCA

Même concept, opérateur différent

De la redondance entre attributs peut apparaître due à la sémantique des opérateurs

Réduction de redondance

Même opérateur, concept différents

pour les opérateurs :

  • existensiel
  • image partiel
  • universel

op (car 9) => op (car 8)

pour l'opérateur "tous" :

op (car 8) => op (car 9)

  • Montrer la validité de la méthode

  • Présenter les implications pratiques

  • Exhiber la polyvalence de la méthode

Cas d'étude

Validation

Chaine de pressage d'aluminum

Production de poignées et cadres (58000 pièces)

Objectif : réductions des refontes de rebuts

Manufacture métallurgique

Cas industiel : Description

Cas industiel : Processus

Conclusions

  • L'aluminium s"accumule dans le moule

  • Une dilatation insuffisante du piston provoque des fuites
  • Les produits défectueux sont trop peu épais

  • Un piston trop rapide produit un rebut

  • Rapidité et température du piston sont corrélées

Cas industiel : Résultats

Cas psycholinguistique : Description

Psycho-linguistique

Création de petits dictionnaires par des joueurs (~100 dictionnaires)

Description psycholinguistique des mots utilisés (~2500 mots)

Objectif : Analyse des liens entre structure et contenu

représentation graphe d'un dictionnaire

Cas psycholinguistique : Résultats

Observations

  • Il existe un ensemble de mots très fréquents utilisés dans tous les dictionnaires

  • Les petits dictionnaires semblent limités à cet ensemble

  • Les grands dictionnaires incluent cet ensemble ainsi que des mots très peu fréquents

Conclusions

  • Il existe un ensemble universel de mots

  • Face à des définitions compliquées, deux phénomènes surviennent :
  • un synonyme est employé
  • l'imprécision génère du bruit

Un workflow possible :

1) Établir un schéma

2) Optimiser ce shéma

3) Intégrer des données

4) Adapter le schéma

5) Réitérer de l'étape 2

Ingénierie de la connaissance

Ingénierie de connaissance

Restructurer

Vérifier

Règles approximatives de confiance très haute

Les objets ne validant que la prémisse sont à étudier

Exemple :

joue-Instrument, dans-Groupe-De-Musique ---> Musicien-Professionnel

Validation du typage

Raffinement

Restructurer

Utilise les données, leurs liens et le schéma

Regroupe en concepts les données de même type et connexion

Permet de découvrir de nouvelles classes

La méthode permet d'extraire la connaissance sous forme de règles d'association :

Explicites,

Indépendantes,

Relationnelles,

Sur données non étiquetées

L'outil est indépendant du domaine

La validation s'est faite sur deux cas d'étude

Il peut être pertinent pour différentes tâches de l'ingénierie de connaissance

Conclusion

Merci de votre attention

Learn more about creating dynamic, engaging presentations with Prezi