Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

exposé master 11:30

No description
by

oma sma

on 10 September 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of exposé master 11:30

Conclusion
et perspectives
Normalisation des Dictionnaires Numériques de la Langue Arabe
Faculté des Sciences Économiques et de Gestion de Sfax
Université de Sfax

Multimedia, InfoRmation systems and Advanced Computing Laboratory
Soutenance du projet de mastère

en Systèmes d'Informations et Nouvelles Technologies
Réalisé par
Omar SMAOUI

Sous la direction de
Mr. Bilel GARGOURI & Mme. Aïda KHEMAKHEM


Contexte
Problématique
Motivation
Objectif
Plan
Les dictionnaires ont un rôle primordiale dans la préservation, l'apprentissage et la propagation d'une langue.
La numérisation des dictionnaires pour leurs conservation.
Manque de travaux pour la langue Arabe.
La structuration est essentielle pour exploiter au mieux les dictionnaires.
L'exploitation du dictionnaire est difficile pour l'usage éditorial.
La majorité des dictionnaires sont non structurés.
Complexité de l'utilisation des dictionnaires numériques dans des usages de Traitements Automatiques de la Langue Naturelle (TALN).
Existence d'un modèle de structuration des dictionnaires Arabe.
Norme de modélisation des ressources lexicales Lexical Markup Framework (LMF) ISO 24613.
Couvre plusieurs niveaux linguistiques : morphologique, syntaxique et sémantique.
Extensible.
Facilite les usages humains et TALN.
Passer des dictionnaires numériques non structurés de la langue Arabe vers une représentation conforme à la norme LMF.
L'amélioration de l'aspect théorique et pratique de l'ancienne version du système.
État de l'art
Modèle LMF pour la langue Arabe
Ancien système de normalisation
1.
Démarche de normalisation
2.
Critique de l 'ancienne démarche
Démarche proposée
Réalisation
3.
Système de normalisation des dictionnaires Arabes
Module d 'évaluation des dictionnaires Arabes
Évaluation
et comparaison
4.
5.
Modèle LMF pour la langue Arabe
Souplesse de modélisation qui permet la représentation des caractéristiques de la langue arabe particulièrement ses aspects dérivationnels et fléchies.
Le modèle du noyau de LMF comporte des classes obligatoires et qui se présentent comme suit:
LMF offre une modélisation extensible qui traite la morphologie, la syntaxe ainsi que la sémantique.
Ancien système de normalisation
Un travail de normalisation qui concerne la langue Arabe a été fait au sein du laboratoire MIRACL.
La démarche de ce système se présente comme suit :
Critique de l'ancienne démarche
L'ancien système de normalisation des dictionnaires Arabes a montré des limites lors de son test.
Il n'est capable de gérer qu'un seul dictionnaire : «Al Ghani».
Plusieurs entrées lexicales non traitées.
Absence d'une phase d'analyse des informations extraites après segmentation.
Absence d'une phase d'évaluation.
Long temps d'exécution.
Démarche proposée
Ce travail consiste à convertir le dictionnaire «Al Ghani» vers une présentation XML conforme au modèle LMF.
Élaborer une nouvelle version du système de normalisation des dictionnaires numériques Arabes tout en assurant :
L'introduction du paramétrage.
L'intégration d'une phase d'évaluation.
Problématique
Un travail de normalisation des dictionnaires Arabes en utilisant le modèle de structuration LMF a été élaboré au sein du laboratoire MIRACL.
Plusieurs entrées lexicales du dictionnaire source n'ont pas été traitées.
Les résultats n'étaient pas très satisfaisants.
Non générique.
Une nouvelle démarche est proposée pour la normalisation des dictionnaires Arabes.
Corriger les anomalies dans l'ancienne démarche.
Le processus de la démarche se présente comme suit :
Système de normalisation
des dictionnaires Arabes
L'architecture générale du système de normalisation des dictionnaires Arabes se présente comme suit :
Initialement, le programme ne permet à l'utilisateur que d'introduire le dictionnaire sous son format TXT.
L'écran de démarrage donne à l'utilisateur la main d'entrer les différents marqueurs de début et de fin de son dictionnaire.
L'écran de démarrage permet aussi à l'utilisateur d'ajouter de nouveaux champs ou même de nouveaux blocs linguistiques.
Module d'évaluation
des dictionnaires Arabes
Le module d'évaluation permet à l'utilisateur de vérifier si le fichier XML généré contient toutes les informations existantes dans le dictionnaire initial.
L'évaluation se fait en comparant les entrées lexicales, du dictionnaire initial et résultat, une à une et qui est assurée par l'interface suivante :
Le résultat de l'évaluation est un tableau qui contient les taux de rappel et de précision et qui peut être exporté vers EXCEL.
Évaluation et comparaison
L'évaluation du système a été faite sur les dictionnaires « Al Ghani» et « Al Wassit ».
Le résultat obtenu lors de l'évaluation de « Al Ghani» est le suivant :
Le résultat obtenu lors de l'évaluation de « Al Wassit » est le suivant :
Le résultat obtenu lors de l'évaluation de l'ancienne version du système est le suivant :
Conclusion et perspectives
Concevoir un système de normalisation capable de traiter plus qu'un cas de dictionnaires Arabe.
Intégrer une phase d'évaluation au système.
Étendre la liste des dictionnaires à traiter en adaptant le système avec les différentes écoles lexicales ou même les différentes langues.
Normaliser les dictionnaires directement depuis leurs formats HTML sans avoir recours au format TXT.
Intégrer un module qui enregistre les dictionnaires déjà traités : Profil d'un dictionnaire.
2
3
4
5
6
7
8
9
10
11
12
13
15
16
Application sur « Al Ghani»
Application sur « Al Ghani»
L'application du système sur le dictionnaire « Al Ghani» a dégagé les informations suivantes:
14
Exemples des marqueurs utilisés :
Macro segmentation :
Micro segmentation :
Construction du fichier XML :
Full transcript