Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

SAFAR

No description
by

JAAFAR Younes

on 12 September 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of SAFAR

Problématique
&
solution

SAFAR : Architecture & caractéristiques

Conclusion
Plan
Arabic
Natural language processing (ANLP)
Merci pour votre attention

Des questions?

Conclusion
S
oftware
A
rchitecture
F
or
A
rabic language p
R
ocessing
SAFAR
« Vers une plateforme ouverte pour le
traitement automatique de la langue Arabe »
Présenté par : Jaafar Younes

Laboratoire LRIE, Equipe Ibtikarat

SAFAR Site web : http://sibawayh.emi.ac.ma/safar
Introduction
Problématique & solution
SAFAR : Architecture et caractéristiques
« Resources »
« Utils »
« Basic layer »
« Application »
Démonstration
Conclusion
Introduction
Natural language processing (NLP)
Interactions between computers and human (natural ) languages.

Automatic summarization,
Machine translation,
Morphological segmentation,
Named entity recognition,
Natural language generation,
Question answering …

Interactions between computers and Arabic language.
Problématique :
Les outils du TALA sont hétérogènes.

Solution générale :
UIMA, GATE, OpenNLP, NLTK, LingPipe, Nooj ...

Structurer :

Les données
Les traitements
Les entrées
Les sorties
Solution spécifique :

A
NLP plateforms


Avantages :

Structurer les données et les traitements
Standardiser les entrées et les sorties
Séparation explicite des données et des résultats
Architecture adaptée à la nature de la langue Arabe
Dédiée seulement à la langue arabe

SAFAR : Software Architecture For Arabic language pRocessing
1ère
solution
2ème
solution
Architecture générale de SAFAR

Caractéristiques de SAFAR
Open source
Multi plateformes (en JAVA)
Souple: utilisation GUI ou directement via APIs
Ressources standardisées sous format XML
Réutilisation des composants
Services web
Capacité à intégrer d'autres composants

Intégration des outils au sein de SAFAR

Intégration


Intégrer ce qui existe

Moins de temps

Moins d’adaptation



Développer tout

Plus de temps

Plus d’adaptation


Solution adoptée :
1 - Intégrer ce qui existe
2 - Développer ce qui n’existe pas

SAFAR : Ressources

Le TALN est basé principalement sur les ressources linguistiques :
Caractère, Lexique, Dictionnaire, Glossaire, Corpus, Ontologie
Approche de conception des ressources structurées et standardisées
L'alphabet Arabe comme première étape
Travailler ultérieurement sur les lexiques, les dictionnaires, etc.
XML pour la ressource de l’alphabet Arabe
Autres composants :
L’API pour exploiter la ressource
Une application sur l’apprentissage de la langue Arabe Abou Alhorouf
Une sortie sous format web de cette application d’apprentissage
SAFAR : « Utils »

Normalization: Delete some elements from texts.
String normalizedText = Normalizer.normalize(text);
Sentence splitting: Split a text into sentences
String[] sentences = SentenceSplitter.split(text, ".", ".ذ");
Tokenization: Split a text into words
String[] tokens = Tokenizer.tokenize(text);
Transliteration: Writing a language using letters of another language
String result = Transliterator.transliterateArabicToLatin(text, Transliteration.BUCKWALTER);
Benchmark: Compare results returned by morphological analyzers
MorphologyAnalyzerMetrics metric = MorphologyAnalyzerBenchmark.compare(Analyzer.BAMA, Corpus.SAWALHA);
Analyseurs morphologiques :

Alkhalil (riche en TagSets)

BAMA (mois de TagSets)

Stemmers :

Khoja Stemmer (renvoie le « root »)

Light10 (renvoie le « stem »)

Morphology layer

Stem Counter:

Returns the most repeated stems in a text.
Gets stems using the stemmers implementations available in SAFAR.

StemCounter.launchGUI();

Sentence Processor:

An application that shows how to split a text into sentences, then
normalize the sentences and transliterate them.


SAFAR : Application

Démonstration
GATE, UIMA etc. ont des limitations par rapport aux besoins de la communauté TALA.
Nous avons proposé la plate-forme SAFAR comme solution
Nous avons décrit de manière succincte et descriptive les caractéristiques de SAFAR.
Jusqu'à maintenant, nous avons réalisé :
La structure logicielle de SAFAR,
Le développement d’une API pour la consultation de l’Alphabet Arabe avec GUI.
Le développement d’une API pour la consultation des mots vides de l’Arabe.
Le développement de la couche d’analyse morphologique,
Le développement des utilitaires
Le développement de deux petites applications
Nous comptons :
Intégrer des outils de la syntaxe et de la sémantique
Intégrer de robustes applications telles que les systèmes de de questions/réponses.
Enrichir les utilitaires.
SAFAR est disponible pour le test via : sibawayh.emi.ac.ma/safar
Full transcript