Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Un tour d'horizon sur la Textométrie

No description
by

Severine Gedzelman

on 21 November 2016

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Un tour d'horizon sur la Textométrie

Séverine Gedzelman
Pourquoi avoir recours à la textométrie ?
Enquête sur les usages et approches (Marchand 2013)
Lexicométrie, Logométrie, Textométrie :

Contexte épistémologique
 : sciences du langage, philologie, culture littéraire

Approche des textes par la fréquence et disposition des mots
et de leur contextualisation par opposition à un savoir projeté de l'extérieur, approche par dictionnaire, registre
Un tour d'horizon sur la Textométrie
avec
Pourquoi TXM ?
- Collègues proches géographiquement, thématiquement
- Contribution en tant qu'ingénieur
Démo TXM
La fameuse loi de Zipf
peu de mots fréquents, beaucoup de mots rares

Rassembler dans un corpus des choses qui font sens
C'est l'ensemble du corpus qui nous donne une connaissance


Rastier

Contraster, montrer les ressemblances, les différences
L'ANR Textométrie
Deux formes de développement
Standalone (Java, eclipse RCP), v0.7.7, et v0.7.8 en beta
Séverine Gedzelman, ingénieur d'étude CNRS, BAP E
à l'ENS de Lyon
Laboratoire Triangle
Laboratoire LARHRA
ANF MATE-SHS 15-18 nov., Fréjus
Taille du corpus, quantité de données
Vérifier et objectiver
Méthode et rigueur
Rôles des collègues et enseignants-formateurs
Exploration
Pistes de recherche (aide à la formulation d'hypothèses)
- Les chercheurs combinent différentes approches (AFC, CA/DH) et plusieurs logiciels proposant différentes fonctionnalités (publications témoignant du combo systématique entre Lexico + Alceste)

- Les types de recherche conduite avec ces outils, renvoient au rôle heuristique et exploratoire

- Raisons de plus :
a)
Conception et développement d'un module d'annotation







b)
Rapprocher l'outil des exigences des qualitativistes

Corpus test « Bulletin Administratif d'Instruction Publique »
dans le cadre d'un projet « La Bibliothèque de l'Histoire de l'Education », coder les entités nommées avec le référentiel SyMoGIH : http://symogih.org
qu'est-ce qui vaut la peine de re-développer par rapport aux existants propriétaires : Nvivo, Atlas.ti, MaxQDA, Sonal …
« une des caractéristiques structurelles fondamentales de tout corpus textuel : "le produit du rang (selon l'ordre de fréquence décroissante) et du nombre d'occurrences de chaque 'élément' (mot ou forme graphique) d'un texte est à peu près constant »
Lebart et Salem, 1994: 47-51
« Le global détermine le local »
originalité avec les mesures de
Spécificités
Choix de briques open-source
pour le
moteur de recherche
(CQP)
et le
moteur de statistique
(R)
plateforme dépend de la
dynamique des communautés qui développent tous les composants
(Eclipse RCP, etc...)
personnalisation de l'import des données
, corpus avec structures textuelles variées : unités infra ou supralexical (comme dans la philologie numérique)
bientôt permet le corpus mutable
(modifie au fur et à mesure des découvertes)
propose nombreux paramétrages
(limitation des réglages dans les outils de classification : Alceste, Iramuteq)
http://textometrie.ens-lyon.fr/
« Rien n'est donné / 'donnée', il faut tout construire »
Rastier
Web (GWT) : portails de publication de corpus, dev. sur mesure
BFM : http://txm.bfm-corpus.org/
BVH : http://txm.bvh.univ-tours.fr/txm/
Les Poilus : http://textometrie.univ-montp3.fr/
Serge Heiden, Bénédicte Pincemin, Matthieu Decorde,
Alexey Lavrentiev, Céline Guillot
+ quelques collaborateurs
+ nombreux chantiers en cours financés par des ANRs
Laboratoire IRHIM, à l'ENS de Lyon


FAQ
 : https://groupes.renater.fr/wiki/txm-users/public/faq
Quelques pages dédiés à des projets
pour partager des documents de travail relatifs à l'utilisation de TXM
Groupe de travail "Cactus"
Fonctions "Cooccurrence"
attend retours de cette communauté
pour
valoriser
(publications),
diffuser
(simplicité d'installation, meilleur accès) et
développer
(adapter)
[TDM80JVS]



[VOEUX]



[PEDT]
Les corpus de la démo
intégrale du « Tour du Monde en 80 jours » de Jules Verne (version facsimilée + édition numérique de wikisource, préparation par Serge Heiden)
sur les voeux présidentielles sous la cinquième République (1959-2001), préparation Jean-Marc Leblanc, livré par défaut avec le logiciel
sur les plaquettes municipales répondant au « Projet Educatif de Territoire », étude dans le cadre de l'Observatoire des politiques locales d'éducation et de la réussite éducative (Renaud Morel, Daniel Frandji)
Les fonctionnalités
Fonctionnalités documentaires => exploration textuelle
Fonctionnalités statistiques => navigation textométrique
diverses formes de consultation du corpus, et d'accès au texte, notamment via la recherche des contextes d'un focus, des index
fait appel à une modélisation mathématique avancée (probabilités, stat., analyse des données), pour représenter globalement le corpus, afficher des listes d'unités accompagnées de scores
SPECIFICITES, AFC, CAH
EDITION, CONCORDANCE, CONTEXTE, INDEX, COOCCURRENCE
Fonctions "Edition", "Description"
a) présentation du/es texte/s
définition de ce qu'est une 'page' =>
découpage arbitraire ou personnalisé
choix dans l'affichage des versions alignées
NB : Corpus clos donc pour l'instant pas de fonctions d'édition, modification, transcription du texte au sein de l'outil (vs CAQDAS)
b) retour au texte
Fonctions "index", "lexique", "concordance", "cooccurrence"
A propos de l'ouverture des corpus
« Pour analyser un même corpus avec deux logiciels différents, il faut procéder à deux préparations différentes pour rendre le corpus conforme aux deux formats propriétaires. Il n’y a pas de possibilité d’analyses en « cascade », pour lesquelles le résultat d’une analyse faite avec un logiciel servirait d’intrant à une deuxième analyse avec un autre logiciel. »
Marcoux, Daoust 2006
« Plusieurs facteurs sociologiques et juridiques peuvent expliquer la résistance des chercheurs à souscrire à une pratique de publication de leur corpus. Mais, il y a aussi un problème réel de modélisation des données textuelles apte à les rendre réellement utilisables dans un contexte de partage et d’annotation. »
Daoust, Duchastel 2008
Certaines passerelles
entre pairs d'outils existent : TXM => IramuteQ
La conversion des données, des logiciels et des interfaces à la
norme XML
facilite grandement l’élaboration de chaînes d’analyse textuelles réutilisables.

La Text Encoding Initiative
(TEI) propose des façons de faire*, des schémas permettant de nommer et d’organiser ces structurations. Il appartient ensuite à chaque communauté de choisir par rapport à ses données et à ses objectifs de recherche
*proposition des membres d’ATONET (Daoust, Marcoux, 2006) pour l’échange de corpus annotés
fait l'objet d'une
réflexion pédagogique et d'accompagnement
par l'équipe, et de ses collaborateurs
(entretiens, n° de revue, édition philologique)

Wikis des utilisateurs et des développeurs
A propos de la préparation des corpus
Voir les ateliers
https://groupes.renater.fr/wiki/txm-users/public/ateliers_txm
Pas qu'une recherche sur caractères typographiques, mais sur d'
autres enrichissements
de ces chaînes textuelles

opération relevant plus du
savoir-faire de chacun
, l'analyste 'connaît' son corpus, il formule ses propres questions
utilisation d'un moteur de recherche puissant CQP,
syntaxe à s'approprier

(utilise le langage des expressions régulières : http://cwb.sourceforge.net/files/CQP_Tutorial/node45.html)

enrichissement dépend de la
lemmatisation
(TreeTagger, Cordial, …)

ajout de propriétés aux 'mots' (POS et Lemme)
Au niveau des mots

Enrichissements définis en amont lors de la préparation de l'import
ou ajoutées avec les fonctions d'annotation (voir TXM v0.7.8)
Au niveau des structures
La vue « Description » récapitule les
noms de structures et leurs propriétés
 :
Corpus [TDM80JVS]
, annotation d'entités nommés : Actr (actor), NaPl (named place)


Corpus [VOEUX]
exemple de requête
: <napl>[] {1,5} </napl>
Liste de toutes ou une partie des occurrences

Colonnes triables par ordre alpha ou de fréquence

Assistant de requête, aide notamment à formuler une suite de plusieurs éléments


Ex : [frlemma="être"][frlemma="français"]
Ex : [frlemma="être" & frpos ="VER:impf"]
- selon une à plusieurs représentations choisies (forme, lemme, catégorie grammaticale, …)
- et correspondant aussi à un motif de recherche (sauf pour la fonction LEXIQUE)
- localisation au sein du corpus, des mots / groupes de mots / parties de mot
Remarque
 : Les CAQDAS utilisent plutôt des techniques de stemmatisation (réduction du mot) vs lemmatisation (variation du mot).
Fonctions "Index", "Lexique", "Concordance" ...

Corpus [TDM80JVS]

[][word="Fogg"]|[word="Mr"][][word="Fogg"]
Index
pour voir les contextes d'utilisation de la forme « 
sieur Fogg
 », on passe à la
concordance
, avant le plein-texte, « édition ».
Fonction "Concordance"
Permet de découvrir des
récurrences de locutions ou d'expressions
(analyse distributionnelle de Harris)
Affichage
 : ajout d'éléments dans la construction du pivot, des contextes (nb mots), de la référence.
Tri et référence
 : basé sur un des éléments de structure et/ou d'une propriété
Référence avec
text:id, text:loc, text:année
Pivot avec word et frpos
Repérer la « proximité », l'attirance mutuelle de 2 termes

renvoie plutôt à
une dimension topologique
(disposition dans le texte), ni purement sémantique, syntaxique
Agrège les proximités de chaque apparition
/ occurrences des deux termes
Variabilité dans les algorithmes
(distinction selon si on associe avec l'ordre d'apparition des mots => graphes orientés ou non)
Corpus [TDMJVS]
, comment représente-t-on le personnage "Fix" ?
Exemple du mot « enfant » dans le
corpus [PEDT]
-
ses besoins
, (adapter, bien-être) étroitement associés à l’individualité et à l’autonomie (lui-même).

-
mesures
pour favoriser l'épanouissement (apparaît surtout dans quelques textes => municipalité de BREST)
Beaucoup d'autres choses à voir
: toutes les fonctions statistiques mais d'autres logiciels font autant, voir mieux (Lexico5, Iramuteq, DTM, ...)

Avancement de l'
interface graphique pour l'AFC
(dans prochaine version TXM, v0.7.8)
grâce à une collaboration avec Sebastien Jacquot
(Laboratoire ELLIADD
de l’Université de Franche-Comté)
avec l'aide de Serge Heiden, Bénédicte Pincemin, Giancarlo Luxardo
Point de départ, un projet fédérateur
Adaptabilité - capacité d'évolution
Corpus [TDM80JVS]
Corpus [VOEUX]
La recherche
 :
Corpus [VOEUX]
Quelques pointeurs bibliographiques
Jenny 1997
« Méthodes et pratiques formalisées d'analyse de contenu et de discours dans la recherche sociologique française contemporaine. Etat des lieux et essai de classification. » (BMS)
Dumont 2013
« Du débat sur la place des logiciels dans l'analyse de données qualitatives »
Lejeune 2010
« Montrer, calculer, explorer, analyser. Ce que l'informatique fait (faire) à l'analyse qualitative » (JADT)
Lejeune, Bénel 2012
« Lexicométrie pour l’analyse qualitative : Pourquoi et comment résoudre le paradoxe ? » (JADT)
Brugidou et al. 2000
« Les facteurs de choix et d’utilisation de logiciels d’Analyse de Données Textuelles » (JADT)
Demazière et al. 2006
« Analyses textuelles en sociologie »
dans une démarche de comparatif d'outils en quali et quanti pour l'analyse de texte, notamment pour les
Ateliers Pratiques Numériques en SHS
à Lyon (ED 483)
https://www.zotero.org/groups/anaquali/
(voir aussi le groupe zotéro : )
https://groupes.renater.fr/wiki/apn-shs/index
Full transcript