Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Textometrie

No description
by

Pierre BEAUFILS

on 18 August 2017

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Textometrie

Text Mining – approches quantitatives et qualitatives
Les textomètres sont-il des compteurs d’histoire ?
Text Mining – approches quantitatives et qualitatives
Les textomètres sont-il des compteurs d’histoire ?

Quali-Quanti
INSERM U1178

Au commencement était le verbe…

J’ai peur, j’ai peur que ces mots
Deviennent des mots démodés.
Des mots qu’on peut sans tarder
Ne plus entendre – Charles Trénet

Ce qui caractérise un langage,
c'est que les phénomènes rares y sont fréquents
Introduction
Recherche biblio d’utilisation du text-mining
exporer les domaines
Problèmes et enjeux
Recenser les outils et leur intérêt
Évaluer quelques outils et logiciels
Librairies R : TM, SnowBall, Korpus…
Logiciels : TXM IramuteQ
Essais et démos avec jeux d’essais et corpus

Objectifs
TAL
Data-mining
Text-mining
Textometrie
Lexicométrie
Logométrie
Stylométrie
Topic modelling
Sentiment analysis
Definitions
Histoire
Textométrie : Domaines
Domaines

archéologie : proto langage IE
TAL - Historique
Epistémologie
Ricoeur : Traduction, pensée et langue originelle/universelle
Le mot le plus employé dans les entreprises
Epistémologie Langage et culture
Lecture en langue étrangère
langue Schtroumpf
L' Argot
Epistémologie 5
Langage et communication
Graphe similitudes

Iramutec
Corpus Hugo

Corpus Hugo
TXM
Corpus Hugo

IramuteQ
Art

IramuteQ
Art

TreeCloud

ACP

Exemple avec Corpus Blog dépression

corpus
Sources de données
Autres approches
Conclusion
Corpus nouveau testament
ACP R (library psy)
Corpus Hugo

ACP R (library psy)
Corpus Hugo

Nuage de mots

Corpus Hugo
Spécificités

TXM
Corpus Hugo

IramuteQ
Art

sujets qui discutent sur un forum de personnes avec trouble bipolaire.
Sujet : dépression majeure.
Sur un fil : 6 personnes , un expert, un modérateur celui qui pose le problème, des aides…

Hugo
Queneau
Art (critiques)
Critiques de films
Vins
Presse économique
Bibliographie
Enquête JRVS
Nouveau testament
Forum dépression (bipotes)
Voeux - campagne presidentielle
Méthodo – exemples de corpus
probabiliste, bayesien
réferentiel Dynamique
thésaurus
ontologie
scoring
dico sémantique
réfrentiel externe
TXM
IramuteQ
Le Trameur

Quelques logiciels
Images :
comparaison, métaphores
Enjeux et problèmes : Les figures de style
recherche documentaire
traduction
correction orthogr.
veille
authentification
Etayer une interprétation
sens ou idée cachée
Synthetiser
A quoi ça sert
Epistémologie 4
Mots et émotions
import Corpus
nettoyage
minuscules
ponctuation
stemming
analyse
ACP AFC
Méthode des Spécificités
Cooccurence logiciel CooCS
Distances
CAH
Fonctionnalités et outils
fautes d'orthographe
Enjeux et problèmes
le langage des forums et blogs
Quali-Quanti
INSERM U1178


rien
vaut
ne
vie
homographies
Polysémie
Perte du contexte

Enjeux et problèmes
Technologies du langage
Linguistique
Histoire
Litterature
Informatique
TAL : traitement automatique des langues
Statistiques
Psychologie
Marketing
Traduction
Textometrie
Lexicométrie
Data mining
Text-mining
Recherche
documentaire
Web sémantique
sentiment
analysis
TXM
TreeTagger
TextObserver
TreeCloud
Dico
SplitsTree
CloudTag
R librairies
TwitteR
tm
wordcloud
topicmodels
graph
rgraphviz
FactominR
Politique
Paternité des œuvres de Molière
L'étude statistique
de Cyril et Dominique Labbé
Ce sont là pour Aristote, « les genres élémentaires de l'être », au sens où tout être se situe automatiquement dans certaines au moins de ces dix perspectives et que dire quelque chose d'un être, c'est automatiquement dire quelque chose de lui par rapport à sa substance, sa quantité, sa qualité, son temps, son lieu, etc.

Les catégories sont les perspectives au sein desquelles se situent par nécessité les concepts (les noms et les verbes) au nombre de dix :
la substance, la
quantité
, la
qualité
, la relation, la possession, le temps, le lieu, la situation, l'action et la passion.
Aristote : Catégories
Bergson : Langage filtre du réel
Wittgenstein
Orwell, Lepage : les mots confisqués, la novlangue
informatique
psychologie
linguistique
Sociologie
Littérature
Statistiques
Bar-Hillel :traduction
Tablettes d'indexation sumérienne
Hobbes 1655 :
pensée =calcul

Antiquité Platon, Aristote
Ferdinand de Saussure
Noam Chomsky
Alan Turing
TAL fin années 40
-3000
-2000
-1000
0
1000
1500
1750
1850
1900
1940
1950
1955
1960
1965
1970
1975
1980

Shannon
Mc Karthy

Weizembaum
Epistémologie
Langage et pensée

Epistemologie 1
Qu'est-ce que le langage (logos)
Aristote
Animaux : agréable - douloureux
Homme : valeurs
Platon
« Discours (logos) est un grand Tyran »
(Gorgias)
Qu'est-ce que le langage
Langage et pensée
Langage et réel
langage et émotions
Langage et communication
Développement du langage

Epistémologie
Langage et réel
le langage n’enrichit pas le monde, notre expérience ou encore notre pensée ; au contraire, il les appauvrit
nous ne voyons pas les choses mêmes ; nous nous bornons, le plus souvent, à lire des
étiquettes
collées sur elles
Sens des mots ou des phrases ?
Merleau-Ponty
Humbolt et Cassirer :

Lien entre monde et langage
La Novlangue :
limiter le vocabulaire, double pensée, néologismes
Les mots se démodent
1940: épatant; 1950 : bath; 1960 : extra;
1970 : super; 1980 : cool; 2000 : mortel
Développement du langage
1-2 ans : 20 mots
2-3 ans : explosion
noms univoques ensuite verbes
6 ans : syntaxe correcte
Ontologie du langage
IRMf - Aphasies
Aphasie type Broca :
difficuté de production
" Aller... gare"
Aphasie type Wernicke : fluent;
paraphasies phonémiques
paraphasies sémantiques
Langue des sourds - Chomsky structures innées
Hiéroglyphes
Arabe littéraire
Sans les mots
émotions et linguistique :
Saussure 1891: " sujet parlant" langage support de la pensée
1) la fondation de la linguistique moderne :
Sapir: les émotions ne concernent pas le linguiste
2) période intermédiaire :
développement de la stylistique ;
Bally :les émotions procèdent des mots
3) linguistique contemporaine :
Informatique affective
Langage et balisage des émotions
Théorie des émotions complexes
Descartes : pensée transcendante
Hegel : Il n'y a pas de pensée sans langage
Merleau-Ponty : On ne peut dissocier parole pensée
Enjeux et problèmes : la linguistique
Phonétique
morphologie
Syntaxe
sémantique
pragmatique
Un sac de mots
Un sac de mots
La vie ne vaut rien
rien ne vaut la vie
ironie, litote, euphémisme...
Figures de répétition et amplification
Figures de construction
Figures de style
Images
Métaphore
pensées corbeaux impies
qui traversent le ciel
Métonymie,
synecdoque
Boire un verre, finir son assiette
Avoir un toit
comparaison
Le roi est bleu comme la pluie
Figures de style
Figures de répétition et d'amplificaton
Répétitions de sonorités
allitérations
assonnances
redondances
pour qui sont ces serpents qui sifflent sur nos têtes
Répétitions de mots
anaphores
pléonasmes, tautologies...
Figures de style
Figures de mise en valeur
Onomatopée
Exclamation, interrogation
Hyperbole
litote
C'est un cap, c'est un pic...

Tu commences à m’énerver !
Figures de construction
Oxymore
Figures de pensée
Ironie, sarcasme
antiphrase
La parole a été donnée à l'homme pour dissimuler sa pensée.
Talleyrand
Il n'y a qu'une façon de dire oui, c'est «oui»,
toutes les autres veulent dire non.
Talleyrand
Enjeux et problèmes : la linguistique
Enjeux et problèmes : la linguistique
Phonétique
Désambiguisation
Les petits poissons rouges
c'est ouvert
Phonèmes
Prosodie, intonation
Pierre est parti
Pierre est parti ?
Pierre est parti !
morphologie
Enjeux et problèmes : la linguistique
base :
morphème lexical,
affixe
coll
age

en
re
er
des
pré
Enjeux et problèmes : la linguistique
Syntaxe
arbre syntaxique
les enfants de pierre vont à la plage
Pierre frappe Paul
Paul frappe Pierre
frappe Pierre Paul
tu souris en voyant les souris
les poules du couvent couvent
Ambiguités
Enjeux et problèmes : la linguistique
la belle ferme le voile
Sémantique
homonymie
barrage
polysémie
avocat
Fonctionnalités et outils
sentiment analysis
carte des 6 émotions de base sur le modèle Circumplex de Russel
Quelques logiciels
Quelques logiciels
Enjeux et problèmes : la linguistique
pragmatique
Pierre est allé au restaurant. Il a commandé un steack, mais il était froid. La serveuse ne s'est pas excusée lorsqu'il a réclamé.
Non résolu
La montre de la grand-mère encore en état de marche
Le chasseur a tué un sanglier,
et sa femme aussi
Flexions :
Automates à états finis
in
ab
le
ilité
réseaux sémantiques
ref externes
Pouvez-vous ouvrir la fenêtre ?
WSD:
Word Sense
desambiguisation

Figures de style: métaphore, ironie, litote…
R library graph et Rgraphviz
R library wordcloud
R libraries : topic modelling
R Librairies
Lexico3
Alceste
Hyperbase

TreeCloud
Hyperlex

Sonal
Tropes
Nvivo

Java
Quelques logiciels
IramuteQ
Approches statistiques
lois de Zipf
corpus cinéma
corpus Queneau
corpus Art
corpus Hugo
Approche sémantique
abréviations, apocopes
cinématographe => cinéma => ciné
onomatopées
émoticones :-) ;-) :-(
Le corpus
Fonctionnalités et outils
Construire un corpus
Sources
Internet : articles, blogs, forums, twitter...
Enregistrements vidéos audio
Enquêtes, questionnaires
Métadonnées
Partition, sous-corpus
Pré-processing
Fonctionnalités et outils
Documents (Word, PDF...)
Pré-processing
Fonctionnalités et outils
Fonctionnalités et outils
majuscules
ponctuation
tokenization
stemming (radical)
Suppression mots-vides
Analyse
morphologique
1-1-Au
commenc
ement est le
Verb
e, et le
Verb
e est en
Dieu
, et le
Verb
e est
Dieu
.
1-2-Il est au
commenc
ement auprès de
Dieu
.
1-3-Par lui,
tout
a été
fait
et, sans lui,
rien
n'a été
fait
.
1-4-En lui est la
vi
e, la
vi
e est la
lumi
ère des
homm
es;
commenc verb verb dieu verb dieu
commenc aupres dieu
tout a fait rien a fait
vi vi lumi homm

Fonctionnalités et outils
Analyse syntaxique
Lemmatisation => PoS = Part of Speech (Nom, verbe)
Etiquetage déambiguisation
Loggiciel
TreeTagger ds TXM
Fonctionnalités et outils
Analyse sémantique
ontologies
terminologies
lexiques
Fonctionnalités et outils
réduction de dimensions
Latent sementic indexing
Latent sementic analysis
topic modelling
Vector space model
Terme
Document
matrice Terme-doc
concept
Matrice Concept-doc
synonymes,
polysemes
Extraction de connaissance
Fonctionnalités et outils
Extraction de connaissance
Fonctionnalités et outils
Approches statistiques
Comptage, Frequence
accroissement du vocabulaire
AFC - ACP
Classification CAH
spécificités
logique : OWL
Classification naïve bayésienne
Web ontology langage
réseaux sémantiques
CQL :Corpus Query language (TXM)
Fonctionnalités et outils
Métadonnées
Wordnet
contenu lexical et sémantique
notion de distance sémantique
WOLF Wordnet libre du Français
Wordnet
SentiWordnet
Partition
Autres approches
Sous-corpus
Séries chronologiques
Contexte,retour au texte :
KWIC
Autres approches
Exemples d'analyses et corpus
Méthode
Corpus et logiciels
Méthode
Corpus et metadonnées
Méthode
Resultats
CEE:reprise
systran
Métadonnées
Corpus Films
Figures de mise en valeur
Ellipses, métaplasmes
Figures de style
Ellipses, élisions, métaplasmes
Apocope, abréviation
Aphérèse
Rappelons que l'élision est un métaplasme par amuïssement dû à un hiatus.
ricain, bus, évèque, blème
Ciné, pub, appli...
Argot => difficulté de reconnaissnce
« Merdre ! »
Langage et pensée
Bergson :
Langage et Réel
Langage filtre du réel
langage et culture
Hypothèse de Sapir-whorf

ponctuation !!!???...
Quelques logiciels
Le Trameur
Densidées
Hyperlex
Quelques logiciels
Représentation de la densité des idées calculée automatiquement en fonction de la densité des
idées calculée manuellement pour chacun des 40 textes du corpus
Sentiwordnet
Tf-Idf
Loi de Zipf
Cooccurences
CAH
Evangiles
Corpus nouveau tetament
Accroissement de vocabulaire
TXM
Art
AFC
partition
Techniques
TXM
Corpus
Arts Critiques
Corpus Queneau
Queneau
TreeCloud
Cooccurences
AFC
Partition Films
Art critiques
TreeCloud
Critiques Film
TreeCloud
Co-occurences
Critique Ciné
Spécificités
TXM
JRVS
TreeCloud
Les plus
Les moins
Critiques films
TXM
AFC colonnes = films
Critiques Films
IramuteQ
AFC films
Queneau
Spécificités
Queneau
TXM
AFC lignes= words col = styles
Nao Aldebaran - LIMSCNRS
Quand les mots ont double sens, il faut les dire à demi-mot
Donaudampfschiffahrtsgesellschaft =
Société de navigation à vapeur du Danube
Les humanites numériques
approche sémantique
Les humanités numériques
Le sujet internaute : congruence ou image en trompe-l'oeil ?
Biais des enquêtes
Avatar et Image de soi
les mondes virtuels
Décloisonner les disciplines humanistes et scientifiques
Webometrie
Décryptage des émotions
et robotique :
Nao, Pepper et Romeo
Webométrie : Google trends
Wittgeinstein
« Les limites de ma langue sont les limites de mon monde »
Franck Lepage : les mots confisqués
Aristote : les catégories
Epistémologie : langage et pensée
Georges Orwell 1984 :
ex: crimesex
Tagalog
apports historiques
Critiques de Georges Forestier
quel biais choisir ?
voir plus loin
François Husson FactomineR
sentiWordnet
score
représentation bipolaire
ou multimodale
Méthode
Intérêts
Fonctionnalités
outils
Iramutec
AFC formes
Fact1 / fact 2
Corpus Hugo
IramuteQ
AFC
métadonnées
= année
Corpus Queneau
TXM
CAH 3D
TreeCloud
Forum d'information, de psychoéducation et d'entraide pour les personnes avec un trouble bipolaire (maniaco-dépression).


Forum Bipotes
TreeCloud
la
douleur exquise
smicard : Exploité ou défavorisé ?
Full transcript