Loading presentation...
Prezi is an interactive zooming presentation

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Paris Machine Learning Meetup

No description
by

Vincent Guigue

on 12 November 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Paris Machine Learning Meetup

Vincent Guigue
vincent.guigue@lip6.fr
Classification de sentiments
sur le web 2.0

Paris Machine Learning Meetup
12 Novembre 2014
Introduction
Positionnement
Affective computing
Sentiment classification
Personne
: Rosalind Picard (MIT)

Domaines
:
Modélisation utilisateur
Ubiquitous computing
Wearable computers
Diagramme des émotions de Plutchik
Exemples de travaux

Modélisation des émotions
Data-mining sur les capteurs d'activités
Réduction du stress pour les conducteurs
Adaptation fine de jeux vidéos
Personnes
: B. Pang, L. Lee, Wiebe, Riloff, B. Liu...
Applications
: Sondage,
Réputation, Recherche d'informations

Conférences:
WWW, EMNLP, ACL, ...
(+IR / ML)
Applications
e-Réputation
Surveiller le web 24h/24, 7j/7
Détecter les buzz négatifs rapidement
Evaluer l'impact des campagnes marketing
Réagir rapidement face aux évènements
Besoin d'outils automatiques
Sonder automatiquement le web
Réduction des coûts
Suivi en temps réel (ou presque)
Analyse qualitative
mots clés polarisés...
Sondages & suivis
Recherche d'Informations
La recherche polarisée est une demande...
des consommateurs
des utilisateurs de Twitter...
Travaux précurseurs
Introduction de la subjectivité dans:
les ontologies
les requêtes
l'analyse des documents
Traitement de la langue &
Apprentissage automatique

Multi-domaines,
approches sémantiques

Les machines apprises ont vocation à être utilisées sur d'autres données...
Définition:
Porteur
Temps
Cible
Sous-cible
Polarité du message
Selon Bing Liu :
Sentiment = 5 éléments
Dans cette présentation :
Surtout la
polarité
, parfois le
porteur

NLP
Machine Learning
Philosophie
: extraire la signification des mots et groupes de mots
Lexiques polarisés
Hatzivassiloglou McKeown 1997
Predicting the Semantic Orientation of Adjectives
Initialisation: 1300 adjectifs polarisés (+/-)
Propagation
Construction du lexique
Turney, ACL 2002
Thumbs Up or Thumbs Down ? Semantic Orientation Applied to Unsupervised Classification of Reviews
Doc
motifs
Pointwise Mutual Information :
Motifs proches de
excellent
ou
poor ?
Approx. avec Altavista:
P(word) = hits(word)/N
P(word1, word2) by : hits(word1 NEAR word2) / (NxN)
Résultats:
Motifs Négatifs :
Motifs Positifs :
Stefano Baccianella, Andrea Esuli, and Fabrizio Sebastiani. LREC-2010
SENTIWORDNET 3.0 : An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining
Basé sur WordNet: propagation sur le synonymes/antonymes
1 mot (ou N-Grams) : plusieurs contextes
D. Jurafsky:
Mais tous les lexiques ne sont pas d'accord !
Règles de polarisation
E. Riloff and J. Wiebe, EMNLP 2003
Learning Extraction Patterns for Subjective Expressions
Construction de
template
POS tag + mots
Comptage dans les corpus, extraction de nouveau motifs
Cascades de règles de décision
Exemples de résultats (objectif/subjectif)
Ding, Liu, Yu, ACM 2004
A holistic lexicon-based approach to opinion mining
Lexique

Extension par machine learning

Cascade de règles pour la décision
Theresa Wilson, Janyce Wiebe, Paul Hoffmann, EMNLP 2005
Recognizing Contextual Polarity in Phrase-Level Sentiment Analysis
Gestion du contexte des mots
courte et longue distances
Amélioration du modèle précédent
Alexander Pak, Patrick Paroubek, LREC 2010
Twitter as a Corpus for Sentiment Analysis and Opinion Mining
Est ce que le NLP marche sur Twitter ???
OUI !
Des systèmes universels & interprétable...
performances variables
interventions manuelles dans le processus (& petits corpus)
Les revues du web 2.0
Une source infinie de données étiquetées!
Architecture
Bo Pang, Lillian Lee and Shivakumar Vaithyanathan, EMNLP 2002
Thumbs up ? : sentiment classification using machine learning techniques.
Movie reviews (1400 documents, pas de neutre)
Unigrammes/Bigrammes
Codage présentiel
SVM, Naive Bayes, Max Entropie
82% de bonne classification
+ traitement NLP (POS..) inutiles !
Description
Sac de mots (unigrammes /
bigrammes
)
+POS / codage négation [Das 2001]
Sous-séquences [Dave 2003]
Arbre syntaxique [Matsumoto 2005]
D-grams [Pak 2010]
Très bonnes performances...
sur certaines bases (Movie Reviews)
Mais transfert difficile !
Mauvaise gestion des phrases
Quelle performance attendre en transfert?
Réseaux de neurones
& représentations latentes
Nouvelles applications
Prédiction de liens polarisés
Collobert & Weston, ICML, 2008.
A Unified Architecture for Natural Language Processing : Deep Neural Networks with Multitask Learning
Représentation latente des mots
Codages multiples (POS, negation...)
Multi-tâches
Non supervisé
Named Entity Recognition
Classification de sentiments [Bespalov 2011, Rafrafi 2011]
Compromis Généralisation/Complexité des descripteurs/analyse locale/big data
...

Fonctionnement:

R. Socher, B. Huval et al. EMNLP-CoNLL ’12.
“Semantic compositionality through recursive matrix-vector spaces”.
Skip-gram
A. Ng
R. Socher

Classif. de Sentiments & recommandation
Des problèmes très proches...
Recherche adverse:
spam review detection
Historique des
approches

Avancées récentes
Algorithmes de transfert
SCL [Blitzer 2007]
FEDA [Daumé 2007]
CODA [Chen 2011]
Bonnes performances... A condition de connaitre la cible
Régularisation
Multi-sources
[Crammer 2010],
[Rafrafi 2012],


Volumétrie
[Rafrafi 2013]
Sémantique
Représentations latentes des mots
T. Mikolov, I. Sutskever et al. (2013). “Distributed Representations of Words and Phrases and their Compositionality
Amélioration
sentiment
J. McAuley, J. Leskovec, Recommender System 2013
Hidden Factors and Hidden Topics : Understanding Rating Dimensions with Review Text

J. McAuley, J. Leskovec, WWW 2013
From Amateur to Connoisseur: modeling the expertise of User Expertise through Online Review
J.H. Kang, K. Lerman, L. Getoor, SBP 2013
LA-LDA : A Limited Attention Topic Model for Social Recommendation
Baselines
Facto. mat
Usage textes
Poussevin et al. CORIA 2014
Recommandation par combinaison de filtrage collaboratif et d'analyse de sentiments
Fake review detection
Identification des leaders d'opinion
Biblio : Bing Liu
D. Kempe, J. Kleinberg, E. tardos, KDD 2003
Maximizing the Spread of Influence through a Social Network
Cascade models
Diffusion
J. Leskovec, D. Huttenlocher, J. Kleinberg, WWW 2010
Predicting Positive and Negative Links in Online Social Networks
Qui recommande?
Qui dénigre?
Peut-on le prévoir?
Quels sont les mécanismes de diffusion?
http://matthieucaule.com/ping/
Master Informatique
mention DAC
Programme
Apprentissage
Bases de données
Représentation des connaissances

Effectif
~20 étudiants (mais un peu plus l'an prochain)

Appel à stage en ce moment...
http://dac.lip6.fr/master/
Laboratoire d'Informatique de Paris 6
Dpt DAPA, équipe MLIA
Full transcript