Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Analise de sentimentos em redes sociais - estudo de modos ap

No description
by

Daniel Lopes

on 17 April 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Analise de sentimentos em redes sociais - estudo de modos ap

49
adjetivos
negativos
Introdução

Análise de sentimentos em redes sociais - estudo de métodos aplicados em corpora na língua portuguesa-BR

O Crescimento da internet
Metodologia
Análise de sentimentos em redes sociais
Ciência da Computação - UFRJ
Motivação e Objetivo
Métricas
Análise dos Resultados
Daniel Lopes Braz dos Santos
Guilherme Fabiano Alves da Silva
Orientadora: Profª. Valeria Menezes Bastos

Ano
2014
Gráfico do crescimento de usuários de internet, segundo IBOPE
Introdução
O Crescimento das redes sociais
Introdução
O Crescimento das opiniões nas redes sociais
Hashtags com o maior número de ocorrências no período de 6 a 18 de junho de 2013
Fanpage Folha de São paulo
Pré-Processamento
Processamento de Linguagem natural - PLN
Facebook API
Ferramentas
Etiquetagem
“Eu vou ao Maracanã”
Correção Ortográfica
{ Internetês + Links + Má Escrita }
(203 palavras)
de
Aelius
NLTK
; . ! ? : -
Stopwords
a
o
que
e
do
da
em
um
para
estes
estas
Análise de relevância de palavras
Clusterização
K-means
Normalização
Lematização X Stemming
"Construções" e "Construiu"
"Constru"
"Construção"
e
"Construir"
Lematização
Stemming
Lematizador
"O ____ é um substantivo."
"Ela é uma pessoa _____."
"Eu ____ bem."
Análise de sentimentos
Método não-supervisionado
182
adjetivos
negativos
166
adjetivos
positivos
Etapas
Arquivo saída Método não-supervisionado
TF
IDF
WEIGHT
Lista de comparação





+
+
1ª Etapa
-
6
adjetivos
negativos
-
1
adjetivo
positivo
+
2ª Etapa
98
substantivos
negativos
+
47
substantivos
positivos
+
3ª Etapa
28
verbos
negativos
+
8
verbos
positivos
Seleção de palavras
Weka
4ª Etapa
+
Com Correção Ortográfica
ou
Sem Correção Ortográfica
)
(
49
adjetivos
negativos
Ex.:"Pel foi um excelente (+1) jogador de futebol, ele era muito talentoso (+1)."
Combinação de atributos
Para 3 e 4 clusters
20 arquivos arff's gerados
Método supervisionado
Naïve Bayes
Rankeamento de Cluster
F1-Measure
Média de posições
Classificação Manual
Cada índice-cluster
Separado para 3 e 4 clusters
Treino
3/4
1/4
F1-measure = [2-2, 3-1, ...,
10-2
]
Teste
Acertos = [5-0, 4-2, ...,
10-1
]
Acurácia = [4-2, 7-0, ..., 6-2]
Média de posições
Exemplo para 3 clusters:
NLTK
30º
menor valor
ALENCAR, L., Aelius Brazilian Portuguese POS-Tagger and Corpus Annotation Tool, versão 0.9.7, 2013. Disponível em: http://aelius.sourceforge.net acessado em 20 de setembro de 2013.
ARTHUR, D.; VASSILVITSKII, S., How Slow is the K-means Method?, 2007. Disponível em http://www.cs.duke.edu/courses/spring07/cps296.2/papers/kMeans- socg.pdf acessado em 3 de novembro de 2013.

BOUÇAS, C. Publicação Eletrônica no Valor Econômico, 2013. Disponível em: http://www.valor.com.br/empresas/3193596/internet-no-brasil-ultrapassa-100- milhoes-de-usuarios-aponta-ibope acessado em 10 de outubro de 2013.

BIRD, S.; KLEIN, E.; LOPER, E., Natural Language Processing with Python, 2009. Disponível em http://www.nltk.org/book. Acessado em 3 de outubro de 2013.

BRILL, E., A Simple Rule-Based Part of Speech Tagger, 1992. Disponível em http://acl.ldc.upenn.edu/H/H92/H92-1022.pdf.

BRITTO, H.; GALVES, C., Corpus Histórico do Português Tycho Brahe, 1998. Disponível em http://www.tycho.iel.unicamp.br/~tycho/corpus/manual/pos2003.html acessado em 10 de outubro de 2013.

BRITTO, H.; GALVES, C., A Construção do Corpus Anotado do Português Histórico Tycho Brahe: o sistema de anotação morfológica, 2003. Disponível em http://www.ime.usp.br/~tycho/participants/c_galves/galves_e_britto.htm acessado em 13 de outubro de 2013.

DOMINGOS, P.; PAZZANI, M., On the Optimality of the Simple Bayesian Classifier under zero-one loss. Machine Learning, 29: 103-137, 1997.

DUARTE, F.; FREI, K., Redes Urbanas.In O Tempo das Redes p.156. Editora Perspectiva S/A, 2008.

FACEBOOK, 2007. Disponível em: http://developers.facebook.com acessado em 8 de setembro de 2013.

GOLDEN, P., Write here, write now, 2011. Disponível em http://www.research- live.com/features/write-here-write-now/4005303.article acessado em 12 de novembro de 2013.

LIU, B.; MA, Y.; YU, P., Discovering Unexpected Information from Your Competitors‟ Web Sites, 2001. In Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD – 2001), 26-29 de agosto de 2001, San Franscisco, USA.


8-1 = 5/30 + 16/30 + 3/30 = 0,8
Referências
melhor índice-cluster

DE LUCA, C., #verásqueumfilhoteunãofogealuta superou outras hastags dos protestos, IDGNOW, 19 de junho de 2013. Disponível em http://idgnow.com.br/internet/2013/06/19/hashtag-verasqueumfilhoteunaofogealuta- superou-as-demais-durante-protestos/, acessado em 10 de setembro de 2013.

MAKAHOUL, J.; KUBALA, F.; SCHWARTZ, R.; WEISCHEDEL, R., Performance measures for information extraction, 1999. In Proceedings of DARPA Broadcast News Workshop, fevereiro de 1999, Herndon, USA.

MATSUBARA, E.; MARTINS, C.; MONARD, M., PreText: Uma Ferramenta para Pré- processamento de Textos Utilizando a Abordagem Bag-of-words, 2003. Disponível em http://www.icmc.usp.br/CMS/Arquivos/arquivos_enviados/BIBLIOTECA_113_RT_20 9.pdf acessado em 28 de setembro de 2013.

MUNIZ, M.; NUNES, M.; LAPORTE, E., UNITEX – PB, a Set of Flexible Language Resources for Brazilian Portuguese, 1995. Disponível em http://www-igm.univ- mlv.fr/~unitex/TIL8801.pdf acessado em 17 de outubro de 2013.

MYSQL, 2012. Disponível em: http://www.mysql.com acessado em 8 de setembro de 2013.

OGNEVA, M., How Companies Can Use Sentiment Analysis to Improve Their Business, 2010. Disponível em: http://mashable.com/2010/04/19/sentiment-analysis/ acessado em 13 de outubro de 2013.

OPENNLP, Apache OpenNLP Developer Documentation, 2010. Disponível em http://opennlp.apache.org acessado em 10 de outubro de 2013.
PANG, B.; LEE, L., Opinion Mining and Sentiment Analysis, 2008. Disponível em http://www.cs.cornell.edu/home/llee/omsa/omsa.pdf acessado em 14 de outubro de 2013.

TIOBE, The TIOBE Programming Community Index, 2013. Disponível em: http://www.tiobe.com/index.php/content/paperinfo/tpci/index.html acessado em 20 de setembro de 2013.

WEKA, Machine Learning Group at the University of Waikato, 2011. Disponível em http://www.cs.waikato.ac.nz/ml/weka/documentation.html acessado em 10 de novembro de 2013.

WIEBE, J.; WILSON, T.; CARDIE, C., “Annotating Expressions of Opinions and Emotions in Language”, Language Resources and Evaluation, v. 39, n. 2-3, pp. 165– 210, 2006.
Base utilizada no estudo
Supervisionado e não-supervisionado
Resultados do método não-supervisionado
Resultados do método supervisionado
Análise Geral
A exatidão de um sistema de análise de sentimentos é, em princípio, o quão bem ele está de acordo com julgamentos humanos.
Análise Geral
Estatísticas dos comentários positivos
Estatísticas dos comentários negativos
Estatísticas dos comentários neutros
Relevância das técnicas utilizadas
Corretor ortográfico
2%
Manual X Automático
Classes gramaticais
390
adjetivos
145
substantivos
36
verbos
Relevância da adição
e remoção de adjetivos
Ponderação de palavras
Combinações escolhidas
índice 2:
- atributo utilizado no K-means: Weight
- clusters escolhidos: 2 (3 clusters)
3 (4 clusters)
índice 10:
- atributo utilizado no K-means: word_id,Weight
- clusters escolhidos: 2 (3 clusters)
1 (4 clusters)
10-1 = 1 acerto em Comentário neutro
Neutro por equilíbrio
- Apenas 0,006% da corpora
Com adjetivos iniciais
Com a lista atualizada dos adjetivos
Positivos
Negativos
Neutros
F1-Measure
21,538%
20,661%
35,606%
69,604%
67,665%
Adjetivos removidos
melhor, certo, ...
22%
Movie review
1000 comentários positivos
1000 comentários negativos
+
Treino com neutros x sem neutros
(treino com 1/4 da base)
Não-supervisionado
X
Supervisionado
base de teste também não possui neutros, não representando um caso real
Movie Review
Supervisionado sem neutros
Positivos
Negativos
F1-Measure
30.77%
63.63%
82.69%
72.30%
72.80%
78.27%
Corretude
Cenário real de teste
Objetivo - testar efetividade do metodo sem neutros
(teste com 3ª base)
Comentários neutros erros garantidos
Positivos
Negativos
par de bases x base geral
(teste com 1/4 da base)
Positivos
Negativos
Superioridade base 2 e 3, sobre a base geral
Trabalhos futuros
Trabalhos futuros
Obrigado
Dúvidas

Maior base classificada manualmente, para melhor a comparação entre os métodos;
Melhorar etiquetador e lematizador;
Análise focada em advérbios;
N-grams;
Análise de hashtags;
Sentimento em entidade nomeada;
Análise dos principais assuntos de reivindicação;
Polarização dos comentários em vertentes (esquerda, direita ou neutro).
Full transcript