Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Brazil Around the World: Characterizing and Detecting Brazilian Emigrants Using Google+ (Webmedia'15)

No description
by

Johnnatan Messias

on 1 September 2016

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Brazil Around the World: Characterizing and Detecting Brazilian Emigrants Using Google+ (Webmedia'15)

Brazil Around the World: Characterizing and Detecting Brazilian Emigrants Using Google+
johnnatan@dcc.ufmg.br
Webmedia 2015
Manaus - AM
Introdução
Filtragem dos Dados
Caracterização
Brazil Around the World: Characterizing and Detecting Brazilian Emigrants Using Google+
Metodologia
Coleta da base de dados


Filtragem e Caracterização


Detecção dos Emigrantes Brasileiros

MRE vs IOM
Google+
300 mi de usuários ativos
"Places Lived"

Caracterizar e detectar emigrantes brasileiros
Quais são as features mais importantes?
Utilizar abordagens:
Machine Learning: SVM
Geolocalização dos usuários
Scarina
Avaliar novas características para obter resultados AUC melhores

Verificar se os padrões se mantém para os demais países da nossa base de dados

Entender o fluxo migrató́rio de outros países.


Trabalhos Futuros
Trabalhos Futuros
Obrigado!
Coleta dos Dados
Coleta da base de dados
Período da coleta: 23 de março a 1° de junho de 2012

Dados coletados (sitemaps)
160,304,954 de perfis
Grafo
61,165,224 vértices e 1,074,088,940 arestas
10 Postagens dos usuários
8,564,462 perfis, totalizando 29,366,310 posts

Geolocalização
Extração do campo Places Lived (Texto)
São Paulo == Sampa e EUA == USA
Identificação da Linguagem (Langid.py)
Conclusão
Conclusão
Features de rede tiveram maior capacidade de discriminação.


Bagging balanceado não foi significativo


SVM: AUC de 0.6275

Podemos detectar emigração de brasileiros no Google+

Resultados
Será que é possível caracterizar e detectar emigrantes brasileiros no Google+?
Proposta
Filtragem dos brasileiros, Bagging, SVM
Campo multi-disciplinar
Johnnatan Messias, Gabriel Magno, Fabrício Benevenuto, Adriano Veloso, Virgílio Almeida
http://johnnatan.me
Features
Categóricas
Lógicas
Numéricas
Detecção
Predição
SVM
Kernel Linear vs RBF
Cross Validation: 5 folds
Parametrização: AUC
Scaling Gaussiano
Caracterização dos Emigrantes Brasileiros
EUA, Portugal, Espanha, Japão, Itália e Inglaterra

G+: 55.18%
IBGE: 70%
Emigrantes Brasileiros
Quem são os brasileiros?
PTBR em posts >= 90%
Morou no Brasil

Inclusão de mais features à base

50.946 usuários

Pré-processamento dos dados
Features categóricas
Codificação One Hot
35 features, e 45,429 usuários
42,817 não-mig. e 2,612 mig.
Bagging
Ganho de Informação (IG)
Resultado dos Modelos de Bagging com SVM
Full transcript