Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

A era do Big Data: possibilidades e desafios

No description
by

fabio campos

on 25 February 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of A era do Big Data: possibilidades e desafios

A era do Big Data
Evolução
O que é
Big Data?
a) Social media
social networks
Fonte
de dados
Evolução
do BI&A
Desafios:
pesquisa em Big Data
Evolução
dos dados
Quando?
1995
16 milhões de pessoas
conectados na Internet
b) Public
Conteúdos disponibilizados na web
c) Activity generated data
smartphones; tablets
web site tracking
sensor data
2005
Youtube é criado
+ de 1 bilhão de pessoas conectadas na Internet
2006
161 exabytes de dados criados no ano
d) Existing data warehouses
company data
legacy documents
“[…] referred to as the techniques, technologies, systems, practices, methodologies, and applications that analyze critical business data to help an enterprise better understand its business and market and make timely business decision” (CHEN et al, 2012)
Combined data
More powerful (1+1=3)
Tópicos
Quando???
Promessas
Evolução dos dados
Fonte de dados
O que é Big Data?
Evolução do BI&A
Big Data na prática
Desafios: Pesquisa em Big Data
Considerações finais
2012
Volume global de dados subiu
para 2.8 zettabytes
aproximadamente 72 horas de videos é carregado
na internet por minuto

Internet das coisas
Quanto é 1 zetabyte???
1 Zetabyte = 1 Billion Terabytes
Técnicas &
Tecnologias
Multiple Data
Sources
Prediction and
Optimization
Models
Organizational
Transformation
1 Exabyte = 1 Billion Gigabytes
404 Billion CD's
Pile of CD's would reach further than the moon
Exemplos
E-Commerce
and Market
Intelligence
E-Government
and Politics
Science and Technology
Smart Health
Security and Public safety
unstructured
semi - structured
partly structured,
semi structured
BI&A 1.0
1990
Relational Database management Systems (RDBMS)
Data Mining and Statistical
Extraction, transformation and Load (ETL)
Online Analytical Processing (OLAP)
Web Intelligence
Web Analytics
and the user-generated content
centered on text and web analytics for unstructured web contents
Mobile phones and tablets
The ability of such mobile and Internet-enabled devices support highly mobile and location-aware
Unlike BI&A 1.0 technologies that are already integrated
into commercial enterprise IT systems, future BI&A 2.0 systems
will require the integration of mature and scalable techniques in text mining (e.g information extraction, topic identification, opinion
mining, question-answering), web mining, social network analysis,
and spatial-temporal analysis with existing DBMS-based BI&A 1.0 systems (Chen et al, 2012)
BI&A 3.0
2010
BI&A 2.0
2000
The Netflix filtering algorithm to predict user movie.
For Social media analytics of
customer opinions, text analysis
and sentiment analysis techniques are
Frequently adopted [...] Various analytical
techniques have also been developed for
products recommender systems
FEW, S. (2012). Big data, big ruse
McKinsey Global Institute (2011) “Big Data: The Next Frontier for Innovation, Competition, and Productivity,
MINELLI, M.; et al (2013). Big Data, Big Analytics: Emerging Business Intelligence and Analytic Trends for Today´s Businesses.
ZIKOPOULOS, P.; et al (2012) Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data. McGrawHill.
Big Data: como é visto?
CHEN, H et al. (2012)
BUSINESS INTELLIGENCE
AND ANALYTICS:
FROM BIG DATA
TO BIG IMPACT
TECH AMERICA FOUNDATION. Demystifying Big Data: A Practical Guide To Transforming The Business of Government. 2012
BORRERO S., CABALLERO, G. Crawling big data in a new frontier for socioeconomic research : testing with social tagging.
Big Data na
prática
Nada de novo!
BI&A Related Field
Revolução
Promessas
“Big data” refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. (MCKINSEY, 2011)
we don’t define big data in terms of being larger than a certain number of terabytes (thousands of gigabytes). We assume that, as technology advances over time, the size of datasets that qualify as big data will also increase. (MCKINSEY, 2011)
Balanço
crítico

SDSS - Sloan Digital Sky Survey
Over its eight years of operation, it obtained deep, multicolor images covering more than a quarter of the sky. Continuing to gather data at a rate of 200 gygabytes per night
The International Large Hadron Collider (LHC) effort
for high-energy physics is another example of Big Data,
Producing about 13 petabytes of data in a year
Agent-based models – estudar rede de contágio de doenças e redes terroristas ou de criminosos
Social influence e modelos de difusão de modelos – estudar evolução de redes
Dinâmicas de opinião e informação
Exponential random graph models
ERGM – família de modelos estatísticos para apoiar inferência estatística no processo de influenciar a formação da estrutura da rede
Outras técnicas
Community detection: através da representação da rede como um gráfico, uso de algoritmos de partição para encontrar corte mínimo para obter subgráficos densos representando usuários de comunidades
Evolução da análise bibliométrica baseada em citações
-Teorias de rede, métricas de rede, topologia -modelos matemáticos para entender relações e propriedades da rede
Não é parte das plataformas comerciais de BI&A – Ucinet, Pajek, ERGM
Promessas de análise: comunidades virtuais, redes criminosas e terroristas, redes políticas e sociais, rede de confiança e reputação
Network analytics
Desafios: pesquisa em Big Data
Link mining: descobrir ou prever links entre nós da rede
National Archive and Records Administration (NARA)
Provides Electronic Records Archive and Online Public access sustems for US records and documentary heritage
124 TB of data
Promessas e Desafios
IBM® i2® COPLINK® is a database application that consolidates policing data, aids collaboration and helps generate tactical leads. COPLINK comes with the enhanced functionality of IBM i2 COPLINK Detect, which provides the core capabilities of COPLINK, including a large COPLINK database that centralizes data from many sources. Users can generate photo lineups, save their search history and organize investigations so they can easily generate reports.
Planejamento

O que realmente podemos absorver
como apoio à tomada de decisão

Avaliação
Network analytics
E para nós?
Por trás do modismo

Aplicação de formas existentes de análise para novas áreas de dados abundantes + novas formas de coleta, armazenamento e busca
Novos insights vão surgir da interação efetiva com dados, baseado em habilidade estatística apoiada por ferramentas especialmente de análise visual
More is better?
Confusão entre monitorar dados e avaliar resultados – informação é valiosa quando o uso é para fazer algo que vale à pena
O que realmente importa é a habilidade crescente de entender dados e tomar melhores decisões com base nesta compreensão
Melhor desenvolver thinking skills
Muito das promessas de BIG data são BRAWN (força física) e não BRAIN
Balanço crítico
Interesse parte da iniciativa dos vendedores, não da necessidade dos usuários
Em geral textos e consultorias não apontam o outro lado.
--> Custos
de criar mecanismos para obter dados Integrar bases de dados e Sensores, logs de tudo
Privacidade, segurança, Propriedade Intelectual e acurácia
Mudança organizacional para aproveitar tudo isso.
Acesso aos dados
Pessoal com qualificação
Coletar mais dados pode ser distração – tempo poderia ser mais bem gasto com thinking skills
Balanço crítico
Big Data se tornou (tornará) fator de produção? Para todos os setores?

Vai substituir tomada de decisão humana por algoritmos – que tipo de decisão?
Não são mais necessários especialistas? 
Aplicação da lógica de varejo e setores onde dados transacionais são relevantes para o resto da economia
Usar todos os dados ao invés de amostras é realmente o caminho?
Balanço crítico
OBRIGADO!!!
Fábio R. Campos (Geopi/DPCT) - fabiorochacampos@outlook.com
Ana Maria Carneiro (Geopi/NEPP) - anamaria.carneiro@gmail.com
Full transcript