Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

O Pré-Processamento em Mineração de Dados como método de suporte a modelagem algorítmica

Apresentação da dissertação de mestrado
by

Michel De Almeida Silva

on 23 July 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of O Pré-Processamento em Mineração de Dados como método de suporte a modelagem algorítmica

Os dados reunidos em único arquivo arff (padrão Weka) com 4913 instâncias das 5333 originais;
O algoritmo Apriori foi executado sobre essa base;
As regras geradas foram avaliadas com base na confidence (min. 0.8; max. 1.0) , support (min. 0.1; max. 1.0) e lift (min. 1.5; max. 3.5).

Experimento

Transformação dos Dados:
Em valores numéricos a “,” foi substituída pelo “.”;
Datas foram uniformizadas no padrão dd/mm/yyyy;

Pré-processamento

Redução dos dados:
Uso do algoritimo CfsSubsetEval para descobrir atributos irrelevantes;
Dos 33 atributos iniciais, a base foi reduzida para 14;

Pré-processamento

Integração dos dados:
Reduzir redundâncias e inconsistências;
Utilizando código da amostra como chave de ligação entre os arquivos;
Criado um único arquivo CSV.

Pré-processamento

Levantamento dos algoritmos de Mineração de Dados;
Regras de associação;
Algoritmo Apriori;
Uso da Waikato Environment for Knowledge Analysis (Weka).
Metodologia da Mineração dos Dados

As larvas foram separadas de acordo com o estágio de desenvolvimento em: larval vitelínica, pré-flexão, flexão e pós-flexão;
Os dados obtidos foram organizados considerando as datas e os locais de amostragem, o ponto de realização da coleta;
Armazenamento em dois arquivos xls. Um para dados abióticos e outro para bióticos;
Pouco mais de 5 mil registros.

Coleta de dados

Monitoramento da fauna de peixes na área de influência da Usina Hidrelétrica do Lajeado, na bacia do Rio Tocantins;
Uma das primeiras bases sistematizadas de informação do grupo de pesquisa na Amazônia Legal;
As informações obtidas constituem um conjunto de dados ainda não explorado.

Base de dados do ictioplâncton

Michel de A.Silva, Daniela Queiroz Trevisan, David N. Prata, Elineide E. Marques, Marcelo Lisboa, Monica Prata

Objetivos Específicos

Demonstrar que o pré-processamento de dados faz-se necessário como método de suporte à modelagem algorítmica, em particular a Mineração de Dados para conjuntos de dados de ictioplâncton e bases de dados do Governo Federal do Brasil.

Objetivo Geral
Métodos algorítmicos podem ser utilizados como alternativa aos métodos estatísticos tradicionais na modelagem do problema;
O pré-processamento é muitas vezes a chave para resolver o problema;
Pode ser a diferença entre uma modelagem algorítmica realizada com sucesso e a fracassada;
Se não for realizado corretamente pode inviabilizar a informação utilizável.

Recompensas:

Aumento da qualidade dos dados;
Diminuição do tempo destinado à Mineração de dados;
Melhor entendimento da natureza dos dados.

Cerca de 70% do tempo despendido a pesquisa é gasto no pré-processamento dos dados.

i. valores errados;
ii.   ruídos;
iii.   dados ausentes;
iv.   inconsistências, devido ao seu enorme tamanho;
v.   dados redundantes;
vi.  distribuídos em múltiplas fontes heterogêneas.

a)  automaticamente faz predições precisas a partir dos dados;
b)  possui capacidade para lidar com um grande número de variáveis preditoras e de identificação das variáveis mais importantes;
c)  trata o modelo como uma caixa preta onde o pesquisador não tem necessidade de fazer suposições sobre o relacionamento das variáveis preditoras e as de resposta.

A partir dos resultados obtidos a Mineração de Dados foi refinada;
Regras sem valor segundo a especialista em ictiofauna foram descartadas;

Resultados

Os 14 atributos selecionados pelo CfsSubsetEval

Pré-processamento

Limpeza dos dados:
Dados ausentes substituidos por “?”;
Valores fora de padrão para o tipo da entrada (
outliers
), como por exemplo valores de "99999";

Pré-processamento

Uso das métricas de avaliação:
Confidence: o número de instâncias que a regra prevê corretamente, expressa como uma percentagem de todas as instâncias a que se aplica;
Support: a cobertura de uma regra de associação é tida como o número de instâncias para as quais a regra prevê corretamente;
Lift: indica o quanto mais frequente torna-se B quando A ocorre.

Metodologia da Mineração dos Dados

Motivação:
“existe alguma relação entre os fatores abióticos com o estágio das larvas?”

Introdução

Estado-da-Arte
SKICAT (Sky Image Cataloging and Analysis Tool)
Primeira ferramenta de destaque em Mineração de Dados;
O SKICAT ajudou a descobrir 16 novos quasares (quasi-stellar radio source).

Conceitua o KDD;
Técnicas: árvores de decisão, regressão não-linear e modelos de aprendizagem relacional;
A escolha do método depende do domínio e dos dados.

Duas abordagens para análise de dados:
Modelagem de dados;
Modelagem algorítmica.
Usina de Lajeado (Usina Hidrelétrica Luís Eduardo Magalhães);
Período de coleta: abril de 2010 a março de 2012;
Locais de coleta: doze pontos localizados no reservatório, na cabeceira e foz de seus principais afluentes.

Coleta de dados

Objetivo: prever reprovação;
Conjunto de dados escolares (frequência nas aulas, notas…);
Pré-processamento como resolução da alta dimensionalidade;
Demonstra ganho na precisão das regras de classificação com o pré-processamento.

Mineração de Dados em bancos genéticos;
O pré-processamento reduz o número de características a serem analisadas pelos algoritmos levando a uma maior precisão e predição das novas características.

IRPM (Interdisciplinary Research Project Management, Gerência de Projetos de Pesquisa Interdisciplinar)

IRPM
Justificativa
Em pesquisas científicas eventualmente há alguma coleta de dados e muitas vezes bases de dados são formadas a respeito do tópico pesquisado.


Universidade Federal do Tocantins – UFT
Programa de Pós-Graduação Modelagem Computacional de Sistemas

Orientadores: prof. Dr. David Nadler Prata e prof. Dr. Patrick Letouze Moreira
Michel de Almeida Silva
Relação entre o lift e o support para as 979 regras de associação geradas e seus limites

Resultados
Relação entre a confidence e o support para as 979 regras de associação geradas e seus limites

Resultados
Atributos discretizados

Pré-processamento

Dados abióticos

Coleta de dados

Apriori e J48
Algoritmos:
http://www.r-project.org/

http://www.cs.waikato.ac.nz/ml/weka/

Metodologia
Knowledge Discovery in Database
KDD
Como objetivo futuro pretende-se desenvolver um trabalho comparativo entre modelagem de dados e modelagem algorítmica.

Para pesquisas interdisciplinares, sugere-se como trabalho futuro consolidar o processo apresentado na seção de metodologia com o IRPM.
Conclusões da Dissertação

Existem muitas técnicas para o pré-processamento de dados como limpeza, integração, redução e transformação dos dados e essas técnicas não são mutuamente exclusivas;

A área de pré-processamento de dados continua sendo uma área ativa de pesquisa;

Conclusões da Dissertação

No Brasil, políticas de combate ao trabalho infantil são oferecidos pelo Governo Federal e os dados dos programas são armazenados em banco de dados pouco utilizados por pesquisas algorítmicas;
Mineração de Dados pode ser aplicada para descoberta de conhecimento, servindo como suporte para tomada de decisões;
Comparações entre dados de antes e depois do fornecimento de auxílios às famílias, bem como comparativos entre Estados brasileiros são apontados como trabalhos futuros.

Conclusão

Seleção de atributos feita com o algoritmo CfsSubsetEval do Weka.

Pré-processamento

Algoritmo J48;
Uso da Waikato Environment for Knowledge Analysis (Weka);

Metodologia

Sim
, existe relação entre os fatores abióticos com o estágio das larvas de peixes;
As regras estão em concordância com a realidade da ictiofauna encontrada nos locais de amostragem;
Considerações finais

michel@uft.edu.br

Obrigado
O pesquisador deve análisar os dados e manter o foco no problema, analisando entradas, custo computacional e resultados;

Muitas pesquisas possuem o perfil para utilizar Mineração de Dados como forma de explorar suas bases de dados antes mesmo de formularem hipóteses;

Conclusões da Dissertação

Não houve trabalho infantil nas famílias que receberam benefícios do PBF;
Atributo renda familiar não é conclusivo sobre o trabalho infantil;
Frequência escolar exerce algum impacto sobre o trabalho infantil, no caso de desistência escolar e no caso de estudar em escola particular e possuir renda familiar entre R$ 66,50 e R$133,00.

Resultados e Discussões

Árvore de decisão gerada pelo algoritmo J48 do Weka

Resultados e Discussões

Utilização do conjunto de dados pré-processados com um total de 299.614 registros;
Aplicação do algoritmo J48 para os 5 atributos selecionados (sexo da criança, renda familiar, frequência escolar, índice de trabalho infantil, existência de assistência pelo programa Bolsa Família);

Experimentação

Integração dos dados;
Limpeza dos dados;
Redução dos dados;
Transformação dos dados;

Pré-processamento

Mantido há mais de 15 anos pelo governo brasileiro;
Registra famílias em risco social;
Dividida em dois conjuntos: família e indivíduo;
92 atributos;
840.000 registros.

Organização dos Dados
O Programa de Assistência Social Cadastro Único (CadÚnico), do Governo Federal do Brasil, é um instrumento para identificar e classificar famílias de baixa renda

Descobrir os fatores determinísticos para a prática do trabalho infantil no Estado do Tocantins.

Objetivo

Diego C. Rodrigues, David N. Prata, Michel A. Silva
As 10 melhores regras encontradas
Resultados

O trabalho infantil
De acordo ao OIT (Organização Internacional do Trabalho) aproximadamente 218 milhões de crianças entre 5 e 17 anos trabalham no mundo, das quais 50% têm trabalhos de risco.

Regras que envolvem o atributo estágio

Resultados

Pré-processamento
Mineração de Dados
Pós-processamento
O Pré-Processamento em Mineração de Dados como método de suporte à modelagem algorítmica
Introdução
Mineração de Dados
Pré-processamento
Visão Geral do Problema
Demonstrar a importância do
pré-processamento para melhorar a qualidade dos resultados obtidos na Mineração de Dados.
Explorar bases de dados do Programa e Assistência Social Cadastro Único (CadÚnico) do Governo Federal.
Demonstrar a utilidade da Mineração de Dados para realização da análise exploratória.
Explorar bases de dados de ictioplâncton de um reservatório de água doce da Amazônia Legal
Aplicação do algoritmo Apriori para uma base de dados de ictioplâncton em um reservatório de água doce da Amazônia Legal

Dados bióticos
Dados abióticos
Explorando dados sociais para entender o trabalho infantil
Organização dos Dados
Conjuntos de dados do mundo real:
Diagrama do processo utilizado no presente trabalho.
Processo
Nos dois trabalhos apresentados a aplicação das técnicas de Mineração de Dados somente foi possível após a realização do pré-processamento dos dados;

Conclui-se que a Mineração de Dados pode pode ser utilizada como suporte a análise exploratória dos dados, desde que os dados passem pela fase do pré-processamento;


Conclusões da Dissertação
Full transcript