Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Árvore de Decisão J48

Aplicação de Algoritmo de Árvore de Decisão J48 na Base de Dados de Registros de Votos de 1984 do Congresso dos Estados Unidos - Por Erick Marcelino, EricK Simões e Nathalia Codeceira.
by

EricK Simões

on 27 November 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Árvore de Decisão J48

Congelamento de taxas médicas
Aplicação de Algoritmo de Árvore de Decisão J48 na Base de Dados
Registros de Votos de 1984 do Congresso dos Estados Unidos

Análise
Simulação
Conclusão
Os Atributos
Para a realização deste primeiro teste, será usado:
O Algoritmo
Algorítmos de ávore de decisão como o J48 - utilizado nos testes aqui apresentados - dentre outras, traz as seguintes vantagens aos pesquisadores que a escolherem:

Simples compreensão e interpretação:
qualquer pessoa torna-se apta a compreender árvores de decisão após uma leve explicação;
Requer pouca preparação de dados:
em outras técnicas, faz-se necessária a normalização de dados, valores em branco precisam ser removidos... Dentre outras preparações.
Apresenta boa performance com grandes bases de dados:
Grandes quantidades de dados podem ser analisadas em um computador padrão num tempo razoável.
São as 16 categorias de voto identificadas pelo CQA:

Crianças com deficiência
Projeto para compartilhamento de custos com água
Adoção do orçamento de resolução
Congelamento de taxas médicas
Ajuda a El Salvador
Grupos religiosos nas escolas
Proibição antissatélites de teste
Ajuda ao Nicarágua
Míssil MX
Imigração
Corte das corporações de combustíveis sintéticos
Gastos com educação
Direito de processo do Superbund (projeto de localização, investigação e limpeza de aterros tóxicos)
Combate ao crime
Isenção de tarifas de exportação
Exportar ações administrativas à África do Sul
votou a favor
simpatiza com
anunciou para
Sim
Considerado como
(yes)
votou contra
simpatiza contra
anunciou contra
Não
Considerado como
(no)
votou presente
votou presente para evitar conflito de interesses
não votou ou invalidou o voto
Desconsiderados
(?)
Objetivo
O objetivo é identificar a posição política dos congressistas (Democrata ou Republicano) segundo atributos especificados na base de dados (áreas para aplicação de recursos) através da aplicação do algoritmo de árvore de decisão J48.
São 435 instâncias (267 democratas, 168 republicanos)
A Base de Dados
Esta base de dados inclui votos para cada um dos Congressistas da Câmara dos Representantes do EUA de 1984 em 16 categorias de votos identificados pelo CQA (Congressional Quarterly Almanac) para aplicação de recursos financeiros.
O CQA enumera nove tipos diferentes de votos:
O Algoritmo
O Algoritmo J48 consiste numa implementação Open Source em Java do Algoritmo C4.5 para a ferramenta Weka.
É característicamente um clasificador pois gera uma árvore de decisão a partir de um conjunto de dados de treinamento.
Teste 01
Base de Dados com todos os seus atributos;
configurações padrões do Algoritmo de classificação J48;
Opção de teste, Use training set selecionada.
Visualização em árvore
Resultado 1
Teste 02
Para o segundo teste, seguimos com as mesmas configurações do Teste 01. Exceto pela
Opção de Teste,
que neste esta selecionada a opção
Cross-validation
.
Resultado 2
O modelo em árvore continuou o mesmo do Teste 01.
Para o terceiro teste, realizamos as seguintes modificações:
Teste 03
Removemos os seguintes atributos da base de dados:
Nas Configurações do Algoritmo j48:
resultado 3
Gráfico do atributo Imigração.
2 - Water-project-cost-sharing;
10 - Immigration
Gráfico do atributo Projeto de custo de compartilhamento de água.
Dados de Treinamento
S1
Vetor multi-dimensional
S2
S3
S4
X1
Atributos e classe a que se refere
X2
X3
X4
Com relação a opção de teste...
Como o melhor resultado obtivemos com a opção 'Use training set' selecionada, decidimos dar continuidade aos teste com ela.
Para o quarto teste, realizamos as seguintes modificações:
Teste 04
Removemos os seguintes atributos da base de dados:
Nas Configurações Padrão do Algoritmo j48:
resultado 4
4 Physician-fee-freeze
Com relação a opção de teste...
Lembrando que continuamos com a opção
'Use training set' selecionada.
Atributo mais significativo
Em quase todas as árvores geradas pelo algoritmo, o atributo 'Congelamento de Taxas Médicas' é a raiz,
Cerca de 5% a mais de erro na classificação quando esta ausente.
Classificação no modelo de visualização
em árvore.
Para o quinto e ultimo teste, realizamos as seguintes modificações:
Teste 05
continuamos com a remoção na base de dados apenas do atributo 4 -physiciam-fee-freeze.
Nas Configurações Padrão do Algoritmo j48:
resultado 5
Classificação no modelo de visualização
em árvore.
Erick Marcelino
EricK Simões
Nathalia Codeceira
Full transcript