Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Tutorial de KNIME

No description
by

Hugo Arenari

on 10 December 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Tutorial de KNIME

Tutorial de KNIME
Nºdo Slide
Classificação
Syan Souza, Helio Ferreira, Hugo Arenari
O QUE É KNIME?
Funcionalidade central disponível para tarefas como Mineração de dados padrão, análise e manipulação

Funcionalidades extras disponíveis através de extensões obtidas através de varios grupos e forencededores.

Escrito em Java baseado na plataforma Eclipse SDK
Possibilidades com o KNIME
Manipulação e análise de dados
Arquivos e banco de dados E/S, ordenar, filtrar, etc...
Data mining / aprendizado de máquina
R, WEKA, plotagem interativa
Quimio-informática
Converções, similaridade, agrupamento, análise (Q)SAR, reações enumeradas
Integração de script
R, Perls, Python, Matlab, Octave, Groovy
Reporting
Mais
Bio-informática, análise de imagens, network and text mining

KNIME = Konstanz Information Miner

Desenvolvido na Universidade de Konstanz na Alemanha

Versão de Desktop gratuita (Open Source)

Plataforma modular para criar e executar WORKFLOWS usando componentes predefinidos, chamados NODES
Tela de boas vindas
Quando KNIME é iniciado pela primeira vez, uma tela de boas vindas abre. Dela é possível:
1- Open KNIME workbench: Abre o KNIME workbench para iniciar imediatamente a exploração do KNIME, criar seu próprio workflow e explorar seus dados.
2- Get additional nodes: Na instalação básica do KNIME, há plugins adicionais para por exemplo, integração R e Weka, ou integração do Chemistry Development Kit com nodes adicionais para o processamento da estrutura química, componentes e etc. Você também pode fazer o download dessas ferramentas mais tarde em FILE->UPDATE KNIME.
VISÃO GERAL DO WORKBENCH
Workflow Projects
Todos os workflows do KNIME são exibidos no Workflow projects view. O status do workflow é indicado por um ícone mostrando se o o workflow está fechado, inativo, executando ou se a execução está completa.
Favorite Nodes
O Favorite Nodes view mostra seus nodes favoritos, mais frequentemente usados e recentemente usados. Um node é adicionado para seus favoritos por arrastar o node do node repository para seu favorite nodes pessoal. Sempre que um node é arrastado para o workflow editor, o último usado e o mais frequentemente usado sofre um update.
O favorite node view vem com as seguintes ações na barra de menu do view:


O número de nodes no mais frequentemente usados e ultimamente usados são por padrão restritos a 10 nodes. Esse número pode ser ajustado em preferences. Selecione "File/Preferences.../KNIME/KNIME GUI" para alterar o valor máximo.
Node repository


O node repository contém todos os nodes KNIME ordenados em categorias. Uma categoria pode conter outra categoria. Nodes são adicionados do repository para o workflow editor por arrastá-los até ele.
Selecionando uma categoria, mostra todos os nodes contidos no node description vire, selecionando um node, mostra ajuda para esse node.
Se você sabe o nome de um node, você pode digitar partes do nome na caixa de pesquisa do node repository. Enquanto você digita, todos os nodes são filtrados imediatamente para aqueles que contém o texto digitado em seus nomes.
Outline
A visão 'outline' permite uma visão geral sobre o workflow inteiro mesmo se apenas uma pequena parte está visível no editor de workflow (marcado em cinza na visão 'outline'). A visão outline pode também ser usada para navegação: o retângulo cinza pode ser movido com o mouse, o que causa o editor a rolar para que a parte visível combine com o retângulo cinza.
Console
A visão de console mostra mensagens de erro e aviso, a fim de lhe dar uma dica sobre o que está acontecendo por baixo dos panos. A mesma informação (com um nível de detalhe de DEBUG está escrita num arquivo de registro, que está localizada em {workspace}/.metadata/knime/knime.log).
Se quiser mudar o nível de detalhe (tanto do arquivo de registro, quando da visão de console), vá para File/Preferences.../KNIME para o nível de detalhe do arquivo de registro ou para File/Preferences.../KNIME/KNIME GUI para o nível de detalhe da visão de console.
Você pode escolher entre:
'DEBUG': Mensagens de debug principalmente usada para desenvolvimento. Não é recomendado usar isso para a visão de console porque ele deixa o KNIME mais lento.
'INFO': Mensagens de informação de registros. Não é realmente imporetante, mas também não é completamente inútil!
'WARNING': Se um node falhar em configurar uma mensagem de aviso, também será avisado. Mensagens de aviso não sao fatais; geralmente o workflow pode continuar a ser executado, mas elas avisam que algo que vale a pena saber aconteceu. Nível default? e recomendado para a visão de console.
'ERROR': Apenas enviado quando algo fatal aconteceu, por exemplo, o workflow nao pode mais ser executado.

Descrição de node
A descrição de node mostra informação sobre o node selecionado (ou os nodes contidos em uma categoria selecionada). Em particular, explica as opções de diálogo, as visões disponíveis, os dados de entrada esperados e os dados de saída resultantes. Com Linux ainda tem problemas com essa visão, pois ele precisa do browser do sistema operacional.
"KNIME/Eclipse tenta encontrar um browser baseado no Mozilla automaticamente, se o ambiente variável MOZILLA_FIVE_HOME não estiver definido. O knime.sh deveria indicar que browser ele está usando neste caso. Você pode tentar explicitamente definir o MOZILLA_FIVE_HOME para o diretório do firefox e se isso não ajudar, você tambem pode tentar passar "-Dorg.eclipse.swt.browser.XULRunnerPath=..." para o knime.sh. Existe um problema conhecido com o Firefox 3 (e xulrunner >=1.9) para o qual não tem nenhuma solução alternativa a não ser usar uma versão mais antiga. Isso também pode lhe causar alguns problemas. Veja também o bug do eclipse no link a seguir: https://bugs.eclips.org/bugs/show_bug.cgi?id+236724.
A fim de fornecer uma busca de texto completa, as descrições de node também são integradas na ajuda do Eclipse. Selecione 'Help'/'Help Contents' do menu a fim de abrir a ferramenta de ajuda do Eclipse. Tem uma categoria KNIME, a qual tem um submenu 'Node Descriptions'. No campo de pesquisa, você pode fazer uma busca de texto completa sobre toda as descrições de node. Se, por exemplo, digitar a palavra "cluster", todas as descrições de node contendo a palavra 'cluster' serão marcadas:

Workflow Editor
O editor de workflow é usado para montar workflows, configurar e executar nodes, inspecionar os resultados e explorar seus dados. Esta seção descreve as interações possíveis dentro do editor.


Preferências
As preferencias são abertas por meio de: File/Preferences... As preferencias relacionadas ao KNIME são separadas em 3 categorias:

KNIME
Preferências do KNIME que também se aplicam ao KNIME se iniciado no modo batch


KNIME GUI
Preferencias relacionadas à interface gráfica do KNIME.
Chave Mestra
KNIME não salva nenhuma senha (por exemplo para databases) em texto normal, ao invés disso, as encripta usando uma chave mestra - se definido nas preferências.


Log file Log Level:
Nível de detalhe para o arquivo de registro. Valor default é DEBUG, o que significa que informação para os desenvolvedores também está includa. Este arquivo de registro pode ser mandado para os desenvolvedores do programa caso seja encontrado qualquer comportamento inesperado, o que pode ajudá-los a descobrir o que causou o problema.
Maximum working threads for all nodes:
O gerenciador de workflow do KNIME tenta otimizar o tempo de execução de todos os nodes, por exemplo, distribuindo ramos separados do workflow para diversas threads. Sempre que possível, os nodes rodarão em paralelo. E aqui você pode configurar quantas threads devem ser usados para paralelização. Por default é o dobro do número de CPU's. Isso foi provado a ser uma boa quantidade.
Directory for temporary files:
O KNIME precisa salvar alguns arquivos temporários (dados de workflows executados, mas não salvos) em algum lugar. Aqui é onde pode ser especificada a localização.
Console View Log Level:
Nível de detalhe para as mensagens de registros mostradas na visão de console. Geralmente 'WARNING' é suficiente. DEBUG diminui a performance e é geralmente útil para desenvolvimento.
Confirm Node Reset:
Marcar ou desmarcar conforme você queira se uma mensagem de confirmação aparece quando você resetar um node já executado. Se você marcou a opção 'Do not ask again' neste tipo de diálogo, vá para as preferências para fazer elas reaparecerem.
Confirm Node/Connection Deletion:
O mesmo que o Reset, mas para confirmação da ação de apagar nodes e/ou conexões.
Confirm reconnection of already connected nodes:
A partir do KNIME 2.0 passou a ser possível fazer uma conexão para uma porta já conectada. A conexão é substituída se o node estiver configurado, mas se for executada (e será resetada pela substituição da conexão) um diálogo de confirmação aparecerá. Este diálogo de confirmação também pode ser ligado ou desligado por esta preferência.
Maximum size for most frequently used nodes:
A quantidade de nodes mantidos pela categoria de nodes mais frequentemente usados da visão de 'Favorite Nodes'.
Maximum size of last used nodes:
A quantidade de nodes mantidos pela categoria de últimos nodes usados da visão de 'Favorite Nodes'.

Opções de node
Configure
Quando um node é arrastado para o editor de workflow ou conectado, ele geralmente mostra a luz de estado vermelha indicando que precisa ser configurada, como por exemplo, quando o diálogo tem que ser aberto. Isto pode ser feito tanto por um clique duplo no node ou por um clique com o botão direito no node para abrir o menu de contexto. A primeira entrada do menu de contexto é "Configure", que abre o diálogo. Se o node estiver selecionado, você também pode escolher o botão relecionado da barra de ferramentas acima do editor. O botão parece com o ícone próximo à entrada do menu de contexto.


Execute

No próximo passo, você provavelmente quer executar o node, ou seja, você quer que o node faça sua tarefa nos dados. Para este fim, clique com o botão direito no node a fim de abrir o menu de contexto e selecione "Execute". Você também pode escolher o botão relacionado da barra de ferramentas. O botão parece com o ícone próximo a entrada do menu de contexto.
Não é necessário executar cada node: se você executar o último node de nodes conectados, mas ainda não executados, todos os nodes predecessores irão ser executados antes do último.


Execute All

Na barra de ferramentas acima do editor, também tem um botão para executar todos os nodes ainda não executados no workflow.
Isto também funciona se um node no workflow está aceso com a luz de estado vermelha devido a informação faltando no node predecessor. Quando o node predecessor for executado e o node com a luz de estado vermelha puder aplicar suas configurações, ele será executado assim como seus sucessores. O gerente de workflow subjacente também tenta executar ramos do workflow em paralelo.


Execute and Open View

O menu de contexto de node também contem a opção "Execute and open view". Isto executa o node e imediatamente abre a visão. Se um node tem mais que uma visão, apenas a primeira será aberta.


Open View

Um node poder ter nenhuma, uma, ou várias visões. Cada visão aparece como uma entrada no contexto de menu do node. Selecione a fim de abrir a visão relacionada. Uma visão que é aberta antes do node ser executado receberá um update assim que o node for executado. Você pode abrir a visão de um node várias vezes, por exemplo, caso você queira comparar colunas diferentes em um gráfico de dispersão(scatterplot). A visão será automaticamente resetada caso o node seja resetado.


Open Out-port View
Se um node não tem uma visão, mas você está interessado no resultado da operação do node nos dados, você pode inspecionar os dados. Isto está disponível na porta de saída do node. No fundo do menu de contexto tem uma entrada pra cada porta de saída do node. Cada uma abre a visão de porta de saída correspondente. Note que a visão de porta de saída não suporta interações ou hiliting. Se você quiser fazer hilite nos dados ou ver dados 'hilitados', você terá que conectar a porta de saída para o node de "interactive Table".


Reset
Você pode resetar um node escolhendo a opção de reset pelo menu de contexto. O node retorna do estado de executado (luz de estado verde) para estado configurado (luz de estado amarela). Se o node estiver selecionado, você também pode escolher o botão relacionado da barra de ferramentas acima do editor. O botão parece com o ícone ao lado da entrada no menu de contexto.


Cancel
Se um node estiver executando, você pode cancelar a execução selecionando a opção de "Cancel" do menu de contexto ou do botão relacionado (mesmo ícone ao do menu de contexto) da barra de ferramentas.


Cancel All

A barra de ferramentas contém também um botão de "Cancel All", que cancela a execução de todos os nodes em funcionamento.


Enter Custom Node Name

Quando um node é arrastado para o workflow, ele fica com um nome como "Node 1" ou similar por default abaixo da luz de estado. Este nome pode ser mudado para melhor descrever o que o node está fazendo, como por exemplo: "filtrar valores > 10". Isto pode ser feito selecionando o node e então clicando no nome: o nome se torna editável. Aperte "Return" para aplicar suas mudanças.


Enter Custom Node Description

No menu de contexto, você também encontrará a opção "Node name and description". Selecionando isto abrirá um diálogo para entrar um novo nome para o node. Em adição você pode entrar com uma descrição mais detalhada ou notas sobre o node. Esta ação também é disponível por meio de um botão na barra de ferramentas.


Connections

Você pode conectar dois nodes arrastando o mouse da porta de saída de um node para a porta de entrada de outro. Loops não são permitidos.
Se um node já está conectado, você pode substituir a conexão existente arrastando uma nova conxeão. Se o node já estiver conectado, será pedida uma confirmação do reset resultante do node alvo. Também é possível arrastar o fim de uma conexão existente para uma nova porta de entrada (tanto do mesmo node ou para um node diferente).


Importação de Workflows

Você pode importar um workflow tanto de uma área de trabalho diferente ou de um arquivo .zip, como por exemplo, no caso do workflow ser exportado do KNIME. A ferramenta de importação pode ser aberta tanto pelo menu "File/Import KNIME workflow..." ou abrindo o menu de contexto na visão de projetos de workflow e selecionando "Import KNIME workflow...".

Selecione opção 'Select root directory' se quiser importar workflows de outra área de trabalho. Selecione a opção 'Select archive file' se quiser selecionar o workflow zipado. Selecione os workflows que quiser importar. Se um workflow com o mesmo nome já existe na sua atual área de trabalho, a importada pode ser renomeada na próxima página da ferramenta. Clicando em OK, o projeto será importado para a sua área de trabalho. Se você desmarcou a opção "Copy projects into workspace", mudanças para aquele workflow também se aplicarão ao workflow na localização de origem.

Exportação de Workflows

A ação de exportar workflow também é disponível via o menu (File/Export KNIME workflow...) ou por meio do menu de contexto na visão de projetos do workflow. Ambos abrem a ferramenta de exportação de workflow. Selecione o workflow que você deseja exportar. Se você clicar com o botão direito num workflow para abrir a ferramenta de exportação, tal workflow estará pré-selecionado. No segundo campo coloque a localização alvo ou entre com o caminho que leva para a localização de destino da exportação.

Construindo um Workflow
Um workflow é criado arrastando nodes do 'Node repository' em Workflow Editor e conectá-los. Nodes são a unidade básica de processamento do workflow. Cada node tem um número de portas de entrada e/ou saída. Dados são transferidos através de conexão entre uma porta de saída de um node para uma porta de entrada de outro node.

Node Status

Quando um node é arrastado para dentro do editor workflow, a luz de status fica vermelha, o que significa que o node precisa ser configurado para ser capaz de ser executado. Um node é configurado por click botão direito, escolhendo, configure e ajustando as configurações necessarias no node's dialog.


Quando o diálogo é fechado por pressionar o butão Ok, o node é configurado e a luz muda para amarelo, o que significa que o node está pronto para ser executado. Click botão direito no node novamente para mostrar a opção 'Execute', pressionar esta opção fará com que o node execute e o resultado desse node estará disponível na porta de saída. Após uma execução bem sucedida, a luz do node passa para verde.

O resultado pode ser inspecionado por checar a 'view' da porta de saída.
Portas
Portas na esquerda são portas de entrada, onde os dados da porta de saída do node predecessor é fornecido. Portas na direita são portas de saída. O resultado da operação dos nodes nos dados é provida na porta de saída do node sucessor. Um 'tooltip' da informação sobre a saída dos nodes, informação adicional pode ser encontrada da descrição do node.

Nodes são classificados de modo que apenas portas do mesmo tipo podem ser conectadas.

Data Port:
O tipo mais comum é o data port que transfere dados de node para node (um triângulo branco):
Database Port:
Nodes executando comandos dentro de base de dados podem ser reconhecidos por suas databases ports (quadrado marrom):
PMML Port:
Data Mining nodes aprendem um modelo que é passado para o node predecessor referido via PMML port (quadrado azul):

Outras Portas:
Sempre um node provê dados que não se encaixam, uma tabela de dados estrutura uma porta de dados para um uso geral (quadrado cyan escuro). Portas que não são de nenhum dos gêneros anteriormente citados, são mostradas como tipo desconhecidas (quadrado cinza):

Exemplo de workflow

Agora mostraremos um passo a passo através do processo de criação de um pequeno e simples workflow: Lemos os dados de entrada de um arquivo ASCII, ecolhemos a cor, agrupamos os dados e exibimos os dados em um Interactive Table e um Scatter Plot. Depois de executarmos esse flow, devemos examinar o modelo de dados que foi criado.

Adicionando nodes
No 'Node Repository' expanda o "IO" e a categoria "Read" assim como descrito abaixo e arraste e solte o icone 'File Reader' na janela 'Workflow Editor'. O próximo node por enquanto será o algoritmo de agrupmaneto K-Means. Expanda a categoria de Mining seguido pela categoria de Clustering, e arraste o node K-Means para o flow.

Na caixa de pesquisa do Node Repository entre com "color" e pressione enter. Isso limita os nodes apresentados para aqueles com "color" em seus nomes. Puche o node Color Manager para o workflow. Para ver novamente todos os nodes no repository, pressione ESC ou Backspace na área de pesquisa do Node Repository. Agora arraste o Interactive Table e o Scatter Plot da categoria Data Views para o Workflow Editor e posicione para a direita do node Color manager.
Conectando nodes
Agora você precisa conectar os nodes para conseguir que os dados fluam. Click em uma porta de saída e arraste a conexão para uma apropriada porta de entrada. Complete o Flow como a imagem abaixo:
Seus nodes não irão conter a luz verde, já que eles não foram configurados e executados.
Configurando nodes

Nodes completamente conectados e que mostram uma luz vermelha precisam ser configurados. Inicie com o File Reader, click botão direito nele e selecione Configure. Navegue para o diretório IrisDataSet localizado no diretório de instalação do KNIME. Selecione o arquivo data.all. O file reader's preview table mostra um exemplo dos dados.

Pressione Ok para fechar o dialogo do node File reader. Uma vez que os nodes forem configurados corretamente, eles mudarão para a luz amarela. Depois disso, o node K-Means vai imediatamente se tornar amarelo, já que suas configurações padrão irão ser aplicadas. Para ter certeza que a configuração padrão se adequa às suas necessidades, abra o dialogo e inspecione as configurações padrão.

Em sequência parar configurar o node Color Manager você primeiro precisa executar o K-Means. Após a execução, todos os valores e alcances de todos os atributos serão conhecidos, essa meta informação é propagada para os nodes sucessores. O Color Manager precisa desses dados antes que ele possa ser configurado. Uma vez que o node K-Meas é executado. Abra as configurações do node Color Manager.

Executando Nodes

Agora execute o node Scatter plot, o workbench irá executar todos os nodes predecessores. Em um flow maior e mais complexo, você poderia selecionar múltiplos nodes e iniciar a execução parar todos eles. O workflow manager vai executar os nodes a medida do necessário, se possível, em paralelo.

Inspecionando os resultados
Em sequência para examinar os resultados, abra a view do node. Em nosso exemplo, o K-Means, o Interactive table e o Scatter plot tem views. Abra-os a partir do node's context menus.

Hiliting
Selecione alguns pontos no Scatter plot a escolha "Hilite Selected" a partir do "Hilite" menu. Os pontos hilites são marcados com bordas laranja. Você também vai ver pontos hilited na interactive table view. A propagação do status hilitie funciona para todas as views em todos os ramos do flow mostrando os mesmos dados.
Usando Meta Nodes
Meta nodes são nodes que contém subworkflows, como por exemplo, no workflow eles parecem com um único node, porem eles podem conter vários nodes e ainda mais meta nodes. Eles são criados com a ajuda da ferramenta de meta node. Você pode abrir a ferramenta de meta node tanto selecionando "Node/Add Meta Node Wizard" pelo menu ou clicando no botão com o ícone do meta node na barra de ferramentas (editor de workflow precisa estar ativo).


Criar Meta Node Pré-definido
Para criar um meta node pré-definido, selecione um e aperte em "Finish". O que foi selecionado será adicionado ao workflow.


Criar Meta Node Customizado
Se você precisar de um número diferente de portas de entrada e/ou saída ou quer ter diferentes tipos de portas, pode selecionar um dos meta nodes pré-definidos como um modelo e entao clicar em "Customize" para acessar a próxima página da ferramenta.


Nesta página você pode adicionar ou remover portas de entrada e saída ao modelo. Um ícone na parte de baixo imediatamente lhe dá uma visão prévia de como o node ficará. Quando você adiciona uma porta para o modelo, pode escolher o tipo da porta:
- Dados
- Database, ou
- porta de data mining (PMML).
Uma vez que o node servir para as suas necessidades, clique em "Finish" a fim de adicioná-lo para o workflow.

Dentro de um Meta Node
Para abrir um meta node, você pode ou dar duplo clique nele ou escolher "Open Subworkflow editor" no seu menu de contexto. Dependento da quantidade de portas de entrada e saída, o interior de um meta node irá se assemelhar à essa figura.

As portas de entrada ou saída são fixas para aos chamados 'workflow port bars', que podem ser movidos e mudados de tamanho. Os dados conectados para a porta de entrada por fora aparecem dentro do editor de meta node na porta de entrada. E vice-versa: os dados conectados à porta de saída interna aparecerá na porta de saída externa.
Estados de Meta Nodes
Um meta node não possui tantos estados quanto um node. Os estados de um meta node são os mesmos que os stados de um workflow. Um meta node pode ser

-
idle/configured
: Se existe pelo menos um node dentro do meta node que não está executado e nem executando.

-
executing
: Se pelo menos um node estiver executando.

-
executed
: Se todos os nodes contidos estiverem executados.

O estado de um meta node é mostrado por um ícone no meta node (visto por fora).
O truque para aprender KNIME
Uma boa forma de aprender mais, é logando no servidor de exemplos do KNIME. É necessário estar conectado à internet.
São vários exemplos completos de workflows com documentação. Basta arrastá-los para seu workspace ou um duplo clique para abrir.
Ao abrir alguns workflows, um erro semelhante pode aparecer, isso significa que está faltando um node. O KNIME não instala todos os nodes,nem todas as pessoas precisam de todos.
Os nodes que faltam podem ser adquiridos em File -> Install KNIME extensions...
Basta selecionar e fazer o download da extensão desejada para executar o exemplo.
Obrigado!
Full transcript