Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

WEKA para Minería de Datos - 2013

No description
by

mystique brenan

on 23 November 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of WEKA para Minería de Datos - 2013

El avance de la tecnología y la posibilidad de tener datos guardados para tomarlos históricamente y ver en el uso de las estadísticas en base a comportamientos anteriores abren un mundo de posibilidades.

A través de las herramientas de aprendizaje automático y la MINERÍA de DATOS, se emulan y aprende del comportamiento, forma de razonamiento y de distintas experiencias. Intentando que de una u otra forma se tomen las mejores decisiones.

La máquina de aprendizaje WEKA proporciona un entorno con algoritmos de pre-procesamiento de datos, la función de selección , clasificación, regresión y la agrupación . Ellos se complementan con las interfaces gráficas de usuario para la entrada de datos y modos de exploración.

Una característica importante de WEKA es la interfaz uniforme Java para todos sus algoritmos . Se organizan en paquetes y cuando se agrega el weka.jar a un proyecto independiente, sólo se necesita la importación con el fin de conseguir el acceso a cualquier funcionalidad de WEKA.

WEKA tiene algunos problemas de manejo de memoria . Se espera que el conjunto de datos esté completamente cargado en la memoria principal , lo que no es posible para algunas tareas de minería . Es muy lento en grandes conjuntos de datos.

Hay una gran cantidad de proyectos que están utilizando WEKA , en cierta medida , o incluso buscan ampliarlo . Por ejemplo, en BioWeka existen filtros para la traducción de las secuencias de ADN a ARN y viceversa.
3. WEKA como herramienta de aprendizaje automático.
3. WEKA como herramienta de aprendizaje automático.

Las consultas de las bases de datos tradicionales responden a preguntas tales como “Cuantas unidades del producto de código 1234 se vendieron en el mes de febrero de 2008?

Con la Minería de Datos se consiguen datos corporativos que no se pueden localizar con BD ni con OLAP, tales como encontrar patrones ocultos y relaciones de grandes bases de datos. Mediante asociaciones, secuencia, clasificación y clustering se aplican las técnicas que permiten obtener resultados inesperados.

Todas estas aplicaciones implican predicciones, las previsiones (forecasting) utilizan predicciones de diferentes modos. Utilizan una serie de valores existentes para planificar los futuros valores. Las previsiones pueden ayudar a encontrar patrones de datos para estimaciones futuras.
2.Introducción a la Minería de Datos.
1. Carta Gantt de avance del proyecto
2. Introducción a la Minería de Datos
3. WEKA como herramienta de aprendizaje automático
4. WEKA: Uso, alcances y limitaciones
5. Conclusión
6. PREGUNTAS

Temario
Weka (Gallirallus australis) es una especie de ave gruiforme, del tamaño de una gallina, originaria de Nueva Zelanda. Fue utilizada como símbolo para el logotipo de la herramienta de aprendizaje WEKA (Waikato Environment for Knowledge Analysis - Entorno para Análisis del Conocimiento de Waikato), no solo por la coincidencia del nombre sino por el origen común, Nueva Zelanda, donde se encuentra la universidad de Waikato.
4. WEKA: Uso, alcances y limitaciones
Avances del proyecto
WEKA está instalado y está siendo utilizado en forma elemental para comprender su uso
Para las pruebas y aprendizaje se utilizan archivos de tamaño pequeño, extraídos del repositorio: http://repository.seasr.org/Datasets/UCI/arff/
Una vez que se tenga mayor conocimiento en la manipulación del software se hará un procesamiento de información de gran volumen.
Se está trabajando en convertir bases de datos multirrelacionales en un solo archivo con formato WEKA
Manual WEKA
La interfaz principal de Weka es el
Explorer
, pero esencialmente la misma funcionalidad se puede acceder a través de la interfaz
KnowledgeFlow
basada en componentes y desde la línea de comandos. También existe el
Experimenter
, que permite la comparación sistemática de la predicción del rendimiento de los algoritmos de aprendizaje automático de Weka sobre una colección de conjuntos de datos.
La
pantalla inicial
de WEKA muestra los 3 botones antes mencionados y otro adicional:

Explorer
: Entorno para la exploración de datos. Soporta pre procesamiento de datos, selección de atributos, el aprendizaje y la visualización.

Experimenter
: Entorno para la realización de experimentos y la conducción de pruebas estadísticas entre los algoritmos de aprendizaje automático.

KnowledgeFlow
: Es similar al Explorador, pero tiene una interfaz drag-and-drop. Se entrega un diseño visual del proceso de KDD (Knowledge Discovery in Databases).

Simple CLI
: Proporciona una sencilla interfaz de línea de comandos para ejecutar comandos WEKA.
4. WEKA: Uso, alcances y limitaciones
5.CONCLUSIONES
PREGUNTAS
Eso es todo.
GRACIAS por su
atención.
La HAA WEKA es una suite de software escrito en Java, es gratuito y disponible bajo GNU General Public License.
WEKA apoya muchas tareas de minería de datos, como el re-procesamiento de datos, la clasificación, clustering, regresión y función de selección para nombrar algunos.
Weka es un entorno de trabajo que contiene una colección de herramientas de visualización y algoritmos para el análisis de datos y modelado predictivo, junto con las interfaces gráficas de usuario para facilitar el acceso a esta funcionalidad.
La versión sin Java original de Weka fue un TCL/TK (Tool Command Language/ToolKit) front-end (en su mayoría de otros fabricantes) con modelos de algoritmos implementados en otros lenguajes de programación, además del pre procesado de datos de utilitarios en C y un sistema basado en Makefile para llevar a cabo experimentos de aprendizaje automático.
La versión original fue diseñada principalmente como una herramienta para el análisis de los datos del ámbito agrícola, pero la más reciente versión completamente basada en Java (Weka 3), cuyo desarrollo se inició en 1997, ahora se utiliza en muchas diferentes áreas de aplicación, en particular con fines educativos y de investigación.
Acerca de WEKA

Todas las técnicas de Weka se basan en la suposición de que los datos están disponibles como un único archivo plano, donde cada punto de datos es descrito por un número fijo de atributos (normalmente atributos numéricos o nominales, pero también son compatibles algunos otros tipos de atributos).
Weka proporciona acceso a bases de datos SQL utilizando JDBC (Java Database Connectivity) y puede procesar el resultado devuelto por una consulta de base de datos.
No es capaz de minería de datos multirelacional, pero hay software independiente para convertir una colección de tablas de bases de datos enlazados, en una sola tabla, que es lo adecuado para el procesamiento usando Weka.

Pantalla Inicial WEKA
http://www.cs.waikato.ac.nz/ml/weka/documentation.html
Herramientas de WEKA: Alcances y Limitaciones
Filtros de Preprocesamiento:
Los formatos soportados son ARFF, CSV, C4.5 y binarios, pero en un solo archivo.
También se puede importar de URL o de una base de datos SQL.
Después de cargar los datos, los filtros de preprocesamiento se pueden utilizar para añadir o eliminar atributos, discretización, muestreo, aleatorización, etc.
Atributos de selección
WEKA tiene una combinación muy flexible de búsqueda y métodos de evaluación de los atributos del conjunto de datos.
Métodos de búsqueda incluyen Best-First, Ranker, Genetic-Search, Nearest neighbor, etc
Las medidas de evaluación incluyen: información de ganancia, relación de ganancia, relief, etc
Clasificación:
El objetivo previsto debe ser categórico. WEKA incluye métodos como árboles de decisión, Naïve Bayes y redes neuronales,
Los métodos de evaluación incluyen también los conjuntos de datos de prueba y validación cruzada.
Clustering:
El proceso de aprendizaje se produce a partir de GRUPOS de datos. Los métodos incluyen k-means, Cobweb y FarthestFirst.
Regresión:
El objetivo previsto es continuo. Métodos como regresión lineal, redes neuronales y árboles de regresión se incluyen en la biblioteca.
WEKA no genera secuencias predictivas. También requiere que los datos estén completamente cargados en memoria para trabajar.
1. Carta Gantt de avance del proyecto
Regresión
Clasificación
Los modelos de regresión se ajustan al mismo patrón general . Hay un número de variables independientes , que , cuando se toman juntos , producen un resultado - una variable dependiente .
El modelo de regresión se utiliza para predecir el resultado de una variable dependiente desconocida , dados los valores de las variables independientes .

Por ej., El precio de una vivienda (variable dependiente) es el resultado de muchas variables independientes - los metros cuadrados de la casa, el tamaño del sitio , el material, los baños, etc. Por lo tanto, si usted alguna vez compró o vendió una casa, probablemente ha creado un modelo de regresión para fijar el precio de venta. Ha creado el modelo basado en otras casas comparables en el vecindario y lo que venden para, a continuación, poner los valores de su propia casa en este modelo para producir un precio esperado .
Datos
Proceso
Resultado
Clasificación:
También conocida como árboles de clasificación o árboles de decisión, es un algoritmo de MD que crea una guía paso a paso sobre cómo determinar la salida de una instancia de datos nueva. El árbol que crea es exactamente eso: un árbol donde cada nodo representa un lugar donde se debe tomar una decisión en base a la entrada, y pasar al siguiente nodo y el siguiente hasta llegar a una hoja que indica la salida predecible.
Se utiliza también un "conjunto de entrenamiento" para producir el modelo. Esto toma un conjunto de datos con valores de salida conocidos y lo usa para construir el modelo. Cada nuevo punto de datos, con un valor de producción desconocido, se pondrá en el modelo y producirá una salida.
El conjunto de datos que usaremos para el ejemplo de clasificación se centrará en un concesionario ficticio de BMW. El concesionario está iniciando una campaña de promoción, por lo que está tratando de impulsar una extensión de garantía de dos años a sus clientes anteriores. El concesionario ha hecho esto antes y ha reunido 4.500 puntos de datos de las ventas anteriores de garantías extendidas. Los atributos en el conjunto de datos son:
Nivel de ingresos [0 = $ 0 - $ 30k, 1 = $ 31k-$ 40k, 2 = $ 41K-$ 60K, 3 = $ 61K-$ 75K, 4 = $ 76K-$ 100k, 5 = $ 101K-$ 150K, 6 = $ 151K-$ 500K, 7 = $ 501k +]
Año / mes primer BMW compró
Año / mes más reciente BMW compró
Si respondieron a la oferta de garantía extendida en el pasado
Clustering
permite a un usuario hacer grupos de datos para determinar los patrones . Tiene sus ventajas cuando el conjunto de datos está definido y un patrón general tiene que ser determinado a partir de esos datos. Usted puede crear un número determinado de grupos, en función de las necesidades del negocio.
Un beneficio definido del Clustering sobre la clasificación es que cada atributo en el conjunto de datos se puede utilizar para analizar los datos. Una importante desventaja, es que se requiere que el usuario conozca de antemano el número de grupos que quiere crear.
Por ejemplo, responder la pregunta: "¿Qué grupos etarios preferirán el BMW M5 plateado?" Los datos pueden ser extraídos para comparar la edad del comprador y los colores comprados en el pasado. A partir de estos datos, se puede conocer si ciertos grupos de edad tienen una mayor propensión a la orden de un cierto color del BMW M5. Los datos, cuando se extraen, tenderán a agruparse en torno a ciertos grupos de edad y ciertos colores, lo que permite al usuario determinar rápidamente los patrones en los datos.
El conjunto de datos que usaremos para el ejemplo de Clustering se centrará en un ficticio concesionario del BMW nuevo. El concesionario ha mantenido un seguimiento de cómo la gente se mueve a través de la sala de exposición, los coches que miran, y la frecuencia con la que, en última instancia, hacen compras. Se espera extraer estos datos mediante la búsqueda de patrones y mediante el uso de grupos para determinar si emergen ciertos nuevos comportamientos de los clientes.
Clustering
Datos
Proceso
Resultados
Datos
Proceso
Salida
Full transcript