Introducing 

Prezi AI.

Your new presentation assistant.

Refine, enhance, and tailor your content, source relevant images, and edit visuals quicker than ever before.

Loading…
Transcript

METODOLOGÍA CRISP-DM.

1. ¿Cuáles fueron las acciones realizadas por el equipo de trabajo para cumplir el primer paso de la metodología CRIS-DM?.

1. ¿Cuáles fueron las acciones realizadas por el equipo de trabajo para cumplir el primer paso de la metodología CRIS-DM?.

• Establecer los objetivos del negocio y para esto fue necesario realizar reuniones con la Gerencia de Clientes.

• Evaluar la situación actual que es relacionado a los problemas detectados por la oficina de fraude.

• Establecer objetivos de la minería de datos (MD) como analizar ciertos datos cuyo comportamiento parecen distinto del resto conocido también como la Detección de Anomalías (DA)

• Dentro del plan del proyecto está la DA que puede convertirse en una gran herramienta de gran utilidad, que en conjunto con técnicas de Clustering, posibilitan el reconocimiento de grupos de datos cuyo comportamiento sea muy diferente al resto de los datos y también cuando no conocemos o no podemos etiquetar los datos de manera confiable para su clasificación.

2. ¿Cuáles fueron las acciones realizadas por el equipo de trabajo para comprender la naturaleza de los datos involucrados en el negocio?

2. ¿Cuáles fueron las acciones realizadas por el equipo de trabajo para comprender la naturaleza de los datos involucrados en el negocio?

• Centrar el análisis sobre el Subsistema de Facturación que pertenece al área de Gerencia de Cliente. Este sistema contiene información del consumo mensual de uso de agua potable y alcantarillado de cada cliente que utiliza estos servicios.

• Analizar el modelo de la Base de datos relacional del sistema del proceso del sistema de información de la empresa, específicamente aquellas entidades que tienen relación con el proceso de Facturación.

• Para obtener el conjunto de datos a analizar no es un proceso trivial, fue necesario reunirse con personal especializado de la empresa, revisar documentación de la base de datos, revisar nombres de atributos y el diccionario de datos, entre otros.

3. Explique el proceso utilizado para acometer la preparación de los datos en la organización.

3. Explique el proceso utilizado para acometer la preparación de los datos en la organización.

• Se diseñó un Almacén de Datos (AD) que se alimente de las bases de datos transaccionales.

• Uso del proceso de extracción de datos llamado ETL, para alimentar AD.

• Los datos son almacenados en un repositorio que consiste en hechos y dimensiones representados a través de un esquema en estrella. La tabla de hechos almacena los indicadores a medir y las dimensiones representan los criterios de análisis. Cuando se mantiene una estructura de un AD, pero adaptada sólo a un sector de la empresa, o para un fin concreto, se utiliza un Data Mart que es parte del AD completo.

• Este Data Mart, contiene información específica sobre los consumos históricos de agua potable y alcantarillado de la región, ya que son datos que dispone la empresa. Las variables que lo componen son: (1) La tabla de hechos, que almacena los datos de unidades (m3) facturadas de consumo de agua potable, alcantarillado, el sobreconsumo de agua potable y un contador de consumos facturados. (2) Las tablas de dimensiones que contienen información de las distintas unidades de tiempo, lugares y características del servicio.

• Los datos almacenados presentan la siguiente información: Lugar: que indica la localidad con su sector y la ruta (sector pequeño). Servicio: que detalla el tipo de servicio prestado. Tiempo: esta dimensión es necesaria para analizar lo que ha ocurrido históricamente y así proyectar al futuro. Tabla de hechos Venta: Que almacena los indicadores a consultar.

• Junto con el personal técnico de la empresa fue posible adquirir los datos históricos de los consumos facturados desde el inicio de funcionamiento del sistema de facturación.

4. Mencione qué etapa le sigue a la preparación de los datos y de qué modo fue realizada por el equipo de trabajo.

4. Mencione qué etapa le sigue a la preparación de los datos y de qué modo fue realizada por el equipo de trabajo.

Luego de la preparación de datos sigue la cuarta etapa que es Modeling (Modelado o Modelamiento), el cual hace uso de la herramienta de minería de Datos IBM SPSS Modeler Clementine conocido como Clementine, que entrega como resultado grupos de datos con características similares, los cuáles son llamados grupos homólogos del modelo. Cada grupo homólogo entrega información sobre la cantidad de registros procesados, la cantidad de anomalías encontradas, un resumen sobre los campos escogidos a estudiar, entre otros. La cantidad generada de grupos homólogos va a depender directamente de los parámetros de configuración del modelo, pues con modificar un solo parámetro, no se generará la misma cantidad de grupos y por lo tanto los resultados serán distintos. Los parámetros a introducir son: agregar dimensiones al AD, índice de anomalías, cantidad de grupos que se desee obtener, selección de algoritmos de análisis, etc.

5. ¿Cuáles fueron los

algoritmos utilizados?

5. ¿Cuáles fueron los algoritmos utilizados?

Se trata de tres tipos diferentes de algoritmos de clustering: COBWEB(clustering jerárquico), k-medias (particionado), y EM (probabilístico). Cada uno de ellos se aplica sobre los proyectos de la base de datos, realizando una segmentación de los mismos en diferentes grupos de afinidad. Esta medida de afinidad es diferente, según el algoritmo de clustering de que se trate, obteniéndose por tanto diferentes segmentos según el algoritmo que se utilice. De los tres algoritmos utilizados destaca EM como el que mejor segmentación realiza, a continuación k-medias y por último COBWEB. La razón estriba en que la forma que tiene COBWEB de obtener los segmentos no es la más adecuada para los datos suministrados al mismo, EM y k-medias ofrecen mejores resultados ya que se trata de métodos de la misma familia, y adecuados para la naturaleza de datos.

6. ¿De qué forma se logró garantizar la fase de evaluación en el proyecto?

6. ¿De qué forma se logró garantizar la fase de evaluación en el proyecto?

En la fase de evaluación se realizan pruebas con el software Clementine y los algoritmos de clustering.

Depende de la configuración de parámetros para que el software Clementine genere los grupos homólogos. Toda la información que se genera al momento de ejecutar los algoritmos serán almacenados en un archivo (Tabla) para su análisis posterior.

A través de los algoritmos de detección de anomalías de Clementine Client se probaron los datos almacenados en el Data Mart, entregando una serie de resultados que deben ser analizados cada vez que se inicia el ciclo de la metodología CRISP-DM.

Los registros anómalos encontrados deben ser contrastados con la información histórica de casos de fraude que almacena la empresa, con el fin de verificar que la información entregada por el software sea la correcta.

Se concluye que luego de diversas pruebas el algoritmo EM es el más adecuado para segmentar los datos del AD diseñado para la empresa.

7. Explique brevemente la fase de implementación del proyecto

7. Explique brevemente la fase de implementación del proyecto.

Finalmente se implementa el sistema de detección de anomalías en el servidor de la empresa, con el fin de obtener listados de clientes que podrían ser casos de análisis. Este listado es utilizado por la oficina de fraudes de Aguas Araucanía S.A. para corroborar en terreno cada uno de los casos. Con ello, la oficina de fraude sólo debe preocuparse de revisar los casos expuestos en la lista, y no de todas las unidades que componen una ruta o sector.

Con el algoritmo EM se segmenta los datos del AD diseñado para la empresa Aguas Araucanía S.A., con el fin de encontrar posibles casos de fraude.

El sistema creado permite a la empresa disponer de una lista de clientes que presentan comportamientos anómalos, dando la posibilidad de detectar posibles fraudes en forma oportuna. De esta forma se obtuvo una reducción del tiempo de búsqueda y del costo asociado para ello.

Learn more about creating dynamic, engaging presentations with Prezi