Introducing
Your new presentation assistant.
Refine, enhance, and tailor your content, source relevant images, and edit visuals quicker than ever before.
Trending searches
• Establecer los objetivos del negocio y para esto fue necesario realizar reuniones con la Gerencia de Clientes.
• Evaluar la situación actual que es relacionado a los problemas detectados por la oficina de fraude.
• Establecer objetivos de la minería de datos (MD) como analizar ciertos datos cuyo comportamiento parecen distinto del resto conocido también como la Detección de Anomalías (DA)
• Dentro del plan del proyecto está la DA que puede convertirse en una gran herramienta de gran utilidad, que en conjunto con técnicas de Clustering, posibilitan el reconocimiento de grupos de datos cuyo comportamiento sea muy diferente al resto de los datos y también cuando no conocemos o no podemos etiquetar los datos de manera confiable para su clasificación.
• Centrar el análisis sobre el Subsistema de Facturación que pertenece al área de Gerencia de Cliente. Este sistema contiene información del consumo mensual de uso de agua potable y alcantarillado de cada cliente que utiliza estos servicios.
• Analizar el modelo de la Base de datos relacional del sistema del proceso del sistema de información de la empresa, específicamente aquellas entidades que tienen relación con el proceso de Facturación.
• Para obtener el conjunto de datos a analizar no es un proceso trivial, fue necesario reunirse con personal especializado de la empresa, revisar documentación de la base de datos, revisar nombres de atributos y el diccionario de datos, entre otros.
Luego de la preparación de datos sigue la cuarta etapa que es Modeling (Modelado o Modelamiento), el cual hace uso de la herramienta de minería de Datos IBM SPSS Modeler Clementine conocido como Clementine, que entrega como resultado grupos de datos con características similares, los cuáles son llamados grupos homólogos del modelo. Cada grupo homólogo entrega información sobre la cantidad de registros procesados, la cantidad de anomalías encontradas, un resumen sobre los campos escogidos a estudiar, entre otros. La cantidad generada de grupos homólogos va a depender directamente de los parámetros de configuración del modelo, pues con modificar un solo parámetro, no se generará la misma cantidad de grupos y por lo tanto los resultados serán distintos. Los parámetros a introducir son: agregar dimensiones al AD, índice de anomalías, cantidad de grupos que se desee obtener, selección de algoritmos de análisis, etc.
Se trata de tres tipos diferentes de algoritmos de clustering: COBWEB(clustering jerárquico), k-medias (particionado), y EM (probabilístico). Cada uno de ellos se aplica sobre los proyectos de la base de datos, realizando una segmentación de los mismos en diferentes grupos de afinidad. Esta medida de afinidad es diferente, según el algoritmo de clustering de que se trate, obteniéndose por tanto diferentes segmentos según el algoritmo que se utilice. De los tres algoritmos utilizados destaca EM como el que mejor segmentación realiza, a continuación k-medias y por último COBWEB. La razón estriba en que la forma que tiene COBWEB de obtener los segmentos no es la más adecuada para los datos suministrados al mismo, EM y k-medias ofrecen mejores resultados ya que se trata de métodos de la misma familia, y adecuados para la naturaleza de datos.
En la fase de evaluación se realizan pruebas con el software Clementine y los algoritmos de clustering.
Depende de la configuración de parámetros para que el software Clementine genere los grupos homólogos. Toda la información que se genera al momento de ejecutar los algoritmos serán almacenados en un archivo (Tabla) para su análisis posterior.
A través de los algoritmos de detección de anomalías de Clementine Client se probaron los datos almacenados en el Data Mart, entregando una serie de resultados que deben ser analizados cada vez que se inicia el ciclo de la metodología CRISP-DM.
Los registros anómalos encontrados deben ser contrastados con la información histórica de casos de fraude que almacena la empresa, con el fin de verificar que la información entregada por el software sea la correcta.
Se concluye que luego de diversas pruebas el algoritmo EM es el más adecuado para segmentar los datos del AD diseñado para la empresa.
Finalmente se implementa el sistema de detección de anomalías en el servidor de la empresa, con el fin de obtener listados de clientes que podrían ser casos de análisis. Este listado es utilizado por la oficina de fraudes de Aguas Araucanía S.A. para corroborar en terreno cada uno de los casos. Con ello, la oficina de fraude sólo debe preocuparse de revisar los casos expuestos en la lista, y no de todas las unidades que componen una ruta o sector.
Con el algoritmo EM se segmenta los datos del AD diseñado para la empresa Aguas Araucanía S.A., con el fin de encontrar posibles casos de fraude.
El sistema creado permite a la empresa disponer de una lista de clientes que presentan comportamientos anómalos, dando la posibilidad de detectar posibles fraudes en forma oportuna. De esta forma se obtuvo una reducción del tiempo de búsqueda y del costo asociado para ello.