Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Protección de datos

No description
by

Federico Segui

on 9 September 2015

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Protección de datos

Protección de datos estadísticos ("anonimización" de microdatos)
Conclusiones
Introducción al problema
¿Por qué proteger los microdatos?
¿Alcanza con “des-identificar” los registros (casos)?
¿A qué están expuestas las ONE o productores de estadísticas?
Métodos de restricción:
Paquete de “R” sdcMicro.

Preguntas
Campaign Aims:
TV /Youtube Advert:
t
The cost of Meningitis on the NHS:
If patient responds immediately to symptoms and seeks medical care = £14,500

If patient delays seeking medical care
= £160,000-£200,000 in first year alone
= £590,000-£1,090,000 for a lifetime of 70 years
APPROXIMATE VALUES
SIGNS
often last sign to present as it is due to septicaemia caused by the meningitis.
REFERENCE: http://www.meningitis.org/symptoms
Pale/Grey complexion
Red/Brown pinprick rash -
Cold hands and feet
Diarrhoea, vomiting and/or fever
SYMPTOMS
Neck stiffness
Joint pain
Severe headache
Tiredness/low energy
Nausea
Dislike of bright lights
REFERENCE: http://adelantemagazine.com/2013/06/white-party-and-meningitis/
Proceso iterativo
Política Institucional
Procedimiento ad-hoc
Utilidad de los datos
Seleccionar indicadores para evaluar resultados
Técnicas de protección de microdatos
Balance entre satisfacer las necesidades de los usuarios y preservar la confidencialidad.
Protección de datos estadísticos
La protección de microdatos es un proceso iterativo hasta lograr un balance adecuado entre utilidad de los datos (riesgo de revelar información confidencial) y protección de los datos.
Hay técnicas estandarizadas de "anonimización", pero cuáles son las más apropiadas se debe determinar en cada caso (escenario), es un procedimiento ad-hoc.
Técnicas de protección de datos estadísticos
Varían según su forma de publicación y medio de acceso:
Microdatos:
Escenarios de revelación de información confidencial:
La protección de datos estadísticos es un asunto de gestión o políticas institucionales, más que un problema técnico/tecnológico o de aplicación de software estadístico.
Es imprescindible evaluar la utilidad de los datos después de aplicar las técnicas de protección.
Escenario de divulgación de información.
Intruso o atacante.
Archivos de uso público y archivos con fines de investigación o uso científico.
Revelar información confidencial
11100011010101011
10111001011010011
10010110010111001
11010101011001101
10111001011010011
Tomar conocimiento de algún dato confidencial sobre alguien/algo utilizando los datos publicados.
Tipos de revelación de información:
Atributos
Identidad
Inferencia
Revelar Identidad:
Asociación de la identidad del informante con un registro de los datos divulgados que contiene información confidencial.
Identificadores explícitos: nombre, dirección, cédula de identidad, teléfono...
Identificadores implícitos: “Ocupación = Director del INE”
Valores extremos: ingresos >= 1.000.000
Combinaciones de atributos con valores poco frecuentes (casos raros):
Localidad = Mariscala (menos de 2.000 personas)
Sexo = Mujer
Edad = 35
Ocupación = Maestra
Unión con un archivo externo.
Revelar Atributos:
Asociación de un valor de un atributo basado en los datos divulgados.
Número pequeño de celdas con datos categóricos.
Supuesto: todas las personas con los siguientes atributos se han definido como “cristiano no católico” desde el punto de vista religioso:
Edad: 45 a 49
Sexo: Hombre
Ascendencia: blanca
Localidad: Tarariras
La combinación de Edad+Sexo+Ascendencia+Localidad = (45-49, H, blanca, Tarariras) lleva a revelar la variable “religión”
Inferencia:
Revelación de identidad o atributos a partir de inferencias estadísticas ("matching" no exacto).
Se utiliza software específico para hacer el "matching".
_
_
_
_
_
_
Protección
de datos
Necesidades
de información
Pasos para la protección de datos estadísticos
Protección de datos estadísticos (cont.)
f
Peores datos
Riesgoso
Cuanto más protejo, más información pierdo…
¿Cómo llego al balance ideal?
¿Se puede aplicar el mismo criterio a todas las operaciones estadísticas?
…y ¿a todos los usuarios?
¿Proteger microdatos implica perder información?
Marco Legal
Políticas
Microdatos, Bases de datos, Tablas.
Personas o Empresas
Análisis de Riesgo
Gestión del Riesgo
Aplicar Protección
Proteger Archivo
Documentar Protección
Difusión
Prueba y Evaluación
Bases de datos de consulta en línea.
Tablas o cuadros de datos agregados.
REDATAM,
etc...
TABLA 1
11100011010101011
10111001011010011
10010110010111001
11010101011001101
10111001011010011
Archivos de uso público.
Archivos con fines de investigación (generados para un uso específico por investigadores).
Acceso dentro de las instalaciones del INE (ambiente controlado).
Ejecución remota. Investigadores envían sintaxis al INE.
Acceso remoto. Investigadores acceden vía VPN.
Conceptos a tener en cuenta...
Protección de bases de datos de consulta en línea
Consultas interactivas por internet, el riesgo está determinado por las consultas previas realizadas por los usuarios.

Los resultados de esas consultas previas podrían ser utilizados para cruzar información con consultas posteriores para intentar obtener combinaciones de variables que determinen “celdas inseguras” y lograr así información confidencial individual.
Confidencialidad vía camuflaje
Para las celdas “sensibles” se muestra un rango de valores en lugar del verdadero valor.

Auditorías de bases de datos
Se registran las consultas previas del mismo usuario y se determina si hay riesgo de divulgación de información confidencial.

Protección de tablas
Celdas sensibles:
Permiten revelar información sobre registros (casos) individuales.
Ej. precios promedio para determinado artículo cuando sólo hay 2 empresas en el mercado.
Reglas para determinar celdas sensibles:
Si unos pocos (n) contribuyentes principales a una celda son responsables de un porcentaje determinado (k) del total de esa celda.
El contribuyente de una celda tiene una mayor oportunidad de estimar a los competidores en esa celda, que uno externo. Precisión de la estimación = medida de sensibilidad de la celda.
Redondeo controlado
Recodificación
Supresión de celdas
Técnicas de Protección de tablas
Protección de microdatos
(desde el punto de vista de la protección de datos)
Clasificación de variables:
Por lo general son eliminados del archivo
El intruso intenta hacer “matching” entre una unidad en la muestra s y una unidad en la población P.
Software disponible:
No modifican los datos originales.
Limitan la cantidad de información.
Métodos de perturbación:
Modifican los datos originales, pero posibilita el procesamiento y análisis estadístico.
Información necesaria para determinar el/los método/s a aplicar:
Necesidades de los usuarios.
Usos principales.
Política de difusión.
Evaluación de la pérdida de información de acuerdo a los métodos utilizados.
Selección de indicadores para evaluar de la pérdida de información.
Seleccionar indicadores de referencia para evaluar de la pérdida de información y utilidad/calidad de los datos.
Calcular los indicadores de referencia utilizando los microdatos originales y comparar los resultados con los mismos indicadores generados a partir de los microdatos protegidos.
Peores datos
Riesgoso
Federico Segui Stagno - federico.segui@outlook.com
Experto en anonimización de datos estadísticos
Full transcript