Tiempo estimado de lectura: 4 minutos
La elaboración de perfiles de datos es el proceso de creación de estadísticas sobre un conjunto de datos que permitirá a los lectores de las métricas comprender la calidad de los datos.
Suele ser una de las muchas funciones de un analista de datos.
Muchas organizaciones tienen problemas de calidad de datos, y la capacidad de identificarlos y solucionarlos ayuda a resolver muchos problemas operativos y de los clientes de forma proactiva.
Como resultado, puede ayudar a identificar errores en los datos que pueden:
- Alimentar los informes.
- Reducir la eficacia de los resultados del aprendizaje automático.
- Tener un impacto normativo en los informes presentados y en la forma de medir su eficacia.
- Los clientes insatisfechos se irritarán al recibir comunicaciones con datos incorrectos.
- Los procesos por lotes fallarán, reduciendo la eficacia de las tareas automatizadas.
Para entender cómo aplicar un proceso eficaz de elaboración de perfiles de datos, es esencial identificar los datos en los que pueden producirse los problemas:
- Introducción de datos por un humano.
- Datos importados no depurados.
- Los sistemas de terceros le proporcionan datos con errores.
- Adquisición de empresas, integración de datos con errores.
La cantidad de datos que ahora se recogen y almacenan en los sistemas de big data, necesita un proceso de gestión y captura de errores.
¿Cuáles son las diferentes formas de perfilar los datos?
Para garantizar un alto nivel de calidad de los datos, hay que tener en cuenta algunas de las siguientes técnicas:
- Integridad - ¿Los datos disponibles representan una imagen completa de los datos que deberían estar presentes?
- Conformidad - ¿Los datos se ajustan a la estructura correcta tal y como se esperaría al observarlos?
- Consistencia - Si tiene los mismos datos en dos sistemas diferentes, ¿son los mismos valores?
- Exactitud - Habrá que asegurarse de que los datos presentes son exactos. Esto podría hacer que las decisiones que se tomen en base a ellos no sean correctas, lo que podría tener efectos conocidos.
- Unicidad - Si hay propiedades de los datos que son únicas, ¿el conjunto de datos lo muestra?
¿Cuándo debe realizarse la elaboración de perfiles de datos?
Esto dependerá de la organización y del proceso en el que se apoye.
Vamos a exponer algunos escenarios diferentes que pueden influir en la forma de enfocar esto
Procesamiento directo: si quiere automatizar, tendrá que asegurarse de que ningún proceso automatizado falle.
En consecuencia, será necesario comprobar los datos antes de alimentar un nuevo sistema. Algunas medidas que podrían aplicarse son:
- Escanee la fuente de datos en busca de problemas de datos conocidos.
- Aplicar la lógica para solucionar los problemas de datos encontrados.
- Alimente los datos a su destino una vez que se hayan realizado todas las correcciones.
Problemas que pueden surgir con esto:
- Nuevos errores ¿cómo manejarlos, dejar que se produzcan y arreglarlos y la lógica para que se atrapen en el futuro?
- Esto hace que se requieran correcciones en el sistema de destino, lo que lleva a la fijación de datos más adelante.
- No se pueden controlar los datos con los errores que entran; hay que informar y validar las actualizaciones que se requieren.
2. Procesamiento por lotes - En este escenario, hay un retraso en la alimentación de los datos, ya que los datos tienen que estar disponibles para alimentar el sistema de destino.
Al igual que con el proceso automatizado, hay cierto nivel de automatización, pero hay más control en torno a cuándo se proporcionan los datos, y se puede pausar o volver a ejecutar. Algunos de los pasos que se pueden implementar son:
- Escanear los datos y proporcionar un informe sobre su calidad. Corrige los datos si se encuentran errores y luego los sube.
- Deje que los datos se carguen y, a continuación, mediante un informe, fíjelos en un sistema posterior.
- Trabajar con los proveedores de los datos para mejorar la calidad de los datos recibidos.
Escenarios en los que se puede aplicar el perfilado de datos
Medición | Ejemplo de escenario | Impacto |
Integridad - ¿Los datos disponibles representan una imagen completa de los datos que deberían estar presentes? | DOB poblado | No se puede utilizar como parte de las comprobaciones de seguridad cuando se habla del cliente o se calculan mal los valores que dependen de la DOB. |
Conformidad - ¿Los datos se ajustan a la estructura correcta tal y como se esperaría al observarlos? | Dirección de correo electrónico incorrecta | Los correos electrónicos a los clientes se devuelven; hay que hacer un seguimiento para corregirlos, el cliente no recibe una comunicación adecuada. |
Consistencia - Si tienes los mismos datos en dos sistemas diferentes, ¿son los mismos valores? | Los datos almacenados en diferentes sistemas deben ser exactamente iguales. | El cliente podría recibir diferentes versiones de los mismos datos. |
Exactitud: habrá que asegurarse de que los datos presentes son exactos. Esto podría hacer que las decisiones que se tomen en base a ellos no sean correctas, lo que podría tener un efecto en cadena . | Los datos inexactos implican decisiones incorrectas | Envío de comunicaciones a un grupo de clientes equivocado que no espera ni necesita la información. |
Singularidad - Si hay propiedades de los datos que son únicas, ¿el conjunto de datos lo muestra? | Los mismos datos se rellenan para diferentes conjuntos de clientes independientes. | No hay visibilidad para el cliente y sus datos reales correctos. Información incorrecta procesada para ellos. El riesgo financiero y de reputación también podría ser un problema. |