La importancia de la calidad de los datos

El siguiente artículo no pretende demostrar las diferentes maneras en las cuáles se puede trabajar para mejorar la calidad de los datos y, con ello, optimizar la toma de decisiones. La pretensión de este artículo es una pequeña reflexión acerca de dedicar más tiempo a la calidad de aquellos datos con los que vamos a trabajar.

El principal objetivo radica en obtener resultados más adecuados a la realidad existente antes de trabajar en aspectos como visualizaciones de datos o la aplicación de algoritmos y modelos de Business Intelligence. Al fin y al cabo, si la calidad de nuestros datos es limitada, nuestras visualizaciones o algoritmos dispondrán de ineficiencias en el resultado obtenido, lo que implica que no se explotará todo el potencial del cuál disponen.

“Conocernos mejor”

El estudio llevado a cabo por CrowdFlower en 2015 destacaba la “limpieza y organización de los datos” como una de las tareas que más tiempo consume a un Data Scientist (66.7% de los encuestados) conjuntamente con la “obtención de datasets” para llevar a cabo el proyecto.

Se debe tener claro el objetivo de nuestro proyecto de datos e intentar comprender todos aquellos elementos relativos a las fuentes de datos y al negocio que pretendemos analizar ya que nos pueden aportar conocimiento e información relevante en nuestro proceso.

Ello nos lleva a destacar que el análisis de cada una de nuestras fuentes de datos será de gran importancia (datasets, sistemas de información, etc.). Análisis que incluye aspectos que podríamos situar desde la información que contiene cada campo a las características específicas de cada uno de los mismos dentro de un dataset hasta conocer qué acciones pueden o no pueden llevar a cabo los usuarios a la hora de introducir datos en los sistemas de información, etc., lo que nos puede llevar a cuestiones como las siguientes:

– ¿Hay valores ilógicos para el tipo de campo analizado? Véase, por ejemplo, un número significativo de clientes con 99 años ya que el sistema de información obliga a cumplimentar ese campo y la persona que introduce los datos, lo desconoce.

– ¿Hay valores nulos o incompletos? Por ejemplo, el caso de un campo que, como analistas consideraríamos clave y que en la fuente de datos no se ha cumplimentado o no se ha podido recoger.

– ¿Hay diferentes escalas numéricas? Por ejemplo, si hablamos de cantidades económicas, disponer en un mismo campo de un valor de 800.000 € y posteriormente, uno de 1,2 m€, lo cual puede añadir complejidad al estudio.

– ¿Hay múltiples representaciones para un mismo concepto? En este punto, el ejemplo está basado en una experiencia propia y hace referencia al hecho de encontrar, en un dataset, la representación de Barcelona también como Bcn o Zaragoza como Zgz.

Como las preguntas planteadas pueden surgir muchas otras, pero la reflexión de este punto se sitúa en el hecho que nunca debe escatimarse tiempo en el análisis previo de los datos.

Aunque pueda parecer una labor tediosa o rutinaria, es una fase vital en nuestros proyectos para poder sacar, posteriormente, el máximo partido a los datos mediante modelos predictivos, visualizaciones de datos, etc.

“Alta calidad de los datos = Posible ventaja competitiva”

Una de las conclusiones que se puede extraer de este artículo es el hecho que trabajar por tal de obtener una alta o incluso, excelente, calidad de los datos aporta una ventaja muy importante al proyecto y, por ende, a la empresa.

Dicha ventaja puede llegar a ser una ventaja competitiva relevante en un entorno tan competitivo en caso de ser capaces de extraer el máximo de los datos, lo que llevaría a reforzar cada uno de los proyectos que llevamos a cabo.

Fuente fotografía: Netloid

Share this article

Cofundador de Markonomia. Licenciado en Administración y Dirección de Empresas por la Universitat de Barcelona (EUS) y master en Business Intelligence y Big Data en Universitat Oberta de Catalunya. Cerca de 5 años desarrollando proyectos de análisis de datos en el sector bancario. Fotógrafo freelance en eventos deportivos nacionales e internacionales.

Facebook Comments

Deja un comentario