Para ser utilizables, los datos deben cumplir unas estándares de calidad acordadas. Las estándares de calidad de los datos se refieren al nivel de exactitud, actualidad, precisión y fiabilidad de los resultados. Cada iniciativa de intercambio de datos establece sus propias estándares de calidad y define lo que es aceptable y lo que no en función de los objetivos que se propone alcanzar. Está claro que algunos casos de uso (por ejemplo, en el contexto de la asistencia sanitaria o la ayuda humanitaria) requieren estándares de calidad de datos más estrictas que otros. Por ello, no puede establecerse una definición universal de datos "suficientemente buenos".
Invertir en garantizar el cumplimiento de las estándares de calidad de datos acordadas puede consumir tiempo y recursos. Sin embargo, establecer un sistema para lograrlo ahorra recursos en fases posteriores de los proyectos, ya que los errores y sesgos pueden detectarse antes de que los datos se pongan en uso, lo que ahorra costosos esfuerzos para corregir errores una vez establecida la iniciativa o plataforma.
Adoptar marcos de calidad adecuados en la fase de recopilación de datos y establecer enfoques transparentes para limitar y mitigar los sesgos en la fase de análisis de datos son pasos útiles para aumentar la calidad de los datos.
Definición de enfoques adecuados para la calidad de los datos
Los enfoques de la calidad y la veracidad de los datos varían según la iniciativa. Por ejemplo, las plataformas de intercambio de datos como Humanitarian Data Exchange (HDX) no comprueban la calidad de los datos que reciben de los aliados. La arquitectura de datos de HDX no está orientada a la limpieza de los datos enviados. Esta iniciativa adopta un enfoque de "comprador precavido", en el que la veracidad de los datos es evaluada por el usuario.
Otras iniciativas trabajan intensamente con aliados de datos para garantizar la calidad de los datos que se comparten. Los organizadores del Global Fishing Watch (GFW), por ejemplo, pueden tomar meses realizando comprobaciones de calidad de los datos recibidos de los gobiernos porque cada país comunica sus datos de forma diferente. El equipo del GFW estandariza el formato de los datos y comprueba que no haya errores. Las discrepancias, como la falta de campos de datos o zonas horarias erróneas, son frecuentes, y el equipo del GFW trabaja con los gobiernos para solucionarlas. Sólo cuando el equipo de GFW está convencido de la calidad de los datos, pasa a la fase de análisis.
Otro enfoque consiste en hacer recaer la responsabilidad de la limpieza y el control de calidad de los datos en los proveedores de los mismos. Esto suele discutirse al principio de la iniciativa, y los aliados de datos aceptan los requisitos de formato de datos de la iniciativa. Por ejemplo, INSPIRE exige a los aliados que lleven a cabo la limpieza de datos, los controles de calidad y las medidas de garantía de calidad necesarias antes de compartirlos.
Transparencia para mitigar y limitar los sesgos
Haití fue testigo de una violencia generalizada en abril de 2022 debido a las luchas entre dos bandas. El conflicto provocó el desplazamiento de unas 35.000 personas de la zona afectada. Flowminder es una fundación sin ánimo de lucro especializada en el análisis de Big Data, como registros de llamadas, imágenes por satélite y encuestas de hogares, para resolver problemas de desarrollo. Para proporcionar más pruebas y detalles sobre el desplazamiento, formó una alianza para el intercambio de datos con un operador de telecomunicaciones que representa el 74% de la cuota de mercado nacional.
El objetivo de esta colaboración era generar datos que permitieran comprender mejor los movimientos a gran escala de la población desplazada y apoyar la adopción de medidas políticas adecuadas. En su informe final, Flowminder hace una amplia advertencia sobre las limitaciones de los datos de los operadores de redes móviles, que no son estadísticamente representativos porque el acceso a los teléfonos no es universal. El informe advierte a los lectores que tengan en cuenta las limitaciones de los datos a la hora de extraer conclusiones.