Dark Data: En busca del dato perdido
A estas alturas de la película son evidentes las oportunidades que nos ofrecen la explotación y análisis del Big Data en las empresas y organizaciones como valor de crecimiento pero ¿se usan y analizan todos los datos que recopilamos? La respuesta es no. De hecho la enorme mayoría de los datos generados quedan tras los focos, en la oscuridad, a la espera de ver qué hacer con ellos: el Dark Data.
¿Qué es el Dark Data?
La consultora Gartner Inc. describe el Dark Data como los activos de información que las organizaciones recopilan, procesan y almacenan en el curso de su actividad comercial habitual, pero no se utilizan para otros fines.
Por tanto, lo primero que hay que entender es que el Dark Data es un subconjunto del Big Data y además no es sólo una pequeña porción del mismo. Es la porción más grande de la tarta según todos los estudios actuales representando entre el 60-80% de los datos recopilados.
Un hecho importante a la hora de conocer el Dark Data es comprender que no es un acontecimiento aislado. Son una serie de datos que están presentes siempre ya que son fruto de cada interacción, transacción y compromiso del cliente con cada organización. Las empresas suelen conservar el Dark Data por razones de cumplimientos legales. El almacenamiento y protección de tales “datos oscuros” suponen por tanto un coste que actualmente no retorna ningún valor a cambio y agrega niveles de riesgo principalmente en temas de privacidad. O sea, podemos catalogarlos como datos desaprovechados y potencialmente inseguros.
Esa es la razón por la que en los últimos años ha habido un gran aumento en la importancia del Dark Data debido al enorme potencial que representa para cualquier organización el contar con más datos útiles para mejorar y atraer nuevos clientes, generar nuevas fuentes de ingresos, reducir costes internos y riesgos potenciales y en definitiva aumentar el crecimiento del negocio.
¿Cómo clasificamos los datos de nuestra organización?
Apoyándonos en los resultados del informe de la consultora americana de seguridad de datos Veritas Tech. los datos se pueden clasificar en 3 áreas para cualquier organización:
- Datos críticos de negocio: Estos son datos identificados como vitales para el éxito operativo continuo de la organización. Son datos que se necesitan proteger y administrar proactivamente.
- Datos redundantes, obsoletos o triviales (ROT Data): son datos identificados como redundantes, o datos duplicados, obsoletos, que ya no tienen valor comercial y, datos triviales con poco o ningún valor comercial para la organización. Es necesario minimizar proactivamente los datos ROT eliminandolos de forma segura y regular.
- Dark Data: Se trata de datos cuyo valor aún no se ha identificado. Puede incluir datos críticos para la empresa, así como datos ROT inútiles. De cualquier manera consume recursos. Es necesario explorar y categorizar el Dark Data tan pronto como sea práctico.
-
¿Qué tipos de datos podrían ser Dark Data?
La clasificación y el esquema anterior nos muestran una foto general de cómo se encuentran repartidos los datos de nuestro negocio. Sumerjamonos ahora en el Dark Data y tratemos de “ponerle cara” con algunos ejemplos.
Hay que tener en cuenta que el Dark Data es diferente para cada industria, incluso para cada organización individual, pero algunos ejemplos comunes incluyen:
- Archivos Multimedia: archivos de audio, video e imagen los cuales muchas veces no se etiquetan, lo que dificulta la obtención de información del contenido preciso del mismo.
- Hojas de cálculo: utilizadas a menudo para el tratamiento y la presentación de datos se quedan muchas veces en las carpetas personales de los trabajadores.
- Archivos de registro del servidor: contienen entre otros datos los que muestran el comportamiento de los usuarios en tu web e intranet.
- Registros detallados de llamadas de los clientes: incorporan datos no estructurados de sentimientos del consumidor.
- Bases de datos inactivas e información no utilizada del cliente por no formar parte de la que es necesaria para la operativa de venta.
- Archivos de registro, información de cuenta e historial de transacciones: datos con un riesgo potencial en temas de privacidad.
¿Qué hacer con el Dark Data?, esa es la cuestión
La respuesta es obvia, “sacarlos del lado oscuro”. Ya sea por que la organización los ve como una oportunidad de mejora o los considera un foco de posibles problemas, no se puede negar su importancia, hay que hacer algo con ellos.
Los pasos clave para aprovechar al máximo el Dark Data son:
- Captura de “datos oscuros”: Es la parte más difícil, saber dónde y qué buscar para identificar esos datos. Algunas organizaciones están utilizando Hadoop para identificar bits oscuros útiles y sacarlos a la luz.
- Categorización y organización: Una vez identificados los datos, extraerlos y almacenarlos en formatos adecuados para las técnicas de analítica de datos necesarias para determinar su valor real.
- Toma de decisiones: Ya que hemos sacado a la luz los datos, tendremos que ver si se trata de datos críticos o datos ROT, y analizar el riesgo que tienen para usarlos y almacenarlos en consecuencia.
- Los datos críticos los añadiremos a nuestros procesos de inteligencia de negocio para generar el valor potencial.
- Los datos ROT los evaluaremos para su eliminación progresiva y controlada para lo que es muy importante disponer de políticas de retención de datos y eliminación segura.
Como último de los pasos, aunque no dentro del mismo proceso, destacar la importancia de controlar o reducir el crecimiento del Dark Data poniendo en marcha estrategias que categoricen nuestros datos en el momento de su almacenamiento.
En esta línea, las mejoras en la automatización y en las capacidades de análisis facilitan cada vez más ese control sobre los datos para que reducir la cantidad de datos que llegan a ser “oscuros”. Así por poner un ejemplo, la inteligencia artificial está mejorando mucho el reconocimiento de voz permitiendo que los mismos se etiqueten de modo automático con metadatos e incluso que se transcriban en tiempo real.
Finalmente concluimos
La explosión de datos que estamos viviendo actualmente es solo la punta del iceberg del Big Data. El diluvio de datos no tiene pensado parar, es más la predicción es que el volumen de datos generados acelere rápidamente a medida que continúe la integración de dispositivos móviles más modernos o con el crecimiento en el uso del Internet de las Cosas (IoT).
Por esta razón las empresas que no tengan un plan para crear información procesable a partir del Dark Data actualmente corren el riesgo de perder competitividad en su mercado.
Estamos en la era de los datos, y está claro que las organizaciones que sepan bucear mejor entre todos los que recopilan e “iluminar” una mayor parte de sus datos tendrán más herramientas para aumentar su éxito empresarial.
Te esperamos en los siguientes artículos en donde hablaremos mas acerca de estos temas, los cuales hoy en día son de vital importancia en el mundo de la tecnología.