El Big Bang del Big Data

Una revolución ha llegado desde hace poco tiempo a la manera de almacenar y explotar datos. Teléfonos, preferencias de usuario, contenido multimedia, métricas… Cada vez son más y más los datos que inundan las bases de datos de las empresas. Un ejemplo claro son las redes sociales, cada vez más de moda y más numerosas, cuentan con millones de usuarios que vuelcan a diario ingestas cantidades de datos.

El volumen de información a nivel mundial crece anualmente un mínimo de un 59% (Gartner).

¿A dónde va toda esa información? ¿Cómo se gestiona tanto flujo de información? ¿Hay algún límite?

Remontémonos un tiempo atrás, en la década de los 80, las bases de datos relacionales se establecen definitivamente, revolucionando la manera de tratar los datos, estructurados y ordenados. Posteriormente, sobre el año 2000, la fiebre por almacenarlo todo desembocó en los Data Warehouses y con ellos comenzó la era gloriosa del Business Intelligence con sus herramientas y proyectos. Los Data Warehouses florecen por todas partes, como repositorios de datos donde almacenamos información de toda la compañía con carácter histórico. Gigabytes se almacenan estructurados de forma des normalizada para agilizar su explotación desde las capas superiores.

Hoy en día, todo esto vuelve a tambalearse, el ciclo se vuelve a repetir, se ha provocado el desbordamiento de los almacenes de datos y se requiere un nuevo modelo para gestionar este volumen de información: las herramientas de big data.

Según un estudio de la consultora Deloitte, aún estamos en sus primeras fases de desarrollo. Así, estima que habrá menos de 50 proyectos a gran escala (a partir de 10 petabytes) en todo el mundo.

Para hacernos una idea de cuánta información estamos hablando, veamos unos ejemplos:

  • Filmar la vida de una persona (100 años) en alta definición (10 megapíxeles, 50 fotogramas por segundo) ocuparía 0,5 petabytes.
  • Facebook tiene 60 mil millones de imágenes, lo que supone 1,5 petabytes de almacenamiento y crece a un ritmo de 220 millones de imágenes por semana.
  • En diciembre de 2007, YouTube tuvo un tráfico de 27 petabytes.
  • Megaupload tuvo consigo 25 petabytes de archivos antes de su cierre.

¿Qué significa Big Data y qué nuevas necesidades se tienen respecto a los sistemas tradicionales de almacenamiento de datos?

En un proyecto Big data se requiere de tecnología excepcional, capaz de almacenar y analizar eficazmente largas cantidades de datos en relativo poco tiempo y de diferente origen (datos estructurados y no estructurados).

Lo que nos ofrecen las bases de daros relacionales tradicionales, es una integridad de datos (hablamos de FKs, de integridad referencial, de joins…) que no nos ofrece esa agilidad a la hora de gestionar tanto volumen de datos como la que nos dan las bases de datos Big Data capaces de almacenar datos en nodos distribuidos (Clúster).

La problemática que se repite constantemente.

El problema no es tanto el espacio, sino la gestión eficaz de los grandes volúmenes de datos. Los profesionales del sector IT y las empresas deben concentrar sus esfuerzos en el volumen, la variedad y la velocidad.

Volumen: Demasiado volumen de datos causado por nuevos tipos de datos, nuevas fuentes, como dispositivos móviles, etc. Mucho volumen de datos también trae consigo mucho análisis de esos datos.

Variedad: Toda esta nueva cantidad de datos debe traducirse en decisiones para las direcciones de las empresas o de los departamentos de las empresas. Ahora tenemos más tipos de información que analizar, principalmente la proveniente de redes sociales, móviles, sistemas de medición, video, audio y mucho más.

Velocidad: Una recogida tan masiva de datos, requiere que sea veloz. Es indispensable que se procesen y entreguen los datos de forma veloz y eficiente, como nunca antes.

¿Qué tecnología existe y qué coste tiene?

Grandes compañías como Oracle, SAP o IBM ya se han lanzado a la carrera del Big Data, ofreciendo sus soluciones de pago, que incorporan grandes máquinas muy potentes, de Terabytes de memoria RAM, procesadores con hasta 80 núcleos y bases de datos In-memory. Estas soluciones son muy caras, pero ofrecen garantías de servicio y soporte a la altura de la reputación de sus marcas.

Por otro lado tenemos la tendencia Open source, cuyo principal benefactor es Apache con Hadoop como proyecto Big Data estrella y muchos subproyectos complementarios que le dotan de numerosas funcionalidades. Hadoop está basado en un sistema distribuido de ficheros, a lo largo de cientos (o miles) de nodos de bajo coste. La potencia de la solución Big data es directamente proporcional al número de nodos en este caso.

Hadoop y su filosofía Open source estan avanzando tan rápidamente en clientes y proyectos de todo el mundo, que las empresas desarrolladoras de soluciones se estan aliando con él en vez de competir contra él. Así, por ejemplo, SAP anunció a finales del año pasado que en su producto Hana, dirigido al mercado Big Data, planea dejar a sus clientes usar Hadoop como base de datos (con su sistema de ficheros distribuidos HDFS) para que posteriormente, Hana analizase la información.

En nuestro país oímos hablar constantemente de proyectos Big Data. La pregunta es, ¿se han preparado las empresas para funcionar en torno a esta tecnología?

 

Miguel Ángel Aparicio

¡Comparte!Email this to someoneTweet about this on TwitterShare on FacebookShare on Google+Pin on PinterestShare on LinkedInShare on Tumblr

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *