Inicio Artículos Almacenamiento de datos de próxima generación más efectivo mediante IA

Almacenamiento de datos de próxima generación más efectivo mediante IA

Los datos se generan actualmente a un ritmo muy superior al que nunca se había imaginado. En el pasado, las personas constituían la principal fuente de generación de datos. Ahora hay dispositivos de imagen, sensores, drones, coches conectados, dispositivos de Internet de las Cosas (IoT) y piezas de equipos industriales que generan datos de diferentes maneras y formatos. Sin embargo, no debemos confundir datos e información y es vital diferenciar entre ambos términos. En la actualidad, tan solo una pequeña parte de los datos recogidos es lo suficientemente valiosa como para considerarla un verdadero activo. Tomemos como ejemplo un dispositivo de imagen. En este caso, lo que importa realmente es un minuto de actividad relevante, y no largas horas de grabación de vídeo superfluo durante las cuales no ocurre nada importante. A modo de analogía, los “datos” son la mina en la cual excavan las personas en busca de la pepita de oro, que es la “información”. La capacidad de convertir estos datos en valiosa información (la “excavación”, siguiendo con la analogía) se puede denominar “análisis”.

El gráfico mostrado en la Figura 1, elaborado por la firma analista Statista, describe el extraordinario aumento que ha experimentado la capacidad de los datos almacenados durante la década pasada. Prevé que en 2020 la demanda de almacenamiento superará los 42.000 exabytes. No obstante, en su mayor parte los datos almacenados (las estimaciones sugieren que un 80% como mínimo) no se encuentran en absoluto estructurados, lo cual dificulta su uso para fines analíticos.
Las estimaciones indican que tan solo el 5% de los datos almacenados se analizan en la práctica. Si se pudieran representar estos datos no estructurados con metadatos que los describan en el contexto del análisis efectuado se podría analizar una cantidad de datos mucho mayor. Esto aumenta a su vez significativamente el valor que pueden generar las organizaciones a partir de los datos que poseen. La inteligencia artificial (IA) es una tecnología llamada a influir poderosamente sobre la sociedad moderna, y en concreto sobre aspectos como recomendaciones de comercio electrónico, traducciones de lenguaje natural, tecnología financiera, seguridad, identificación/ detección de objetos e incluso en el campo de la medicina, donde se pueden identificar rápidamente células cancerosas que puedan poner en peligro la vida (así como otras anomalías). Pese a su diversidad, todas estas aplicaciones tienen un hilo común puesto que ya disponemos de una tecnología que puede realizar un barrido efectivo a través de enormes cantidades de datos no estructurados (vídeos, texto, voz, imágenes, etc.) y procesarlos para obtener su verdadero valor. En concreto, podemos utilizar la IA no solo para el propio proceso analítico, sino también para el preprocesamiento de los datos no estructurados en bruto con el fin de proporcionar los metadatos con etiquetas que pueden representarlos de forma sencilla y precisa.
Esta base de datos simplificada se puede analizar por medio de un software de análisis en una capa superior y extraer información útil. Las organizaciones han estado esperando que la IA para aprovechar mejor los datos que almacenan, y que hasta esta etapa han permanecido “a oscuras”. Dicho esto, deseamos generar metadatos para permitir que nuestro software de análisis se ejecuta de forma más efectiva y disponemos de la IA como herramienta para crear la base de datos de metadatos a partir de la enorme base de datos no estructurados. Ahora solo nos queda trasladas esta enorme cantidad de datos a nuestras entidades de computación de IA para que estas cumplan su tarea. Ahora bien, ¿es esta la manera correcta de llevarlo a cabo? Si observamos los dos puntos principales en los que se generan y almacenan los datos en la actualidad, es decir, en la “Nube” y en el “Margen” (“Edge”), se evidencia enseguida que trasladar grandes cantidades de datos resulta muy costoso por lo que debería evitarse. En la Nube, el enrutamiento de todos estos datos a través del centro de datos ejerce una fuerte presión sobre la infraestructura de la red, consume mucha energía y aumenta los niveles de latencia (la cual se añade al tiempo de procesamiento total).
En el Margen, los recursos de computación y la energía disponible son limitados. Las reducidas capacidades de la red de pequeños dispositivos situados allí provocarán que no sea factible cargar grandes cantidades de datos en la Nube para su procesamiento. En ambos casos, minimizar la cantidad de datos que se trasladan y recurrir a los metadatos es fundamental para optimizar la eficiencia operativa. Será mucho más efectivo que, en lugar de trasladar datos, la asignación de los datos se pueda realizar en la fuente, es decir, donde se encuentren los datos dentro del propio dispositivo de almacenamiento. Las unidades de estado sólido (SSD) ya incorporan los elementos fundamentales necesarios para funcionar como entidades de computación. Estos se destinan normalmente al funcionamiento de la unidad, pero se pueden reasignar para que asuman tareas relacionadas con la función y para encargarse de este trabajo de etiquetado, así como para complementar los bloques integrados de hardware/ software/ firmware que realicen dichas funciones.
Un modo de funcionamiento puede utilizar ventanas libres de la unidad para llevar a cabo tareas de planificación en un segundo plano. Otra técnica puede consistir en procesar estos datos a medida que se escriben en la unidad. El ahorro de consumo y de coste – junto con la minimización del movimiento de datos y una gran reducción de la latencia, junto con el menor tráfico de la red – son algunas de las ventajas que proporciona una aceleración así en el punto de almacenamiento si se aplica en los casos adecuados. La escalabilidad inherente de esta técnica permitirá que empresas y proveedores de servicios en la nube amplíen el ámbito de sus capacidades gracias a la potencia de la IA. En el Flash Memory Summit celebrado en agosto en Santa Clara, Marvell presentó un revolucionario concepto de controlador SSD basado en IA que demuestra cómo se puede ejecutar de forma efectiva el etiquetado de datos sin necesidad de acceder a los recursos de procesamiento de la CPU en el host; de esta forma se evitan los problemas de coste y latencia antes descritos.
Los asistentes pudieron comprobar el funcionamiento del centro de datos de Marvell y los circuitos integrados controladores de la SSD del cliente mediante la tecnología de código abierto NVDLA (NVIDIA Deep Learning Accelerator), cómo aprovechar un modelo probado de IA, compilarlo en la IP de inferencia integrada en la IA y explorar en una gran base de datos de datos no estructurados (p.ej., una biblioteca de vídeo) almacenada localmente en la unidad. A partir de esta se pueden generar etiquetas y crear una base de datos de metadatos que represente adecuadamente los datos en el contexto de la búsqueda. Si el objetivo es detectar y reconocer objetos o escenas, el motor de inferencia de IA puede explorar los archivos de vídeo almacenados en la unidad y crear metadatos que indica el momento en el que aparecieron en el vídeo. Gracias a esta tecnología de almacenamiento mejorada con IA, la base de datos de metadatos se puede almacenar localmente en la SSD y ponerla a disposición del software de análisis para realizar el examen necesario.
Pensemos por ejemplo en un organismo de orden público que busque un “objeto” sospechoso a lo largo de interminables horas de archivos de vídeo. Pueden cargar un modelo ya elaborado que sabe exactamente cómo reconocer un “objeto” y ejecutar la inferencia para todo el contenido de vídeo disponible en paralelo como una tarea en segundo plano para todas las unidades que lo almacenan. Cualquier aparición de este “objeto” sería marcada y etiquetada, lo cual facilitaría mucho el análisis posterior. De forma parecida, pensemos en lo efectiva que podría ser esta arquitectura para algo como el análisis ChatBot en segundo plano, donde existe una gran base de datos de llamadas ChatBot que es necesario revisar para mejorar la calidad de servicio.
Sería posible evaluar cuándo se sintieron los usuarios contentos/ descontentos por las respuestas recibidas, o si la llamada era demasiado larga/demasiado corta. Una vez creado un modelo de IA que sepa cómo seguir estos parámetros, se podrían recoger en los motores de inferencia almacenados en IA y las llamadas analizadas fuera de línea. En aplicaciones como la inserción personalizada de publicidad en servicios de vídeo bajo demanda también se pueden aprovechar las ventajas derivadas de su rendimiento, como la búsqueda de personas u objetos y varios ejemplos de uso en los que se utilizan las E/S de forma intensiva y aprovechan la proximidad a los datos.
La tecnología del controlador de SSD de IA que propone Marvell demuestra cómo se pueden implementar nuevas arquitecturas de almacenamiento de datos para manejar el creciente número de aplicaciones emergentes relacionadas con “Big Data” y que exigen una gran capacidad de computación, sin necesidad de costosos circuitos integrados desarrollados a medida. Al proporcionar al hardware SSD disponible en el mercado el acceso a lógica auxiliar que aumente considerablemente su nivel de inteligencia, se pueden tomar directamente los metadatos y las etiquetas vitales para tareas de análisis de próxima generación. No hay necesidad de conexión a un recurso de procesamiento dedicado.
La implementación de esta arquitectura alternativa al procesamiento centralizado convencional hará que todo el procedimiento sea mucho más eficiente. Necesita apenas un mínimo ancho de banda de la red disponible y evita que se formen cuellos de botella. Gracias a los aceleradores de IA incorporados directamente en económicos circuitos integrados controladores de SSD, será posible completar rápidamente las tareas de análisis. También necesitará menos capacidad de procesamiento y su consume de energía será inferior, además de acabar con la necesidad de desarrollar un ASIC complejo desde cero. El uso de una arquitectura programable también facilita mucho la actualización de los modelos de IA empleados, por lo que su uso práctico se puede abordar a medida que se desarrollan.