Inicio Artículos Conocer el hardware y el software aumenta el rendimiento de la IA...

Conocer el hardware y el software aumenta el rendimiento de la IA embebida

Conocer el hardware y el software aumenta el rendimiento de la IA embebida

Autor: Christian Bauer, Product Marketing Manager, Tria Technologies

La inteligencia artificial (IA) se ha convertido en uno de los principales impulsores de la innovación. El alto rendimiento del procesamiento en la nube (cloud computing) ha permitido utilizar la IA para construir agentes inteligentes que pueden tomar el control y agilizar importantes procesos empresariales.

Los desarrolladores y los usuarios de los sistemas embebidos que controlan procesos industriales y de otro tipo en tiempo real pueden recurrir a la nube para aprovechar las prestaciones de la IA. Pero existe una creciente demanda de procesamiento de la IA a nivel local para superar problemas relativos a la necesidad de una conexión persistente e ininterrumpida con los servidores en la nube. Muchos suministradores de semiconductores han reaccionado ante esta necesidad ofreciendo aceleradores especializados en IA que a menudo están integrados en procesadores multinúcleo de aplicación general.

El rendimiento de los aceleradores embebidos suele verse limitado por su consumo y por la superficie que pueden ocupar, lo cual significa que existe una diferencia entre las prestaciones que pueden ofrecer respecto a las disponibles en la nube. Esta diferencia se amplía con la tendencia hacia los grandes modelos de IA generativa que ahora constituyen la base de la mayoría de los casos de uso basados en agentes, y que han permitido aplicar interfaces de usuario con un lenguaje natural en las aplicaciones.

El constante desarrollo de una IA eficiente ha suministrado tecnologías como MobileNet para reconocimiento de imágenes, que se pueden incorporar a los modelos necesarios para aplicaciones en el ámbito de la seguridad, el comercio minorista, la logística y la automatización industrial. Los desarrolladores están priorizando la reducción del tamaño y la eficiencia de procesamiento, aprovechando para ello la mayor exactitud proporcionada por el uso de conjuntos de datos más grandes para el entrenamiento. Como resultado de ello, las soluciones de IA generativa pueden sustituir a modelos mucho más grandes como Llama2-7B. Por ejemplo, TinyLlama necesita menos de 3.000 millones de parámetros.

El desarrollo de modelos simplificados de IA ha llegado en paralelo a optimizaciones del hardware que pueden aumentar la velocidad de procesamiento con un hardware más limitado. Qualcomm es uno de los mayores especialistas en este ámbito. Su equipo ha realizado numerosas evaluaciones de técnicas como la poda (pruning) y el microescalado, que pueden reducir el volumen necesario de computación. Por ejemplo, el microescalado sustituye a las operaciones de coma flotante por cálculos con números enteros que usan el hardware de manera más eficiente al basarse en operandos más pequeños. La reciente adquisición de Edge Impulse, especializada en la adaptación de la IA a hardware de bajo consumo, ha potenciado esta actividad.

Estos trabajos han proporcionado amplios conocimientos a Qualcomm sobre técnicas de optimización de modelos que ahora se están extendiendo a la IA generativa. El equipo de ingeniería de Qualcomm fue fundamental para perfeccionar el concepto de decodificación especulativa como una manera de mejorar la latencia y la eficiencia de un modelo de lenguaje grande o LLM (large language model). Esta técnica divide la ejecución entre un pequeño modelo local y un modelo basado en la nube que acelera la ejecución en su conjunto.

La decodificación especulativa y otras funciones de la IA optimizadas para aplicaciones distribuidas (edge) y embebidas se han incorporado a la arquitectura de hardware desarrollada por Qualcomm durante la década pasada. Este hardware, añadido inicialmente a la plataforma de smartphones Snapdragon, llega ahora a la automatización industrial con la familia Dragonwing.

El ajuste del modelo no basta por sí solo a la hora de aplicar el modelo de IA de alto rendimiento a plataformas embebidas. Los procesadores Snapdragon y Dragonwing cierran esa brecha. Si muchas soluciones de sus competidores alcanzar un rendimiento de hasta 10 billones de operaciones por segundo (TOPS), la generación IQ9 de la familia Qualcomm puede superar los 100 TOPS. Esto les permite no solo ejecutar TinyLlama y otros LLM más reducidos, sino el propio Llama2 con 13.000 millones de parámetros. Esos modelos más grandes pueden funcionar a una velocidad superior a 10 tokens por segundo, permitiendo así el uso de IA generativa local para interfaces de lenguaje natural.

La optimización del consumo de energía es otro punto fuerte de la arquitectura Hexagon que ofrece la base fundamental del soporte a la IA por parte de Dragonwing y va más allá de optimizaciones como prolongar la autonomía en sistemas alimentados por baterías. Un ejemplo de ello es la inferencia basada en unidades muy pequeñas (micro-tiles), que aprovecha la arquitectura del núcleo del procesador Hexagon, organizada en motores de ejecución que comparten una memoria central.

La inferencia con micro-tiles permite ejecutar un modelo más pequeño durante largos períodos con un bajo consumo de energía y se puede utilizar con ciertos tipos de sonidos o movimientos sobre una imagen capturada por una cámara. Este modelo pequeño también puede activar tareas más potentes para evaluar la entrada. La arquitectura de memoria común ofrece a los desarrolladores la posibilidad de aprovechar al máximo técnicas como la fusión de capas que emplean MobileNet y otros modelos. Al procesar varias capas a la vez, la fusión de capas disminuye el número de accesos necesarios a la memoria externa. Como resultado de ello se obtiene un gran ahorro de energía si se compara con otras arquitecturas y soluciones.

Los motores de ejecución de Hexagon incluye secuencias especializadas en cálculos escalares, vectoriales y tensores. Esta organización permite que el software asigne las tareas a la parte más apropiada del coprocesador con el fin de sacar el máximo partido a su aceleración. La velocidad de procesamiento se ve incrementada aún más con la ayuda de la técnica SMT (symmetric multithreading, que aprovecha el paralelismo entre hilos para evitar la latencia de los accesos a la memoria externa. Cuando un hilo necesita esperar para acceder a la memoria ya se puede ejecutar otro hilo que ya tiene los datos que precisa hasta que se ve obligado a detenerse y está listo para ser ocupado por otro.

Hexagon incluye un procesador totalmente escalar que puede ejecutar Linux, lo cual facilita la gestión de secuencias multimodelo muy complejas que pueden funcionar sin recurrir a los procesadores de aplicaciones Arm que también incorpora el Dragonwing.

La incorporación de procesadores Dragonwing por parte de Tria a una familia de productos SoM (system-on-module) facilita a los desarrolladores el acceso a esta tecnología. Para procesadores de IA de Qualcomm como el QCS5430 y el QCS6490, Tria decidió construir tarjetas SoM basadas en la conocida arquitectura SMARC (Smart Mobility ARChitecture). SMARC dota a los desarrolladores de una familia de módulos preparados para IA que se pueden utilizar en productos cuyo tamaño y espacio son muy valiosos, como los robots móviles.

Para extraer el máximo rendimiento del IQ-9075, un miembro destacado de la familia IQ9, Tria diseñó un ordenador monoplaca o SBC (single-board computer) para un factor de forma de 3,5” que incluye memoria LPDDR5 de 36MB/s e interfaces para cámara de alto rendimiento basadas en el estándar MIPI. Los módulos basados en SMARC permiten a los diseñadores descoger un diseño basado en Dragonwing con procesadores QCS5430, QCS6490 e IQ6. Un módulo basado en el formato OSM y el procesador IQ6 se centra en diseños que necesiten una plataforma de IA con un tamaño optimizado. Las tarjetas que utilizan la plataforma Snapdragon X Elite emplean los formatos más grandes ComExpress y ComHPC para admitir más memoria y un mayor número de E/S, e incluso un mayor rendimiento informático.

Una característica común en todas las tarjetas diseñadas por Tria es su diseño optimizado desde un punto de vista térmico y eléctrico. Los diseñadores validaron al comportamiento de estos módulos en entornos térmicos adversos para que los ingenieros que deseen utilizarlos no tengan que conjeturar cómo funcionarán los módulos bajo diferentes condiciones, por ejemplo bajo la luz directa del sol cuando se instala en un poste. Las tarjetas basadas en Dragonwing alcanzan una vida útil de 13 años o incluso más. El enfoque modular de Tria en el diseño también permite su adaptación a diferentes generaciones de productos, facilita las actualizaciones ofrece la posibilidad de sustitución por modelos con un rendimiento más elevado.

El plazo de comercialización se ve muy acortado con el AI Hub de Qualcomm gracias a un diseño del hardware listo para usar y apto para su integración en productos. Este software permite acceder a centenares de implementaciones de modelos diferentes que han sido optimizadas para las plataformas Snapdragon y Dragonwing. Los usuarios, que tan solo han de seleccionar y descargar modelos para empezar a trabajar con IA, pueden probar diferentes enfoques para comprobar cuál se ajusta mejor a la aplicación.

El resultado de la colaboración entre Qualcomm y Tria es una combinación de aceleración de la IA de alto rendimiento, una infraestructura de software que proporciona el acceso a un enorme número de modelos de IA y soporte de hardware que ofrece a los desarrolladores la posibilidad de evaluar, construir prototipos y probar conceptos cuanto antes. Esta plataforma se dirige a usuarios de diversos sectores, como automatización industrial, comercio minorista, seguridad, logística y empresas de servicios públicos, a los que aporta los medios necesarios para aprovechar los últimos avances de la IA.

IA embebida