La observabilidad en la implementación de la IA

Sin pretender ser académicos, iniciemos este artículo acercándonos a una posible definición de la observabilidad de la Inteligencia Artificial – IA. Podemos decir que la observabilidad es la capacidad de supervisar, comprender y explicar el comportamiento de los sistemas de IA a lo largo de todo su ciclo de vida. Es importante mencionar que la observabilidad va desde la gestión de datos (ingesta, tratamiento, transformación, aseguramiento) hasta la inferencia en producción. Esta inferencia no solo se queda en el despliegue de los resultados y la calidad de los mismos. La observabilidad también incorpora un seguimiento a la calidad de las decisiones tomadas para retroalimentar todo el sistema. Por esta y otras razones la observabilidad en la implementación de la IA es vital y crucial como factor crítico de éxito.

De todos es conocido que los esquemas de seguimiento y monitoreo tradicional están enfocados principalmente en detectar si un sistema funciona o no. Es probable que estos esquemas definan la forma de recuperarse ante fallos (eventos o incidentes). Sin embargo, la observabilidad va más allá y penetra en la naturaleza probabilística y de “caja negra” de los modelos que controla. Por lo tanto, su implementación es indispensable para mitigar riesgos críticos como las alucinaciones, el sesgo algorítmico y la degradación del rendimiento. Adicionalmente, también se ha venido presentando un fenómeno conocido como el “uso de la IA en la sombra”. En definitiva, se precisa disponer de herramientas y métodos inteligentes (IA recursiva) que permitan asegurar la adecuada utilización de los recursos y activos de información en la organización.

Para poder llevar una adecuada observabilidad se precisa de información de calidad en línea o tiempo real. Por esta razón, es importante que los sistemas que utilizan la IA “dejen rastro” en forma permanente de lo qué están haciendo y cómo lo hacen. Es aquí donde los logs de cada actividad y evento que se presenta en una plataforma son fundamentales para hacer el seguimiento y monitoreo. En consecuencia, la visibilidad holística en entornos que utilizan IA (i.e., agentes digitales inteligentes y agentes autónomos) se alcanza a través de la gestión de métricas específicas en los procesos. Veamos esto en tres niveles diferenciados:

Telemetría de modelos y datos: tal vez lo primero y más importante sea el control de los costos de la IA. Para lo anterior es vital conocer permanentemente el consumo de tokens. De esta forma es posible controlar y predecir los costos de ejecución asociados a los proveedores de modelos.
Por otro lado, también se precisa monitorear el tiempo exacto que tarda el modelo en procesar un prompt y generar una respuesta. A esto se le denomina la latencia de inferencia.
Calidad y seguridad de las respuestas: sabemos que los modelos de IA no son infalibles. Así las cosas debemos disponer de herramientas que nos permitan hacer seguimiento a los índices de alucinación o sesgo. Estas herramientas deben estar en la capacidad de realizar evaluaciones automatizadas destinadas a comprobar si el modelo está generando datos falsos o sin sustento factual.
Adicionalmente y como lo referimos, es preciso poder detectar los sesgos. Lo anterior se hace a través de auditorías constantes sobre las salidas y resultados de cada proceso y subproceso del modelo. En concreto es posible controlar y evitar contenidos no deseados (i.e., discriminatorios o inapropiados). De aquí también se desprende el seguimiento a las entradas y salidas para controlar la seguridad del sistema. En definitiva es preciso prevenir, anticipar y evitar ataques (inyección de prompts) o fugas involuntarias de propiedad intelectual.
Trazabilidad de agentes y herramientas de integración: debemos definir métricas para el rastreo en tiempo real de los flujos donde el agente de IA interactúa. Lo anterior se debe realizar tanto para las integraciones internas como externas. Sin embargo, es prudente definir controles adicionales con los sistemas y bases de datos externas de terceros.
Si volvemos sobre el análisis de causa raíz se precisa realizar un mapeo secuencial. O sea se debe poder identificar con exactitud en qué eslabón del razonamiento encadenado falló la automatización.

Sugerimos realizar un acercamiento dual o simultáneo para definir la arquitectura de la observabilidad según las necesidades de la organización. A esto lo hemos denominado “Arquitectura Híbrida“. El objetivo es abarcar tanto el seguimiento, control y monitoreo en los desarrollos internos de la IA como en el uso de plataformas externas de terceros.

Uso de la IA para desarrollos internos: los retos tecnológicos a nivel de observabilidad se enfocan en tre frentes: 1) la arquitectura de datos (fuentes, calidad e integridad de la información). 2) la arquitectura de integración (gestos de APIs y Gateways). 3) la arquitectura de seguridad (gobierno y acceso a los datosExtensión.

Es necesario analizar, revisar, validar y aprobar (en línea o tiempo real) las solicitudes que van directo a los modelos corporativos autorizados. Su mayor fortaleza radica en ofrecer visibilidad profunda del rendimiento técnico, latencias y optimización en el consumo de tokens (control de costos). Es preciso trabajar en el control del uso de herramientas web externas fuera de la infraestructura. En este escenario, el foco está en la calidad, el costo y el rendimiento técnico del sistema IA a implementar.

Estos son algunos de los elementos claves a tener en cuenta para los desarrollos internos: 1) telemetría de infraestructura para gestionar pasarelas (AI Gateways) con control de fallas (failover). 2) control de costos a través del monitoreo en tiempo real del consumo de tokens. 3) KPIs para hacer seguimiento a la latencia total y tasas de error del backend. 4) evaluación de la calidad y ciclo de vida mediante trazabilidad de agentes, uso de marcos de trabajo y flujos RAG. 5) métricas de fidelidad para evaluar automáticamente la relevancia del contexto recuperado, la fidelidad de la respuesta frente a ese contexto y la relevancia de la respuesta frente al prompt. 6) monitoreo de alertas cuando las consultas cambian drásticamente en comparación con el conjunto de datos con el que se probó el modelo originalmente.
Uso de la IA a través de plataformas externas de terceros: el monitoreo debe realizarse desde las herramientas de navegación hasta el intercambio de información. Para este caso se precisa supervisar las interacciones de los empleados directamente desde el cliente web con los terceros.

Los esfuerzos también deben concentrarse en detectar e impedir la “IA en la sombra” o sea el uso no autorizado de la IA. Para este caso el desafío esta en poder profundizar en la telemetría fina y conocer los detalles de lo que está ocurriendo en la infraestructura de la IA donde esta se encuentre.

En este escenario el foco es el cumplimiento normativo (compliance), la fuga de datos (DLP) y la seguridad corporativa. Algunos elementos clave para el control de acceso y visibilidad son: 1) monitoreo a nivel de red y punto de acceso (Endpoints) usando agentes SASE (Secure Access Service Edge). 2) gestión de extensiones de navegador para identificar qué herramientas de IA no autorizadas usan los empleados. 3) prevenir la fuga de datos (DLP) mediante la implementación de proxies que intercepten los prompts enviados a servicios públicos para bloquear automáticamente la carga de datos sensibles (códigos fuente internos, datos de clientes, información financiera). 4) realizar auditorías periódicas sobre las políticas de privacidad clasificando las herramientas externas utilizadas por servicios.

Tres son las acciones que proponemos para un plan unificado de los dos frentes de la arquitectura híbrida:

Definir un catálogo de herramientas permitidas: autorizar versiones corporativas de herramientas externas (como ChatGPT Enterprise o Microsoft 365 Copilot) que garanticen la privacidad de los datos, bloqueando las versiones de consumo general.
Implementar una capa de abstracción (AI Gateway): para los desarrollos internos, prohibir que los desarrolladores llamen directamente a las APIs de los modelos; todo debe pasar por el gateway corporativo para auditar costos y seguridad.
Consolidar en un SIEM o plataforma central: enviar los registros de auditoría de los empleados (seguridad) y las métricas de tus aplicaciones propias (rendimiento) a un centro de control unificado para tener una visión holística del impacto de la IA en la empresa.

Las organizaciones integran estas capacidades mediante soluciones y marcos de trabajo. De aquí se desprenden las herramientas empresariales que permiten optimizar flujos complejos y la interacción de múltiples agentes de IA en entornos masivos. Por otro lado, los ecosistemas de Nube (i.e., Azure, Gooble, AWS) proveen herramientas que facilitan la incorporación de interfaces automatizadas para soportar procesos y servicios de tecnología (CI/CD). Estos ambientes aseguran la calidad y permiten implementar los sistemas IA con modelos de observabilidad también asegurados antes de su lanzamiento formal en producción. A su vez, estos modelos utilizan la IA para ser mejorados y optimizados permanentemente. Como hemos mencionado la IA transforma la observabilidad tradicional en un sistema predictivo y autónomo diseñado para entornos de soluciones y agentes dinámicos.

Para finalizar, veamos cómo la misma IA puede ser utilizada para mejorar, optimizar y evolucionar los modelos de observabilidad para los sistemas agénticos y las soluciones que utilizan IA en sus prestaciones.

Mejora continua (profundidad en la visibilidad): la IA permite rastrear las interacciones complejas de los sistemas agénticos. De esta forma se supera algunas limitaciones que tienen las herramientas tradicionales pues no alcanzan a detallar aspectos internos en modelos complejos de IA.
Por otro lado, es posible desarrollar herramientas que hagan trazabilidad de prompts y monitoreo de embeddings. Por un lado, se realiza un registro de las entradas y salidas de texto de cada agente de forma automática. Además, se evalúa la calidad de la recuperación de datos (RAG) en tiempo real. A su vez, otro aspecto que se puede mejorar es el control de costos. A través de las mediciones del consumo exacto de tokens por cada decisión o tarea asignada se puede establecer un esquema de ahorro y optimización de recursos. Por ejemplo, el mapeo de dependencias permite rastrear cómo colaboran múltiples agentes entre sí para resolver un objetivo.
Optimización (efectividad del sistema): la IA analiza los datos recolectados para reducir fallos y mejorar la velocidad de procesamiento. Se establecen herramientas para detectar bucles y de esta forma identificar si dos o más agentes están atrapados repitiendo la misma tarea. Por otra parte, es posible también hacer gestión sobre la latencia. Se precisa identificar y localizar qué proceso, agente o modelo (LLM) específico está retrasando la respuesta final.
Así mismo, la IA puede ayudar a definir la forma para filtrar las alertas y evitar los falsos positivos mediante análisis de comportamiento. En cuanto a los recursos computaciones de memoria (lógica y física) es posible trabajar en la optimización del caché. Los modelos de IA deben desarrollarse con la capacidad de almacenar respuestas recurrentes para ahorrar costos de API.
Evolución (auto diagnóstico, auto recuperación y auto sanación): la IA lleva la observabilidad de la reacción pasiva a la autonomía proactiva. Los procesos de análisis, revisión, verificación y validación llegan a la causa raíz. Por lo tanto es posible determinar la razón exacta de un fallo (i.e., alucinación o sesgo) y proceder con el ajuste de forma inmediata y autónoma.

Por otro lado, podemos definir, diseñar e implementar agentes especializados en monitoreo para auditar a otros agentes digitales inteligentes. Hacemos énfasis en que los ajuste siempre se realizan en tiempo real. Por ejemplo, es posible modificar los prompts del sistema automáticamente con base en reglas de validación. Así mismo, estas reglas se pueden aplicar para detectar una baja en la precisión de las respuestas o inconsistencias en las fuentes de información.

Por último podemos desarrollar agentes basados en modelos predictivos. Su importancia radica en que estos modelos pueden anticipar cuellos de botella antes de que afecten la experiencia del usuario o el servicio en si.

En niik tenemos experiencia en proyectos para la implementación de la estrategia de gestión de datos y la estrategia de adopción de la IA. Como lo hemos visto en este artículo la observabilidad es una pieza fundamental para la implementación de la IA. Nos apoyamos en la mejores prácticas y en aliados que poseen soluciones maduras y consolidadas para todas los ecosistemas e industrias. Nuestro objetivo es que los clientes puedan obtener, en el menor tiempo posible, el mayor y mejor provecho de la IA. Son innumerables los beneficios, sin embargo, les ayudamos en la superación de los retos y desafíos que implican este tipo de proyectos para la implementación de nuevas tecnologías. Es de esta forma que le entregamos a nuestros clientes soluciones que garantizan la mejor experiencia al usuario.

contactanos@niik.net
+57 3182352827 / +57 3103124796
#ConiikTIC
#TuCompañiaEnElMundoDigital

Fuentes: Investigaciones realizadas por el equipo de arquitectura de niik.

La observabilidad en la implementación de la IA

Comentarios

Deja un comentario Cancelar respuesta