Los agentes de Inteligencia Artificial ejecutan procesos

noviembre 10 2024, 7:06 am

Estamos entrando en una era donde un modelo de Inteligencia Artificial (IA) puede usar todas las herramientas que una persona utiliza para completar tareas cotidianas. Muchos nos hemos acostumbrado a aprovechar los Prompts para averiguar, investigar, corregir, crear imágenes. Ahora, los Agentes de Inteligencia Artificial (Agentes-IA) serán los responsables de automatizar las tareas rutinarias de la oficina y liberarán a las personas para que sean más productivas en otras áreas.

¡Únete al club ahora! Suscríbete al boletín más importante de Venezuela

Especial de Laszlo Beke

Los Agentes-IA son programas inteligentes, que ejecutan procesos en forma autónoma, que están diseñados para pensar, actuar y adaptarse en forma independiente. Los Agentes-IA no son solo chatbots esperando comandos, ellos manejan tareas sin necesidad de control e intervención humana.

Los Agentes-IA rompen el molde del “escribe-y-recibe-respuesta” al que nos hemos acostumbrado con la primera versión de uso de la IA Generativa. Ella aplica a muchas tareas del mundo real, como logística o procesamiento de órdenes, las cuales requieren múltiples pasos ocurriendo en paralelo. Los Agentes-IA pueden manejar este tipo de complejidad. Ellos pueden dividir tareas, procesar data, manejar flujos de trabajo, sin requerir que persona alguna tenga que teclear algo. Los usuarios consideran estas herramientas como socios digitales, aun cuando a veces los pueden sentir excesivamente independientes.

Los principales Agentes-IA

El desarrollo de los Agentes-IA están en plena evolución, con múltiples empresas (gigantes y pequeñas) trabajando en ello y probándolas:

Claude 3.5 (Anthropic-Amazon) y Gemini (Google) – han sido programados para procesar información, priorizar objetivos y adaptarse en tiempo real. Así dejan de ser “Asistentes” para convertirse en “Agentes-IA”. Un agente digital puede auto-replicarse y manejar varias amenazas en forma simultánea, los Agentes-IA reflejan esa flexibilidad y capacidad. Claude puede tomar control y trabajar directamente en la computadora de la persona, tecleando, escribiendo y resolviendo problemas en forma autónoma.. Claude ha sido entrenado a realizar una cantidad de acciones en la computadora, incluyendo la búsqueda en Internet, la apertura de aplicaciones y el ingresar texto usando el mouse y el teclado.

Gemini (Google) y Copilot (Microsoft) – operan dentro de Google Workspace y Microsoft 365 respectivamente, observando y adaptándose. Anticipan necesidades y asisten en tareas a través de los diferentes programas de Google (Gmail, Sheets, Docs) y de Microsoft (Teams, Excel, Word, Powerpoint, OneDrive). Silenciosamente observan, asisten y aprenden.

Swarm (OpenAI) – es un proyecto diferente a los anteriores. Es una estructura que le permite a los programadores crear redes de agentes pequeños y especializados que pueden cooperar en tareas en una formación de enjambre. Se trata de un sistema donde múltiples agentes pueden manejar diferentes partes de una tarea, entregar la responsabilidad una vez concluida esta e integrarse para alcanzar un objetivo común. Como ejemplo, un agente puede recopilar data, otro agente analizarla y un tercer agente puede componer el reporte. Al distribuir tareas de esta manera, Swarm le permite a los agentes manejar proyectos complejos con múltiples pasos en forma más rápida y eficiente que lo que un solo agente pudiera lograr.

AgentGPT y AutoGPT – son plataformas que le permiten a cualquiera implementar agentes especializados para tareas diversas en los sistemas del usuario. Como ejemplo, con AgentGPT se pueden lanzar agentes que en forma autónoma buscan, analizan y generan reportes sobre data, generando múltiples versiones para enfrentar problemas desde cada ángulo.

El balance entre el poder y la autonomía

Un tema clave es la determinación de la autonomía que se le desea conceder a los agentes. Empresas como Neo, tratan de llevar la autonomía de los Agentes-IA hasta los límites en los sistemas digitales que han creado. Herramientas como LLMStack le permiten a las empresas individualizar sus agentes con fuentes de datos únicas, convirtiendo a cada agente en un agente híper-especializado. Ese poder debe ser balanceado con la responsabilidad. En la medida que los agentes adquieren mayor independencia, la administración de la data y la protección de la privacidad se convierten en nuevos retos.

Esos innumerables agentes que se van creando con un propósito estarán trabajando y operando dentro de la vida digital de personas, procesos y empresas. Fueron creados para servir, para automatizar y para amplificar la productividad. Mirando hacia el futuro, la creación descontrolada puede generar realidades que hoy son difíciles de imaginar. Al ir ganando espacio y poder los agentes, es necesario establecer los límites, para asegurar que sean nuestros aliados y no nuestros jefes.

Demos de Agentes-IA

Preparar una excursión – En un demo pre-grabado, en el cual a un “agentic” de Claude, se le ha solicitado que prepare un plan para una excursión con un amigo en un parque específico. Claude abrió el navegador de Internet, buscó la información relevante en Google, incluyendo el sitio ideal con la mejor vista y el tiempo óptimo para llegar allí, entonces usó una aplicación de calendario para crear un evento para compartir con el amigo.

Crear una página web – En otro demo, a Claude se le pidió que creara una página web simple para autopromocionarse. En cuestión de segundos, el modelo introdujo un prompt en su interfase de Internet para crear el código necesario. En el próximo paso utilizó Visual Studio Code, el editor de código de Microsoft, para crear una página web simple y abrió un terminal de texto para crear un servidor web para probar la página web. La página web ofreció un landing page decente para el modelo de IA. Cuando el usuario solicitó corregir un problema en la página web, el modelo retornó al editor, identificó el código erróneo y lo eliminó.

Indudablemente, lograr que la tecnología funcione en la vida real en forma confiable y sin errores será un reto. Los modelos actuales responden a preguntas y conversan con una habilidad cuasi humana, y son el eje central de chatbots como ChatGPT y Gemini.

También son capaces de ejecutar tareas con un simple comando, a través del acceso a la pantalla y a atrás de interfaces de software. A esta altura, los Agentes-IA tienden a no tener la habilidad de planificar muy lejos y frecuentemente les cuesta recuperarse de errores.

Son aspectos que tendrán que mejorar y demostrarlo en pruebas de referencia (benchmark) exigentes y realistas. Claude ya demostró que podía ubicar errores con facilidad. Por su lado, Microsoft está probando agentes que pueden manejar a las computadoras con Windows. Amazon (con una fuerte inversión en Antthropic) está explorando como los agentes pueden recomendar y eventualmente realizar compras de productos para sus clientes. El control de los errores se vuelve crítico, es necesario tener restricciones, por ejemplo en las cantidades que puede aplicar en la compra con la tarjeta de crédito del cliente.

Se hace referencia a The Rise of AI Agents y Anthropic Wants Its AI Agent to Control Your Computer. También aparece en mi Portal https://tinyurl.com/49nedjp9. La imagen es cortesía de Bing Image Creator.

Compártelo: