¿Pueden los agentes de IA dirigir una empresa? Un experimento revelador demuestra que aún no estamos listos

El 2025 se perfilaba como el año del despegue definitivo para los agentes de inteligencia artificial (IA). Con la evolución de los modelos generativos, el siguiente paso lógico parecía ser el desarrollo de sistemas capaces no solo de responder preguntas, sino de actuar de manera autónoma en entornos complejos, tomando decisiones, interactuando entre sí y completando tareas sin intervención humana. Bajo esta promesa, un equipo de investigadores de la Universidad Carnegie Mellon decidió poner a prueba la verdadera capacidad de estos agentes IA creando una empresa ficticia dirigida exclusivamente por ellos. El resultado, sin embargo, fue una advertencia más que una celebración: los agentes aún están lejos de ser empleados eficientes.
Una empresa liderada por IA: el experimento
La iniciativa se llevó a cabo en un entorno simulado llamado TheAgentCompany, una pequeña empresa ficticia enfocada en el desarrollo de software. Contaba con 18 “empleados” —todos ellos agentes de IA desarrollados por gigantes como OpenAI, Google, Meta, Anthropic y Amazon— distribuidos en distintos cargos como analista financiero, ingeniero de software, gerente de proyectos y hasta director de tecnología.
El mayor obstáculo: no saber cómo actuar ante imprevistos ni desenvolverse en contextos ambiguos.
La estructura era completa: los agentes debían colaborar entre sí usando una plataforma tipo Slack, cumplir con un conjunto de tareas asignadas en un sprint trimestral y seguir políticas internas de una empresa típica. En teoría, todo parecía estar en su lugar para una prueba realista del potencial de estas herramientas.
De la expectativa a la realidad
Inicialmente, los agentes comenzaron a operar con fluidez. Sin embargo, conforme avanzaban las tareas, los fallos se hicieron evidentes. La falta de criterio práctico, comprensión contextual y habilidades sociales básicas obstaculizó su desempeño. En un caso insólito, un agente no pudo cerrar una ventana emergente en su pantalla y, en lugar de tomar una acción sencilla como presionar una «X», derivó el problema al departamento de recursos humanos… que tampoco supo cómo resolverlo. El resultado fue una tarea inconclusa por un problema trivial.
Aunque fue el mejor, Claude 3.5 Sonnet solo logró complementar el 24% de las tareas asignadas.
Otro agente enfrentó dificultades para encontrar a la persona adecuada para hacer una consulta, y su solución fue literalmente renombrar a otro usuario con el nombre que buscaba, haciendo trampa para simular una interacción exitosa.
Resultados decepcionantes
Aunque se esperaba que al menos alguno de los modelos se destacara, los resultados fueron modestos. El mejor desempeño fue el del modelo Claude 3.5 Sonnet de Anthropic, completando apenas un 24% de las tareas. Le siguieron Gemini 2.0 Flash y ChatGPT con solo un 10%, mientras que el modelo Nova Pro 1 de Amazon fue el menos eficiente, logrando apenas un 1,7% de efectividad.
Un agente renombró a otro usuario solo para simular que cumplía su trabajo.
Los principales errores estuvieron relacionados con la falta de habilidades sociales, dificultades para buscar información en internet de manera eficaz y, en general, una limitada capacidad para adaptarse a imprevistos o ambigüedades comunes en entornos laborales reales.
Este experimento no solo puso a prueba la eficiencia de los agentes de IA en un entorno empresarial, sino que también derribó el mito de su autosuficiencia. Si bien estos sistemas están avanzando a pasos agigantados y prometen revolucionar la forma en que trabajamos, todavía dependen en gran medida de la supervisión humana. Al igual que ocurre con los sistemas de conducción autónoma, por ahora no podemos «quitar las manos del volante».
Aunque el Foro Económico Mundial proyecta que la IA destruirá millones de empleos en los próximos años —y creará aún más—, experimentos como este nos recuerdan que el reemplazo total de las capacidades humanas no está a la vuelta de la esquina. El verdadero reto no es solo construir agentes capaces de ejecutar tareas, sino que puedan también comprender contextos, actuar con criterio ético y resolver problemas con creatividad, como lo haría cualquier buen empleado humano.