Tecnología

Ai2 revoluciona la visión de IA con Molmo 2: un modelo de código abierto que desafía a los gigantes tecnológicos

El Instituto Allen para Inteligencia Artificial (Ai2), con sede en Seattle, ha dado un paso importante en el ámbito de la visión artificial al lanzar Molmo 2, un modelo de análisis de video completamente de código abierto. A diferencia de los sistemas comerciales de gigantes tecnológicos como Google, Meta u OpenAI, Molmo 2 permite a investigadores y desarrolladores no solo acceder al producto final, sino también al código de entrenamiento, las ponderaciones del modelo y los datos utilizados. Este enfoque abierto busca democratizar la inteligencia artificial avanzada y fomentar la colaboración en lugar de la competencia directa.

Molmo 2 es capaz de ver, rastrear y analizar videos de manera precisa, respondiendo preguntas complejas sobre su contenido. Entre sus demostraciones más llamativas se incluyen:

  • Deportes: Identificación de equipos, jugadores, errores defensivos y anotaciones en clips de fútbol y béisbol.
  • Ciencia y naturaleza: Seguimiento de múltiples pingüinos en un mismo plano, incluso cuando se superponen.
  • Cocina: Extracción de recetas completas con ingredientes e instrucciones paso a paso directamente desde el video.
  • Rastreo complejo: Identificación de objetos específicos en movimiento, como un coche que adelanta a otro en una carrera.

“Este modelo democratiza la IA avanzada, ofreciendo transparencia y colaboración a investigadores y desarrolladores.”

Este modelo representa una evolución significativa respecto a su predecesor, el Molmo original, que solo podía analizar imágenes estáticas. La capacidad de seguimiento de objetos entre fotogramas permite analizar videos cortos con un nivel de detalle cercano al de sistemas comerciales, pero usando menos datos y recursos computacionales: Molmo 2 entrenó con aproximadamente 9 millones de videos, comparado con los 72,5 millones de videos empleados por Meta en su sistema Perception.

Ali Farhadi, CEO de Ai2, enfatiza que el objetivo de la organización sin fines de lucro no es competir comercialmente, sino avanzar el estado del arte de la IA y hacerla accesible a todos. Los modelos abiertos de Ai2 —OLMo para texto, Molmo para imágenes y ahora Molmo 2 para video— reflejan esta filosofía y promueven un ecosistema donde la colaboración supera la competencia.

Sin embargo, Molmo 2 aún tiene limitaciones técnicas: puede rastrear un máximo de diez objetos simultáneamente, no está diseñado para videos de larga duración ni para transmisiones en vivo, y se enfoca en clips cortos de hasta 15 segundos. El equipo de Ai2 trabaja en superar estas barreras, explorando métodos para análisis de secuencias largas y transmisión en tiempo real, especialmente para aplicaciones en robótica.

Molmo 2 representa un hito en la visión artificial abierta, combinando precisión, eficiencia y accesibilidad. Al proporcionar un modelo totalmente transparente y personalizable, Ai2 no solo desafía a los gigantes tecnológicos, sino que también democratiza la IA avanzada, ofreciendo a investigadores y desarrolladores la posibilidad de innovar sin depender de sistemas cerrados. A medida que se superen sus limitaciones actuales, Molmo 2 podría transformar múltiples industrias, desde deportes y entretenimiento hasta educación y robótica, consolidando la posición de Ai2 como líder en IA de código abierto.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *