Acabo de ver la repetición de Demis Hassabis hablando en Y Combinator sobre en qué punto estamos realmente con la IA general, y honestamente algunas de sus ideas valen la pena meditar un momento.



Así que aquí está lo esencial: según el fundador de DeepMind, básicamente ya tenemos la mayoría de las piezas arquitectónicas que necesitamos para la IA general. Preentrenamiento a gran escala, RLHF, razonamiento en cadena—estas probablemente serán parte de la arquitectura final. Pero todavía faltan una o dos piezas críticas. El aprendizaje continuo, el razonamiento a largo plazo y ciertos aspectos de la memoria aún no están resueltos. ¿Su línea de tiempo personal? Alrededor de 2030. Si eso es siquiera aproximadamente correcto, cambia la forma en que deberías pensar en cualquier proyecto a largo plazo que estés construyendo hoy.

Lo que llamó mi atención fue el problema de la "inteligencia irregular" que describió. Los modelos actuales pueden resolver problemas matemáticos de nivel medalla de oro en los Juegos Olímpicos de la IMO, pero luego cometen errores elementales en aritmética en una pregunta diferente. Es como si el proceso de razonamiento tuviera enormes puntos ciegos. Dio un ejemplo de ajedrez—a veces Gemini se da cuenta de que está a punto de hacer un movimiento malo, pero lo hace de todos modos porque no encuentra mejores alternativas. Un sistema verdaderamente inteligente no debería funcionar así. El equipo de DeepMind piensa que arreglar esto podría requerir solo una o dos mejoras específicas, pero es una brecha clara.

Sobre agentes: Hassabis fue bastante directo—estamos apenas comenzando. Todos están experimentando, pero todavía no hemos encontrado los casos de uso definitivos. Mencionó que nadie ha creado un juego AAA de alto nivel usando herramientas de codificación con IA, a pesar de que teóricamente es posible con las capacidades actuales. Algo falta en las herramientas o en el proceso. Espera ver avances reales en aplicaciones de agentes en 6 a 12 meses.

La discusión sobre la memoria también fue fascinante. Ventanas de contexto de un millón de tokens suenan enormes hasta que te das cuenta de que eso equivale solo a unos 20 minutos de transmisión de video. Y el enfoque actual es básicamente meter todo en esas ventanas—datos importantes y no importantes mezclados. El cerebro hace esto de manera elegante mediante ciclos de sueño y consolidación de la memoria. DeepMind ha estado pensando en esto desde los días de DQN en 2013, basándose en neurociencia, pero todavía usamos enfoques rudimentarios.

En cuanto a la destilación: su hipótesis es que en 6 a 12 meses tras lanzar un modelo de vanguardia, pueden comprimir sus capacidades en modelos mucho más pequeños que funcionen en dispositivos edge. Aún no han alcanzado límites teóricos. Los modelos Gemma son un buen ejemplo—Gemma 4 funciona excepcionalmente bien para su tamaño. Esto importa porque significa IA que sea rápida, eficiente y privada—que funcione localmente en tu teléfono o robot en lugar de en la nube.

Lo que realmente destacó fue su punto sobre avances científicos. AlphaFold fue enorme—tres millones de investigadores en todo el mundo lo usan ahora, y ha oído que será parte de casi todos los procesos futuros de descubrimiento de fármacos. Pero eso es solo el comienzo. Lo llama la "prueba de Einstein": ¿puedes entrenar un sistema con conocimientos de 1901 y que derive de manera independiente lo que Einstein descubrió en 1905? Cuando eso funcione, estaremos cerca de sistemas que puedan inventar cosas nuevas en lugar de solo resolver problemas existentes.

Para los fundadores, su consejo fue directo: persigan problemas que solo ustedes puedan resolver si no lo hacen. No optimicen para lo fácil. Además—y esto es importante—si estás empezando un proyecto de tecnología profunda hoy que será un viaje de diez años, debes considerar la posibilidad de que la IA general aparezca a mitad de camino. Piensa si tu proyecto puede funcionar con la IA general, cómo se integra, si sigue siendo útil en ese mundo. Su visión es de sistemas especializados como AlphaFold que funcionan como herramientas que modelos de propósito general como Gemini pueden consultar, no todo en un solo modelo masivo.

El ángulo multimodal de DeepMind también es interesante. Construir Gemini multimodal desde el principio fue más difícil al principio, pero ahora está dando frutos—mejores modelos del mundo, aplicaciones en robótica, integración en conducción autónoma. Eso se está convirtiendo en una ventaja competitiva.

En general, la conversación pintó un cuadro de progreso en IA que es rápido, pero aún tiene obstáculos técnicos específicos que superar. No solo estamos escalando hacia la IA general—hay problemas reales que necesitan solución. Y para cualquiera que esté construyendo en este espacio, la línea de tiempo importa. Piensa en qué sigue siendo valioso cuando el panorama cambie.
AGI-0,65%
MATH1,12%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado