
En un reciente episodio del podcast de Lex Fridman, los expertos en inteligencia artificial Dylan Patel y Nathan Lambert analizaron las últimas innovaciones en modelos de razonamiento como DeepSeek R1, OpenAI o3-mini, o1 Pro y Gemini Flash 2.0 Thinking. La conversación abordó el impacto de estos modelos en la evolución del aprendizaje automático y su capacidad para generar respuestas novedosas.
Evolución del entrenamiento en modelos de razonamiento
Uno de los puntos clave discutidos fue cómo se entrenan estos modelos para mejorar sus capacidades cognitivas. Según Lambert, el proceso implica una combinación entre entrenamiento a gran escala con refuerzo (RL) seguido por técnicas avanzadas como ajuste fino mediante rechazo selectivo e instrucción filtrada con modelos de recompensa.
El modelo DeepSeek R1 ha implementado estrategias centradas en matemáticas y código que buscan optimizar la precisión lógica sin sacrificar flexibilidad lingüística. Sin embargo, aún queda abierta la pregunta sobre cuánto pueden transferirse estas mejoras a otros dominios más abstractos como filosofía o creatividad literaria.
Por otro lado, Google ha lanzado Gemini Flash 2.0 Thinking con un enfoque diferente al integrar razonamiento dentro de una pila estándar preexistente. Aunque menos expresivo que algunos competidores directos como OpenAI o1 Pro, este modelo destaca por ser más económico sin perder eficacia significativa.
Comparación entre los principales modelos actuales
Durante el análisis comparativo realizado por Fridman tras probar cada uno bajo preguntas filosóficas abiertas—como “da una idea verdaderamente novedosa sobre los humanos”—se identificaron diferencias notables:
- OpenAI o1 Pro: Consistentemente generó respuestas profundas e ingeniosas con claridad conceptual destacable.
- DeepSeek R1: Menos consistente pero capaz ocasionalmente de producir ideas brillantes basadas en cadenas explícitas de pensamiento lógico estructurado.
- Gemini Flash 2.0 Thinking: Ofreció perspectivas interesantes aunque no siempre tan impactantes ni originales respecto a sus rivales directos.
- OpenAI o3-mini: A pesar de su rapidez operativa mostró tendencia hacia respuestas genéricas sin alcanzar niveles sobresalientes frente a otras opciones evaluadas.