Aunque estos modelos han mostrado avances notables en su habilidad para resolver problemas, todavía no entendemos del todo qué tan bien pueden razonar por sí mismos, cómo se comportan al escalar (es decir, qué pasa cuando les damos problemas mucho más complejos o más datos) y sus limitaciones específicas, por ejemplo, dónde fallan consistentemente o si tienen un límite de complejidad que no pueden superar.
Un estudio reciente publicado por Machine Learning Research de Apple, titulado The Illusion of Thinking, aborda estas brechas investigando sistemáticamente cómo y cuándo estos modelos realmente "piensan".
Los métodos de evaluación actuales para los LRMs se centran principalmente en métricas de precisión de la respuesta final en benchmarks de matemáticas o codificación. Sin embargo, este enfoque contiene a menudo contaminación de datos y no ofrece una visión profunda de la estructura y calidad de los procesos de razonamiento internos. Para superar esto, los investigadores diseñaron un experimento con entornos de rompecabezas controlables.
Estos entornos permitieron una manipulación precisa de la complejidad composicional de los problemas, manteniendo al mismo tiempo estructuras lógicas consistentes. Esta configuración única fue crucial porque no solo posibilitó el análisis de las respuestas finales, sino también el estudio de los rastros de razonamiento internos de los modelos.
El estudio se llevó a cabo utilizando una amplia gama de experimentos a través de diversos tipos de rompecabezas. Se emplearon tres modelos de razonamiento principales: DeepSeek-R1, Claude-3.7-Sonnet (con la función de pensamiento activada) y o3-mini. Para cada modelo y nivel de complejidad de los rompecabezas, se registraron las soluciones correctas e incorrectas y, la cantidad de tokens de pensamiento utilizados.
*Los tokens de pensamiento son una medida del esfuerzo de inferencia o el esfuerzo de razonamiento que el modelo invierte antes de dar una respuesta.
Los hallazgos del estudio revelaron patrones en todos los modelos de razonamiento.
Colapso Completo de la Precisión: Los LRMs enfrentaron un colapso completo en su precisión más allá de ciertos umbrales de complejidad de los problemas. Esto significa que, a partir de cierto punto, los modelos simplemente fallaron en resolver los rompecabezas, independientemente de su capacidad inherente.
Límite de Escala Contra-Intuitivo en el Esfuerzo de Razonamiento: Quizás el resultado más contraintuitivo fue la observación de que el uso de tokens de pensamiento (esfuerzo de razonamiento) inicialmente escalaba con la complejidad del problema, como era de esperar. Sin embargo, después de alcanzar un umbral específico del modelo, este esfuerzo de razonamiento disminuyó contra-intuitivamente. Esto ocurría a pesar de que los modelos se enfrentaban a problemas más difíciles y estaban muy por debajo de sus límites de contexto y generación.
Las figuras del estudio ilustran este patrón, mostrando cómo el esfuerzo de razonamiento aumenta hasta un pico y luego disminuye drásticamente, siendo el punto donde los modelos comienzan a fallar consistentemente.
El análisis de estos resultados sugiere una limitación en el proceso de pensamiento de los LRMs para el razonamiento. Más allá de ciertos umbrales de complejidad, los modelos no solo fallan en resolver los problemas, sino que también reducen su capacidad de cómputo de inferencia. Esto indica que, en lugar de intentar esforzarse más ante un problema más difícil (o al menos mantener el esfuerzo), los modelos parecen rendirse y reducir su intento de razonamiento.
Esto desafía la noción de que un modelo simplemente seguiría intentando o gastaría más recursos computacionales cuando se enfrenta a una tarea más compleja. En cambio, parece haber un punto de inflexión o punto de quiebre donde la estrategia de razonamiento del modelo se vuelve ineficaz, llevando a un abandono del esfuerzo computacional de pensamiento.
En resumen, este estudio pone en evidencia que el "pensamiento" de los LRMs, aunque es potente en ciertos rangos de complejidad, no es ilimitado ni lineal. Aún así, los resultados son cruciales para comprender las verdaderas fortalezas y las limitaciones inherentes de los modelos de razonamiento de IA actuales, lo que abre nuevas oportunidades para la investigación en el desarrollo de IA más robusta y adaptable a problemas de mayor complejidad.
lausof
Over 400 subscribers