Las herramientas de codificación de IA están mejorando rápidamente. Si no trabaja en código, puede ser difícil notar cuánto están cambiando las cosas, pero GPT-5 y Gemini 2.5 han hecho posible un conjunto completamente nuevo de trucos de desarrolladores para automatizar, y la semana pasada Sonnet 2.4 lo hizo nuevamente.
Al mismo tiempo, otras habilidades están progresando más lentamente. Si está utilizando AI para escribir correos electrónicos, probablemente esté obteniendo el mismo valor que lo hizo hace un año. Incluso cuando el modelo mejora, el producto no siempre se beneficia, especialmente cuando el producto es un chatbot que está haciendo una docena de trabajos diferentes al mismo tiempo. La IA todavía está progresando, pero no se distribuye tan uniformemente como solía ser.
La diferencia en el progreso es más simple de lo que parece. Las aplicaciones de codificación se benefician de miles de millones de pruebas fácilmente medibles, que pueden entrenarlas para producir un código viable. Este es el aprendizaje de refuerzo (RL), posiblemente el mayor impulsor del progreso de IA en los últimos seis meses y se vuelva más intrincado todo el tiempo. Puede hacer un aprendizaje de refuerzo con los calificadores humanos, pero funciona mejor si hay una métrica clara de pase-fail, por lo que puede repetirlo miles de millones de veces sin tener que detenerse para obtener información humana.
A medida que la industria se basa cada vez más en el aprendizaje de refuerzo para mejorar los productos, estamos viendo una diferencia real entre las capacidades que se pueden calificar automáticamente y las que no pueden. Las habilidades amigables con RL, como la fijación de errores y las matemáticas competitivas, están mejorando rápidamente, mientras que habilidades como la escritura solo hacen un progreso incremental.
En resumen, hay una brecha de refuerzo, y se está convirtiendo en uno de los factores más importantes para lo que los sistemas de IA pueden y no pueden hacer.
De alguna manera, el desarrollo de software es el tema perfecto para el aprendizaje de refuerzo. Incluso antes de la IA, había una subdisciplina completa dedicada a probar cómo el software se mantendría bajo presión, en gran parte porque los desarrolladores debían asegurarse de que su código no se rompiera antes de que lo desplegaran. Por lo tanto, incluso el código más elegante aún necesita pasar a través de pruebas unitarias, pruebas de integración, pruebas de seguridad, etc. Los desarrolladores humanos usan estas pruebas de manera rutinaria para validar su código y, como me dijo el director senior de herramientas de desarrollo de Google, me dijo recientemente, son igual de útiles para validar el código generado por IA. Incluso más que eso, son útiles para el aprendizaje de refuerzo, ya que ya están sistematizados y repetibles a una escala masiva.
No hay una manera fácil de validar un correo electrónico bien escrito o una buena respuesta de chatbot; Estas habilidades son inherentemente subjetivas y más difíciles de medir a escala. Pero no todas las tareas caen perfectamente en categorías «fáciles de probar» o «difíciles de probar». No tenemos un kit de prueba listo para usar para informes financieros trimestrales o ciencia actuarial, pero una startup contable bien capitalizada probablemente podría construir uno desde cero. Algunos kits de prueba funcionarán mejor que otros, por supuesto, y algunas compañías serán más inteligentes sobre cómo abordar el problema. Pero la probabilidad del proceso subyacente será el factor decisivo en si el proceso subyacente puede convertirse en un producto funcional en lugar de solo una demostración emocionante.
Evento de TechCrunch
San Francisco
|
27-29 de octubre de 2025
Algunos procesos resultan ser más comprobables de lo que piensas. Si me hubieras preguntado la semana pasada, habría puesto un video generado por AI en la categoría de «difícil de probar», pero el inmenso progreso realizado por el nuevo modelo SORA 2 de Operai muestra que puede que no sea tan difícil como parece. En Sora 2, los objetos ya no aparecen y desaparecen de la nada. Las caras mantienen su forma, parecida a una persona específica en lugar de una simple colección de características. Sora 2 El metraje respeta las leyes de la física en ambos obvio y sutil maneras. Sospecho que, si te miras detrás de la cortina, encontrarías un sistema de aprendizaje de refuerzo robusto para cada una de estas cualidades. En conjunto, marcan la diferencia entre el fotorrealismo y una alucinación entretenida.
Para ser claros, esta no es una regla dura y rápida de inteligencia artificial. Es el resultado del rol de rol de refuerzo que el aprendizaje está jugando en el desarrollo de la inteligencia artificial, lo que podría cambiar fácilmente a medida que se desarrollan los modelos. Pero mientras RL sea la herramienta principal para llevar productos de IA al mercado, la brecha de refuerzo solo crecerá, con serias implicaciones tanto para las nuevas empresas como para la economía en general. Si un proceso termina en el lado derecho de la brecha de refuerzo, las nuevas empresas probablemente tendrán éxito en automatizarlo, y cualquiera que haga ese trabajo ahora puede terminar buscando una nueva carrera. La cuestión de qué servicios de salud son RL-Trainables, por ejemplo, tiene enormes implicaciones para la forma de la economía en los próximos 20 años. Y si las sorpresas como Sora 2 son una indicación, es posible que no tengamos que esperar mucho para una respuesta.








