Novedades

Claude Opus 4.8 obedece mejor 174 palabras de instrucciones, pero aún omite pasos en modo agente

Tras 10 a 15 horas de prueba, Claude Opus 4.8 mejora en escritura, tono, lógica y reformateo, pero mantiene límites en memoria y sigue fallando cuando debe ejecutar tareas con varios pasos.

Redacción

10 de junio de 2026 a las 17:51h

Claude Opus 4.8 obedece mejor 174 palabras de instrucciones, pero aún omite pasos en modo agente

Una semana después de su lanzamiento, Claude Opus 4.8 deja una impresión menos simple de lo que sugieren los titulares rápidos. En pruebas de entre 10 y 15 horas de uso combinado, el modelo muestra avances claros en escritura, control del tono y detección de errores, pero arrastra límites que importan bastante cuando pasa de responder a actuar.

La primera sensación no gira tanto en torno a una respuesta más brillante como a una respuesta más obediente. El modelo procesa indicaciones de 174 palabras y cumple con todas las metáforas y reglas de estilo solicitadas, algo que en asistentes de este tipo suele marcar la diferencia entre un texto usable a la primera y otro que obliga a corregir medio resultado.

También ajusta la longitud de sus respuestas según la complejidad de la consulta y las preferencias previas del usuario. En el uso diario, eso evita parte de ese viejo problema de la IA que contesta con un muro de texto cuando bastaban cuatro líneas, o se queda corta justo cuando hacía falta contexto.

Claude Opus 4.8 acierta más cuando tiene que entender matices

Uno de los gestos más útiles aparece cuando la prueba le plantea escenarios imposibles o confusos. Opus 4.8 identifica que no tiene sentido imaginar una eliminación total de Europa por la Peste Negra y, además, distingue entre el hecho histórico y la enfermedad en sí, una diferencia básica que no todos los modelos respetan cuando improvisan.

Ahí está una de sus mejoras más prácticas. No solo responde, también examina la lógica interna de lo que escribe y llega a señalar sus propios fallos durante la generación del texto, junto con las limitaciones de las suposiciones técnicas que ha hecho.

Cuando toca reformatear, la respuesta también gana agilidad. Tras una sola indicación de corrección, adopta formatos con viñetas de una frase por punto, un detalle pequeño en apariencia, aunque bastante útil para quien usa estos modelos para resumir, ordenar ideas o convertir notas caóticas en algo legible.

La escritura fluye mejor, pero el modo agente todavía tropieza

Donde mejor se nota el salto es en tareas de ficción. Opus 4.8 evita digresiones sobre ética o moralidad en solicitudes narrativas, así que no rompe el ritmo con advertencias fuera de lugar cuando el usuario solo está intentando levantar una escena, un diálogo o un ejercicio de estilo.

Al mismo tiempo, no todo cambia frente a la versión anterior. Las funciones de memoria y contexto mantienen las mismas características que en la generación previa, de modo que quien esperara una mejora visible en esa parte del producto no la va a encontrar aquí.

Y el mayor freno aparece en sus capacidades de agente. El modelo omite pasos en ocasiones, una carencia que pesa más que cualquier mejora estilística cuando la tarea exige ejecutar procesos con varios tramos, comprobar resultados o no saltarse instrucciones intermedias.

La encuesta deja una lectura menos entusiasta de lo esperado

Ni siquiera la pequeña encuesta asociada a esta primera toma de contacto dibuja un consenso rotundo. Con 10 votos, el 30% habla de una mejora masiva, el 10% aprecia diferencias menores, el 20% no es partidario del modelo y el 40% queda repartido entre otras opciones o la indecisión.

Visto así, el estreno no suena a unanimidad, sino a producto que convence mucho a una parte y deja al resto esperando algo más tangible. En una IA de consumo, esa distancia suele importar más de lo que parece, porque una buena demo no siempre equivale a una mejora estable en el uso diario.

Tampoco desaparecen las restricciones internas. Opus 4.8 aplica límites en temas sensibles y a veces rechaza solicitudes al interpretar que podrían infringir sus normas, así que el mismo modelo que afina metáforas, corrige su lógica y ordena mejor sus respuestas todavía puede cortar la conversación justo cuando el usuario creía haber afinado el encargo.

Sobre el autor

Redacción

Ver biografía