Claude Opus 4.7: qué cambia para tu stack IA

Q: ¿Necesito el esfuerzo `xhigh` para coding agéntico?

Anthropic recomienda `xhigh` como punto de partida para coding y casos agénticos, y como mínimo `high` para tareas sensibles a la inteligencia. Los niveles más bajos producen menos llamadas a herramientas y salidas más cortas. Sube el esfuerzo si el agente se detiene antes de tiempo o salta pasos.

Q: ¿Puedo seguir usando thinking extendido con un budget de tokens fijo?

No. El thinking extendido con `budget_tokens` se eliminó en Opus 4.7 y devuelve un error 400. Adaptive thinking es el único modo de thinking disponible. Para controlar costos en un loop agéntico, usa el nuevo `task_budget` (requiere el header beta `task-budgets-2026-03-13`).

Transparencia: Este artículo incluye un enlace de guest pass de Claude Code desde nuestra cuenta. Anthropic nos dio 3 pases para compartir. Cada pase le da a un amigo una semana gratis de Claude Code y Cowork. No cobramos comisión. Lo compartimos porque usamos Claude Code todos los días.

Claude Opus 4.7 salió hoy. Aquí está lo que Anthropic realmente cambió, qué breaking changes van a degradar en silencio la salida de tus integraciones, y dónde encaja 4.7 en nuestro stack de agentes de IA.

Este artículo asume que ya usas Claude vía API o Claude Code. Si no, salta a la sección “¿Deberías migrar?” al final.

Lo que Anthropic lanzó hoy, en concreto

Claude Opus 4.7 sucede a Opus 4.6. Mismo precio (5 USD entrada, 25 USD salida por millón de tokens). Misma ventana de contexto de 1M tokens, ahora confirmada al precio API estándar, sin premium por contexto largo. Nuevo tokenizer, nuevo stack de visión, nueva API de task budget, y tres breaking changes que te van a morder si te saltas las notas de lanzamiento.

Model ID: claude-opus-4-7. Disponible hoy en Claude.ai, la API de Anthropic, AWS Bedrock, Google Cloud Vertex AI y Microsoft Foundry.

Las características principales según el anuncio oficial de Anthropic:

Visión de alta resolución. Imágenes hasta 2576 px (3,75 MP). Es un salto de 3x desde el techo anterior de 1568 px / 1,15 MP. Las coordenadas de píxel son 1:1 con las del modelo: tus agentes de computer-use ya no hacen cálculos de escala.
Nuevo nivel de esfuerzo xhigh. Un peldaño arriba de high, para coding y loops agénticos. Solo en Messages API.
Task budgets (beta). Un budget de tokens orientativo a lo largo de todo un loop agéntico. El modelo ve la cuenta regresiva y se auto-regula.
Solo adaptive thinking. El thinking extendido con budget_tokens fijo desapareció. Adaptive thinking es ahora el único modo de razonamiento, y está desactivado por defecto.

Anthropic indica en sus notas de lanzamiento que adaptive thinking supera de manera confiable al thinking extendido antiguo en sus evaluaciones internas. Encaja con la filosofía más amplia de Anthropic sobre adaptive thinking: dejar que el modelo decida cuánto razonamiento merece un paso, en vez de asignar un budget fijo por adelantado.

Los benchmarks que importan

Los saltos fuertes de Opus 4.7 están en coding agéntico y visión. CursorBench pasa de 58 % a 70 %. La acuidad visual en tareas de computer-use salta de 54,5 % a 98,5 %. Rakuten-SWE-Bench muestra 3x más tareas de producción resueltas. En trabajo agéntico de horizonte largo y lectura de pantalla, 4.7 no está en la misma categoría que 4.6.

Benchmark	Opus 4.6	Opus 4.7	Qué mide
CursorBench	58 %	70 %	Tareas reales de coding dentro de un IDE
Acuidad visual (computer-use)	54,5 %	98,5 %	Lectura de píxeles en screenshots
Rakuten-SWE-Bench	1x	3x	Resolución de tareas en producción
Recall CodeRabbit	baseline	+10 %	Cobertura de code review
Harvey BigLaw Bench	n/a	90,9 %	Razonamiento legal (esfuerzo alto)

Las cifras de CursorBench y computer-use son las que nos hicieron cambiar de opinión. Nuestros agentes pasan el día leyendo dashboards, parseando logs y corriendo linters por captura de pantalla. Un salto de 44 puntos en acuidad visual no es un margen de error.

Lo que cambia poco: chat puro, Q&A de un solo turno, cualquier cosa donde el modelo solo tiene que generar un párrafo a partir de un prompt claro. Si esa es toda tu carga de trabajo, puedes quedarte en 4.6 un ciclo más sin notar la diferencia.

Los breaking changes que te van a doler en silencio

Tres cambios a nivel API romperán tus integraciones si no los manejas. Ninguno da un error obvio. Todos degradan la calidad de salida si los pasas por alto.

Los budgets de thinking extendido están muertos

# Antes (Opus 4.6): funciona
thinking = {"type": "enabled", "budget_tokens": 32000}

# Después (Opus 4.7): error 400
thinking = {"type": "adaptive"}
output_config = {"effort": "high"}

Si contabas con los budgets de thinking fijos para predecir tu costo, necesitas otra palanca. Esa palanca es task_budget, que es orientativo (no un hard cap) y requiere el header beta task-budgets-2026-03-13. max_tokens sigue siendo el techo duro por petición.

Los parámetros de sampling devuelven errores 400

temperature, top_p, top_k: todos rechazados en Opus 4.7. Si usabas temperature=0 para “determinismo” (que nunca fue determinismo real), quítalo. Guía el comportamiento desde el prompt.

El contenido de thinking se omite por defecto

Los bloques de thinking se siguen streameando, pero su campo thinking viene vacío a menos que hagas opt-in:

thinking = {
    "type": "adaptive",
    "display": "summarized",  # por defecto: "omitted"
}

Este es el modo de fallo silencioso que va a romper cualquier producto que streamee razonamiento al usuario. La UI muestra ahora una pausa larga antes de que empiece la salida, algo que se lee como una API caída. Si tu UX streamea thinking a usuarios finales, haz opt-in con display: 'summarized' antes de cambiar el model ID.

El cambio de tokenizer del que nadie habla

El nuevo tokenizer consume 1,0 a 1,35x más tokens por prompt. Hasta un 35 % más en entradas idénticas. Misma cartera, más bytes.

Anthropic lo presenta como una ganancia neta: la eficiencia de tokens en evaluaciones de coding mejoró a pesar del mayor conteo por mensaje. Les creemos para coding. Para cargas de chat donde pagas cada token, haya sido “bien usado” o no, esto es un aumento de costo de 10 a 35 % al mismo precio unitario.

Si corres agentes estructurados con mucho tool use, sube tus max_tokens y tus triggers de compactación entre un 20 y un 25 % antes de cambiar el model ID. Anthropic lo señala explícitamente en su guía de migración: los triggers calibrados para los conteos de 4.6 van a dispararse antes en 4.7.

Cómo planeamos usar Claude Opus 4.7 en Hayka Pacha

Operamos una flota de agentes IA sobre más de 400 sitios. El trabajo: monitorear, mantener, desplegar cambios, responder a alertas. Este es nuestro plan de migración para 4.7.

Agentes de mantenimiento de sitios: por migrar. El esfuerzo xhigh en Claude Code parece valer la latencia extra cuando un agente tiene que leer un stacktrace, revisar el historial de git y escribir un parche. Recalibraremos las tasas de complétion de tareas una vez hecho el rollout.

Para nuestro pipeline de automatización de contenido: nos quedamos en 4.6 por ahora. Es una carga de chat estrecha. Sin loops agénticos, sin visión, sin tareas de horizonte largo. 4.7 costaría lo mismo por token pero quemaría alrededor de 10 a 35 % más tokens por llamada por el nuevo tokenizer. Hoy no compensa.

El workflow /ultrareview: por añadir. Anthropic publicó un comando de code review dedicado dentro de Claude Code. Vamos a cablearlo al hook pre-merge esta semana. Reportamos cuando tengamos suficientes ciclos de review para compararlo con nuestro agente de review actual.

¿Quieres probar Opus 4.7 dentro de Claude Code sin pagar un asiento? Tenemos un guest pass de Claude Code para compartir. Le da a un amigo una semana gratis de Claude Code y Cowork. Tres pases en total. Primero en llegar, primero en servirse.

Los cambios de comportamiento que vas a sentir en tus prompts

Estos no lanzan errores. Solo cambian lo que recibes. Todos están documentados en la guía de migración de Anthropic.

Seguimiento de instrucciones más literal. El modelo ya no generaliza en silencio. Si escribes “arregla el bug en auth.ts” y esperas que toque también auth.test.ts, dilo.
La longitud de la respuesta se adapta a la complejidad. Ya no hay verbosidad fija. Las tareas cortas reciben respuestas cortas.
Menos llamadas a herramientas con esfuerzo bajo. 4.7 razona más antes de llamar. Sube effort si quieres más tool use.
Menos subagentes por defecto. Si tu workflow dependía de fan-out agresivo, pídelo en el prompt.
Tono más directo, menos emoji. Menos calidez, menos frases de validación. Si tu UX se apoyaba en el tono más cercano de Opus 4.6, los usuarios lo van a notar.

Si tus prompts incluyen scaffolding de self-check del tipo “revisa el layout de la diapositiva antes de responder”, la guía de migración de Anthropic recomienda quitarlo explícitamente en 4.7: el modelo ahora maneja esa verificación internamente. Lo mismo vale para prompts que contaban con generalización silenciosa entre archivos similares. 4.7 es más literal: sé explícito sobre cada archivo que quieres tocar.

Cómo migrar rápido: el camino oficial

Anthropic publica una skill oficial Claude API que aplica los breaking changes a tu codebase automáticamente. Desde Claude Code, ejecuta:

/claude-api migrate this project to claude-opus-4-7

La skill gestiona el swap del model ID, elimina temperature/top_p/top_k, convierte thinking: {type: "enabled", budget_tokens: N} a thinking: {type: "adaptive"}, limpia los headers beta ya en GA (effort-2025-11-24, interleaved-thinking-2025-05-14) y recomienda un punto de partida para el esfuerzo.

Según la documentación oficial de la skill, la migración produce una checklist de ítems que requieren verificación manual: prompts de control de longitud, tests de integración, y recalibración de costos y rate limits. Son los mismos ítems que verificarías en cualquier migración de modelo.

Si no usas Claude Code, la skill es open source en GitHub y se instala en cualquier entorno que soporte Agent Skills.

¿Deberías migrar?

Migra hoy si haces algo de esto:

Coding o code review agéntico (el delta en CursorBench por sí solo paga el trabajo de migración)
Workflows de computer-use o pesados en screenshots (98,5 % contra 54,5 % no es sutil)
Loops de agentes de horizonte largo con memoria
Cualquier cosa que lea gráficos, diagramas o imágenes técnicas

Quédate en 4.6 por ahora si haces:

Chat puro sin visión ni tool use
Inferencia de alto volumen sensible al costo donde un 10 a 35 % extra de tokens importa de verdad
Productos con presupuesto de latencia ajustado que no pueden absorber la nueva latencia del thinking por defecto

En cualquier caso, lee la guía de migración antes de cambiar el model ID. Los defaults silenciosos (thinking omitido, menos tool calls, menos subagentes) cambiarán el comportamiento de tu producto aunque nada dé error.

Qué seguimos mirando

La verdadera historia con 4.7 es coding agéntico y computer-use. No chat. Es exactamente donde la IA se vuelve interesante en lo económico, y donde vive nuestro stack. El siguiente artículo sigue qué pasa cuando nuestra flota de agentes (400+ sitios en Kubernetes, gestionados con GitOps) bascula a 4.7 en cada nodo. El plan: medir complétion de tareas, intervenciones humanas y costo por tarea en tokens contra nuestras baselines de Opus 4.6.

Si construyes sobre Claude y quieres comparar notas, o quieres que te ayudemos a migrar un stack de agentes en producción, contáctanos. ¿Un amigo quiere probar Claude Code? Toma uno de nuestros guest passes. Tres disponibles, primero en llegar primero en servirse. En los dos casos, lee las notas de lanzamiento completas antes de llevarlo a tus usuarios.

Fuentes

Anthropic, anuncio Claude Opus 4.7
Docs API Anthropic, Novedades de Claude Opus 4.7
Docs API Anthropic, Migración a Claude Opus 4.7
Docs API Anthropic, Skill Claude API
Relacionado: cómo construimos esta landing page en 24h con Astro e IA

FAQ

¿Claude Opus 4.7 es retrocompatible con las llamadas API de Opus 4.6?

No. Opus 4.7 introduce tres breaking changes: los budgets de thinking extendido devuelven errores 400 (solo funciona adaptive thinking), los parámetros de sampling como temperature y top_p son rechazados, y el contenido de thinking se omite de las respuestas por defecto. Actualiza tu cliente antes de cambiar el model ID.

¿Cuánto más cuesta Opus 4.7 frente a Opus 4.6?

El precio por token es idéntico (5 USD de entrada, 25 USD de salida por millón). Pero el nuevo tokenizer consume 1,0 a 1,35x más tokens en el mismo prompt. Espera un 10 a 35 % de costo real adicional en workloads sin re-tuning. Las evaluaciones de código salen mejor.

¿Necesito el esfuerzo `xhigh` para coding agéntico?

Anthropic recomienda xhigh como punto de partida para coding y casos agénticos, y como mínimo high para tareas sensibles a la inteligencia. Los niveles más bajos producen menos llamadas a herramientas y salidas más cortas. Sube el esfuerzo si el agente se detiene antes de tiempo o salta pasos.

¿Cuál es la ventana de contexto de Opus 4.7?

1M de tokens al precio API estándar, sin premium por contexto largo. El máximo de salida es 128k tokens. Adaptive thinking está disponible pero desactivado por defecto, así que pasa thinking: {type: 'adaptive'} explícitamente para habilitar el razonamiento.

¿Puedo seguir usando thinking extendido con un budget de tokens fijo?

No. El thinking extendido con budget_tokens se eliminó en Opus 4.7 y devuelve un error 400. Adaptive thinking es el único modo de thinking disponible. Para controlar costos en un loop agéntico, usa el nuevo task_budget (requiere el header beta task-budgets-2026-03-13).