Ingeniería agéntica — Lista de verificación de implementación
Contenido
- Configura el archivo de reglas
- Diseña el contexto
- Construye la verificación
- Ejecuta el trabajo
- Revisa y despliega
- Controla el costo
- Despliega agentes en producción
- Conviértelo en un estándar de equipo
1. Configura el archivo de reglas
- Crea un
CLAUDE.md/AGENTS.mden la raíz del repositorio. Empieza con 10 líneas. - Cubre cuatro aspectos:
- Stack y versiones
- Convenciones (estructura de carpetas, nomenclatura, los patrones que realmente usas)
- Reglas estrictas que el agente nunca debe romper (paquetes prohibidos, manejo de secretos, capas de la arquitectura)
- Flujo de trabajo a seguir antes de generar código
- Añade una regla nueva cada vez que el agente haga algo que no quieres que se repita.
- Lista las herramientas que el agente puede invocar y cuándo usar cada una (APIs, scripts, esquemas de BD).
- Toma las decisiones de arquitectura tú mismo; deja que el agente las implemente, no que las elija.
2. Diseña el contexto
- Decide qué es estático (siempre cargado) vs. dinámico (cargado bajo demanda):
- Estático: archivos de reglas, instrucciones del sistema, memoria global
- Dinámico: habilidades, resultados de herramientas, documentos recuperados, historial reciente
- Mantén el contexto estático corto y de alta señal. Elimina todo lo que el agente no necesite en cada llamada.
- Mueve el conocimiento reutilizable a habilidades que se cargan solo cuando la tarea coincide.
- Nunca pegues todo el repositorio en el prompt. Recupera únicamente lo relevante.
3. Construye la verificación
- Escribe pruebas antes de generar la funcionalidad. Las pruebas son la especificación.
- Escribe evaluaciones para las partes no deterministas:
- ¿Tomó el agente un camino sensato?
- ¿Eligió las herramientas correctas?
- ¿Cumple el resultado con el nivel de calidad requerido?
- Verifica tanto el resultado (compila, las pruebas pasan) como la trayectoria (cómo llegó allí).
- Configura el bucle de retroalimentación:
- Ejecutar contra una suite de referencia
- Agrupar los fallos por causa raíz
- Corregir el prompt o la herramienta que los causó
- Volver a ejecutar una suite de regresión
- Monitorear producción en busca de nuevos fallos
4. Ejecuta el trabajo
- Elige un modo por tarea:
- Conductor (tiempo real, en el IDE) para lógica compleja, depuración, código desconocido
- Orquestador (asíncrono, delegar y revisar) para corrección de bugs, migraciones, generación de pruebas
- Elige la ubicación del agente por tarea:
- Agente en el editor — ediciones y sugerencias en el flujo de trabajo
- Agente en la terminal — trabajo con múltiples archivos, ejecutar y reaccionar
- Agente en segundo plano — tareas que puedes especificar en un párrafo y olvidar
- Ejecuta la generación de código dentro de un sandbox, usando solo herramientas aprobadas.
- Gestiona tú mismo el último 20 %: casos borde, manejo de errores, puntos de integración, lógica de negocio. El código que "parece correcto" es donde se esconden los bugs.
5. Revisa y despliega
- Usa el agente como revisor de primera pasada (bugs, estilo, seguridad, rendimiento).
- Revisa cada línea que se despliega:
- Sé escéptico con el código ingenioso
- Confirma que los paquetes importados existen
- Verifica el manejo de errores ante fallos realistas
- Añade hooks en los puntos de commit/edición (p. ej., bloquear commits con secretos en duro).
- Activa la observabilidad: trazas, resultados de evaluaciones, tokens/latencia/costo, deriva.
- Apunta el agente al código legado que has estado evitando: refactorizaciones, migraciones, APIs deprecadas.
6. Controla el costo
- Mide el costo total de propiedad, no solo la velocidad.
- Eleva la tasa de éxito en primera pasada con un archivo de reglas preciso para evitar bucles de reintento.
- Enruta los modelos por tarea:
- Modelos de frontera para arquitectura e implementación compleja
- Modelos económicos para generación de pruebas, revisión, monitoreo de CI
- Usa contexto dinámico y habilidades para pagar solo por los tokens que necesitas.
7. Despliega agentes en producción
- Decide qué estás construyendo:
- Un script — el agente es el destino
- Un producto para usuarios reales — el agente necesita una infraestructura de soporte
- Para productos, añade: memoria persistente, permisos con alcance limitado, cobertura de evaluaciones en CI, trazas de ejecuciones completas.
- Usa un bundle de habilidades para que tu agente de codificación existente gestione compilar → evaluar → desplegar → observar.
- Para configuraciones multiagente, coordina mediante estado compartido, MCP para herramientas y A2A para delegación.
8. Conviértelo en un estándar de equipo
- Versiona los archivos de reglas, los prompts, las suites de evaluación y las habilidades. Revísalos en PRs. Asigna propietarios.
- Condiciona el despliegue a una suite de evaluaciones aprobada con un criterio claro, no a una demo funcional.
- Capacita a los revisores en cómo falla el código generado.
- Deja explícita la frontera prototipo/producción (qué repos, ramas, entornos).
- Construye el harness una vez y sigue refinándolo.
- Contrata y promueve por criterio: especificación, evaluación, arquitectura.
Referencia
Basado en The New SDLC With Vibe Coding (Google): https://www.kaggle.com/whitepaper-the-new-SDLC-with-vibe-coding