Agente IA diario: cómo piloto mis negocios web en piloto automático

233 habilidades. 7 conectores MCP. 4 perfiles especializados. 2 cronjobs activos, ~10 históricos. Esto es lo que mi agente de IA ejecuta cada día en mi servidor. No un chatbot. Un sistema operacional real que impulsa mis proyectos web mientras me concentro en la estrategia.

Nombré a este agente Hermes. Aquí está exactamente cómo funciona, con números reales extraídos de una auditoría en vivo de la instalación, no estimaciones.

Por qué corro un agente de IA en mi propio servidor

Gestiono varios proyectos web: sitios de contenido, pipelines de generación de leads, proyectos de afiliación, investigación de nichos. Cada uno necesita monitoreo técnico, tareas repetitivas, producción de contenido y reportes.

Antes, yo estaba en cada terminal, cada API, cada hoja de cálculo. Hoy Hermes maneja 80% de la operación. Mantengo el control sobre la estrategia y las decisiones de alto impacto.

El resultado concreto: más de 2,000 sesiones de trabajo registradas, memoria que persiste entre conversaciones y automatizaciones que corren 24/7 sin mi intervención.

El servidor: un VPS de $10/mes

Hermes corre en un VPS estándar (OVH, Hetzner, Oracle Cloud free tier, o cualquier proveedor). Sin GPU, sin hardware dedicado. Specs reales al momento de escribir:

Recurso	Valor
vCPU	6 núcleos
RAM	11 GB (8.3 GB usados)
Disco	96 GB (69 GB usados, 72%)
OS	Ubuntu 24.04.4 LTS, kernel 6.8.0-110
Virtualización	KVM

Nada exótico. Cualquier VPS en el rango de $8-$15/mes funciona.

La arquitectura: políglota, no “solo Python”

Hermes no es un script Python con conexiones de red. Es un stack de servicios corriendo lado a lado. El ps real da esto:

hermes-gateway              <- orquestador principal (Node.js)
hindsight-api               <- servidor de memoria vectorial (Python)
redis                       <- capa de caché
nginx                       <- reverse proxy
discord-scrapper            <- extracción de datos de Discord (Node.js)
firecrawl                   <- servicio de crawling web

Node.js para el harness del agente, Python para memoria y búsqueda, Docker para aislar servicios externos, Nginx como reverse proxy. Políglota por diseño. Cada pieza es la herramienta adecuada para su trabajo.

Los 7 conectores MCP

MCP (Model Context Protocol) es el estándar que permite al agente conectarse a herramientas externas. Tengo 7 configurados:

Conector	Función
Atomic	Almacenamiento RDF auto-alojado (documentos, procedimientos, specs)
Hindsight	Memoria vectorial a largo plazo para hechos volátiles y contextuales
Linear	Gestión de proyectos, seguimiento de tareas, planificación de sprint
Discord	Canal principal, notificaciones, ejecución de comandos en hilo
Chrome DevTools	Navegación web automatizada, auditorías visuales vía CDP
Context7	Búsqueda de documentación técnica en tiempo real para cualquier lib
GlitchTip	Monitoreo de errores de aplicación auto-alojado

Cada conector es un servidor independiente. El agente puede consultarlos en paralelo. Mientras chateo en Discord, puede verificar un problema en GlitchTip y actualizar una tarea en Linear, todo en el mismo turno de conversación.

Enrutamiento de modelos: optimizado por diseño

Hacer correr un modelo frontier 24/7 cuesta caro rápido. El truco está en enviar el modelo correcto a la tarea correcta.

Modelo principal: mimo-v2.5-pro (Xiaomi). Es el que gestiona cada turno de conversación. Contexto de 1M tokens, buen razonamiento, disponible vía API.

Los modelos auxiliares gestionan tareas secundarias: análisis de imágenes, resumen de páginas web, títulos de sesiones, compresión de contexto, curación de skills. Antes de la optimización, todo corría en el modelo principal, desperdiciando tokens premium en trabajo rutinario. Ahora:

Tarea	Modelo	Por qué
Visión (imágenes, capturas)	Gemini 3.5 Flash (OpenRouter)	Mejor modelo multimodal barato
Todas las demás tareas (12)	DeepSeek (deepseek-chat)	Excelente razonamiento a $0.14/M input, $0.28/M output

Las 12 tareas auxiliares enrutadas a DeepSeek: extracción web, compresión de contexto, hub de skills, flujo de aprobación, enrutamiento MCP, generación de títulos, triage, descomposición kanban, descripción de perfil, curador, búsqueda de sesiones y flush de memoria.

El smart model routing añade otra capa: los mensajes de menos de 160 caracteres o 28 palabras se enrutan automáticamente a DeepSeek en lugar de mimo-v2.5-pro. Las preguntas simples reciben respuestas baratas. Los trabajos complejos se quedan en el modelo premium.

Cadena de fallback: si el proveedor principal cae, Hermes cambia a Hermes 3 405B (Nous Research) en el tier gratuito de OpenRouter. Último recurso: un pequeño Granite 3B local que puede seguir respondiendo y reconfigurando incluso cuando todos los proveedores API fallan.

Resultado: reducción significativa de costos sin pérdida de calidad en las conversaciones que importan.

Perfiles: agentes especializados, un solo canal

La mejor optimización no es técnica, es organizacional. En lugar de un solo agente que hace todo, tengo 4 perfiles especializados que comparten un único canal de Discord:

Perfil	Herramientas	Servidores MCP	Memoria	Uso
default	14 herramientas	7 servidores	Sí	Hub, recibe todos los mensajes de Discord
coding	7 herramientas	Context7, Chrome DevTools	No	Desarrollo puro, sin distracciones
business	10 herramientas	Atomic, Hindsight, Linear	Sí	Clientes, ERP, gestión de proyectos
data	7 herramientas	Atomic, Hindsight, Discord scraper	Sí	Scraping, enriquecimiento de leads, pipelines

Cada perfil tiene su propio config.yaml, .env, SOUL.md, directorio de skills y store de memoria. El perfil coding solo carga terminal, file, web, browser, delegation, vision y session search. Sin sobrecarga de memoria, sin conexiones MCP innecesarias.

Cómo funciona desde Discord:

Delegación (síncrono, menos de 5 min): pido algo de código, el agente default delega a un subagente con solo el toolset coding. El resultado vuelve inmediatamente.
Orquestación kanban (asíncrono, largo plazo): las tareas complejas se descomponen y enrutan al worker correcto automáticamente, basado en la descripción de cada perfil. El dispatcher kanban corre en el gateway, verificando cada 60 segundos las tareas listas.

Sin cambio manual. Sin canales separados. Una sola conversación, enrutamiento inteligente.

El sistema de memoria en 4 capas

Esta es la parte más subestimada de un agente de IA. Sin memoria, un LLM olvida todo después de cada mensaje. Corro 4 capas en paralelo, cada una con un rol distinto:

Capa	Tipo	Qué almacena
MEMORY.md	Archivo de texto (~4K car.)	Convenciones no críticas, URLs públicas, reglas técnicas
AWS Secrets Manager	Vault cloud encriptado	Credenciales de producción, tokens API, claves de firma
Honcho	API remota	Patrones comportamentales, preferencias de usuario, estilo
Hindsight	Base vectorial auto-alojada (MCP)	Hechos volátiles, contexto de sesión, 91%+ de precisión
Atomic	Almacenamiento RDF auto-alojado (MCP)	Documentos estables, especificaciones, procedimientos

La regla de oro: cada tipo de información tiene su capa. Las convenciones no críticas se quedan en MEMORY.md, inyectado en cada turno. Los credenciales de producción nunca salen de AWS Secrets Manager: el agente accede cuando los necesita, vía IAM delimitado a la instancia. Si MEMORY.md se filtra por accidente en un trace o un dump, nada crítico se va con él.

Un skill memory-router decide automáticamente dónde almacenar cada nueva información. Sin duplicados, sin desviaciones.

La compresión está ajustada para el contexto de 1M tokens: umbral en 0.65 (comprime antes), ratio objetivo 0.3 (preserva 300K tokens). El TTL del prompt caching está en 15 minutos para mejor eficiencia en sesiones largas.

Herramientas y credenciales: todo detrás de AWS Secrets Manager

Mi agente tiene acceso a un ecosistema completo de herramientas. Los números reales:

Cantidad	Categoría	Ejemplos
27+ claves API	APIs y claves	DataForSEO, Cloudflare, Backblaze B2, FAL, ElevenLabs
6 pools	Proveedores de modelos	Xiaomi (MiMo), Nous Research, OpenRouter, DeepSeek, Google
OAuth completo	Servicios Google	Search Console, Gmail, Calendar (17+ propiedades GSC)
Backblaze B2	Almacenamiento cloud	Almacenamiento S3-compatible a $0.006/GB
Cloudflare	Infraestructura	Workers, base de datos edge D1, Pages
2 proveedores	TTS (voz)	Google TTS, ElevenLabs
GlitchTip	Monitoreo	Tracking de errores auto-alojado

Total: más de 80 elementos de credenciales gestionados vía AWS Secrets Manager. Un solo vault, IAM delimitado a la instancia, rotación automática en secretos sensibles. Eso es lo que me permite dormir tranquilo cuando un disco falla o un repositorio se filtra.

Las 233 habilidades

El agente no improvisa. Sigue procedimientos precisos almacenados en 233 archivos de habilidad distribuidos en 51 categorías:

Dominio	Ejemplos de skills
SEO y contenido	Redacción de artículos, optimización on-page, ideación de nichos, GEO
DevOps	Despliegue, monitoreo, Docker, kanban-worker, Cloudflare Workers
Investigación	Revisión de literatura ML, extracción de datos, análisis competitivo
GitHub	Auth, code-review, PR-workflow, repo-management
Datos	Scraping, enriquecimiento, pipelines ETL, OSINT
Creativo	Generación de imágenes, edición de video, creación de infografías

Cada skill es un archivo markdown con reglas precisas: tono, estructura, prohibiciones, fuentes oficiales, esquemas de salida. El agente carga el skill correcto según la solicitud.

Ejemplo concreto: cuando pido redactar un artículo de blog, el agente carga el skill blog-writer que contiene las reglas anti-IA (sin em-dashes, vocabulario prohibido, variación de longitud de oraciones), la metodología de investigación (solo fuentes oficiales) y la plantilla de salida (frontmatter MDX, FAQ colapsable, meta description optimizada).

Cronjobs: corriendo mientras duermo

Dos cronjobs están corriendo ahora mismo, sin intervención:

Cronjob activo	Frecuencia	Qué hace
Dashboard KPI afiliación	Diario a las 7 PM	Scrapea el dashboard de la red de afiliación, entrega KPIs (payout, clicks, conversión, EPC, ranking) en Discord en 3 líneas
Actualización DMCA	Cada 6 horas	Lee avisos DMCA de Gmail, actualiza el archivo blocklist TypeScript, commit y push a main

Además de esto, Hermes ha acumulado una docena de cronjobs históricos sobre investigación de nichos y operaciones de negocio:

Bucles de automatización SEO en sitios de nicho (bienestar, educación, afiliación)
Monitoreo diario de indexación y crawl vía API Google Search Console
Ciclos SEO completos en sitios de contenido de afiliación (investigación de keywords, generación de contenido, enlaces internos)
Monitoreo de dominios vía RDAP (drops, transferencias, expiraciones, útil para cazar dominios de nicho)
Escaneo periódico de errores de aplicación vía API GlitchTip
Limpieza de memoria a largo plazo, dos veces al día (deduplicación Hindsight + Atomic)
Digest de nuevas versiones al canal de Discord

Cada cronjob histórico dejó su output en el archivo cron. Cuando un nicho cambia de enfoque o un proyecto termina, desactivo el cron pero guardo los artefactos. Así evalúo qué vale la pena reiniciar.

Gestión de sesiones

El timeout de inactividad de sesiones: 7 días. Esto evita la pérdida de contexto en proyectos que se extienden varios días, mientras limpia sesiones inactivas. Los snapshots de checkpoints preservan el estado de archivos entre resets.

Cuando una sesión se resetea, el mecanismo de resume inyecta los últimos 10 intercambios en el contexto para que el agente retome donde lo dejó. Combinado con memorias persistentes (Honcho, Hindsight, Atomic), el agente mantiene continuidad incluso después de un reset.

Las plataformas que realmente uso

Hermes puede hablar en 8 plataformas (Discord, Matrix, Telegram, WhatsApp, Slack, Mattermost, Signal, SMS). En la práctica, uso dos:

Plataforma	Uso real
Discord	Canal principal, hilos por proyecto, entrega de cronjobs, ejecución de comandos ad-hoc
Matrix	Backup E2EE cuando Discord está caído o cuando necesito cifrado de extremo a extremo

Las otras seis están configuradas y funcionales, pero no encajan en mi flujo de trabajo. Multi-plataforma ayuda si el equipo crece o si quieres un canal de guardia separado. Hoy, Discord es suficiente.

Decisiones autónomas: el comando `/goal`

Por mucho tiempo, Hermes hacía un turno, devolvía una respuesta y esperaba mi relanzamiento. Desde que /goal se lanzó (nuestra versión del Ralph loop, inspirado en el modo goal de Codex CLI), puedo fijar un objetivo y el agente itera solo hasta validarlo:

/goal Corrige todos los errores de lint en src/ y verifica que scripts/run_tests.sh pase

Lo que pasa bajo el capó:

Objetivo aceptado: presupuesto de 20 turnos asignado
Turno 1: Hermes arranca como si el objetivo fuera un mensaje normal
Juez: después del turno, un pequeño modelo auxiliar (DeepSeek) responde con veredicto JSON estricto {"done": bool, "reason": "..."}
Bucle: si no está terminado, Hermes ejecuta el siguiente turno automáticamente
Terminación: Goal achieved o Goal paused - N/20 turns used

Para acciones de alto impacto (despliegue, eliminación, modificación de datos críticos), /goal no cortocircuita nada: el agente sigue pidiendo confirmación. El bucle queda cerrado. Yo decido qué merece confianza, el agente ejecuta.

Los números en bruto

Recap completo, sin filtro, extraído ahora mismo:

Métrica	Valor
Servidores MCP	7 (Atomic, Hindsight, Linear, Discord, Chrome DevTools, Context7, GlitchTip)
Habilidades cargadas	233 en 51 categorías
Archivos de habilidades	844 total, 624 archivos .md
Perfiles activos	4 (default, coding, business, data)
Cronjobs activos	2 (Dashboard KPI, Actualización DMCA)
Cronjobs históricos con artefactos	~10 (nichos SEO, afiliación, monitoreo)
Plataformas conectadas	8 (Discord + Matrix usados)
Credenciales gestionados	80+ vía AWS Secrets Manager
Sesiones registradas	2,066
Modelo principal	mimo-v2.5-pro (Xiaomi), contexto 1M
Modelos auxiliares	DeepSeek (12 tareas), Gemini 3.5 Flash (visión)
Smart routing	Activado, mensajes de menos de 160 car. enrutan a DeepSeek
Umbral de compresión	0.65 (contexto 1M tokens)
Prompt caching TTL	15 min
Timeout sesión	7 días
Modelo de fallback	Hermes 3 405B (Nous Research, tier gratuito OpenRouter)
Turnos máx por sesión	90
RAM usada	8.3 GB / 11 GB
Disco usado	69 GB / 96 GB (72%)
Proveedores LLM	6 pools de credenciales

Qué cambia esto para el emprendedor web

Antes de Hermes, pasaba 3 a 4 horas diarias en tareas operativas: verificación de errores, actualización de datos, redacción de contenido, seguimiento de despliegues, reportes KPI.

Hoy, esas tareas están automatizadas (cronjobs) o delegadas al agente (ejecución bajo demanda, o vía /goal para bucles largos). Mi tiempo se concentra en la estrategia, identificar nuevos nichos y decisiones de dirección.

El agente no reemplaza el pensamiento. Libera tiempo para pensar.

Artículo actualizado el 29 de mayo de 2026. Todos los números provienen de una auditoría en vivo de la instalación real, no estimaciones.

FAQ

¿Qué es exactamente un agente de IA?

Un agente de IA es un software impulsado por un modelo de lenguaje (LLM) que ejecuta tareas de forma autónoma: lee archivos, interactúa con APIs, lanza scripts, navega la web y mantiene memoria persistente entre sesiones. A diferencia de un chatbot, opera en tu infraestructura, no dentro de una ventana de chat alojada.

¿Cuánto cuesta mantener un agente de IA 24/7?

El servidor es un VPS estándar por unos $10/mes. Los costos de API dependen del modelo y volumen de uso. Con enrutamiento inteligente, las tareas secundarias corren en DeepSeek (barato) mientras el trabajo complejo se queda en el modelo principal. El uso diario típico se mantiene dentro de unas pocas decenas de dólares por mes.

¿Puede el agente tomar decisiones solo?

Sí, desde que se lanzó el comando /goal. Fijo un objetivo y el agente itera turno tras turno, evaluado en cada paso por un modelo auxiliar, hasta que se logra el objetivo o se agota el presupuesto de turnos. Para acciones de alto impacto (despliegue, eliminación, modificación de datos críticos) sigue pidiendo confirmación.

¿En qué se diferencia de ChatGPT o Claude web?

ChatGPT y Claude son interfaces de chat alojadas. Hermes corre en mi servidor, conectado a mis herramientas (Discord, Linear, GitHub, Google Search Console, Cloudflare), con memoria persistente, tareas programadas y acceso directo a mi infraestructura. Los datos se quedan conmigo.