Cómo correr un modelo de IA en tu propia Mac (sin pagar OpenAI ni alquilar GPUs)

Cuándo conviene hospedar tu propio modelo open-source vs pagar tokens a OpenAI/Anthropic, qué necesitas para exponerlo al mundo, y qué pedirle al técnico que te lo monte.

La pregunta detrás de la pregunta

"¿Puedo correr mi propio modelo de IA?" suele ser la fachada de algo más específico: estás cansado de pagarle a OpenAI o Anthropic por cada conversación, te preocupa mandar prompts del producto a servidores ajenos, o quieres independizarte de un proveedor que puede cambiarte los precios mañana.

La respuesta corta es sí, y cada vez es más barato. Pero hay decisiones que se toman mal y te dejan con un setup que no escala. Aquí te explico cuándo conviene, qué necesitas y qué pedir.

Cuándo conviene hospedar tu propio modelo

Conviene si:

Estás pagando más de $500 USD/mes en tokens de OpenAI/Anthropic.
Manejas datos sensibles que no quieres mandar a servidores de terceros (salud, legal, datos personales de clientes).
Tu caso de uso es alto volumen + casos repetidos (clasificación de mensajes, resúmenes, scoring de leads).
Quieres independencia del proveedor — que si OpenAI cambia precios o políticas, tu negocio no se voltea.

NO conviene si:

Apenas estás explorando IA y tu factura es de $50/mes. Sigue con OpenAI/Anthropic.
Tu caso requiere lo más inteligente disponible (razonamiento complejo, código, análisis multi-paso). Los modelos open-source son buenos, pero el tope todavía lo tienen los modelos cerrados.
No tienes a alguien técnico que pueda mantenerlo. Esto no es "instalar una app" — es infraestructura.

Qué se llama "modelo open-source"

Hay modelos potentes que puedes descargar gratis y correr en tu propia computadora:

Llama (de Meta).
Mistral (francés).
Hermes (de Nous Research) — está entrenado específicamente para ser un agente (tomar acciones, usar herramientas).
Qwen (de Alibaba).
DeepSeek.

Todos vienen como una imagen Docker. Si la palabra "Docker" no te dice nada, no te preocupes — es un contenedor que el técnico instala en tu computadora. Tú no tocas nada.

Qué computadora necesitas

Depende del modelo. Como referencia:

Modelos chicos (7-13 mil millones de parámetros): una MacBook M2/M3/M4 con 16-32 GB de RAM corre bien.
Modelos medianos (30-70 mil millones): una MacBook Pro con 64+ GB de RAM, o un mini servidor con GPU.
Modelos grandes (200+ mil millones): ya estás hablando de hardware dedicado, $$$.

Para 80% de los casos de negocio, los modelos chicos/medianos son suficientes. Una MacBook que ya tienes probablemente alcanza para empezar.

La parte difícil: cómo lo accedes desde Internet

Aquí es donde la mayoría de tutoriales se quedan cortos. Está bien que el modelo corra en tu Mac, pero:

Tu app móvil necesita hablarle.
Tu equipo necesita usarlo desde sus oficinas.
Tus integraciones (Zapier, n8n, lo que sea) necesitan una URL pública.

La solución tradicional es:

Rentar un servidor con GPU ($$$).
Subir tu modelo a algún proveedor cloud (también $$$).
Hacer "ngrok" o "Cloudflare tunnel" manualmente desde tu Mac (frágil, se cae al cerrar el laptop).

Hay una cuarta vía: tener un agente local que se conecta a un plano de control en la nube, y que abre el túnel automáticamente. Tu Mac sirve el modelo, la nube te da una URL HTTPS estable, y si reinicias la Mac todo vuelve solo.

Qué pedirle al técnico que te lo monte

Si vas a contratar a alguien (interno o externo) para hospedar tu propio modelo, asegúrate de que la solución cubra esto:

Imagen anclada a versión específica — nunca latest. Si el técnico no insiste en esto, mala señal.
URL HTTPS pública estable (no una que cambie cada vez que reinicies).
Autenticación al menos a nivel HTTP básico (basic auth) sobre la URL pública.
Reinicio automático del modelo si se cae.
Detección de "crash loop" — si el modelo se cae 5 veces seguidas, que NO lo siga reiniciando (te quemaría la CPU).
Logs persistidos — para diagnosticar cuando algo falla.
Volumen de datos — para que tus pesos y caché del modelo sobrevivan reinicios.

Si te ofrecen "corremos docker run y ngrok http 8080 en una pantalla compartida", no es una solución profesional. Es un experimento.

Qué hacer hoy, gratis

Si quieres probar antes de comprometerte:

Descarga Ollama — es la forma más fácil de correr modelos open-source en tu Mac. brew install ollama, después ollama run llama3.2.
Habla con el modelo desde tu terminal o usa la UI de Open WebUI si quieres algo tipo ChatGPT.
Mide latencia y calidad contra tu uso real. Lleva un mes haciendo las preguntas que normalmente haces en ChatGPT.
Saca tu factura mensual de OpenAI/Anthropic. Calcula: si lo que estás pagando es más que el costo de una hora-persona técnica al mes para mantener un setup soberano, vale la pena escalar.

Esto te da una respuesta clara antes de invertir en infra real.

Cuándo esto ya no es suficiente

Cuando necesitas:

Que tu modelo esté disponible al mundo (no solo a ti).
Múltiples modelos corriendo a la vez (Hermes para agentes, Llama para resúmenes, etc.).
Múltiples Macs en diferentes oficinas, todas sincronizadas.
Métricas y observabilidad (cuántas requests, qué latencia, qué falla).
Tunnels seguros con auth y dominios reservados.

Ahí necesitas un plano de control. Construimos uno para LexGuard: un agente en Go que corre en tu Mac, controla Docker como si fuera una API empujada desde la nube, y abre el túnel ngrok dentro del propio proceso. Sin sidecars, sin SSH, sin que tu factura de OpenAI siga creciendo.

Si quieres entender técnicamente cómo está construido — el agente Go de ~20 MB, el reconciliador estilo React, el hot-swap del tunnel sin reiniciar el container — lee el deep dive:

→ Deep dive técnico: Hermes en tu Mac, expuesto al mundo en 2 minutos

Si quieres que te montemos esto en tu infraestructura (con observabilidad, tunnels gestionados y los modelos que tú decidas), hablemos. Es exactamente el tipo de problema que resolvemos.