LLMs en local vs. Nube: Mi experiencia personal

Llevo meses en esta encrucijada. Por un lado, la comodidad insultante de abrir ChatGPT o Claude y tener al modelo más inteligente del mundo a un clic. Por otro, la inquietud de enviarle todos mis datos, borradores y código a servidores ajenos.

La fiebre de la IA nos ha dividido en dos bandos: los que pagan la suscripción sin mirar atrás y los que se compran gráficas con mucha VRAM para “ser dueños” de su inteligencia.

He probado ambos mundos a fondo. He montado flujos con Ollama y LM Studio y he quemado créditos de la API de OpenAI y Anthropic.

Esta es la realidad, sin tecnicismos innecesarios, de ejecutar LLMs en local frente a la nube.

La Nube: Potencia bruta a golpe de tarjeta (SaaS)

Cuando usas GPT-4o, Claude 3.5 Sonnet o Gemini 1.5 Pro, estás alquilando un cerebro gigante.

Lo bueno

Inteligencia Superior: A día de hoy, ningún modelo que puedas correr en un portátil de consumo se acerca al razonamiento lógico de Claude 3.5 Sonnet o GPT-4. Para picar código complejo o razonamiento lógico profundo, la nube sigue ganando.
Cero Fricción: No instalas nada. No configuras entornos. No te preocupas por si tu ventilador suena como un avión despegando. Es productividad pura.
Multimodalidad Real: El análisis de imágenes y archivos pesados suele funcionar mucho mejor y más rápido en sus servidores.

Lo malo

Privacidad: Es el elefante en la habitación. Todo lo que escribes, salvo que uses configuraciones Enterprise muy específicas, podría ser usado para entrenar futuros modelos. ¿Datos financieros? ¿Código propietario? Mejor no.
Coste recurrente: Los 20€/mes o el pago por uso de API se acumulan.
Censura y Guardrails: Los modelos en la nube suelen ser más “políticamente correctos” y se niegan a responder ciertas cosas por filtros de seguridad excesivos.

LLMs en Local: La rebelión de la privacidad

Aquí es donde entran jugadores como Llama 3 (Meta), Mistral, Gemma (Google) o Phi (Microsoft). Herramientas como Ollama han democratizado esto a un nivel absurdo.

Lo bueno

Privacidad Absoluta: Puedes desconectar el cable de red y la IA sigue funcionando. Tus datos nunca salen de tu máquina. Esto, para temas legales o personales, no tiene precio.
Sin Censura: Puedes descargar versiones “uncensored” de los modelos si necesitas que la IA no te dé lecciones de moralidad al escribir una novela de ficción.
Latencia Cero (casi): Si tienes el hardware, la respuesta es instantánea. No hay colas de espera ni “el servidor está saturado”.
Gratis (una vez tienes el hardware): Descargar y correr Llama 3 es gratis.

El baño de realidad: El Hardware

Aquí es donde muchos chocan contra la pared. La IA local devora VRAM (Memoria de Video) y RAM.

Mi experiencia personal:

Con 8GB de RAM: Olvídalo. Solo podrás correr modelos muy pequeños y “tontos” (quantizaciones muy agresivas).
Con 16GB de RAM/VRAM: El punto dulce de entrada. Puedes correr modelos de 7B o 8B parámetros (como Llama 3 8B) con una velocidad decente.
Mac con Apple Silicon (M1/M2/M3): Aquí cambia el juego. La memoria unificada de los Mac permite asignar mucha RAM a la GPU. Un Mac con 32GB o 64GB es una bestia para IA local.

Nota técnica: Si intentas correr un modelo más grande que tu memoria VRAM, el sistema usará la RAM normal y la CPU. El resultado: tu ordenador generará 1 palabra por segundo. Inviable para trabajar.

Mi veredicto y flujo de trabajo híbrido

No tienes que elegir uno. La clave de la productividad es saber cuándo usar qué.

Tras muchas pruebas, este es mi sistema actual:

1. Uso Local (Ollama + Obsidian/VS Code)

Lo uso para tareas repetitivas, rápidas o sensibles.

Resumir notas personales: No quiero que mis diarios o estrategias de negocio estén en la nube.
Corrección de estilo básica: Un Llama 3 local es excelente reescribiendo emails o párrafos.
Copilot de código simple: Autocompletado rápido que no requiere contexto de todo el proyecto.

2. Uso en Nube (Claude 3.5 Sonnet / GPT-4o)

Lo reservo para “trabajo pesado”.

Arquitectura de Software: Cuando necesito planear una estructura de base de datos compleja.
Razonamiento Lógico: “¿Dónde está el fallo en este argumento?”
Generación de código complejo: Cuando necesito un script entero de Python que funcione a la primera.

Conclusión

Si tienes un equipo con una buena GPU (NVIDIA RTX 3060 en adelante) o un Mac con Apple Silicon, instala Ollama hoy mismo. Tener un asistente local, privado y rápido para tareas menores cambia tu flujo de trabajo y te da una capa de seguridad extra.

Pero no nos engañemos: si necesitas razonamiento de nivel genio para resolver un problema complejo, sigue pagando la suscripción. La IA local avanza rápido, pero los gigantes de la nube todavía tienen la corona de la inteligencia bruta.

La pregunta es: ¿Cuánto valoras tu privacidad frente a la comodidad?

Posted in IA by GERMAN

Germán Mallo

Germán Mallo

Residence:

City:

Age:

Español

Inglés

Valenciano

Python

R

Photoshop

WordPress

Wondershare Filmora

SQL

LLMs en local vs. Nube: Mi experiencia personal y la realidad del hardware

La Nube: Potencia bruta a golpe de tarjeta (SaaS)

Lo bueno

Lo malo

LLMs en Local: La rebelión de la privacidad

Lo bueno

El baño de realidad: El Hardware

Mi veredicto y flujo de trabajo híbrido

1. Uso Local (Ollama + Obsidian/VS Code)

2. Uso en Nube (Claude 3.5 Sonnet / GPT-4o)

Conclusión