1 · Motor local
Descarga y ejecuta modelos en tu PC. Cuando lo instalas en Windows, deja disponible el comando ollama y suele servir una API local en segundo plano.
Instalar, ejecutar, ordenar modelos, liberar disco, usar API local y ajustar rendimiento sin convertir tu PC en una tostadora filosófica.
Ollama se entiende mejor así:
Descarga y ejecuta modelos en tu PC. Cuando lo instalas en Windows, deja disponible el comando ollama y suele servir una API local en segundo plano.
Los modelos se descargan con ollama pull, se ejecutan con ollama run y se borran con ollama rm.
Otros programas pueden hablar con Ollama en localhost:11434: Open WebUI, AnythingLLM, Continue, scripts de Python, apps propias o proyectos HLT.
La vía normal es descargar el instalador de Windows desde la web oficial de Ollama. No hace falta complicarse al principio. Instalas, abres la app y ya tienes el comando ollama disponible en CMD o PowerShell.
Descarga OllamaSetup.exe desde ollama.com/download.
Ejecuta el instalador. En Windows instala en tu usuario, sin requerir administrador para el flujo normal.
Abre CMD o PowerShell y prueba ollama --version.
Descarga un modelo pequeño para validar que todo funciona.
ollama --version
ollama pull llama3.2
ollama run llama3.2ollama serve. Ese comando es útil si quieres levantar el servidor manualmente, usar la versión standalone o montarlo como servicio.Antes de bajar modelos como si no hubiera mañana, conviene saber qué ve Windows y qué puede usar Ollama.
:: Ver versión de Windows
winver
:: Ver GPU desde CMD
wmic path win32_VideoController get name,AdapterRAM,DriverVersion
:: Ver CPU
wmic cpu get name
:: Ver RAM física
wmic computersystem get totalphysicalmemory
:: Ver espacio en discos
wmic logicaldisk get caption,freespace,sizePor la configuración que tengo registrada de tus flujos de ComfyUI, tu PC encaja con un perfil fuerte para modelos locales prácticos: i7-11700K, RTX 3060 con 12 GB de VRAM y mucha RAM. Para Ollama esto significa: modelos 7B, 8B, 9B y 14B cuantizados deberían ser tu zona cómoda; 20B puede funcionar, pero ya entra en modo “paciencia y contexto controlado”.
Qwen 7B/8B/9B, Gemma 3/4 pequeños-medios, Llama 3.x 8B, modelos de embeddings y modelos de visión ligeros.
Modelos 20B o superiores, contextos muy largos, varios usuarios simultáneos o varias herramientas consultando a la vez.
Esta es la chuleta que vas a usar de verdad.
| Acción | Comando | Para qué sirve |
|---|---|---|
| Ejecutar modelo | ollama run modelo | Abre un chat en terminal con el modelo. |
| Descargar modelo | ollama pull modelo | Baja el modelo sin abrir chat. |
| Listar modelos | ollama ls | Ver modelos instalados y tamaño. |
| Borrar modelo | ollama rm modelo | Elimina un modelo descargado. |
| Modelos cargados | ollama ps | Ver qué modelo está en RAM/VRAM y si usa CPU o GPU. |
| Parar modelo | ollama stop modelo | Descarga un modelo de memoria. |
| Servidor manual | ollama serve | Levanta el servidor local manualmente. |
| Crear modelo personalizado | ollama create nombre -f Modelfile | Crea una variante con sistema, parámetros o GGUF propio. |
:: Descargar y ejecutar
ollama pull qwen3.5
ollama run qwen3.5
:: Ver qué tienes instalado
ollama ls
:: Ver qué está cargado ahora mismo
ollama ps
:: Parar un modelo cargado
ollama stop qwen3.5
:: Borrar un modelo descargado
ollama rm qwen3.5
:: Levantar servidor manualmente
ollama serveNo empieces por el modelo más grande. Empieza por saber qué tarea quieres resolver.
| Uso | Modelo a probar | Comentario práctico |
|---|---|---|
| Chat general rápido | llama3.2 / gemma3 | Buen test inicial. Rápido, simple, suficiente para validar instalación. |
| Razonamiento y texto serio | qwen3.5 | Buena familia para trabajo local, coding, análisis y redacción. |
| Código | qwen3.5-coder si está disponible en tu biblioteca | Más útil para scripts, debugging y proyectos locales. |
| RAG / búsqueda en documentos | nomic-embed-text o embeddinggemma | No son chats normales: sirven para embeddings. |
| Imagen + texto | gemma3 o modelos VL compatibles | Útiles para describir capturas/fotos, según modelo y versión. |
Cuando quieras probar un modelo nuevo, hazlo con método. Así no terminas con 400 GB de “ya lo miraré”.
:: 1. Descargar
ollama pull qwen3.5
:: 2. Probar en terminal
ollama run qwen3.5
:: 3. En otra terminal, mirar uso real
ollama ps
:: 4. Si no te sirve, borrar
ollama rm qwen3.5
:: 5. Revisar biblioteca final
ollama lsActúa como asistente local para trabajo creativo y técnico.
Analiza esta tarea y responde en español de España, directo y práctico:
Necesito crear un sistema local con IA para organizar documentos, generar ideas y ayudarme con scripts de Windows.
Dame un plan simple, herramientas necesarias y primer experimento.Cuando algo falle, o cuando el disco C empiece a llorar, estas rutas importan.
:: Logs de Ollama
explorer %LOCALAPPDATA%\Ollama
:: Binarios instalados
explorer %LOCALAPPDATA%\Programs\Ollama
:: Modelos y configuración por defecto
explorer %HOMEPATH%\.ollama
:: Temporales
explorer %TEMP%Los modelos pueden ocupar decenas o cientos de GB. Si tienes un disco dedicado para IA, te conviene moverlos.
Crea una carpeta, por ejemplo D:\IA\Ollama\models o F:\OllamaModels.
Abre “Editar las variables de entorno de tu cuenta”.
Crea una variable de usuario llamada OLLAMA_MODELS.
Pon como valor la ruta nueva. Cierra Ollama desde la bandeja y vuelve a abrirlo.
Nombre de variable:
OLLAMA_MODELS
Valor de ejemplo:
F:\OllamaModelsollama ls.ollama serveollama serve arranca el servidor local de Ollama. Ese servidor escucha normalmente en http://localhost:11434.
Si has instalado la app de Windows y está abierta, Ollama ya corre en segundo plano.
Standalone CLI, pruebas de variables de entorno, levantarlo manualmente, scripts, servicio de Windows o debugging.
:: Arrancar servidor local manualmente
ollama serve
:: En otra ventana, comprobar que responde
curl http://localhost:11434/api/tags(Invoke-WebRequest -Method POST `
-Uri http://localhost:11434/api/generate `
-Body '{"model":"llama3.2","prompt":"Di hola en una frase","stream":false}' `
-ContentType "application/json").ContentOllama tiene API propia y también compatibilidad parcial con la API de OpenAI. Esto permite usar herramientas que esperan una URL tipo OpenAI cambiando la base a http://localhost:11434/v1.
curl http://localhost:11434/api/generate -d "{\"model\":\"llama3.2\",\"prompt\":\"Resume en 3 puntos qué es Ollama\",\"stream\":false}"curl http://localhost:11434/api/chat -d "{\"model\":\"llama3.2\",\"messages\":[{\"role\":\"user\",\"content\":\"Dame una idea de automatización local para Windows\"}],\"stream\":false}"import requests
payload = {
"model": "llama3.2",
"prompt": "Dame una checklist para organizar modelos locales en Windows.",
"stream": False
}
r = requests.post("http://localhost:11434/api/generate", json=payload, timeout=120)
r.raise_for_status()
print(r.json()["response"])from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1/",
api_key="ollama" # Ollama no valida esta clave, pero el cliente la pide
)
response = client.chat.completions.create(
model="llama3.2",
messages=[{"role": "user", "content": "Explica Ollama en una frase."}],
)
print(response.choices[0].message.content)El contexto es la cantidad de texto que el modelo puede tener presente. Más contexto permite meter más información, pero consume más memoria y puede hacerlo todo más lento.
Rápido. Ideal para chat, comandos, prompts y tareas pequeñas.
Buen punto medio para documentos medianos, análisis y coding.
Útil para documentos largos, pero exige más VRAM/RAM. No lo uses por defecto.
:: CMD
set OLLAMA_CONTEXT_LENGTH=32768
ollama serve# PowerShell
$env:OLLAMA_CONTEXT_LENGTH="32768"
ollama serveollama psEstas variables no son botones mágicos. Úsalas cuando sepas qué problema estás resolviendo.
| Variable | Uso | Cuándo tocarla |
|---|---|---|
OLLAMA_MODELS | Cambiar carpeta de modelos | Si el disco C va justo. |
OLLAMA_KEEP_ALIVE | Tiempo que un modelo queda cargado | Si quieres liberar memoria antes o evitar recargas constantes. |
OLLAMA_NUM_PARALLEL | Solicitudes paralelas | Si varias apps consultan Ollama a la vez. |
OLLAMA_MAX_LOADED_MODELS | Modelos cargados simultáneamente | Mejor dejar bajo en GPUs de 12GB. |
OLLAMA_FLASH_ATTENTION | Reducir uso de memoria en algunos casos | Prueba avanzada. Validar estabilidad. |
OLLAMA_KV_CACHE_TYPE | Cuantización de caché de contexto | Contextos largos y necesidad de ahorrar VRAM. |
:: Sesión CMD temporal: mantener modelo solo 1 minuto
set OLLAMA_KEEP_ALIVE=1m
ollama serve
:: Sesión CMD temporal: limitar paralelo
set OLLAMA_NUM_PARALLEL=1
ollama serve
:: Sesión CMD temporal: flash attention
set OLLAMA_FLASH_ATTENTION=1
ollama serve
:: Sesión CMD temporal: KV cache q8
set OLLAMA_KV_CACHE_TYPE=q8_0
ollama serveUn Modelfile es una receta para crear una versión personalizada de un modelo: sistema, temperatura, contexto, estilo y reglas base.
FROM llama3.2
PARAMETER temperature 0.6
PARAMETER num_ctx 8192
SYSTEM """
Eres un asistente local para Alex y HAZ LO TUYO.
Responde en español de España.
Sé directo, práctico y claro.
Evita humo, jerga innecesaria y frases de agencia.
Prioriza acciones, comandos y ejemplos aplicables.
""":: Guardar el archivo como Modelfile en una carpeta
ollama create hlt-local -f Modelfile
ollama run hlt-localollama show --modelfile llama3.2Si ya tienes modelos GGUF por LM Studio u otras fuentes, Ollama puede crear un modelo a partir de un archivo local usando un Modelfile.
FROM ./modelo-local-q4_k_m.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
SYSTEM """
Responde de forma clara, útil y directa.
"""ollama create mi-modelo-local -f Modelfile
ollama run mi-modelo-local
ollama lsInterfaz tipo ChatGPT autoalojada. Buena para usar Ollama desde navegador, tener chats, usuarios y experiencia visual más cómoda.
Uso HLT: panel local para probar modelos y prompts sin depender de la terminal.
Muy útil para RAG: meter documentos, crear espacios de trabajo y consultar fuentes locales con modelos de Ollama.
Uso HLT: analizar documentación de proyectos, briefs, PDFs y carpetas de investigación.
Extensión para VS Code compatible con proveedores locales. Puedes usar Ollama como asistente de código.
Uso HLT: scripts, HTMLs, automatizaciones, apps pequeñas, limpieza de proyectos.
La API local te permite crear herramientas a medida: resumidores, renombradores, generadores de briefs, clasificadores o asistentes para carpetas.
Uso HLT: convertir necesidades reales en pequeños sistemas.
Ollama API nativa:
http://localhost:11434
OpenAI compatible:
http://localhost:11434/v1
Modelo de prueba:
llama3.2
API key en apps compatibles:
ollamaLa parte menos sexy y más importante: no dejar que los modelos se coman el disco.
:: Ver modelos instalados y tamaño
ollama ls
:: Borrar un modelo concreto
ollama rm nombre-del-modelo
:: Ver procesos cargados
ollama ps
:: Descargar/parar uno concreto
ollama stop nombre-del-modelo
:: Abrir carpeta de modelos por defecto
explorer %HOMEPATH%\.ollama\modelsollama ls y borra lo que no uses.OLLAMA_MODELS si la moviste a otro disco.Cierra y abre la terminal. Si sigue igual, revisa que Ollama esté instalado en %LOCALAPPDATA%\Programs\Ollama y que esa ruta esté en el PATH de usuario.
Comprueba que Ollama esté abierto en la bandeja del sistema. Si no, prueba ollama serve manualmente.
Usa ollama ps para ver si está tirando de CPU. Baja tamaño de modelo, reduce contexto o libera VRAM cerrando ComfyUI/Premiere/Photoshop.
Cambia la variable OLLAMA_MODELS a otro disco y redescarga los modelos necesarios. Luego revisa la carpeta antigua antes de borrar.
Prueba primero con http://localhost:11434. Si la app pide formato OpenAI, usa http://localhost:11434/v1 y API key ollama.
Usa ollama stop modelo. También puedes bajar OLLAMA_KEEP_ALIVE para que el modelo no se quede cargado tanto tiempo.
Con tu perfil de trabajo —ComfyUI, imagen, vídeo, diseño, scripts, HLT, Codex y modelos locales— yo lo ordenaría así:
Uno pequeño/medio para dudas rápidas, comandos, resúmenes cortos y pruebas de automatización.
Un Qwen/Gemma/Llama más capaz para análisis, escritura, documentos y ayuda técnica.
Un modelo específico para RAG con AnythingLLM, Open WebUI o herramientas propias.
:: Perfil conservador para trabajar sin saturar
set OLLAMA_CONTEXT_LENGTH=8192
set OLLAMA_NUM_PARALLEL=1
set OLLAMA_KEEP_ALIVE=5m
ollama serve:: Perfil documento largo / análisis puntual
set OLLAMA_CONTEXT_LENGTH=32768
set OLLAMA_NUM_PARALLEL=1
set OLLAMA_KEEP_ALIVE=1m
ollama serveScript que lea una carpeta de prompts y los etiquete por estilo: HLT, foto, vídeo, ComfyUI, Flux, stickers, etc.
Recorrer archivos MD/HTML/TXT y generar un README con estructura, estado y próximos pasos.
Formulario local que convierta notas sueltas en brief claro: objetivo, material, restricciones, entrega y riesgo.
Cargar tus documentos HLT en AnythingLLM/Open WebUI y consultarlos con modelos locales cuando no quieras depender de nube.
:: Estado
ollama --version
ollama ls
ollama ps
:: Modelos
ollama pull llama3.2
ollama run llama3.2
ollama stop llama3.2
ollama rm llama3.2
:: Servidor
ollama serve
curl http://localhost:11434/api/tags
:: Rutas
explorer %LOCALAPPDATA%\Ollama
explorer %LOCALAPPDATA%\Programs\Ollama
explorer %HOMEPATH%\.ollama
:: Variables temporales CMD
set OLLAMA_CONTEXT_LENGTH=8192
set OLLAMA_KEEP_ALIVE=5m
set OLLAMA_NUM_PARALLEL=1
ollama serveGuía construida con documentación oficial actual de Ollama: Windows, CLI Reference, FAQ, Context length, API Reference, OpenAI compatibility, Modelfile Reference y Hardware support. También se han tenido en cuenta utilidades compatibles como Open WebUI, AnythingLLM y Continue.
Fecha de preparación: 28 de mayo de 2026.