GUÍA LOCAL · WINDOWS · OLLAMA

Ollama en local para Windows

Instalar, ejecutar, ordenar modelos, liberar disco, usar API local y ajustar rendimiento sin convertir tu PC en una tostadora filosófica.

Servidor localhttp://localhost:11434

TerminalCMD / PowerShell / Windows Terminal

Tu perfil probableWindows 10 · i7-11700K · RTX 3060 12GB · RAM alta

Uso recomendadoModelos 7B–14B cuantizados, RAG local, pruebas con Codex/VS Code/Open WebUI

Idea base: Ollama no es “otra app de chat”. Es un servidor local de modelos. La gracia está en conectarlo a herramientas, scripts, proyectos y flujos reales.

00 · Mapa rápido

Ollama se entiende mejor así:

1 · Motor local

Descarga y ejecuta modelos en tu PC. Cuando lo instalas en Windows, deja disponible el comando ollama y suele servir una API local en segundo plano.

2 · Biblioteca de modelos

Los modelos se descargan con ollama pull, se ejecutan con ollama run y se borran con ollama rm.

3 · API para herramientas

Otros programas pueden hablar con Ollama en localhost:11434: Open WebUI, AnythingLLM, Continue, scripts de Python, apps propias o proyectos HLT.

01 · Instalación en Windows

La vía normal es descargar el instalador de Windows desde la web oficial de Ollama. No hace falta complicarse al principio. Instalas, abres la app y ya tienes el comando ollama disponible en CMD o PowerShell.

Descarga OllamaSetup.exe desde ollama.com/download.

Ejecuta el instalador. En Windows instala en tu usuario, sin requerir administrador para el flujo normal.

Abre CMD o PowerShell y prueba ollama --version.

Descarga un modelo pequeño para validar que todo funciona.

cmd

ollama --version
ollama pull llama3.2
ollama run llama3.2

Importante: en Windows, si la app de Ollama está abierta en la bandeja del sistema, normalmente no necesitas escribir ollama serve. Ese comando es útil si quieres levantar el servidor manualmente, usar la versión standalone o montarlo como servicio.

02 · Diagnóstico básico del PC

Antes de bajar modelos como si no hubiera mañana, conviene saber qué ve Windows y qué puede usar Ollama.

cmd

:: Ver versión de Windows
winver

:: Ver GPU desde CMD
wmic path win32_VideoController get name,AdapterRAM,DriverVersion

:: Ver CPU
wmic cpu get name

:: Ver RAM física
wmic computersystem get totalphysicalmemory

:: Ver espacio en discos
wmic logicaldisk get caption,freespace,size

Lectura para tu caso

Por la configuración que tengo registrada de tus flujos de ComfyUI, tu PC encaja con un perfil fuerte para modelos locales prácticos: i7-11700K, RTX 3060 con 12 GB de VRAM y mucha RAM. Para Ollama esto significa: modelos 7B, 8B, 9B y 14B cuantizados deberían ser tu zona cómoda; 20B puede funcionar, pero ya entra en modo “paciencia y contexto controlado”.

Zona cómoda

Qwen 7B/8B/9B, Gemma 3/4 pequeños-medios, Llama 3.x 8B, modelos de embeddings y modelos de visión ligeros.

Zona de prueba

Modelos 20B o superiores, contextos muy largos, varios usuarios simultáneos o varias herramientas consultando a la vez.

03 · Comandos esenciales de Ollama

Esta es la chuleta que vas a usar de verdad.

Acción	Comando	Para qué sirve
Ejecutar modelo	`ollama run modelo`	Abre un chat en terminal con el modelo.
Descargar modelo	`ollama pull modelo`	Baja el modelo sin abrir chat.
Listar modelos	`ollama ls`	Ver modelos instalados y tamaño.
Borrar modelo	`ollama rm modelo`	Elimina un modelo descargado.
Modelos cargados	`ollama ps`	Ver qué modelo está en RAM/VRAM y si usa CPU o GPU.
Parar modelo	`ollama stop modelo`	Descarga un modelo de memoria.
Servidor manual	`ollama serve`	Levanta el servidor local manualmente.
Crear modelo personalizado	`ollama create nombre -f Modelfile`	Crea una variante con sistema, parámetros o GGUF propio.

cmd

:: Descargar y ejecutar
ollama pull qwen3.5
ollama run qwen3.5

:: Ver qué tienes instalado
ollama ls

:: Ver qué está cargado ahora mismo
ollama ps

:: Parar un modelo cargado
ollama stop qwen3.5

:: Borrar un modelo descargado
ollama rm qwen3.5

:: Levantar servidor manualmente
ollama serve

04 · Primeros modelos recomendados

No empieces por el modelo más grande. Empieza por saber qué tarea quieres resolver.

Uso	Modelo a probar	Comentario práctico
Chat general rápido	`llama3.2` / `gemma3`	Buen test inicial. Rápido, simple, suficiente para validar instalación.
Razonamiento y texto serio	`qwen3.5`	Buena familia para trabajo local, coding, análisis y redacción.
Código	`qwen3.5-coder` si está disponible en tu biblioteca	Más útil para scripts, debugging y proyectos locales.
RAG / búsqueda en documentos	`nomic-embed-text` o `embeddinggemma`	No son chats normales: sirven para embeddings.
Imagen + texto	`gemma3` o modelos VL compatibles	Útiles para describir capturas/fotos, según modelo y versión.

Recomendación HLT: no colecciones modelos por ansiedad tecnológica. Ten 3 perfiles: uno rápido, uno serio y uno para embeddings. Luego amplías.

05 · Flujo limpio para probar modelos

Cuando quieras probar un modelo nuevo, hazlo con método. Así no terminas con 400 GB de “ya lo miraré”.

cmd

:: 1. Descargar
ollama pull qwen3.5

:: 2. Probar en terminal
ollama run qwen3.5

:: 3. En otra terminal, mirar uso real
ollama ps

:: 4. Si no te sirve, borrar
ollama rm qwen3.5

:: 5. Revisar biblioteca final
ollama ls

Prompt de prueba estándar

prompt

Actúa como asistente local para trabajo creativo y técnico.
Analiza esta tarea y responde en español de España, directo y práctico:

Necesito crear un sistema local con IA para organizar documentos, generar ideas y ayudarme con scripts de Windows.
Dame un plan simple, herramientas necesarias y primer experimento.

06 · Rutas importantes en Windows

Cuando algo falle, o cuando el disco C empiece a llorar, estas rutas importan.

cmd

:: Logs de Ollama
explorer %LOCALAPPDATA%\Ollama

:: Binarios instalados
explorer %LOCALAPPDATA%\Programs\Ollama

:: Modelos y configuración por defecto
explorer %HOMEPATH%\.ollama

:: Temporales
explorer %TEMP%

Cambiar carpeta de modelos

Los modelos pueden ocupar decenas o cientos de GB. Si tienes un disco dedicado para IA, te conviene moverlos.

Crea una carpeta, por ejemplo D:\IA\Ollama\models o F:\OllamaModels.

Abre “Editar las variables de entorno de tu cuenta”.

Crea una variable de usuario llamada OLLAMA_MODELS.

Pon como valor la ruta nueva. Cierra Ollama desde la bandeja y vuelve a abrirlo.

env

Nombre de variable:
OLLAMA_MODELS

Valor de ejemplo:
F:\OllamaModels

Ojo: si ya tienes modelos descargados en la ruta antigua, no desaparecen solos. Tendrás que moverlos con cuidado o volver a descargarlos en la nueva ubicación. Antes de borrar nada, valida con ollama ls.

07 · Qué hace realmente `ollama serve`

ollama serve arranca el servidor local de Ollama. Ese servidor escucha normalmente en http://localhost:11434.

No lo necesitas normalmente

Si has instalado la app de Windows y está abierta, Ollama ya corre en segundo plano.

Sí lo necesitas en casos concretos

Standalone CLI, pruebas de variables de entorno, levantarlo manualmente, scripts, servicio de Windows o debugging.

cmd

:: Arrancar servidor local manualmente
ollama serve

:: En otra ventana, comprobar que responde
curl http://localhost:11434/api/tags

Comprobar API desde PowerShell

powershell

(Invoke-WebRequest -Method POST `
  -Uri http://localhost:11434/api/generate `
  -Body '{"model":"llama3.2","prompt":"Di hola en una frase","stream":false}' `
  -ContentType "application/json").Content

08 · API local: conectar Ollama con scripts y apps

Ollama tiene API propia y también compatibilidad parcial con la API de OpenAI. Esto permite usar herramientas que esperan una URL tipo OpenAI cambiando la base a http://localhost:11434/v1.

API nativa: generate

cmd

curl http://localhost:11434/api/generate -d "{\"model\":\"llama3.2\",\"prompt\":\"Resume en 3 puntos qué es Ollama\",\"stream\":false}"

API nativa: chat

cmd

curl http://localhost:11434/api/chat -d "{\"model\":\"llama3.2\",\"messages\":[{\"role\":\"user\",\"content\":\"Dame una idea de automatización local para Windows\"}],\"stream\":false}"

Python mínimo

python

import requests

payload = {
    "model": "llama3.2",
    "prompt": "Dame una checklist para organizar modelos locales en Windows.",
    "stream": False
}

r = requests.post("http://localhost:11434/api/generate", json=payload, timeout=120)
r.raise_for_status()
print(r.json()["response"])

Cliente OpenAI compatible

python

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1/",
    api_key="ollama"  # Ollama no valida esta clave, pero el cliente la pide
)

response = client.chat.completions.create(
    model="llama3.2",
    messages=[{"role": "user", "content": "Explica Ollama en una frase."}],
)

print(response.choices[0].message.content)

09 · Contexto: no siempre más es mejor

El contexto es la cantidad de texto que el modelo puede tener presente. Más contexto permite meter más información, pero consume más memoria y puede hacerlo todo más lento.

4K–8K

Rápido. Ideal para chat, comandos, prompts y tareas pequeñas.

16K–32K

Buen punto medio para documentos medianos, análisis y coding.

64K+

Útil para documentos largos, pero exige más VRAM/RAM. No lo uses por defecto.

Arrancar servidor con contexto mayor

cmd

:: CMD
set OLLAMA_CONTEXT_LENGTH=32768
ollama serve

powershell

# PowerShell
$env:OLLAMA_CONTEXT_LENGTH="32768"
ollama serve

Ver contexto y procesador usado

cmd

ollama ps

Para tu PC: usa 8K o 16K como base. Sube a 32K cuando analices documentos largos. 64K solo para pruebas concretas y con paciencia.

10 · Rendimiento: variables útiles

Estas variables no son botones mágicos. Úsalas cuando sepas qué problema estás resolviendo.

Variable	Uso	Cuándo tocarla
`OLLAMA_MODELS`	Cambiar carpeta de modelos	Si el disco C va justo.
`OLLAMA_KEEP_ALIVE`	Tiempo que un modelo queda cargado	Si quieres liberar memoria antes o evitar recargas constantes.
`OLLAMA_NUM_PARALLEL`	Solicitudes paralelas	Si varias apps consultan Ollama a la vez.
`OLLAMA_MAX_LOADED_MODELS`	Modelos cargados simultáneamente	Mejor dejar bajo en GPUs de 12GB.
`OLLAMA_FLASH_ATTENTION`	Reducir uso de memoria en algunos casos	Prueba avanzada. Validar estabilidad.
`OLLAMA_KV_CACHE_TYPE`	Cuantización de caché de contexto	Contextos largos y necesidad de ahorrar VRAM.

cmd

:: Sesión CMD temporal: mantener modelo solo 1 minuto
set OLLAMA_KEEP_ALIVE=1m
ollama serve

:: Sesión CMD temporal: limitar paralelo
set OLLAMA_NUM_PARALLEL=1
ollama serve

:: Sesión CMD temporal: flash attention
set OLLAMA_FLASH_ATTENTION=1
ollama serve

:: Sesión CMD temporal: KV cache q8
set OLLAMA_KV_CACHE_TYPE=q8_0
ollama serve

Recomendación para RTX 3060 12GB

Un modelo cargado cada vez cuando estés usando ComfyUI, Premiere, Photoshop o navegador con mil pestañas.
Contexto moderado: 8K o 16K para diario; 32K para documentos.
Modelos cuantizados: Q4/Q5/Q6 suelen ser más prácticos que perseguir FP16.
No mezcles trabajos pesados: generar imagen en ComfyUI y pedir a Ollama un modelo grande a la vez puede saturar VRAM.

11 · Modelfile: crear variantes con personalidad

Un Modelfile es una receta para crear una versión personalizada de un modelo: sistema, temperatura, contexto, estilo y reglas base.

Ejemplo HLT práctico

Modelfile

FROM llama3.2

PARAMETER temperature 0.6
PARAMETER num_ctx 8192

SYSTEM """
Eres un asistente local para Alex y HAZ LO TUYO.
Responde en español de España.
Sé directo, práctico y claro.
Evita humo, jerga innecesaria y frases de agencia.
Prioriza acciones, comandos y ejemplos aplicables.
"""

cmd

:: Guardar el archivo como Modelfile en una carpeta
ollama create hlt-local -f Modelfile
ollama run hlt-local

Ver el Modelfile de un modelo

cmd

ollama show --modelfile llama3.2

12 · Usar un GGUF propio en Ollama

Si ya tienes modelos GGUF por LM Studio u otras fuentes, Ollama puede crear un modelo a partir de un archivo local usando un Modelfile.

Modelfile

FROM ./modelo-local-q4_k_m.gguf

PARAMETER temperature 0.7
PARAMETER num_ctx 8192

SYSTEM """
Responde de forma clara, útil y directa.
"""

cmd

ollama create mi-modelo-local -f Modelfile
ollama run mi-modelo-local
ollama ls

Orden recomendado: crea una carpeta por modelo GGUF, mete dentro el GGUF y el Modelfile, y evita nombres con espacios raros. Menos épica, menos errores.

13 · Utilidades que encajan con Ollama

Open WebUI

Interfaz tipo ChatGPT autoalojada. Buena para usar Ollama desde navegador, tener chats, usuarios y experiencia visual más cómoda.

Uso HLT: panel local para probar modelos y prompts sin depender de la terminal.

AnythingLLM

Muy útil para RAG: meter documentos, crear espacios de trabajo y consultar fuentes locales con modelos de Ollama.

Uso HLT: analizar documentación de proyectos, briefs, PDFs y carpetas de investigación.

Continue

Extensión para VS Code compatible con proveedores locales. Puedes usar Ollama como asistente de código.

Uso HLT: scripts, HTMLs, automatizaciones, apps pequeñas, limpieza de proyectos.

Scripts propios

La API local te permite crear herramientas a medida: resumidores, renombradores, generadores de briefs, clasificadores o asistentes para carpetas.

Uso HLT: convertir necesidades reales en pequeños sistemas.

URLs típicas

txt

Ollama API nativa:
http://localhost:11434

OpenAI compatible:
http://localhost:11434/v1

Modelo de prueba:
llama3.2

API key en apps compatibles:
ollama

14 · Limpieza y mantenimiento

La parte menos sexy y más importante: no dejar que los modelos se coman el disco.

cmd

:: Ver modelos instalados y tamaño
ollama ls

:: Borrar un modelo concreto
ollama rm nombre-del-modelo

:: Ver procesos cargados
ollama ps

:: Descargar/parar uno concreto
ollama stop nombre-del-modelo

:: Abrir carpeta de modelos por defecto
explorer %HOMEPATH%\.ollama\models

Rutina mensual

Abre ollama ls y borra lo que no uses.
Quédate con un modelo rápido, uno serio, uno de código y uno de embeddings.
Revisa la carpeta OLLAMA_MODELS si la moviste a otro disco.
No borres carpetas a mano salvo que tengas claro qué estás haciendo.

15 · Problemas típicos y solución

“ollama no se reconoce como comando”

Cierra y abre la terminal. Si sigue igual, revisa que Ollama esté instalado en %LOCALAPPDATA%\Programs\Ollama y que esa ruta esté en el PATH de usuario.

“No conecta a localhost:11434”

Comprueba que Ollama esté abierto en la bandeja del sistema. Si no, prueba ollama serve manualmente.

“El modelo va lentísimo”

Usa ollama ps para ver si está tirando de CPU. Baja tamaño de modelo, reduce contexto o libera VRAM cerrando ComfyUI/Premiere/Photoshop.

“El disco C se está llenando”

Cambia la variable OLLAMA_MODELS a otro disco y redescarga los modelos necesarios. Luego revisa la carpeta antigua antes de borrar.

“Quiero que una app externa use Ollama”

Prueba primero con http://localhost:11434. Si la app pide formato OpenAI, usa http://localhost:11434/v1 y API key ollama.

“Quiero liberar memoria ya”

Usa ollama stop modelo. También puedes bajar OLLAMA_KEEP_ALIVE para que el modelo no se quede cargado tanto tiempo.

16 · Configuración recomendada para Alex

Con tu perfil de trabajo —ComfyUI, imagen, vídeo, diseño, scripts, HLT, Codex y modelos locales— yo lo ordenaría así:

Modelo rápido

Uno pequeño/medio para dudas rápidas, comandos, resúmenes cortos y pruebas de automatización.

Modelo serio

Un Qwen/Gemma/Llama más capaz para análisis, escritura, documentos y ayuda técnica.

Embeddings

Un modelo específico para RAG con AnythingLLM, Open WebUI o herramientas propias.

Variables de arranque sensatas

cmd

:: Perfil conservador para trabajar sin saturar
set OLLAMA_CONTEXT_LENGTH=8192
set OLLAMA_NUM_PARALLEL=1
set OLLAMA_KEEP_ALIVE=5m
ollama serve

cmd

:: Perfil documento largo / análisis puntual
set OLLAMA_CONTEXT_LENGTH=32768
set OLLAMA_NUM_PARALLEL=1
set OLLAMA_KEEP_ALIVE=1m
ollama serve

Regla práctica: si vas a generar imagen con ComfyUI, no cargues un LLM grande en Ollama. Si vas a analizar documentos con Ollama, cierra lo que chupe VRAM. No es misticismo: es memoria.

17 · Mini proyectos útiles con Ollama

Clasificador de prompts

Script que lea una carpeta de prompts y los etiquete por estilo: HLT, foto, vídeo, ComfyUI, Flux, stickers, etc.

Resumen de carpetas de proyecto

Recorrer archivos MD/HTML/TXT y generar un README con estructura, estado y próximos pasos.

Asistente para briefs

Formulario local que convierta notas sueltas en brief claro: objetivo, material, restricciones, entrega y riesgo.

RAG HLT local

Cargar tus documentos HLT en AnythingLLM/Open WebUI y consultarlos con modelos locales cuando no quieras depender de nube.

18 · Chuleta final

cmd

:: Estado
ollama --version
ollama ls
ollama ps

:: Modelos
ollama pull llama3.2
ollama run llama3.2
ollama stop llama3.2
ollama rm llama3.2

:: Servidor
ollama serve
curl http://localhost:11434/api/tags

:: Rutas
explorer %LOCALAPPDATA%\Ollama
explorer %LOCALAPPDATA%\Programs\Ollama
explorer %HOMEPATH%\.ollama

:: Variables temporales CMD
set OLLAMA_CONTEXT_LENGTH=8192
set OLLAMA_KEEP_ALIVE=5m
set OLLAMA_NUM_PARALLEL=1
ollama serve

19 · Fuentes consultadas

Guía construida con documentación oficial actual de Ollama: Windows, CLI Reference, FAQ, Context length, API Reference, OpenAI compatibility, Modelfile Reference y Hardware support. También se han tenido en cuenta utilidades compatibles como Open WebUI, AnythingLLM y Continue.

Fecha de preparación: 28 de mayo de 2026.