TL;DR — Resumen Rápido

Ejecuta LLMs como Llama 3, Mistral, Gemma y Phi localmente con Ollama. Guía de instalación, aceleración GPU, despliegue Docker, API REST e integración con Open WebUI.

¿Qué es Ollama?

Ollama es una herramienta open-source que facilita descargar, ejecutar y gestionar modelos de lenguaje (LLMs) en tu máquina local. Piensa en ello como Docker para modelos de IA — haces pull de un modelo, lo run, e interactúas por CLI o API REST.

Con Ollama obtienes:

  • Descargas con un comandoollama pull llama3.2
  • Aceleración GPU — soporte automático NVIDIA CUDA y Apple Silicon Metal
  • API compatible con OpenAI — reemplazo directo para muchas apps
  • Privacidad total — tus datos nunca salen de tu red
  • Sin costos de API — consultas ilimitadas
  • Modelos personalizados — crea modelos con Modelfiles
  • Soporte Docker — despliega como contenedor

Requisitos Previos

  • Linux, macOS (Apple Silicon recomendado), o Windows 10/11.
  • 8 GB RAM mínimo (16 GB para modelos 13B).
  • 20+ GB de disco para almacenar modelos.
  • Opcional: GPU NVIDIA con 6+ GB VRAM y drivers CUDA.

Instalación

Linux

curl -fsSL https://ollama.com/install.sh | sh

Docker

# Solo CPU
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# Con GPU NVIDIA
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Modelos Populares

ModeloTamañoParámetrosMejor Para
llama3.24.7 GB8BPropósito general
mistral4.1 GB7BRápido y eficiente
gemma25.4 GB9BModelo de calidad de Google
phi32.2 GB3.8BPequeño y sorprendentemente capaz
codellama3.8 GB7BGeneración de código
nomic-embed-text274 MB137MEmbeddings para RAG
ollama pull llama3.2
ollama run llama3.2
ollama list

API REST

# Generar respuesta
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "¿Qué es un reverse proxy?",
  "stream": false
}'

# Chat con historial
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "user", "content": "¿Cómo verifico el uso de disco en Linux?"}
  ],
  "stream": false
}'

Open WebUI — Interfaz Tipo ChatGPT

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Accede en http://localhost:3000. Incluye historial de conversaciones, cambio de modelos, carga de archivos y soporte multi-usuario.


Resumen

Ollama es la forma más rápida de ir de cero a ejecutar modelos de IA localmente. Una instalación con curl | sh seguida de ollama pull llama3.2 te da una IA local funcional, privada, gratuita y compatible con la API de OpenAI.

Artículos Relacionados