TL;DR — Resumen Rápido
Ejecuta LLMs como Llama 3, Mistral, Gemma y Phi localmente con Ollama. Guía de instalación, aceleración GPU, despliegue Docker, API REST e integración con Open WebUI.
¿Qué es Ollama?
Ollama es una herramienta open-source que facilita descargar, ejecutar y gestionar modelos de lenguaje (LLMs) en tu máquina local. Piensa en ello como Docker para modelos de IA — haces pull de un modelo, lo run, e interactúas por CLI o API REST.
Con Ollama obtienes:
- Descargas con un comando —
ollama pull llama3.2 - Aceleración GPU — soporte automático NVIDIA CUDA y Apple Silicon Metal
- API compatible con OpenAI — reemplazo directo para muchas apps
- Privacidad total — tus datos nunca salen de tu red
- Sin costos de API — consultas ilimitadas
- Modelos personalizados — crea modelos con Modelfiles
- Soporte Docker — despliega como contenedor
Requisitos Previos
- Linux, macOS (Apple Silicon recomendado), o Windows 10/11.
- 8 GB RAM mínimo (16 GB para modelos 13B).
- 20+ GB de disco para almacenar modelos.
- Opcional: GPU NVIDIA con 6+ GB VRAM y drivers CUDA.
Instalación
Linux
curl -fsSL https://ollama.com/install.sh | sh
Docker
# Solo CPU
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
# Con GPU NVIDIA
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
Modelos Populares
| Modelo | Tamaño | Parámetros | Mejor Para |
|---|---|---|---|
llama3.2 | 4.7 GB | 8B | Propósito general |
mistral | 4.1 GB | 7B | Rápido y eficiente |
gemma2 | 5.4 GB | 9B | Modelo de calidad de Google |
phi3 | 2.2 GB | 3.8B | Pequeño y sorprendentemente capaz |
codellama | 3.8 GB | 7B | Generación de código |
nomic-embed-text | 274 MB | 137M | Embeddings para RAG |
ollama pull llama3.2
ollama run llama3.2
ollama list
API REST
# Generar respuesta
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "¿Qué es un reverse proxy?",
"stream": false
}'
# Chat con historial
curl http://localhost:11434/api/chat -d '{
"model": "llama3.2",
"messages": [
{"role": "user", "content": "¿Cómo verifico el uso de disco en Linux?"}
],
"stream": false
}'
Open WebUI — Interfaz Tipo ChatGPT
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
Accede en http://localhost:3000. Incluye historial de conversaciones, cambio de modelos, carga de archivos y soporte multi-usuario.
Resumen
Ollama es la forma más rápida de ir de cero a ejecutar modelos de IA localmente. Una instalación con curl | sh seguida de ollama pull llama3.2 te da una IA local funcional, privada, gratuita y compatible con la API de OpenAI.