Ollama: Ejecuta Modelos de IA Localmente — Instalación, GPU y API

TL;DR — Resumen Rápido

Ejecuta LLMs como Llama 3, Mistral, Gemma y Phi localmente con Ollama. Guía de instalación, aceleración GPU, despliegue Docker, API REST e integración con Open WebUI.

¿Qué es Ollama?

Ollama es una herramienta open-source que facilita descargar, ejecutar y gestionar modelos de lenguaje (LLMs) en tu máquina local. Piensa en ello como Docker para modelos de IA — haces pull de un modelo, lo run, e interactúas por CLI o API REST.

Con Ollama obtienes:

Descargas con un comando — ollama pull llama3.2
Aceleración GPU — soporte automático NVIDIA CUDA y Apple Silicon Metal
API compatible con OpenAI — reemplazo directo para muchas apps
Privacidad total — tus datos nunca salen de tu red
Sin costos de API — consultas ilimitadas
Modelos personalizados — crea modelos con Modelfiles
Soporte Docker — despliega como contenedor

Requisitos Previos

Linux, macOS (Apple Silicon recomendado), o Windows 10/11.
8 GB RAM mínimo (16 GB para modelos 13B).
20+ GB de disco para almacenar modelos.
Opcional: GPU NVIDIA con 6+ GB VRAM y drivers CUDA.

Instalación

Linux

curl -fsSL https://ollama.com/install.sh | sh

Docker

# Solo CPU
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# Con GPU NVIDIA
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Modelos Populares

Modelo	Tamaño	Parámetros	Mejor Para
`llama3.2`	4.7 GB	8B	Propósito general
`mistral`	4.1 GB	7B	Rápido y eficiente
`gemma2`	5.4 GB	9B	Modelo de calidad de Google
`phi3`	2.2 GB	3.8B	Pequeño y sorprendentemente capaz
`codellama`	3.8 GB	7B	Generación de código
`nomic-embed-text`	274 MB	137M	Embeddings para RAG

ollama pull llama3.2
ollama run llama3.2
ollama list

API REST

# Generar respuesta
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "¿Qué es un reverse proxy?",
  "stream": false
}'

# Chat con historial
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "user", "content": "¿Cómo verifico el uso de disco en Linux?"}
  ],
  "stream": false
}'

Open WebUI — Interfaz Tipo ChatGPT

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Accede en http://localhost:3000. Incluye historial de conversaciones, cambio de modelos, carga de archivos y soporte multi-usuario.

Resumen

Ollama es la forma más rápida de ir de cero a ejecutar modelos de IA localmente. Una instalación con curl | sh seguida de ollama pull llama3.2 te da una IA local funcional, privada, gratuita y compatible con la API de OpenAI.

Ollama: Ejecuta Modelos de IA Localmente — Instalación, GPU y API

¿Qué es Ollama?

Requisitos Previos

Instalación

Linux

Docker

Modelos Populares

API REST

Open WebUI — Interfaz Tipo ChatGPT

Resumen

Artículos Relacionados

Frequently Asked Questions

¿Qué es Ollama?

Requisitos Previos

Instalación

Linux

Docker

Modelos Populares

API REST

Open WebUI — Interfaz Tipo ChatGPT

Resumen

Artículos Relacionados

Frequently Asked Questions

Artículos Relacionados

Open WebUI: Interfaz ChatGPT Self-Hosted para Ollama y Modelos OpenAI

Whisper: Transcripción de Voz a Texto Self-Hosted — Local, Privado y Gratuito

RAG con Ollama: Chatea con tus Documentos Usando IA Local