TL;DR — Resumo Rápido
Execute LLMs como Llama 3, Mistral, Gemma e Phi localmente com Ollama. Guia de instalação, aceleração GPU, implantação Docker, API REST e integração com Open WebUI.
O Que É o Ollama?
Ollama é uma ferramenta open-source que facilita baixar, executar e gerenciar modelos de linguagem (LLMs) na sua máquina local. Pense nele como Docker para modelos de IA.
Com o Ollama você obtém:
- Downloads com um comando —
ollama pull llama3.2 - Aceleração GPU — suporte automático NVIDIA CUDA e Apple Silicon Metal
- API compatível com OpenAI — substituto direto para muitas apps
- Privacidade total — seus dados nunca saem da sua rede
- Sem custos de API — consultas ilimitadas
- Suporte Docker — implante como contêiner
Pré-requisitos
- Linux, macOS (Apple Silicon recomendado), ou Windows 10/11.
- 8 GB RAM mínimo.
- 20+ GB de disco para armazenar modelos.
- Opcional: GPU NVIDIA com 6+ GB VRAM.
Instalação
curl -fsSL https://ollama.com/install.sh | sh
Docker
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
Modelos Populares
| Modelo | Tamanho | Parâmetros | Melhor Para |
|---|---|---|---|
llama3.2 | 4.7 GB | 8B | Uso geral |
mistral | 4.1 GB | 7B | Rápido e eficiente |
gemma2 | 5.4 GB | 9B | Modelo de qualidade do Google |
phi3 | 2.2 GB | 3.8B | Pequeno e capaz |
codellama | 3.8 GB | 7B | Geração de código |
ollama pull llama3.2
ollama run llama3.2
API REST
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "O que é um reverse proxy?",
"stream": false
}'
Open WebUI
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
Acesse em http://localhost:3000.
Resumo
O Ollama é a forma mais rápida de executar modelos de IA localmente. Uma instalação com curl | sh seguida de ollama pull llama3.2 lhe dá uma IA local funcional, privada e compatível com a API da OpenAI.