TL;DR — Resumo Rápido

Execute LLMs como Llama 3, Mistral, Gemma e Phi localmente com Ollama. Guia de instalação, aceleração GPU, implantação Docker, API REST e integração com Open WebUI.

O Que É o Ollama?

Ollama é uma ferramenta open-source que facilita baixar, executar e gerenciar modelos de linguagem (LLMs) na sua máquina local. Pense nele como Docker para modelos de IA.

Com o Ollama você obtém:

  • Downloads com um comandoollama pull llama3.2
  • Aceleração GPU — suporte automático NVIDIA CUDA e Apple Silicon Metal
  • API compatível com OpenAI — substituto direto para muitas apps
  • Privacidade total — seus dados nunca saem da sua rede
  • Sem custos de API — consultas ilimitadas
  • Suporte Docker — implante como contêiner

Pré-requisitos

  • Linux, macOS (Apple Silicon recomendado), ou Windows 10/11.
  • 8 GB RAM mínimo.
  • 20+ GB de disco para armazenar modelos.
  • Opcional: GPU NVIDIA com 6+ GB VRAM.

Instalação

curl -fsSL https://ollama.com/install.sh | sh

Docker

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Modelos Populares

ModeloTamanhoParâmetrosMelhor Para
llama3.24.7 GB8BUso geral
mistral4.1 GB7BRápido e eficiente
gemma25.4 GB9BModelo de qualidade do Google
phi32.2 GB3.8BPequeno e capaz
codellama3.8 GB7BGeração de código
ollama pull llama3.2
ollama run llama3.2

API REST

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "O que é um reverse proxy?",
  "stream": false
}'

Open WebUI

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Acesse em http://localhost:3000.


Resumo

O Ollama é a forma mais rápida de executar modelos de IA localmente. Uma instalação com curl | sh seguida de ollama pull llama3.2 lhe dá uma IA local funcional, privada e compatível com a API da OpenAI.

Artigos Relacionados