Ollama: Execute Modelos de IA Localmente — Instalação, GPU e API

TL;DR — Resumo Rápido

Execute LLMs como Llama 3, Mistral, Gemma e Phi localmente com Ollama. Guia de instalação, aceleração GPU, implantação Docker, API REST e integração com Open WebUI.

O Que É o Ollama?

Ollama é uma ferramenta open-source que facilita baixar, executar e gerenciar modelos de linguagem (LLMs) na sua máquina local. Pense nele como Docker para modelos de IA.

Com o Ollama você obtém:

Downloads com um comando — ollama pull llama3.2
Aceleração GPU — suporte automático NVIDIA CUDA e Apple Silicon Metal
API compatível com OpenAI — substituto direto para muitas apps
Privacidade total — seus dados nunca saem da sua rede
Sem custos de API — consultas ilimitadas
Suporte Docker — implante como contêiner

Pré-requisitos

Linux, macOS (Apple Silicon recomendado), ou Windows 10/11.
8 GB RAM mínimo.
20+ GB de disco para armazenar modelos.
Opcional: GPU NVIDIA com 6+ GB VRAM.

Instalação

curl -fsSL https://ollama.com/install.sh | sh

Docker

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Modelos Populares

Modelo	Tamanho	Parâmetros	Melhor Para
`llama3.2`	4.7 GB	8B	Uso geral
`mistral`	4.1 GB	7B	Rápido e eficiente
`gemma2`	5.4 GB	9B	Modelo de qualidade do Google
`phi3`	2.2 GB	3.8B	Pequeno e capaz
`codellama`	3.8 GB	7B	Geração de código

ollama pull llama3.2
ollama run llama3.2

API REST

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "O que é um reverse proxy?",
  "stream": false
}'

Open WebUI

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Acesse em http://localhost:3000.

Resumo

O Ollama é a forma mais rápida de executar modelos de IA localmente. Uma instalação com curl | sh seguida de ollama pull llama3.2 lhe dá uma IA local funcional, privada e compatível com a API da OpenAI.

Ollama: Execute Modelos de IA Localmente — Instalação, GPU e API

O Que É o Ollama?

Pré-requisitos

Instalação

Docker

Modelos Populares

API REST

Open WebUI

Resumo

Artigos Relacionados

Frequently Asked Questions

O Que É o Ollama?

Pré-requisitos

Instalação

Docker

Modelos Populares

API REST

Open WebUI

Resumo

Artigos Relacionados

Frequently Asked Questions

Artigos Relacionados

Open WebUI: Interface ChatGPT Auto-Hospedada para Ollama e Modelos OpenAI

RAG com Ollama: Converse com seus Documentos Usando IA Local

Stable Diffusion WebUI: Geração de Imagens com IA Auto-Hospedada — Grátis e com GPU