TL;DR — Résumé Rapide

Exécutez des LLMs comme Llama 3, Mistral, Gemma et Phi localement avec Ollama. Guide d'installation, accélération GPU, déploiement Docker, API REST et intégration Open WebUI.

Qu’est-ce qu’Ollama ?

Ollama est un outil open-source qui facilite le téléchargement, l’exécution et la gestion de modèles de langage (LLMs) sur votre machine locale. Pensez-y comme Docker pour les modèles d’IA.

Avec Ollama vous obtenez :

  • Téléchargements en une commandeollama pull llama3.2
  • Accélération GPU — support automatique NVIDIA CUDA et Apple Silicon Metal
  • API compatible OpenAI — remplacement direct pour de nombreuses apps
  • Confidentialité totale — vos données ne quittent jamais votre réseau
  • Sans coûts d’API — requêtes illimitées
  • Support Docker — déployez comme conteneur

Prérequis

  • Linux, macOS (Apple Silicon recommandé), ou Windows 10/11.
  • 8 Go RAM minimum.
  • 20+ Go de disque pour le stockage des modèles.
  • Optionnel : GPU NVIDIA avec 6+ Go VRAM.

Installation

curl -fsSL https://ollama.com/install.sh | sh

Docker

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Modèles Populaires

ModèleTailleParamètresIdéal Pour
llama3.24,7 Go8BUsage général
mistral4,1 Go7BRapide et efficace
gemma25,4 Go9BQualité Google
phi32,2 Go3,8BPetit et capable
codellama3,8 Go7BGénération de code
ollama pull llama3.2
ollama run llama3.2

API REST

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Qu est-ce qu un reverse proxy ?",
  "stream": false
}'

Open WebUI

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Accédez à http://localhost:3000.


Résumé

Ollama est le moyen le plus rapide d’exécuter des modèles d’IA localement. Une installation curl | sh suivie de ollama pull llama3.2 vous donne une IA locale fonctionnelle, privée et compatible avec l’API d’OpenAI.

Articles Connexes