TL;DR — Résumé Rapide
Exécutez des LLMs comme Llama 3, Mistral, Gemma et Phi localement avec Ollama. Guide d'installation, accélération GPU, déploiement Docker, API REST et intégration Open WebUI.
Qu’est-ce qu’Ollama ?
Ollama est un outil open-source qui facilite le téléchargement, l’exécution et la gestion de modèles de langage (LLMs) sur votre machine locale. Pensez-y comme Docker pour les modèles d’IA.
Avec Ollama vous obtenez :
- Téléchargements en une commande —
ollama pull llama3.2 - Accélération GPU — support automatique NVIDIA CUDA et Apple Silicon Metal
- API compatible OpenAI — remplacement direct pour de nombreuses apps
- Confidentialité totale — vos données ne quittent jamais votre réseau
- Sans coûts d’API — requêtes illimitées
- Support Docker — déployez comme conteneur
Prérequis
- Linux, macOS (Apple Silicon recommandé), ou Windows 10/11.
- 8 Go RAM minimum.
- 20+ Go de disque pour le stockage des modèles.
- Optionnel : GPU NVIDIA avec 6+ Go VRAM.
Installation
curl -fsSL https://ollama.com/install.sh | sh
Docker
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
Modèles Populaires
| Modèle | Taille | Paramètres | Idéal Pour |
|---|---|---|---|
llama3.2 | 4,7 Go | 8B | Usage général |
mistral | 4,1 Go | 7B | Rapide et efficace |
gemma2 | 5,4 Go | 9B | Qualité Google |
phi3 | 2,2 Go | 3,8B | Petit et capable |
codellama | 3,8 Go | 7B | Génération de code |
ollama pull llama3.2
ollama run llama3.2
API REST
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Qu est-ce qu un reverse proxy ?",
"stream": false
}'
Open WebUI
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
Accédez à http://localhost:3000.
Résumé
Ollama est le moyen le plus rapide d’exécuter des modèles d’IA localement. Une installation curl | sh suivie de ollama pull llama3.2 vous donne une IA locale fonctionnelle, privée et compatible avec l’API d’OpenAI.