Ollama : Exécutez des Modèles IA Localement — Installation, GPU et API

TL;DR — Résumé Rapide

Exécutez des LLMs comme Llama 3, Mistral, Gemma et Phi localement avec Ollama. Guide d'installation, accélération GPU, déploiement Docker, API REST et intégration Open WebUI.

Qu’est-ce qu’Ollama ?

Ollama est un outil open-source qui facilite le téléchargement, l’exécution et la gestion de modèles de langage (LLMs) sur votre machine locale. Pensez-y comme Docker pour les modèles d’IA.

Avec Ollama vous obtenez :

Téléchargements en une commande — ollama pull llama3.2
Accélération GPU — support automatique NVIDIA CUDA et Apple Silicon Metal
API compatible OpenAI — remplacement direct pour de nombreuses apps
Confidentialité totale — vos données ne quittent jamais votre réseau
Sans coûts d’API — requêtes illimitées
Support Docker — déployez comme conteneur

Prérequis

Linux, macOS (Apple Silicon recommandé), ou Windows 10/11.
8 Go RAM minimum.
20+ Go de disque pour le stockage des modèles.
Optionnel : GPU NVIDIA avec 6+ Go VRAM.

Installation

curl -fsSL https://ollama.com/install.sh | sh

Docker

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Modèles Populaires

Modèle	Taille	Paramètres	Idéal Pour
`llama3.2`	4,7 Go	8B	Usage général
`mistral`	4,1 Go	7B	Rapide et efficace
`gemma2`	5,4 Go	9B	Qualité Google
`phi3`	2,2 Go	3,8B	Petit et capable
`codellama`	3,8 Go	7B	Génération de code

ollama pull llama3.2
ollama run llama3.2

API REST

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Qu est-ce qu un reverse proxy ?",
  "stream": false
}'

Open WebUI

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Accédez à http://localhost:3000.

Résumé

Ollama est le moyen le plus rapide d’exécuter des modèles d’IA localement. Une installation curl | sh suivie de ollama pull llama3.2 vous donne une IA locale fonctionnelle, privée et compatible avec l’API d’OpenAI.

Articles Connexes

Frequently Asked Questions

Qu'est-ce qu'Ollama et pourquoi exécuter des LLMs localement ?

Ollama est un outil open-source qui permet de télécharger et d'exécuter des modèles de langage (LLMs) sur votre propre machine. L'exécution locale signifie que vos données ne quittent jamais votre réseau (confidentialité), il n'y a pas de coûts d'API, vous pouvez travailler hors ligne et vous avez un contrôle total.

Quel matériel faut-il pour exécuter Ollama ?

Minimum : 8 Go de RAM pour les modèles 7B. Recommandé : 16 Go pour les modèles 13B, 32 Go pour 70B. L'accélération GPU (NVIDIA avec 6+ Go VRAM, ou Apple Silicon M1+) améliore considérablement la vitesse.

Puis-je utiliser Ollama avec une interface web comme ChatGPT ?

Oui. Open WebUI fournit une interface de type ChatGPT. Installez-la avec Docker : 'docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main'.

Comment Ollama se compare-t-il à l'API d'OpenAI ?

Ollama fournit une API REST locale compatible avec OpenAI sur le port 11434. Vous pouvez l'utiliser comme remplacement direct d'OpenAI dans de nombreuses applications en changeant simplement l'URL de base de l'API.

Qu’est-ce qu’Ollama ?

Prérequis

Installation

Docker

Modèles Populaires

API REST

Open WebUI

Résumé

Articles Connexes

Frequently Asked Questions

Articles Connexes

Open WebUI : Interface ChatGPT Auto-Hébergée pour Ollama et Modèles OpenAI

RAG avec Ollama : Discutez avec vos Documents en IA Locale

Stable Diffusion WebUI : Génération d'Images IA Auto-Hébergée — Gratuite avec GPU