Data Universe
Newsletter
AccueilOutilsOllama
🦙

Ollama

IA Générative

Lancez des LLMs open source en local en une commande — Llama, Mistral, Qwen sur votre machine

Tarif

Gratuit (open source). Coût = votre matériel.

Open sourceFree tierDébutant

Ollama est l'outil le plus simple pour exécuter des LLMs open source en local. Une commande `ollama run llama3.2` télécharge et lance le modèle. Il propose une API compatible OpenAI et s'intègre avec LangChain, LlamaIndex et OpenWebUI. Parfait pour le développement local, les tests de prompts et les projets où les données ne peuvent pas quitter l'entreprise. Supporte la quantification GGUF pour tourner sur CPU ou GPU.

Installation et lancement en une commande
API REST compatible OpenAI
Ollama Library : 100+ modèles (Llama, Mistral, Qwen, Gemma)
Quantization GGUF automatique
GPU inference (NVIDIA, Apple Silicon, AMD)
CPU fallback si pas de GPU
Custom models via Modelfile
Multimodal (LLaVA, vision models)
1

Développement d'application RAG en local

Développement local avec Ollama (Llama 3.2 3B) + LangChain + Chroma, zéro frais API. La même application est déployée en prod avec Claude API.

✓ Points forts

+Le plus simple pour démarrer avec les LLMs localement
+Confidentialité totale (aucune donnée ne quitte la machine)
+Fonctionne sur Mac M1/M2/M3 avec performances excellentes
+Parfait pour le développement et les tests avant déploiement vLLM

✗ Limites

Performances inférieures à vLLM pour les charges de production
Limité par la RAM/VRAM de la machine locale
Pas de continuous batching pour les charges multiples

⚠️ Pièges connus en production

1.Les modèles volumieux (70B en 4-bit) nécessitent beaucoup de RAM unifiée (Mac) ou VRAM — vérifier les prérequis avant le download.

✓ Fait pour vous si…

Développement local, prototypage d'applications LLM, tests de modèles, projets data en local sur Mac M-series.

✗ Pas fait pour vous si…

Production avec de forts volumes de requêtes (utiliser vLLM).

llmlocalopen-sourceprivacydevelopment