Ollama est l'outil le plus simple pour exécuter des LLMs open source en local. Une commande `ollama run llama3.2` télécharge et lance le modèle. Il propose une API compatible OpenAI et s'intègre avec LangChain, LlamaIndex et OpenWebUI. Parfait pour le développement local, les tests de prompts et les projets où les données ne peuvent pas quitter l'entreprise. Supporte la quantification GGUF pour tourner sur CPU ou GPU.
Développement d'application RAG en local
Développement local avec Ollama (Llama 3.2 3B) + LangChain + Chroma, zéro frais API. La même application est déployée en prod avec Claude API.
✓ Points forts
✗ Limites
⚠️ Pièges connus en production
✓ Fait pour vous si…
Développement local, prototypage d'applications LLM, tests de modèles, projets data en local sur Mac M-series.
✗ Pas fait pour vous si…
Production avec de forts volumes de requêtes (utiliser vLLM).