Ollama permet d’exécuter des modèles localement avec un setup simple, utile pour prototyper, tester et déployer des scénarios offline. Il facilite la mise en route de modèles open source sans dépendre d’un service externe. Les points clés sont la performance (CPU/GPU), la gestion des versions de modèles et l’exploitation (supervision, quotas).
Chez Josh, nous l’utilisons pour des POC rapides, des environnements de développement, ou des contraintes de souveraineté/offline. Nous cadrons l’architecture : RAG précis, formats de sortie stricts, et monitoring de la latence. Si la charge augmente, on dimensionne l’infrastructure et on met en place une gouvernance de déploiement. L’objectif est de bénéficier du local sans perdre en fiabilité.

Ollama est excellent pour tester et déployer localement, mais il faut penser exploitation : dimensionnement, supervision et versions de modèles. Le local marche très bien quand l’architecture reste simple et mesurée.
Damien — Tech lead Mistral AI
Nous sommes experts dans des technologies de pointe pour repousser au maximum toutes les limites techniques. Nous sommes prêts à relever les défis les plus complexes et à façonner l'avenir numérique avec audace et détermination.