Partagé le 19/09/2025

Déploiement Cloud du Modèle GPT-OSS-120B par Charles Bonnissent

Installation décrite par : Charles Bonnissent

Résumé de cette installation par l'IA

Cette installation repose sur une infrastructure cloud hébergée par DeepInfra, utilisant des endpoints compatibles avec l'API OpenAI. Le modèle principal déployé est gpt-oss-120b, complété par Qwen3-coder pour des tâches spécifiques. L'environnement logiciel combine Openwebui et sst/opencode, sans gestion directe du matériel, ce qui exclut l'utilisation de GPU dédiés. L'infrastructure est conçue pour un usage limité à cinq personnes, avec une performance évaluée à plus de 40 tokens par seconde, offrant un temps de réponse perçu comme instantané. Les coûts d'installation sont nuls, tandis que les frais d'exploitation varient entre 0 et 100 euros par mois, selon l'utilisation.

L'installation répond à des besoins professionnels tout en respectant des contraintes de confidentialité, évitant le partage de données personnelles ou d'entreprise. Elle est principalement utilisée pour des expérimentations et une formation personnelle, tout en couvrant des cas d'usage concrets à petite échelle. L'absence de formation de modèles sur mesure limite l'installation à l'exploitation de modèles préexistants, mais garantit une mise en œuvre simple et économique.

Type d'installation: Directement sur ma machine

Sur un serveur hébergé localement (je paie pour le matériel avec une installation sur site ou chez un prestataire IT local)

Sur un cloud (je ne gère pas le matériel ou je le loue)
Modèle LLM principal: gpt-oss-120b
Autres modèles utilisés: Qwen3-coder
Entraînement de modèles: Oui j'entraîne mes propres modèles

Non, j'utilise des modèles existants

Les deux
Hébergeur cloud: deepinfra
Précisions prestataire/hébergeur: Hébergement de l'inférence via des entry point type openai
Logiciels et SaaS utilisés: Openwebui, sst/opencode
Cartes graphiques: Aucune car je passe par un hébergement cloud
Utilisation de l'installation: 1-5 personnes
Performances obtenues: Rapide (plus de 40 tokens/s) - les réponses ont un ressenti temps réel
Raison de cette installation: Pour bidouiller et me former • Je préfère ne pas partager mes données personnelles ou d'entreprise même non confidentielles • Parce que je le peux
Usage professionnel: Oui elle répond à des besoins professionnels concrets à mon échelle

Oui elle est pleinement fonctionnelle

Partiellement elle nécessite encore du travail

Non elle n'est pas vraiment fonctionnelle

Je ne sais pas
Coût d'installation: 0 - juste l'installation d'outils open source, pas d'achat supplémentaire
Coût d'opération quotidien: 0-100€ / mois

Contribuez au projet LLM Maison 2025

Partagez votre expérience avec votre installation LLM et aidez la communauté française à mieux comprendre l'écosystème local.

Répondre au questionnaire

Toutes les réponses sont repartagées publiquement sous licence libre permissive CC-0

Autres installations de la communauté

Découvrez quelques autres configurations partagées par la communauté LLM française.

Voir toutes les installations

Cédric Trachsel

gpt-oss-20b

Installation: Directement sur ma machine

Logiciels: ollama et openwebui les deux dockerisé

Performance: Moyen (moins de 40 tokens/s) - on peut attendre la réponse du modèle ou le laisser tourner

10/09/2025

Voir les détails →

LLM Maison (anonyme)

Mistral 7B

Installation: Directement sur ma machine

Logiciels: Ollama

Performance: Rapide (plus de 40 tokens/s) - les réponses ont un ressenti temps réel

22/09/2025

Voir les détails →

CNRS

gpt-oss:20b

Installation: Directement sur ma machine

Logiciels: Ollama

Performance: Rapide (plus de 40 tokens/s) - les réponses ont un ressenti temps réel

24/09/2025

Voir les détails →

Déploiement Cloud du Modèle GPT-OSS-120B par Charles Bonnissent

Résumé de cette installation par l'IA

Configuration générale

Infrastructure et matériel

Usage et performances

Coûts

Contribuez au projet LLM Maison 2025

Autres installations de la communauté

Cédric Trachsel

LLM Maison (anonyme)

CNRS