Partagé le 20/09/2025

Déploiement Local de Llama2-uncensored : Performance et Confidentialité sur Serv

Installation décrite par : Anonyme

Résumé de cette installation par l'IA

Cette installation LLM est déployée sur un serveur local hébergé sur site, équipé d'une carte graphique RTX 3050 avec 6 Go de mémoire. Le matériel, identifié sous le nom de code MS-01, consomme environ 70W et est installé dans un rack. L'infrastructure utilise le logiciel Ollama Open WebUI pour héberger les modèles, avec Llama2-uncensored comme modèle principal, complété par Mistral et Llama3. L'installation ne dispose pas de capacités de formation de modèles, se limitant à l'utilisation de modèles pré-entraînés. La performance est évaluée comme moyenne, avec un débit inférieur à 40 tokens par seconde, nécessitant une attente pour les réponses. Le coût initial s'élève entre 500 et 1000 euros, tandis que les coûts opérationnels mensuels restent inférieurs à 100 euros.

L'installation répond à des besoins spécifiques de confidentialité, évitant le partage de données personnelles ou professionnelles, même non sensibles. Elle permet l'utilisation de modèles non censurés, bien que son usage professionnel soit limité en raison de sa performance moyenne. Destinée à un usage restreint (1 à 5 personnes), elle offre une solution autonome mais avec des contraintes en termes de rapidité et de fonctionnalité. L'objectif principal est de garantir un contrôle total sur les données, au détriment de certaines performances et de la scalabilité.

Configuration générale

Type d'installation
Directement sur ma machine
Sur un serveur hébergé localement (je paie pour le matériel avec une installation sur site ou chez un prestataire IT local)
Sur un cloud (je ne gère pas le matériel ou je le loue)
Modèle LLM principal
llama2-uncensored
Autres modèles utilisés
mistral, llama3
Entraînement de modèles
Oui j'entraîne mes propres modèles
Non, j'utilise des modèles existants
Les deux

Infrastructure et matériel

Logiciels et SaaS utilisés
ollama open webui
Cartes graphiques
Oui sur un rack (installation sur site)
Détails de la machine
MS-01
Détails GPU et VRAM
RTX 3050 6Go
Autres précisions matériel
70W

Usage et performances

Utilisation de l'installation
1-5 personnes
Performances obtenues
Moyen (moins de 40 tokens/s) - on peut attendre la réponse du modèle ou le laisser tourner
Raison de cette installation
Je préfère ne pas partager mes données personnelles ou d'entreprise même non confidentielles • Pour utiliser des modèles débridés
Usage professionnel
Oui elle répond à des besoins professionnels concrets à mon échelle
Oui elle est pleinement fonctionnelle
Partiellement elle nécessite encore du travail
Non elle n'est pas vraiment fonctionnelle
Je ne sais pas

Coûts

Coût d'installation
500-1000€ - équivalent d'un ordinateur portable simple ou d'une carte graphique de gaming
Coût d'opération quotidien
0-100€ / mois

Contribuez au projet LLM Maison 2025

Partagez votre expérience avec votre installation LLM et aidez la communauté française à mieux comprendre l'écosystème local.

Répondre au questionnaire

Toutes les réponses sont repartagées publiquement sous licence libre permissive CC-0

Autres installations de la communauté

Découvrez quelques autres configurations partagées par la communauté LLM française.

Voir toutes les installations

Patrice Cosson

gemma3:270m

Installation: Sur un serveur hébergé localement (je paie pour le matériel avec une installation sur site ou chez un prestataire IT local)

Logiciels: OpenWebUI Ollama

Performance: Lent (moins de 10 token/s) - le modèle doit tourner en toile de fond

Eric Burel - LBKE

Mistral

Installation: Directement sur ma machine

Logiciels: Open WebUI

Performance: Lent (moins de 10 token/s) - le modèle doit tourner en toile de fond

YANN DELCAMBRE LATMOS

llama3.1

Installation: Sur un serveur hébergé localement (je paie pour le matériel avec une installation sur site ou chez un prestataire IT local)

Logiciels: Python maison pour optimiser mon rag

Performance: Rapide (plus de 40 tokens/s) - les réponses ont un ressenti temps réel