Partagé le 26/09/2025

Llama3.1 : Installation sur Serveur Local par Yann Delcambre - Performances Opti

Installation décrite par : YANN DELCAMBRE LATMOS

Résumé de cette installation par l'IA

Cette installation repose sur un serveur local hébergé sur un Mac Studio équipé de 64 Go de RAM, dédié à l'exécution de modèles de langage. Le système utilise le modèle Llama 3.1 comme base principale, sans entraînement de modèles personnalisés. L'infrastructure est optimisée par un logiciel Python maison pour le Retrieval-Augmented Generation (RAG), permettant d'intégrer des procédures internes. L'installation ne nécessite pas de GPU dédié, bien que le Mac Studio offre des performances suffisantes pour un traitement rapide, avec une vitesse de génération supérieure à 40 tokens par seconde. Le coût initial se situe entre 1000 et 3000 euros, équivalent à un ordinateur portable haut de gamme, sans frais de maintenance supplémentaires.

L'installation répond aux besoins professionnels d'une équipe de 20 à 50 personnes, en traitant des données confidentielles liées aux procédures de laboratoire. Les réponses générées offrent une expérience temps réel, grâce à la rapidité du système. L'absence de coûts opérationnels et la simplicité de maintenance en font une solution adaptée à un usage interne, tout en garantissant la sécurité des informations sensibles. L'installation est utilisée pour des applications concrètes, notamment l'accès et l'analyse de documents internes via le RAG.

Configuration générale

Type d'installation
Directement sur ma machine
Sur un serveur hébergé localement (je paie pour le matériel avec une installation sur site ou chez un prestataire IT local)
Sur un cloud (je ne gère pas le matériel ou je le loue)
Modèle LLM principal
llama3.1
Entraînement de modèles
Oui j'entraîne mes propres modèles
Non, j'utilise des modèles existants
Les deux

Infrastructure et matériel

Prestataire IT externe
dinum en plus de mon installe localz
Logiciels et SaaS utilisés
Python maison pour optimiser mon rag
Cartes graphiques
un mac studio dedier
Détails de la machine
mac
Détails GPU et VRAM
Mac studio 64Go de ram

Usage et performances

Utilisation de l'installation
20-50 personnes
Performances obtenues
Rapide (plus de 40 tokens/s) - les réponses ont un ressenti temps réel
Raison de cette installation
Car je manipule des données confidentielles • RAG des procedures du labo
Usage professionnel
Oui elle répond à des besoins professionnels concrets à mon échelle
Oui elle est pleinement fonctionnelle
Partiellement elle nécessite encore du travail
Non elle n'est pas vraiment fonctionnelle
Je ne sais pas

Coûts

Coût d'installation
1000-3000€ - équivalent d'un ordinateur portable onéreux avec une pomme dessus
Coût d'opération quotidien
0 - pas de maintenance particulière

Contribuez au projet LLM Maison 2025

Partagez votre expérience avec votre installation LLM et aidez la communauté française à mieux comprendre l'écosystème local.

Répondre au questionnaire

Toutes les réponses sont repartagées publiquement sous licence libre permissive CC-0

Autres installations de la communauté

Découvrez quelques autres configurations partagées par la communauté LLM française.

Voir toutes les installations

LLM Maison (anonyme)

gpt-oss

Installation: Directement sur ma machine

Logiciels: Ollama, Open-webui, continue

Performance: Rapide (plus de 40 tokens/s) - les réponses ont un ressenti temps réel

Cédric Trachsel

gpt-oss-20b

Installation: Directement sur ma machine

Logiciels: ollama et openwebui les deux dockerisé

Performance: Moyen (moins de 40 tokens/s) - on peut attendre la réponse du modèle ou le laisser tourner

CNRS

gpt-oss:20b

Installation: Directement sur ma machine

Logiciels: Ollama

Performance: Rapide (plus de 40 tokens/s) - les réponses ont un ressenti temps réel