Questa sezione fornisce un esempio concreto di dimensionamento per un Large Language Model installato on-premise,
basato su una piattaforma NVIDIA DGX di ultima generazione. L’obiettivo è mostrare le prestazioni del sistema,
la capacità di generazione token e il numero di utenti che possono utilizzarlo simultaneamente in un contesto aziendale.
Configurazione di riferimento: NVIDIA DGX (B100)
Per il dimensionamento utilizziamo una DGX basata su GPU NVIDIA Blackwell B100, una piattaforma ad alte prestazioni
adatta all’esecuzione di modelli fino a centinaia di miliardi di parametri.
- 8 GPU NVIDIA B100
- Precisione FP8/FP16 ottimizzata per l’inferenza
- Elevata banda NVLink e memoria aggregata fino a 640 GB
- Esecuzione di modelli fino a circa 200B parametri con parallelizzazione
Prestazioni di generazione (token/sec)
Benchmark realistici sull’intero nodo DGX (8 GPU):
- Modello 8B: 7.000 – 11.000 token/sec
- Modello 13B: 5.000 – 8.000 token/sec
- Modello 70B: 1.400 – 2.200 token/sec
- Modello 110B–120B: 650 – 900 token/sec
- Modello 200B: 300 – 500 token/sec
Capacità multi-utente
L’utilizzo medio richiede tra 20 e 50 token/sec per utente attivo, mentre carichi più complessi
possono richiederne fino a 100 token/sec.
- Modello 8B: fino a 200 utenti (standard), 120 utenti (analisi avanzata)
- Modello 70B: circa 40 utenti (standard), 20 utenti (carichi pesanti)
- Modello 120B: circa 16 utenti
- Modello 200B: circa 8 utenti
Esempio per un’azienda con 300 dipendenti
Con un picco di circa 30 utenti simultanei, una DGX B100 con un modello da 70B parametri garantisce stabilità,
bassa latenza, isolamento completo dei dati e scalabilità con più nodi.
La piattaforma NVIDIA DGX permette di adottare modelli avanzati mantenendo tutte le informazioni all’interno
dell’azienda. Un dimensionamento corretto assicura sicurezza, privacy e continuità operativa, offrendo un riferimento
concreto sulle capacità reali di un’infrastruttura LLM on-premise.