Back to templates
technical guide

VRAM Calculation Guide for LLM Deployment

Know exactly how much VRAM/RAM you need for any AI model. Complete quantization factor table and hardware compatibility matrix.

Request customization
🌐
Bilingual / Bilingüe

This template includes both English and Spanish versions. Scroll down to find "Versión Española".

VRAM Calculation Guide for LLM Deployment

Template provided by VORLUX AI | vorluxai.com


The Fundamental Formula

Every large language model stores its intelligence as numerical parameters (weights). The amount of memory you need is determined by a simple equation:

VRAM (GB) = (Parameters in billions) x (Bytes per parameter) x 1.2 overhead factor

The 1.2 overhead factor accounts for KV cache, activation memory, and framework overhead during inference. For training or fine-tuning, multiply by 2-4x instead.


Quantization Factor Table

Quantization reduces the precision of each parameter to lower memory requirements. Here is the complete reference:

QuantizationBytes per Param7B Model13B Model34B Model70B Model
FP324.0033.6 GB62.4 GB163.2 GB336.0 GB
FP16 / BF162.0016.8 GB31.2 GB81.6 GB168.0 GB
Q8_0 (8-bit)1.008.4 GB15.6 GB40.8 GB84.0 GB
Q5_K_M0.635.3 GB9.8 GB25.7 GB52.9 GB
Q4_K_M0.504.2 GB7.8 GB20.4 GB42.0 GB
Q3_K_M0.383.2 GB5.9 GB15.5 GB31.9 GB
Q2_K0.252.1 GB3.9 GB10.2 GB21.0 GB

Recommended sweet spot: Q4_K_M delivers 95%+ of full-precision quality at 25% of the memory cost. For production deployments, this is the default starting point.


Hardware Compatibility Matrix

HardwareAvailable VRAM/RAMMax Model (Q4_K_M)Max Model (FP16)
NVIDIA RTX 3060 12GB12 GB13B7B
NVIDIA RTX 4090 24GB24 GB34B13B
NVIDIA A100 80GB80 GB120B34B
NVIDIA H100 80GB80 GB120B34B
Mac Mini M4 16GB16 GB (unified)22B7B
Mac Mini M4 Pro 24GB24 GB (unified)34B13B
MacBook Pro M3 Max 64GB64 GB (unified)100B34B
NVIDIA Jetson Orin Nano 8GB8 GB (unified)7B3B

Apple Silicon note: Macs use unified memory, meaning the full system RAM is available to the GPU. An M4 Pro with 24 GB can run models that would require a dedicated 24 GB GPU on x86 systems.


Context Length Impact

Longer context windows require additional KV cache memory. Add approximately:

  • 4K context: +0.5 GB for 7B models
  • 8K context: +1.0 GB for 7B models
  • 32K context: +4.0 GB for 7B models
  • 128K context: +16.0 GB for 7B models

Scale linearly with model size. A 70B model at 32K context needs roughly +40 GB for KV cache alone.


Decision Checklist

  1. Identify your model — How many billion parameters?
  2. Choose quantization — Q4_K_M for most use cases, FP16 for maximum quality
  3. Calculate base VRAM — Use the formula above
  4. Add context overhead — Based on your required context length
  5. Add 20% buffer — For concurrent users or batch processing
  6. Match to hardware — Select the cheapest device that fits

For sovereign edge deployments where VORLUX AI specialises, we typically recommend Mac Mini M4 Pro (24 GB) or NVIDIA Jetson Orin Nano (8 GB) as starting points for SME use cases.


Need help sizing hardware for your specific deployment? Contact VORLUX AI for a free consultation.


Versión Española

Guía de Cálculo de VRAM para Despliegue de LLMs

Plantilla proporcionada por VORLUX AI | vorluxai.com


La Fórmula Fundamental

Cada modelo de lenguaje grande almacena su inteligencia como parámetros numéricos (pesos). La cantidad de memoria necesaria se determina con una ecuación simple:

VRAM (GB) = (Parámetros en miles de millones) x (Bytes por parámetro) x 1.2 factor de overhead

El factor de overhead de 1.2 tiene en cuenta la caché KV, la memoria de activación y el overhead del framework durante la inferencia. Para entrenamiento o fine-tuning, multiplique por 2-4x en su lugar.


Tabla de Factores de Cuantización

La cuantización reduce la precisión de cada parámetro para disminuir los requisitos de memoria. Aquí está la referencia completa:

CuantizaciónBytes/ParamModelo 7BModelo 13BModelo 34BModelo 70B
FP324,0033,6 GB62,4 GB163,2 GB336,0 GB
FP16 / BF162,0016,8 GB31,2 GB81,6 GB168,0 GB
Q8_0 (8-bit)1,008,4 GB15,6 GB40,8 GB84,0 GB
Q5_K_M0,635,3 GB9,8 GB25,7 GB52,9 GB
Q4_K_M0,504,2 GB7,8 GB20,4 GB42,0 GB
Q3_K_M0,383,2 GB5,9 GB15,5 GB31,9 GB
Q2_K0,252,1 GB3,9 GB10,2 GB21,0 GB

Punto óptimo recomendado: Q4_K_M ofrece el 95%+ de la calidad de precisión completa al 25% del coste de memoria. Para despliegues en producción, este es el punto de partida predeterminado.


Matriz de Compatibilidad de Hardware

HardwareVRAM/RAM DisponibleModelo Máx. (Q4_K_M)Modelo Máx. (FP16)
NVIDIA RTX 3060 12GB12 GB13B7B
NVIDIA RTX 4090 24GB24 GB34B13B
NVIDIA A100 80GB80 GB120B34B
NVIDIA H100 80GB80 GB120B34B
Mac Mini M4 16GB16 GB (unificada)22B7B
Mac Mini M4 Pro 24GB24 GB (unificada)34B13B
MacBook Pro M3 Max 64GB64 GB (unificada)100B34B
NVIDIA Jetson Orin Nano 8GB8 GB (unificada)7B3B

Nota Apple Silicon: Los Mac utilizan memoria unificada, lo que significa que toda la RAM del sistema está disponible para la GPU. Un M4 Pro con 24 GB puede ejecutar modelos que requerirían una GPU dedicada de 24 GB en sistemas x86.


Impacto de la Longitud de Contexto

Las ventanas de contexto más largas requieren memoria adicional para la caché KV. Añada aproximadamente:

  • Contexto 4K: +0,5 GB para modelos 7B
  • Contexto 8K: +1,0 GB para modelos 7B
  • Contexto 32K: +4,0 GB para modelos 7B
  • Contexto 128K: +16,0 GB para modelos 7B

Escale linealmente con el tamaño del modelo. Un modelo 70B con contexto 32K necesita aproximadamente +40 GB solo para la caché KV.


Checklist de Decisión

  1. Identifique su modelo — ¿Cuántos miles de millones de parámetros?
  2. Elija cuantización — Q4_K_M para la mayoría de casos, FP16 para máxima calidad
  3. Calcule la VRAM base — Use la fórmula anterior
  4. Añada overhead de contexto — Según la longitud de contexto requerida
  5. Añada un 20% de margen — Para usuarios concurrentes o procesamiento por lotes
  6. Seleccione hardware — Elija el dispositivo más económico que se ajuste

Para despliegues soberanos de edge donde VORLUX AI se especializa, normalmente recomendamos Mac Mini M4 Pro (24 GB) o NVIDIA Jetson Orin Nano (8 GB) como puntos de partida para casos de uso de PYMEs.


¿Necesita ayuda para dimensionar hardware para su despliegue? Contacte con VORLUX AI para una consulta gratuita.

EU AI Act: 99 days to deadline

15 minutes to evaluate your case

No-commitment initial consultation. We analyze your infrastructure and recommend the optimal hybrid architecture.

No commitment 15 minutes Custom proposal

136 pages of free resources · 26 compliance templates · 22 certified devices