~/gpu/rtx-5090

RTX 5090 32GB

32GB GDDR7. The new consumer ceiling: 70B at Q4 with comfortable context, 30B at FP16.

VRAM

32GB

Bandwidth

1,792GB/s

FP16 compute

838TFLOPS

Budget @ ctx 8K

25GB

Tuned to this card.

$ ./vrambudget --gpu rtx-5090

$ vrambudget --gpu rtx-5090 --ctx 8192 --conc 1 --safety 15%↗ tweetlive

blackwell

RTX 5070

12GB

blackwell

RTX 5070 Ti

16GB

blackwell

RTX 5080

16GB

blackwell · flagship

RTX 5090

32GB

32GB

System RAM

64GB

8Ktok

1req

Safety headroom

15%

32GB

device capacity

0.05GB

0.2% of total

03 Runtime overhead

1.8GB

5.6% of total

04 Weights budget

25GB

79% of total

$ budget allocation27 / 32 GB used

weightskv cacheoverheadsafety

↳ sorted by best fit

fitscomfortably runs on this budget22 models

Mixtral 8x7B46.7B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

25 GB

fits

Qwen 3.6 35B A3B35B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

24 GB

fits

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

23 GB

fits

Qwen 2.5 32B32.5B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

22 GB

fits

Qwen 2.5 Coder 32B32.5B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

22 GB

fits

Qwen3 30B A3B30.5B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

25 GB

fits

Qwen 3.6 27B27B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

22 GB

fits

Gemma 4 26B A4B26B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

21 GB

fits

Mistral Small 324B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

24 GB

fits

gpt-oss 20B20.9B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

22 GB

fits

StarCoder2 15B15B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

16 GB

fits

Phi-414.7B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

16 GB

fits

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

18 GB

fits

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

18 GB

fits

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

16 GB

fits

Granite 8B Code8B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

16 GB

fits

Mistral 7B v0.37.2B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

14 GB

fits

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

14 GB

fits

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

8.0 GB

fits

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

7.6 GB

fits

Llama 3.2 3B3.21B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

6.4 GB

fits

Llama 3.2 1B1.23B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

2.5 GB

fits

overneeds a bigger card, more aggressive quant, or model split8 models

Llama 3.3 70B70.6B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

40 GB

over

Qwen 2.5 72B72.7B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

41 GB

over

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

59 GB

over

gpt-oss 120B117B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

66 GB

over

Mixtral 8x22B141B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

79 GB

over

Llama 3.1 405B405B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

228 GB

over

DeepSeek V3671B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

377 GB

over

DeepSeek R1671B

FP16/BF16FP8/INT8Q8_0Q6_KQ5_K_MQ4_K_MQ3_K_MAWQ 4-bitGPTQ 4-bit

377 GB

over

Models that fit on a RTX 5090.

$ grep "fits" models.json | head -12

ModelParamsBest quantWeights / 25 GB budgetFit

Mixtral 8x7B46.7BAWQ 4-BIT

▸ show the math

// weights AWQ 4-bit for Mixtral 8x7B (46.7B params)
weights = params × bits ÷ 8
        = 46.7 × 4.25 ÷ 8
        = 24.81 GB

// budget on RTX 5090 (32GB) at ctx 8K, conc 1, 15% safety
kv_cache  = 0.05 GB    (1× at ctx 8K)
overhead  = 1.80 GB    (runtime, cuda, allocator)
safety    = 4.80 GB    (15% of 32GB)
budget    = vram − safety − kv − overhead
          = 32 − 4.80 − 0.05 − 1.80
          = 25.35 GB

// fit decision
24.81 ≤ 25.35  → FITS
headroom  = 0.54 GB of weights budget left

Qwen 3.6 35B A3B35BQ5_K_M

▸ show the math

// weights Q5_K_M for Qwen 3.6 35B A3B (35B params)
weights = params × bits ÷ 8
        = 35 × 5.5 ÷ 8
        = 24.06 GB

// budget on RTX 5090 (32GB) at ctx 8K, conc 1, 15% safety
kv_cache  = 0.05 GB    (1× at ctx 8K)
overhead  = 1.80 GB    (runtime, cuda, allocator)
safety    = 4.80 GB    (15% of 32GB)
budget    = vram − safety − kv − overhead
          = 32 − 4.80 − 0.05 − 1.80
          = 25.35 GB

// fit decision
24.06 ≤ 25.35  → FITS
headroom  = 1.29 GB of weights budget left

Yi 34B34BQ5_K_M

▸ show the math

// weights Q5_K_M for Yi 34B (34B params)
weights = params × bits ÷ 8
        = 34 × 5.5 ÷ 8
        = 23.38 GB

// budget on RTX 5090 (32GB) at ctx 8K, conc 1, 15% safety
kv_cache  = 0.05 GB    (1× at ctx 8K)
overhead  = 1.80 GB    (runtime, cuda, allocator)
safety    = 4.80 GB    (15% of 32GB)
budget    = vram − safety − kv − overhead
          = 32 − 4.80 − 0.05 − 1.80
          = 25.35 GB

// fit decision
23.38 ≤ 25.35  → FITS
headroom  = 1.97 GB of weights budget left

Qwen 2.5 32B32.5BQ5_K_M

▸ show the math

// weights Q5_K_M for Qwen 2.5 32B (32.5B params)
weights = params × bits ÷ 8
        = 32.5 × 5.5 ÷ 8
        = 22.34 GB

// budget on RTX 5090 (32GB) at ctx 8K, conc 1, 15% safety
kv_cache  = 0.05 GB    (1× at ctx 8K)
overhead  = 1.80 GB    (runtime, cuda, allocator)
safety    = 4.80 GB    (15% of 32GB)
budget    = vram − safety − kv − overhead
          = 32 − 4.80 − 0.05 − 1.80
          = 25.35 GB

// fit decision
22.34 ≤ 25.35  → FITS
headroom  = 3.00 GB of weights budget left

Qwen 2.5 Coder 32B32.5BQ5_K_M

▸ show the math

// weights Q5_K_M for Qwen 2.5 Coder 32B (32.5B params)
weights = params × bits ÷ 8
        = 32.5 × 5.5 ÷ 8
        = 22.34 GB

// budget on RTX 5090 (32GB) at ctx 8K, conc 1, 15% safety
kv_cache  = 0.05 GB    (1× at ctx 8K)
overhead  = 1.80 GB    (runtime, cuda, allocator)
safety    = 4.80 GB    (15% of 32GB)
budget    = vram − safety − kv − overhead
          = 32 − 4.80 − 0.05 − 1.80
          = 25.35 GB

// fit decision
22.34 ≤ 25.35  → FITS
headroom  = 3.00 GB of weights budget left

Qwen3 30B A3B30.5BQ5_K_M

▸ show the math

// weights Q5_K_M for Qwen3 30B A3B (30.5B params)
weights = params × bits ÷ 8
        = 30.5 × 5.5 ÷ 8
        = 20.97 GB

// budget on RTX 5090 (32GB) at ctx 8K, conc 1, 15% safety
kv_cache  = 0.05 GB    (1× at ctx 8K)
overhead  = 1.80 GB    (runtime, cuda, allocator)
safety    = 4.80 GB    (15% of 32GB)
budget    = vram − safety − kv − overhead
          = 32 − 4.80 − 0.05 − 1.80
          = 25.35 GB

// fit decision
20.97 ≤ 25.35  → FITS
headroom  = 4.38 GB of weights budget left

Qwen 3.6 27B27BQ6_K

▸ show the math

// weights Q6_K for Qwen 3.6 27B (27B params)
weights = params × bits ÷ 8
        = 27 × 6.56 ÷ 8
        = 22.14 GB

// budget on RTX 5090 (32GB) at ctx 8K, conc 1, 15% safety
kv_cache  = 0.05 GB    (1× at ctx 8K)
overhead  = 1.80 GB    (runtime, cuda, allocator)
safety    = 4.80 GB    (15% of 32GB)
budget    = vram − safety − kv − overhead
          = 32 − 4.80 − 0.05 − 1.80
          = 25.35 GB

// fit decision
22.14 ≤ 25.35  → FITS
headroom  = 3.21 GB of weights budget left

Gemma 4 26B A4B26BQ6_K

▸ show the math

// weights Q6_K for Gemma 4 26B A4B (26B params)
weights = params × bits ÷ 8
        = 26 × 6.56 ÷ 8
        = 21.32 GB

// budget on RTX 5090 (32GB) at ctx 8K, conc 1, 15% safety
kv_cache  = 0.05 GB    (1× at ctx 8K)
overhead  = 1.80 GB    (runtime, cuda, allocator)
safety    = 4.80 GB    (15% of 32GB)
budget    = vram − safety − kv − overhead
          = 32 − 4.80 − 0.05 − 1.80
          = 25.35 GB

// fit decision
21.32 ≤ 25.35  → FITS
headroom  = 4.03 GB of weights budget left

Mistral Small 324BFP8/INT8

▸ show the math

// weights FP8/INT8 for Mistral Small 3 (24B params)
weights = params × bits ÷ 8
        = 24 × 8 ÷ 8
        = 24.00 GB

// budget on RTX 5090 (32GB) at ctx 8K, conc 1, 15% safety
kv_cache  = 0.05 GB    (1× at ctx 8K)
overhead  = 1.80 GB    (runtime, cuda, allocator)
safety    = 4.80 GB    (15% of 32GB)
budget    = vram − safety − kv − overhead
          = 32 − 4.80 − 0.05 − 1.80
          = 25.35 GB

// fit decision
24.00 ≤ 25.35  → FITS
headroom  = 1.35 GB of weights budget left

gpt-oss 20B20.9BQ8_0

▸ show the math

// weights Q8_0 for gpt-oss 20B (20.9B params)
weights = params × bits ÷ 8
        = 20.9 × 8.5 ÷ 8
        = 22.21 GB

// budget on RTX 5090 (32GB) at ctx 8K, conc 1, 15% safety
kv_cache  = 0.05 GB    (1× at ctx 8K)
overhead  = 1.80 GB    (runtime, cuda, allocator)
safety    = 4.80 GB    (15% of 32GB)
budget    = vram − safety − kv − overhead
          = 32 − 4.80 − 0.05 − 1.80
          = 25.35 GB

// fit decision
22.21 ≤ 25.35  → FITS
headroom  = 3.14 GB of weights budget left

StarCoder2 15B15BQ8_0

▸ show the math

// weights Q8_0 for StarCoder2 15B (15B params)
weights = params × bits ÷ 8
        = 15 × 8.5 ÷ 8
        = 15.94 GB

// budget on RTX 5090 (32GB) at ctx 8K, conc 1, 15% safety
kv_cache  = 0.05 GB    (1× at ctx 8K)
overhead  = 1.80 GB    (runtime, cuda, allocator)
safety    = 4.80 GB    (15% of 32GB)
budget    = vram − safety − kv − overhead
          = 32 − 4.80 − 0.05 − 1.80
          = 25.35 GB

// fit decision
15.94 ≤ 25.35  → FITS
headroom  = 9.41 GB of weights budget left

▸ show the math

// weights Q8_0 for Phi-4 (14.7B params)
weights = params × bits ÷ 8
        = 14.7 × 8.5 ÷ 8
        = 15.62 GB

// budget on RTX 5090 (32GB) at ctx 8K, conc 1, 15% safety
kv_cache  = 0.05 GB    (1× at ctx 8K)
overhead  = 1.80 GB    (runtime, cuda, allocator)
safety    = 4.80 GB    (15% of 32GB)
budget    = vram − safety − kv − overhead
          = 32 − 4.80 − 0.05 − 1.80
          = 25.35 GB

// fit decision
15.62 ≤ 25.35  → FITS
headroom  = 9.73 GB of weights budget left

Compare to…

$ ./vrambudget --compare

← step downArc Pro B6024GBbattlemage · pro ← step downRTX 309024GBampere ← step downRTX 3090 Ti24GBampere ← step downRTX 409024GBada · flagship

Discussion.

$ gh discussion list

// sign in with github to leave a comment. threads live in the repo's discussions tab.