DGX Spark llama.cpp Qwen3-Coder-Next Gemma 4 MXFP4 듀얼 서버
🔍 128GB 통합 메모리로 80B 모델 두 개를 동시에?
결론부터 말하면, NVIDIA DGX Spark 한 대에서 80B급 코딩 모델과 26B급 대화 모델을 동시에 서빙할 수 있어요. API 비용 0원, 지연시간 0ms. 128GB 통합 메모리와 Blackwell GPU의 MXFP4 네이티브 지원 덕분이에요.
이 글에서는 DGX Spark에 llama.cpp 듀얼 서버를 구성하고, Qwen3-Coder-Next 80B와 Gemma 4 26B-A4B를 동시에 운영하는 전체 과정을 정리했어요. 실측 성능, 메모리 최적화, systemd 서비스 구성까지 포함해요.
이전 글에서 다뤘던 DGX Spark vs Mac Studio 비교에서 한 단계 더 나아간 실전 셋업 가이드예요.
📋 DGX Spark — 왜 이걸 선택했나
NVIDIA Grace Blackwell 아키텍처 기반 데스크톱 AI 슈퍼컴퓨터. CPU와 GPU가 128GB LPDDR5x 메모리를 공유하는 통합 메모리 구조예요.
핵심 스펙을 표로 정리하면 이래요.
| 항목 | 값 |
|---|---|
| GPU | NVIDIA GB10 (Blackwell, Compute 12.1) |
| 메모리 | 128GB 통합 LPDDR5x (121GB 가용) |
| 대역폭 | 273 GB/s |
| FP16 성능 | ~100 TFLOPS |
| CPU | ARM 20코어 (10× Cortex-X925 + 10× A725) |
| 스토리지 | 916GB NVMe |
| 전력 | ~4W 아이들 / ~35W 로드 |
| 가격 | $4,699 (2026년 2월 인상) |
출시 당시 $3,999였는데, LPDDR5x 수급 문제로 2026년 2월에 18% 인상되었어요. 그래도 128GB 통합 메모리에 Blackwell GPU를 이 가격에 쓸 수 있는 건 DGX Spark뿐이에요.
🛠️ 듀얼 서버 구성 — 용도별 모델 분리
하나의 DGX Spark에서 두 개의 llama.cpp 서버를 포트별로 분리해서 운영해요. 각 서버는 독립된 systemd 서비스로 관리돼요.
| 항목 | Port 8080 — Qwen3 Coder | Port 8081 — Gemma 4 |
|---|---|---|
| 모델 | Qwen3-Coder-Next 80B | Gemma 4 26B-A4B |
| 양자화 | MXFP4 MoE | MXFP4 MoE |
| 모델 크기 | ~48GB | ~16.7GB |
| Active 파라미터 | 3B / 80B total | 3.8B / 26B total |
| 컨텍스트 | 800K (슬롯당 200K) | 200K |
| Parallel 슬롯 | 4 | 1 |
| Threads | 16 | 8 |
| 생성 속도 | 43.5 tok/s | 57 tok/s |
| 용도 | 코딩, 범용, 서브에이전트 | 대화, AI 에이전트 |
두 모델 모두 MoE(Mixture of Experts) 아키텍처라서 전체 파라미터 대비 실제 활성 파라미터가 극히 적어요. Qwen3는 80B 중 3B만, Gemma 4는 26B 중 3.8B만 활성화돼요. 이게 128GB 메모리에서 동시 운용이 가능한 핵심 이유예요.
공통 서버 설정
# 공통 llama-server 옵션
--host 0.0.0.0
--n-gpu-layers 999
--flash-attn
--no-mmap
--cache-type-k q8_0
--cache-type-v q8_0
--no-mmap이 필수예요. 통합 메모리 구조에서 mmap은 오히려 성능을 떨어뜨려요.⚡ 5가지 핵심 최적화
1. Blackwell 네이티브 빌드
cmake -B build -DGGML_CUDA=ON \
-DCMAKE_CUDA_ARCHITECTURES="121a-real" ..
cmake --build build -j20
2. MXFP4 양자화
Blackwell의 네이티브 MXFP4 지원으로 프롬프트 처리가 최대 25% 빨라져요.
3. KV Cache q8_0 양자화
--cache-type-k q8_0 --cache-type-v q8_0으로 KV cache 메모리를 47% 절약해요.
4. NVMe read-ahead 최적화
echo 8192 | sudo tee /sys/block/nvme0n1/queue/read_ahead_kb
5. –no-mmap 필수 적용
DGX Spark의 통합 메모리 구조에서 mmap은 불필요한 페이지 폴트를 발생시켜요.
📊 성능 비교 — DGX Spark vs Mac Studio M4 Ultra

Skorppio의 벤치마크를 기반으로 두 플랫폼을 비교했어요.
| 항목 | DGX Spark | Mac Studio M4 Ultra |
|---|---|---|
| 메모리 | 128GB LPDDR5x | 192GB LPDDR5x |
| 대역폭 | 273 GB/s | 819 GB/s |
| FP16 연산 | ~100 TFLOPS | ~26 TFLOPS |
| 프리필 속도 | 3.8× 빠름 | 1× |
| 생성 속도 | 1× | 3.4× 빠름 |
| CUDA 지원 | ✅ (PyTorch, vLLM) | ❌ |
| 가격 | $4,699 | ~$6,299 |
Mac Studio는 메모리 대역폭이 3배라 토큰 생성이 빠르지만, DGX Spark는 FP16 연산이 4배라 프리필에서 압도적이에요. CUDA 워크로드가 필요하다면 DGX Spark가 유일한 선택이에요.
🔮 CES 2026 소프트웨어 업데이트
NVIDIA의 CES 2026 발표에 따르면, 소프트웨어 최적화만으로 DGX Spark 성능이 출시 대비 2.5배 향상됐어요. NVFP4 + Eagle3 추론 가속(FP8 대비 2.6배), 비디오 처리 8배 속도 향상이 포함돼요.
💾 메모리 실측
| 구성 | 메모리 사용 | 잔여 |
|---|---|---|
| Qwen3 80B (800K ctx) | ~70GB | — |
| Gemma 4 26B (200K ctx) | ~22GB | — |
| 합계 | ~92.65GB | ~28GB |
📚 References
- NVIDIA DGX Spark 공식 페이지
- Qwen3-Coder-Next 공식 블로그
- Google Gemma 4 발표
- llama.cpp DGX Spark 성능 토론
- llama.cpp MXFP4 Blackwell PR
- DGX Spark vs Mac Studio 효율 벤치마크
- CES 2026 DGX Spark 소프트웨어 업데이트
- DGX Spark 가격 인상 보도
- EXO 1.0 — DGX Spark + Mac Studio 하이브리드
✅ 정리
DGX Spark 한 대로 Qwen3-Coder-Next 80B(코딩)와 Gemma 4 26B(대화)를 동시에 서빙하는 구성을 완성했어요. MoE 아키텍처 + MXFP4 양자화 + q8_0 KV cache의 조합으로 92.65GB에서 두 모델을 돌리고도 28GB가 남아요. API 비용 걱정 없이 43~57 tok/s로 로컬 추론을 돌릴 수 있어요.

