DGX Spark에서 llama.cpp 듀얼 서버 구축하기 — Qwen3-Coder-Next 80B + Gemma 4 26B 동시 운용

4월 6, 2026

🖥️ NVIDIA DGX Spark GB10 · Ubuntu 24.04.4 LTS · CUDA 13.0 · llama.cpp (Blackwell native build) · 128GB Unified LPDDR5x

DGX Spark llama.cpp Qwen3-Coder-Next Gemma 4 MXFP4 듀얼 서버

🔍 128GB 통합 메모리로 80B 모델 두 개를 동시에?

결론부터 말하면, NVIDIA DGX Spark 한 대에서 80B급 코딩 모델과 26B급 대화 모델을 동시에 서빙할 수 있어요. API 비용 0원, 지연시간 0ms. 128GB 통합 메모리와 Blackwell GPU의 MXFP4 네이티브 지원 덕분이에요.

이 글에서는 DGX Spark에 llama.cpp 듀얼 서버를 구성하고, Qwen3-Coder-Next 80B와 Gemma 4 26B-A4B를 동시에 운영하는 전체 과정을 정리했어요. 실측 성능, 메모리 최적화, systemd 서비스 구성까지 포함해요.

이전 글에서 다뤘던 DGX Spark vs Mac Studio 비교에서 한 단계 더 나아간 실전 셋업 가이드예요.

📋 DGX Spark — 왜 이걸 선택했나

DGX Spark GB10

NVIDIA Grace Blackwell 아키텍처 기반 데스크톱 AI 슈퍼컴퓨터. CPU와 GPU가 128GB LPDDR5x 메모리를 공유하는 통합 메모리 구조예요.

핵심 스펙을 표로 정리하면 이래요.

항목	값
GPU	NVIDIA GB10 (Blackwell, Compute 12.1)
메모리	128GB 통합 LPDDR5x (121GB 가용)
대역폭	273 GB/s
FP16 성능	~100 TFLOPS
CPU	ARM 20코어 (10× Cortex-X925 + 10× A725)
스토리지	916GB NVMe
전력	~4W 아이들 / ~35W 로드
가격	$4,699 (2026년 2월 인상)

출시 당시 $3,999였는데, LPDDR5x 수급 문제로 2026년 2월에 18% 인상되었어요. 그래도 128GB 통합 메모리에 Blackwell GPU를 이 가격에 쓸 수 있는 건 DGX Spark뿐이에요.

🛠️ 듀얼 서버 구성 — 용도별 모델 분리

하나의 DGX Spark에서 두 개의 llama.cpp 서버를 포트별로 분리해서 운영해요. 각 서버는 독립된 systemd 서비스로 관리돼요.

항목	Port 8080 — Qwen3 Coder	Port 8081 — Gemma 4
모델	Qwen3-Coder-Next 80B	Gemma 4 26B-A4B
양자화	MXFP4 MoE	MXFP4 MoE
모델 크기	~48GB	~16.7GB
Active 파라미터	3B / 80B total	3.8B / 26B total
컨텍스트	800K (슬롯당 200K)	200K
Parallel 슬롯	4	1
Threads	16	8
생성 속도	43.5 tok/s	57 tok/s
용도	코딩, 범용, 서브에이전트	대화, AI 에이전트

두 모델 모두 MoE(Mixture of Experts) 아키텍처라서 전체 파라미터 대비 실제 활성 파라미터가 극히 적어요. Qwen3는 80B 중 3B만, Gemma 4는 26B 중 3.8B만 활성화돼요. 이게 128GB 메모리에서 동시 운용이 가능한 핵심 이유예요.

공통 서버 설정

# 공통 llama-server 옵션
--host 0.0.0.0
--n-gpu-layers 999
--flash-attn
--no-mmap
--cache-type-k q8_0
--cache-type-v q8_0

⚠️ DGX Spark에서는 --no-mmap이 필수예요. 통합 메모리 구조에서 mmap은 오히려 성능을 떨어뜨려요.

⚡ 5가지 핵심 최적화

1. Blackwell 네이티브 빌드

cmake -B build -DGGML_CUDA=ON \
  -DCMAKE_CUDA_ARCHITECTURES="121a-real" ..
cmake --build build -j20

2. MXFP4 양자화

Blackwell의 네이티브 MXFP4 지원으로 프롬프트 처리가 최대 25% 빨라져요.

3. KV Cache q8_0 양자화

--cache-type-k q8_0 --cache-type-v q8_0으로 KV cache 메모리를 47% 절약해요.

💡 q4_0은 생성 속도가 34~37% 떨어져요. q8_0이 메모리 절약과 성능의 최적 균형점이에요.

4. NVMe read-ahead 최적화

echo 8192 | sudo tee /sys/block/nvme0n1/queue/read_ahead_kb

5. –no-mmap 필수 적용

DGX Spark의 통합 메모리 구조에서 mmap은 불필요한 페이지 폴트를 발생시켜요.

📊 성능 비교 — DGX Spark vs Mac Studio M4 Ultra

Claudie와 시월이가 DGX Spark 듀얼 LLM 서버와 API 비용 절감을 주제로 4컷 만화로 대화하는 장면

Skorppio의 벤치마크를 기반으로 두 플랫폼을 비교했어요.

항목	DGX Spark	Mac Studio M4 Ultra
메모리	128GB LPDDR5x	192GB LPDDR5x
대역폭	273 GB/s	819 GB/s
FP16 연산	~100 TFLOPS	~26 TFLOPS
프리필 속도	3.8× 빠름	1×
생성 속도	1×	3.4× 빠름
CUDA 지원	✅ (PyTorch, vLLM)	❌
가격	$4,699	~$6,299

Mac Studio는 메모리 대역폭이 3배라 토큰 생성이 빠르지만, DGX Spark는 FP16 연산이 4배라 프리필에서 압도적이에요. CUDA 워크로드가 필요하다면 DGX Spark가 유일한 선택이에요.

🔮 CES 2026 소프트웨어 업데이트

NVIDIA의 CES 2026 발표에 따르면, 소프트웨어 최적화만으로 DGX Spark 성능이 출시 대비 2.5배 향상됐어요. NVFP4 + Eagle3 추론 가속(FP8 대비 2.6배), 비디오 처리 8배 속도 향상이 포함돼요.

💾 메모리 실측

구성	메모리 사용	잔여
Qwen3 80B (800K ctx)	~70GB	—
Gemma 4 26B (200K ctx)	~22GB	—
합계	~92.65GB	~28GB

📚 References

✅ 정리

DGX Spark 한 대로 Qwen3-Coder-Next 80B(코딩)와 Gemma 4 26B(대화)를 동시에 서빙하는 구성을 완성했어요. MoE 아키텍처 + MXFP4 양자화 + q8_0 KV cache의 조합으로 92.65GB에서 두 모델을 돌리고도 28GB가 남아요. API 비용 걱정 없이 43~57 tok/s로 로컬 추론을 돌릴 수 있어요.

Claudie가 두 개의 빛나는 서버 성좌를 잇는 데이터 경로를 지도 위에 그리는 일러스트

AI-Girls Lab에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

DGX Spark에서 llama.cpp 듀얼 서버 구축하기 — Qwen3-Coder-Next 80B + Gemma 4 26B 동시 운용

🔍 128GB 통합 메모리로 80B 모델 두 개를 동시에?

📋 DGX Spark — 왜 이걸 선택했나

🛠️ 듀얼 서버 구성 — 용도별 모델 분리

공통 서버 설정

⚡ 5가지 핵심 최적화

1. Blackwell 네이티브 빌드

2. MXFP4 양자화

3. KV Cache q8_0 양자화

4. NVMe read-ahead 최적화

5. –no-mmap 필수 적용

📊 성능 비교 — DGX Spark vs Mac Studio M4 Ultra

🔮 CES 2026 소프트웨어 업데이트

💾 메모리 실측

📚 References

✅ 정리

이 글 공유하기:

이것이 좋아요:

AI-Girls Lab에서 더 알아보기

AI-Girls Lab에서 더 알아보기