DGX Spark에서 llama.cpp 듀얼 서버 구축하기 — Qwen3-Coder-Next 80B + Gemma 4 26B 동시 운용

🖥️ NVIDIA DGX Spark GB10 · Ubuntu 24.04.4 LTS · CUDA 13.0 · llama.cpp (Blackwell native build) · 128GB Unified LPDDR5x

DGX Spark llama.cpp Qwen3-Coder-Next Gemma 4 MXFP4 듀얼 서버

🔍 128GB 통합 메모리로 80B 모델 두 개를 동시에?

결론부터 말하면, NVIDIA DGX Spark 한 대에서 80B급 코딩 모델과 26B급 대화 모델을 동시에 서빙할 수 있어요. API 비용 0원, 지연시간 0ms. 128GB 통합 메모리와 Blackwell GPU의 MXFP4 네이티브 지원 덕분이에요.

이 글에서는 DGX Spark에 llama.cpp 듀얼 서버를 구성하고, Qwen3-Coder-Next 80BGemma 4 26B-A4B를 동시에 운영하는 전체 과정을 정리했어요. 실측 성능, 메모리 최적화, systemd 서비스 구성까지 포함해요.

이전 글에서 다뤘던 DGX Spark vs Mac Studio 비교에서 한 단계 더 나아간 실전 셋업 가이드예요.

📋 DGX Spark — 왜 이걸 선택했나

DGX Spark GB10

NVIDIA Grace Blackwell 아키텍처 기반 데스크톱 AI 슈퍼컴퓨터. CPU와 GPU가 128GB LPDDR5x 메모리를 공유하는 통합 메모리 구조예요.

핵심 스펙을 표로 정리하면 이래요.

항목
GPU NVIDIA GB10 (Blackwell, Compute 12.1)
메모리 128GB 통합 LPDDR5x (121GB 가용)
대역폭 273 GB/s
FP16 성능 ~100 TFLOPS
CPU ARM 20코어 (10× Cortex-X925 + 10× A725)
스토리지 916GB NVMe
전력 ~4W 아이들 / ~35W 로드
가격 $4,699 (2026년 2월 인상)

출시 당시 $3,999였는데, LPDDR5x 수급 문제로 2026년 2월에 18% 인상되었어요. 그래도 128GB 통합 메모리에 Blackwell GPU를 이 가격에 쓸 수 있는 건 DGX Spark뿐이에요.

🛠️ 듀얼 서버 구성 — 용도별 모델 분리

하나의 DGX Spark에서 두 개의 llama.cpp 서버를 포트별로 분리해서 운영해요. 각 서버는 독립된 systemd 서비스로 관리돼요.

항목 Port 8080 — Qwen3 Coder Port 8081 — Gemma 4
모델 Qwen3-Coder-Next 80B Gemma 4 26B-A4B
양자화 MXFP4 MoE MXFP4 MoE
모델 크기 ~48GB ~16.7GB
Active 파라미터 3B / 80B total 3.8B / 26B total
컨텍스트 800K (슬롯당 200K) 200K
Parallel 슬롯 4 1
Threads 16 8
생성 속도 43.5 tok/s 57 tok/s
용도 코딩, 범용, 서브에이전트 대화, AI 에이전트

두 모델 모두 MoE(Mixture of Experts) 아키텍처라서 전체 파라미터 대비 실제 활성 파라미터가 극히 적어요. Qwen3는 80B 중 3B만, Gemma 4는 26B 중 3.8B만 활성화돼요. 이게 128GB 메모리에서 동시 운용이 가능한 핵심 이유예요.

공통 서버 설정

# 공통 llama-server 옵션
--host 0.0.0.0
--n-gpu-layers 999
--flash-attn
--no-mmap
--cache-type-k q8_0
--cache-type-v q8_0
⚠️ DGX Spark에서는 --no-mmap이 필수예요. 통합 메모리 구조에서 mmap은 오히려 성능을 떨어뜨려요.

⚡ 5가지 핵심 최적화

1. Blackwell 네이티브 빌드

cmake -B build -DGGML_CUDA=ON \
  -DCMAKE_CUDA_ARCHITECTURES="121a-real" ..
cmake --build build -j20

2. MXFP4 양자화

Blackwell의 네이티브 MXFP4 지원으로 프롬프트 처리가 최대 25% 빨라져요.

3. KV Cache q8_0 양자화

--cache-type-k q8_0 --cache-type-v q8_0으로 KV cache 메모리를 47% 절약해요.

💡 q4_0은 생성 속도가 34~37% 떨어져요. q8_0이 메모리 절약과 성능의 최적 균형점이에요.

4. NVMe read-ahead 최적화

echo 8192 | sudo tee /sys/block/nvme0n1/queue/read_ahead_kb

5. –no-mmap 필수 적용

DGX Spark의 통합 메모리 구조에서 mmap은 불필요한 페이지 폴트를 발생시켜요.

📊 성능 비교 — DGX Spark vs Mac Studio M4 Ultra

Claudie와 시월이가 DGX Spark 듀얼 LLM 서버와 API 비용 절감을 주제로 4컷 만화로 대화하는 장면

Skorppio의 벤치마크를 기반으로 두 플랫폼을 비교했어요.

항목 DGX Spark Mac Studio M4 Ultra
메모리 128GB LPDDR5x 192GB LPDDR5x
대역폭 273 GB/s 819 GB/s
FP16 연산 ~100 TFLOPS ~26 TFLOPS
프리필 속도 3.8× 빠름
생성 속도 3.4× 빠름
CUDA 지원 ✅ (PyTorch, vLLM)
가격 $4,699 ~$6,299

Mac Studio는 메모리 대역폭이 3배라 토큰 생성이 빠르지만, DGX Spark는 FP16 연산이 4배라 프리필에서 압도적이에요. CUDA 워크로드가 필요하다면 DGX Spark가 유일한 선택이에요.

🔮 CES 2026 소프트웨어 업데이트

NVIDIA의 CES 2026 발표에 따르면, 소프트웨어 최적화만으로 DGX Spark 성능이 출시 대비 2.5배 향상됐어요. NVFP4 + Eagle3 추론 가속(FP8 대비 2.6배), 비디오 처리 8배 속도 향상이 포함돼요.

💾 메모리 실측

구성 메모리 사용 잔여
Qwen3 80B (800K ctx) ~70GB
Gemma 4 26B (200K ctx) ~22GB
합계 ~92.65GB ~28GB

📚 References

✅ 정리

DGX Spark 한 대로 Qwen3-Coder-Next 80B(코딩)와 Gemma 4 26B(대화)를 동시에 서빙하는 구성을 완성했어요. MoE 아키텍처 + MXFP4 양자화 + q8_0 KV cache의 조합으로 92.65GB에서 두 모델을 돌리고도 28GB가 남아요. API 비용 걱정 없이 43~57 tok/s로 로컬 추론을 돌릴 수 있어요.

Claudie가 두 개의 빛나는 서버 성좌를 잇는 데이터 경로를 지도 위에 그리는 일러스트

AI-Girls Lab에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

featured dgx spark llama cpp dual server 1 web
© 2026 AI-Girls Lab | Privacy Policy | About

AI-Girls Lab에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기