🖥️ NVIDIA DGX Spark — Полный разбор

Какие модели потянет, что нужно для работы, подводные камни

🧠 Максимальные модели (1 устройство, 128 GB)

Qwen 2.5 32B / Llama 3.3 32B ЛЕГКО
Требует ~20 GB VRAM • Скорость: ~40-50 tok/sec
Качество: 8/10 • Идеально для ботов и чатов
Llama 3.3 70B / Qwen 2.5 72B ХОРОШО
Требует ~45 GB VRAM • Скорость: ~20-30 tok/sec
Качество: 9/10 • Уровень GPT-4 • Основная рабочая модель
DeepSeek R1 (Distilled 70B) ХОРОШО
Требует ~45 GB VRAM • Скорость: ~15-25 tok/sec
Качество: 9/10 • Deep reasoning • Лучший для аналитики
Llama 3.1 405B (quantized Q4) МАКСИМУМ
Требует ~110 GB VRAM • Скорость: ~3-5 tok/sec
Качество: 10/10 • Медленно но мощно • Для сложных задач
DeepSeek V3 (671B MoE, quantized) МАКСИМУМ
Требует ~120 GB VRAM • Скорость: ~2-4 tok/sec
Качество: 10/10 • Топовая открытая модель • Еле влезает
Llama 3.1 405B (full FP16) НЕ ВЛЕЗАЕТ
Требует ~810 GB VRAM • ❌ Нужно 2 устройства связать
2× DGX Spark = 256 GB → влезает в Q4 квантизации

⚡ Скорость генерации (tokens/sec)

Qwen 32B~45 tok/s
Быстро — мгновенные ответы
Llama 70B~25 tok/s
Комфортно — 2-3 сек на ответ
DeepSeek R1 70B~20 tok/s
Нормально — 3-5 сек на ответ
405B (Q4)~4 tok/s
Медленно — 20-30 сек

📋 Что нужно для стабильной работы

🌐
Интернет
50 Мбит/с достаточно
Модели работают ЛОКАЛЬНО. Интернет нужен только для скачивания моделей (разово) и webhook Авито. 100 Мбит — с запасом.
🔌
Электричество
240W (как чайник × 0.1)
Обычная розетка 220V. Без ИБП рискуешь потерять данные при отключении. Рекомендую UPS на 500VA (~₽5К).
🖥️
Монитор/клавиатура
НЕ НУЖНО
Работает headless (без монитора). Управление через SSH с любого компьютера или телефона. HDMI есть если нужно.
💾
Доп. хранилище
НЕ НУЖНО
4 TB NVMe встроено. Хватит на 20+ моделей. Если мало — USB-C внешний диск.
❄️
Охлаждение
Встроенное
Тихий вентилятор (29 дБ под нагрузкой, 13 дБ в простое). Комнатная температура достаточно. Не ставить в шкаф.
🔒
Безопасность
Шифрование встроено
4 TB NVMe с self-encryption. DGX OS на базе Linux. Данные клиентов остаются на устройстве.
📶
WiFi
WiFi 7 встроен
Можно подключить без кабеля. Но для стабильности рекомендую Ethernet (10GbE порт есть).
🔗
Второй DGX Spark
Опционально (+$3K)
ConnectX-7 200Gbps связывает 2 устройства. 256 GB общей памяти. Модели до 405B. Нужен кабель InfiniBand.

👥 Сколько пользователей параллельно

Модель 1 юзер 10 юзеров 50 юзеров 100 юзеров
Qwen 32B ✅ ~45 tok/s ✅ ~15 tok/s ⚠️ ~5 tok/s ❌ Очередь
Llama 70B ✅ ~25 tok/s ⚠️ ~8 tok/s ❌ Очередь ❌ Нет
405B (Q4) ⚠️ ~4 tok/s ❌ Очередь ❌ Нет ❌ Нет
💡 Для СтройБота (Авито): Qwen 32B на DGX Spark спокойно обслуживает 10-20 клиентов одновременно. Для 50+ нужен vLLM + batching или второй DGX Spark.

🛒 Полный список покупок

ЧтоЗачемЦена
DGX SparkОсновное устройство~$3,000 (₽255K)
UPS 500VAЗащита от отключений~₽5,000
Ethernet кабельСтабильное подключение~₽500
Монитор (опционально)Первая настройкаНе нужен (SSH)
Второй DGX Spark405B модели+$3,000
InfiniBand кабельСвязь 2 устройств~$200
ИТОГО (минимум)~₽262,000

💻 Программное обеспечение (всё бесплатно)

ПОЗачемСтоимость
DGX OSОперационная система (предустановлена)Бесплатно
OllamaЗапуск моделейБесплатно
vLLMИнференс сервер (параллельные запросы)Бесплатно
OpenClawАгентная системаБесплатно
NemoClawБезопасность агентов (предустановлен)Бесплатно

🏆 Итог: что получаешь за $3K

Доп. покупки: UPS ₽5K + Ethernet кабель ₽500 = всё.
Ежемесячных расходов: ₽0 (кроме электричества ~₽500/мес).