🖥️ NVIDIA DGX Spark — Полный разбор
Какие модели потянет, что нужно для работы, подводные камни
🧠 Максимальные модели (1 устройство, 128 GB)
Qwen 2.5 32B / Llama 3.3 32B ЛЕГКО
Требует ~20 GB VRAM • Скорость: ~40-50 tok/sec
Качество: 8/10 • Идеально для ботов и чатов
Llama 3.3 70B / Qwen 2.5 72B ХОРОШО
Требует ~45 GB VRAM • Скорость: ~20-30 tok/sec
Качество: 9/10 • Уровень GPT-4 • Основная рабочая модель
DeepSeek R1 (Distilled 70B) ХОРОШО
Требует ~45 GB VRAM • Скорость: ~15-25 tok/sec
Качество: 9/10 • Deep reasoning • Лучший для аналитики
Llama 3.1 405B (quantized Q4) МАКСИМУМ
Требует ~110 GB VRAM • Скорость: ~3-5 tok/sec
Качество: 10/10 • Медленно но мощно • Для сложных задач
DeepSeek V3 (671B MoE, quantized) МАКСИМУМ
Требует ~120 GB VRAM • Скорость: ~2-4 tok/sec
Качество: 10/10 • Топовая открытая модель • Еле влезает
Llama 3.1 405B (full FP16) НЕ ВЛЕЗАЕТ
Требует ~810 GB VRAM • ❌ Нужно 2 устройства связать
2× DGX Spark = 256 GB → влезает в Q4 квантизации
⚡ Скорость генерации (tokens/sec)
Qwen 32B~45 tok/s
Быстро — мгновенные ответы
Llama 70B~25 tok/s
Комфортно — 2-3 сек на ответ
DeepSeek R1 70B~20 tok/s
Нормально — 3-5 сек на ответ
📋 Что нужно для стабильной работы
🌐
Интернет
50 Мбит/с достаточно
Модели работают ЛОКАЛЬНО. Интернет нужен только для скачивания моделей (разово) и webhook Авито. 100 Мбит — с запасом.
🔌
Электричество
240W (как чайник × 0.1)
Обычная розетка 220V. Без ИБП рискуешь потерять данные при отключении. Рекомендую UPS на 500VA (~₽5К).
🖥️
Монитор/клавиатура
НЕ НУЖНО
Работает headless (без монитора). Управление через SSH с любого компьютера или телефона. HDMI есть если нужно.
💾
Доп. хранилище
НЕ НУЖНО
4 TB NVMe встроено. Хватит на 20+ моделей. Если мало — USB-C внешний диск.
❄️
Охлаждение
Встроенное
Тихий вентилятор (29 дБ под нагрузкой, 13 дБ в простое). Комнатная температура достаточно. Не ставить в шкаф.
🔒
Безопасность
Шифрование встроено
4 TB NVMe с self-encryption. DGX OS на базе Linux. Данные клиентов остаются на устройстве.
📶
WiFi
WiFi 7 встроен
Можно подключить без кабеля. Но для стабильности рекомендую Ethernet (10GbE порт есть).
🔗
Второй DGX Spark
Опционально (+$3K)
ConnectX-7 200Gbps связывает 2 устройства. 256 GB общей памяти. Модели до 405B. Нужен кабель InfiniBand.
👥 Сколько пользователей параллельно
| Модель |
1 юзер |
10 юзеров |
50 юзеров |
100 юзеров |
| Qwen 32B |
✅ ~45 tok/s |
✅ ~15 tok/s |
⚠️ ~5 tok/s |
❌ Очередь |
| Llama 70B |
✅ ~25 tok/s |
⚠️ ~8 tok/s |
❌ Очередь |
❌ Нет |
| 405B (Q4) |
⚠️ ~4 tok/s |
❌ Очередь |
❌ Нет |
❌ Нет |
💡 Для СтройБота (Авито): Qwen 32B на DGX Spark спокойно обслуживает 10-20 клиентов одновременно. Для 50+ нужен vLLM + batching или второй DGX Spark.
🛒 Полный список покупок
| Что | Зачем | Цена |
| DGX Spark | Основное устройство | ~$3,000 (₽255K) |
| UPS 500VA | Защита от отключений | ~₽5,000 |
| Ethernet кабель | Стабильное подключение | ~₽500 |
| Монитор (опционально) | Первая настройка | Не нужен (SSH) |
| Второй DGX Spark | 405B модели | +$3,000 |
| InfiniBand кабель | Связь 2 устройств | ~$200 |
| ИТОГО (минимум) | | ~₽262,000 |
💻 Программное обеспечение (всё бесплатно)
| ПО | Зачем | Стоимость |
| DGX OS | Операционная система (предустановлена) | Бесплатно |
| Ollama | Запуск моделей | Бесплатно |
| vLLM | Инференс сервер (параллельные запросы) | Бесплатно |
| OpenClaw | Агентная система | Бесплатно |
| NemoClaw | Безопасность агентов (предустановлен) | Бесплатно |
🏆 Итог: что получаешь за $3K
- Машина размером с книгу, 1.2 кг
- 128 GB памяти — модели до 200B параметров
- Работает от обычной розетки (240W)
- Тише чем ноутбук (29 дБ)
- Интернет 50 Мбит достаточно (модели локальные)
- Монитор не нужен (SSH управление)
- OpenClaw + NemoClaw из коробки
- 10-20 клиентов параллельно на Qwen 32B
- Данные клиентов никуда не уходят (всё локально)
Доп. покупки: UPS ₽5K + Ethernet кабель ₽500 = всё.
Ежемесячных расходов: ₽0 (кроме электричества ~₽500/мес).