~/zatva/блог
блог
Полевые заметки об эксплуатации DePIN-инфраструктуры: операции валидаторов, GPU inference, децентрализованное хранение, Web3 DevOps. Без маркетинговой воды — что катим в прод, что ломается, и как чиним.
-
Держать инфру самим или отдать DevOps-команде: где граница
Повторяющееся решение: держать ноды, GPU и prover'ы самим или отдать команде вроде нас. Граница есть, и она не там, где её обычно рисуют. Разбираем честно, включая случаи, когда нанимать нас не нужно.
-
Bare metal supply chain 2026: сроки, вендоры, deploy-окно
Команды, планирующие свою инфру, недооценивают одно: железо не приходит тогда, когда его заказали. В 2026-м сроки поставки на GPU и часть серверных комплектующих ломают графики деплоя. Разбираем, как мы планируем вокруг supply chain.
-
Observability валидаторов: на что мы алертим, и на что нет
Большинство мониторингов валидатора алертят на 'процесс жив' и топят дежурного в шуме, пропуская то, что теряет деньги. Построить observability это выбрать, на что НЕ алертить. Разбираем нашу дисциплину.
-
Multi-region за 72 часа: наш runbook для burst-деплоя
Протокол объявляет incentivized testnet и просит ноды в нескольких регионах через 72 часа. Железо за такой срок не завезти. Разбираем runbook, по которому мы поднимаем multi-region burst и гасим его без следов.
-
Кейс: incentivized testnet, 50 нод burst за 72 часа, top-5 оператор
Анонимизированный кейс: burst-инцидент для incentivized testnet. 50 нод за 72ч, финиш в top-5 по аптайму. И скрытый AWS quota, который чуть не запорол первые 24 часа.
-
DePIN-ноды: что реально ломается в ops
DePIN-операции выглядят просто: гоняй много мелких нод. На деле reward завязан не на 'нода жива', а на прохождение проверок сети, и ломается обычно не софт ноды, а операционная обвязка. Разбираем, что мы мониторим.
-
Кейс: DePIN саб-оператор, 200 нод в 8 регионах, 99.94% аптайм
Анонимизированный кейс: ongoing operations для DePIN sub-operator. 200 нод в 8 регионах, 99.94% аптайм, и 28-часовой инцидент с DNS-кешем, который ел 1.8% reward'а.
-
ZK prover farm: где утекают деньги
Prover farm это самая дорогая инфраструктура в ZK-стеке, и деньги в ней утекают не там, где ждут. Разбираем, что реально определяет cost-per-proof: очередь, утилизация, память и витаемость GPU.
-
Кейс: vLLM-кластер в 3 регионах, -60% cost/token
Анонимизированный кейс: LLM-стартап, 4 месяца на инференс-инфраструктуре. -60% cost/token, p99 latency стабилен. И 36-часовая охота за пропавшими 30% throughput.
-
Slashing это не про uptime
99.95% аптайма это метрика, которую все называют, и неправильная для slashing-риска. Аптайм и риск слеша почти ортогональны. Разбираем, где на самом деле живёт опасность и что мы мониторим вместо процента аптайма.
-
Bare metal или cloud GPU: реальность cost-per-token
Для валидаторов мы почти всегда садимся на железо. Для GPU-инференса расклад другой. Разбираем, где cloud GPU честно выигрывает, где bare metal рвёт по cost-per-token и какие косты облака не видны в прайсе.
-
Кейс: ZK rollup, 6 месяцев валидаторских операций, slashing: 0
Анонимизированный кейс: validator ops + prover farm для ZK rollup. 6 месяцев в проде, нулевой slashing, и 48-часовой инцидент с уплывшим ETA пруфов.
-
GPU inference: почему vLLM у нас по умолчанию
Когда клиент приходит с 'разверните наш LLM', первый инфра-вопрос это движок инференса. Объясняем, почему наш дефолт vLLM, что именно он выигрывает по cost-per-token и где мы всё-таки берём TensorRT-LLM.
-
Failover, который не делает double-sign
Самое страшное в валидаторских операциях это не упавшая нода, а две ноды, которые одновременно считают себя активным подписантом. Разбираем, почему обычный failover опасен и как мы строим переключение, которое не может слешнуться.
-
Cloud vs bare metal для L1 валидаторов в 2025
К середине 2025-го bare metal выигрывает у cloud на каждой оси, которая что-то решает для L1 валидатора, кроме одной. Вот цифры с нашего флота и почему мы всё равно держим часть нод в облаке.
-
Сколько на самом деле стоит нода: TCO без прайс-листа
Прайс хостера это одна строка из семи. Раскладываем реальный TCO ноды и показываем, какие строки остаются на хостере, а какие закрывает команда, которая держит вашу инфру.
-
Добро пожаловать в XIMTRX
Зачем мы построили XIMTRX, как мы выросли до 85 нод в 11 странах и что мы будем публиковать здесь.
-
Добро пожаловать в ZATVA
Зачем мы построили ZATVA, как мы выросли до 85 нод в 11 странах и что мы будем публиковать здесь.
-
Почему мы публикуем реестр нод
Прозрачность в операциях нод: редкость. Вот почему мы открыли наш реестр всех 85 нод и что это меняет для клиентов.