~/zatva/блог

блог

Полевые заметки об эксплуатации DePIN-инфраструктуры: операции валидаторов, GPU inference, децентрализованное хранение, Web3 DevOps. Без маркетинговой воды — что катим в прод, что ломается, и как чиним.

2026-06-09 автор команда ZATVA

Держать инфру самим или отдать DevOps-команде: где граница

Повторяющееся решение: держать ноды, GPU и prover'ы самим или отдать команде вроде нас. Граница есть, и она не там, где её обычно рисуют. Разбираем честно, включая случаи, когда нанимать нас не нужно.

#operations #devops #managed #web3 #ai
2026-05-28 автор команда ZATVA

Bare metal supply chain 2026: сроки, вендоры, deploy-окно

Команды, планирующие свою инфру, недооценивают одно: железо не приходит тогда, когда его заказали. В 2026-м сроки поставки на GPU и часть серверных комплектующих ломают графики деплоя. Разбираем, как мы планируем вокруг supply chain.

#infrastructure #supply-chain #bare-metal #deploy #gpu
2026-05-07 автор команда ZATVA

Observability валидаторов: на что мы алертим, и на что нет

Большинство мониторингов валидатора алертят на 'процесс жив' и топят дежурного в шуме, пропуская то, что теряет деньги. Построить observability это выбрать, на что НЕ алертить. Разбираем нашу дисциплину.

#observability #monitoring #operations #sre #validators
2026-04-09 автор команда ZATVA

Multi-region за 72 часа: наш runbook для burst-деплоя

Протокол объявляет incentivized testnet и просит ноды в нескольких регионах через 72 часа. Железо за такой срок не завезти. Разбираем runbook, по которому мы поднимаем multi-region burst и гасим его без следов.

#deploy #multi-region #burst #scale #automation
2026-03-20 автор команда ZATVA

Кейс: incentivized testnet, 50 нод burst за 72 часа, top-5 оператор

Анонимизированный кейс: burst-инцидент для incentivized testnet. 50 нод за 72ч, финиш в top-5 по аптайму. И скрытый AWS quota, который чуть не запорол первые 24 часа.

#case-study #testnet #burst #multi-region
2026-02-11 автор команда ZATVA

DePIN-ноды: что реально ломается в ops

DePIN-операции выглядят просто: гоняй много мелких нод. На деле reward завязан не на 'нода жива', а на прохождение проверок сети, и ломается обычно не софт ноды, а операционная обвязка. Разбираем, что мы мониторим.

#depin #operations #monitoring #reward
2026-01-15 автор команда ZATVA

Кейс: DePIN саб-оператор, 200 нод в 8 регионах, 99.94% аптайм

Анонимизированный кейс: ongoing operations для DePIN sub-operator. 200 нод в 8 регионах, 99.94% аптайм, и 28-часовой инцидент с DNS-кешем, который ел 1.8% reward'а.

#case-study #depin #operations #dns
2025-12-03 автор команда ZATVA

ZK prover farm: где утекают деньги

Prover farm это самая дорогая инфраструктура в ZK-стеке, и деньги в ней утекают не там, где ждут. Разбираем, что реально определяет cost-per-proof: очередь, утилизация, память и витаемость GPU.

#zk #prover #gpu #infrastructure #scale
2025-11-05 автор команда ZATVA

Кейс: vLLM-кластер в 3 регионах, -60% cost/token

Анонимизированный кейс: LLM-стартап, 4 месяца на инференс-инфраструктуре. -60% cost/token, p99 latency стабилен. И 36-часовая охота за пропавшими 30% throughput.

#case-study #ai #llm #vllm #gpu
2025-10-08 автор команда ZATVA

Slashing это не про uptime

99.95% аптайма это метрика, которую все называют, и неправильная для slashing-риска. Аптайм и риск слеша почти ортогональны. Разбираем, где на самом деле живёт опасность и что мы мониторим вместо процента аптайма.

#validators #slashing #observability #operations #web3
2025-09-24 автор команда ZATVA

Bare metal или cloud GPU: реальность cost-per-token

Для валидаторов мы почти всегда садимся на железо. Для GPU-инференса расклад другой. Разбираем, где cloud GPU честно выигрывает, где bare metal рвёт по cost-per-token и какие косты облака не видны в прайсе.

#ai #llm #gpu #infrastructure #cost-per-token
2025-09-10 автор команда ZATVA

Кейс: ZK rollup, 6 месяцев валидаторских операций, slashing: 0

Анонимизированный кейс: validator ops + prover farm для ZK rollup. 6 месяцев в проде, нулевой slashing, и 48-часовой инцидент с уплывшим ETA пруфов.

#case-study #zk #validators #prover-farm
2025-08-12 автор команда ZATVA

GPU inference: почему vLLM у нас по умолчанию

Когда клиент приходит с 'разверните наш LLM', первый инфра-вопрос это движок инференса. Объясняем, почему наш дефолт vLLM, что именно он выигрывает по cost-per-token и где мы всё-таки берём TensorRT-LLM.

#ai #llm #vllm #gpu #inference
2025-07-30 автор команда ZATVA

Failover, который не делает double-sign

Самое страшное в валидаторских операциях это не упавшая нода, а две ноды, которые одновременно считают себя активным подписантом. Разбираем, почему обычный failover опасен и как мы строим переключение, которое не может слешнуться.

#validators #failover #slashing #operations #web3
2025-07-15 автор @drxim

Cloud vs bare metal для L1 валидаторов в 2025

К середине 2025-го bare metal выигрывает у cloud на каждой оси, которая что-то решает для L1 валидатора, кроме одной. Вот цифры с нашего флота и почему мы всё равно держим часть нод в облаке.

#validators #infrastructure #cloud #bare-metal
2025-06-18 автор команда ZATVA

Сколько на самом деле стоит нода: TCO без прайс-листа

Прайс хостера это одна строка из семи. Раскладываем реальный TCO ноды и показываем, какие строки остаются на хостере, а какие закрывает команда, которая держит вашу инфру.

#operations #infrastructure #tco #validators
2025-05-31 автор команда XIMTRX

Добро пожаловать в XIMTRX

Зачем мы построили XIMTRX, как мы выросли до 85 нод в 11 странах и что мы будем публиковать здесь.

#depin #infrastructure #operations
2025-05-31 автор команда ZATVA

Добро пожаловать в ZATVA

Зачем мы построили ZATVA, как мы выросли до 85 нод в 11 странах и что мы будем публиковать здесь.

#depin #infrastructure #operations
2025-05-28 автор команда ZATVA

Почему мы публикуем реестр нод

Прозрачность в операциях нод: редкость. Вот почему мы открыли наш реестр всех 85 нод и что это меняет для клиентов.

#transparency #depin #operations

блог

Держать инфру самим или отдать DevOps-команде: где граница

Bare metal supply chain 2026: сроки, вендоры, deploy-окно

Observability валидаторов: на что мы алертим, и на что нет

Multi-region за 72 часа: наш runbook для burst-деплоя

Кейс: incentivized testnet, 50 нод burst за 72 часа, top-5 оператор

DePIN-ноды: что реально ломается в ops

Кейс: DePIN саб-оператор, 200 нод в 8 регионах, 99.94% аптайм

ZK prover farm: где утекают деньги

Кейс: vLLM-кластер в 3 регионах, -60% cost/token

Slashing это не про uptime

Bare metal или cloud GPU: реальность cost-per-token

Кейс: ZK rollup, 6 месяцев валидаторских операций, slashing: 0

GPU inference: почему vLLM у нас по умолчанию

Failover, который не делает double-sign

Cloud vs bare metal для L1 валидаторов в 2025

Сколько на самом деле стоит нода: TCO без прайс-листа

Добро пожаловать в XIMTRX

Добро пожаловать в ZATVA

Почему мы публикуем реестр нод