Murphy's law

Как закон Мерфи работает в devops

Расскажу о том как я провел последнюю неделю августа и начало сентября...

Так получилось, что из всей нашей команды девопсов я остался в одиночестве, сами понимаете пора отпусков и все такое. Ладно, не в первый раз, ничего необычного. Но довелось мне приглядывать за проектом, который был построен еще до меня, и мягко скажем не всегда на лучших девопс практиках 👽

🚬 Прекрасным летним днем мне сообщают о том, что база данных для тестовых стендов приказала долго жить. А она у нас не облачная, а просто была запущена в кубе, причем давно.

Полез смотреть, что там, оказывается к поду просто не был подключен volume, то есть любая перезагрузка пода гарантированно убивала базу. Очень предусмотрительно делался бекап на всякий случай.

Мда, подумал я.

Собственно причин перезапуска под кроме замены ноды особо не было, но вот по закону подлости это произошло, когда все в отпуске. Наступил уже вечер пятницы, и я сообщил, что до понедельника точно ничего не исправлю. К счастью, в воскресение подключился коллега из отпуска и восстановил работу и даже добавил volume, чтобы такого больше не происходило.

🚬 Другим не менее прекрасным днем я случайно заметил, что у нас в одном из продовых кластеров k8s отвалился vault. А чтобы его поднять нужно знать unseal ключи.

Я пошел спрашивать, но никто мне их не дал. Дело в том, что волт настраивал сотрудник который уже около года как уволился, а сам волт не перегружался 1.5 года. То есть у нас есть черный ящик с секретами для приложения, но достать их оттуда никак не получится 😑.

Первый делом я сообщил разработке чтобы те ничего не деплоили, потому что работающий сервис может упасть, из-за того что к vault обратиться не сможет. Правда, очень скоро выяснилось, что сервис все равно уже лежал, видимо был перезапущен вместе с vault 🫣. А это критичный, блин, сервис.

В спешке пришлось собирать ото всех данные, какие переменные нужны для работы данного сервиса и их значения. Через час удалось с помощью синей изоленты и скотча восстановить работу. К счастью у нас не так много секретов лежало в этом волте и через несколько дней все было приведено в порядок.

Вот так, случается, стоит на пару недель отлучиться сотруднику, как служба, проработавшая 1.5 года, упала с грохотом.

Всегда храните ключи в надежном месте, а костыли подальше от продакшена.