Back to Timeline
Avatar
Shmuel Leib Melamud
Разбор сбоя от Ghost In The Block

В ~18:50 в сети Facebook раскатали обновление на всё своё сетевое оборудование, занимавшееся анонсами BGP, которое объявляет маршрутизацию к их сервисам.

Это привело к полной остановке связи между сервисами FACEBOOK, а вместе с этим и приостановке обслуживания их DNS: входы по facebook.com буквально у всего мира около получаса-часа показывали "can't resolve domain".

WhatsApp и Instagram также принадлежат FB и размещаются на их площадке, в связи с чем они также стали недоступны.

Для починки требуется ручное вмешательство:

  1. Во все BGP-роутеры
  2. Во всех датацентрах
  3. Всех точек присутствия FACEBOOK

Что очень сложно: физического доступа до всех нужных ЦОД'ов нет, а там, на местах, физически сейчас присутствуют не самые опытные дежурные сотрудники, чьими руками приходится производить манипуляции с большой задержкой, так как из головного офиса инженеры не могут мгновенно "прилететь" во все необходимые датацентры.

Ситуация осложняется эпидем. обстановкой: физическое присутствие персонала в датацентрах сильно сокращено.

Кроме того, у сотрудников FACEBOOK из-за настолько масштабного влияния проблемы стали недоступны внутренние средства коммуникации - по этой причине они вынуждены координировать все происходящие сейчас работы через иные платформы. Что также замедляет решение.

Не говоря о том, что настолько долгий перерыв прервал все их репликации данных между датацентрами, и на разбор последствий аварии теперь уйдёт какое-то время, в связи с тем, что автоматика их не разрулит после возобновления сетевого общения.

Comments (19)

Зато порядок, единоначалие, нет вот этой вот децентрализованной кутерьмы 🙂

👍3

"Person on FB recovery effort said the outage was from a routine BGP update gone wrong. But the update blocked remote users from reverting changes, and people with physical access didn't have network/logical access."

👍1

Большой привет их QA. Огромный просто ).

а чем qa тут мог помочь? это же настройки сети, тут пока не развернёшь на прод у тебя из средств диагностики только пристальный взгляд.

другое дело, что проектировать сети надо так чтобы падало не сразу всё, но задним умом все крепки.

👍2

Ну так при таком масштабе развертываемого взгляд-то должен быть особо пристальный ). И средства моделирования давно б пора нарисовать, не находите? Факбук тратит столько мощностей на анализ пользовательских фейсов, что одной десятой от этого хватило бы для организации маленького виртуального интернета с блекджеком и прочими удовольствиями.

это всё понятно, но qa тут всё ещё не причём))

а так понятно, что у чуваков системные проблемы. или с протоколами изменений или с проектирование сети - тут уж я не знаю

👍1

Ну то есть далее вы перечислили то, что должен бы выявить высокоуровневый QA, если спрашивать с него по декларируемым целям ). То есть QC мож и не причем, а вот выше - ни шиша не работает.

Ну то есть, мы удаленно накатываем изменения, которые могут отрезать нас от сети полностью. И посадить с той стороны специально обученную макаку, которая в случае таки да по команде откатит конфиг на предыдущий - не сообразили...

👍3
  1. посегментно 2. с автооткатом если нет подтверждения более N минут. 3. Там где возможна потеря контроля - живой оператор у консоли чтобы откатить. 4. ну и да, management network как-то сепарировать
👍4
👍2

Ну блин, после аварии каждый сможет написать план, что надо сделать, чтобы такое не повторилось. А вы попробуйте предположить возможности такого исхода заранее

👍1

Так это как раз сфера нашего профессионального интереса. Мы делаем так, как написали. И удивляемся происшедшему в ФБ. Понабирали, понимаешь, по обьявлению...

👍4

Вы серьезно? Пальцы еще на месте? Нельзя же предположить, что если по пальцу зарядить молотком - он отвалится!

👍1

Этот молоток использовали веками, регулярно попадали по пальцам и ничего страшного не случалось. Всегда можно позвать васю, который довезёт до поликлиники. А сейчас вася на удалёнке, и разбитой рукой нельзя набрать телефонный номер, и даже дверь открыть тяжело. Ну блин, не ппедусмотрели

👍2

Не, ТАК попасть - это умудриться надо. Базовую причину выше озвучивали: попытка сделать все сразу, везде и мигом. Голова при этом не включалась вообще.

Главная причина - медленное и постепенное складывание всех яиц в одну корзину и отсутствие аварийных каналов.

Сам по себе факап с конфигурацией - ерунда, если бы быстро откатили, никто бы не обратил внимания.

👍2

Ну вот потому я QA привет и передавала: они должны в первую голову оценивать сами процессы разработки и поддержки.

👍1

Если верить рассказам, это всегда было стилем Facebook. Когда они стали популярными, они едва успевали добавлять сервера и датацентры и вставлять в код костыли, чтобы он хоть как-то работал при нагрузке, на которую изначально не был рассчитан.

💯👍3