← Timeline
Avatar
Shmuel Leib Melamud
04-10-2021 23:02
Разбор сбоя от Ghost In The Block

В ~18:50 в сети Facebook раскатали обновление на всё своё сетевое оборудование, занимавшееся анонсами BGP, которое объявляет маршрутизацию к их сервисам.

Это привело к полной остановке связи между сервисами FACEBOOK, а вместе с этим и приостановке обслуживания их DNS: входы по facebook.com буквально у всего мира около получаса-часа показывали "can't resolve domain".

WhatsApp и Instagram также принадлежат FB и размещаются на их площадке, в связи с чем они также стали недоступны.

Для починки требуется ручное вмешательство:

  1. Во все BGP-роутеры
  2. Во всех датацентрах
  3. Всех точек присутствия FACEBOOK

Что очень сложно: физического доступа до всех нужных ЦОД'ов нет, а там, на местах, физически сейчас присутствуют не самые опытные дежурные сотрудники, чьими руками приходится производить манипуляции с большой задержкой, так как из головного офиса инженеры не могут мгновенно "прилететь" во все необходимые датацентры.

Ситуация осложняется эпидем. обстановкой: физическое присутствие персонала в датацентрах сильно сокращено.

Кроме того, у сотрудников FACEBOOK из-за настолько масштабного влияния проблемы стали недоступны внутренние средства коммуникации - по этой причине они вынуждены координировать все происходящие сейчас работы через иные платформы. Что также замедляет решение.

Не говоря о том, что настолько долгий перерыв прервал все их репликации данных между датацентрами, и на разбор последствий аварии теперь уйдёт какое-то время, в связи с тем, что автоматика их не разрулит после возобновления сетевого общения.

To react or comment  View in Web Client
Comments (19)
Avatar

Зато порядок, единоначалие, нет вот этой вот децентрализованной кутерьмы 🙂

👍3
Avatar

"Person on FB recovery effort said the outage was from a routine BGP update gone wrong. But the update blocked remote users from reverting changes, and people with physical access didn't have network/logical access."

👍1
Avatar

Большой привет их QA. Огромный просто ).

Avatar

а чем qa тут мог помочь? это же настройки сети, тут пока не развернёшь на прод у тебя из средств диагностики только пристальный взгляд.

другое дело, что проектировать сети надо так чтобы падало не сразу всё, но задним умом все крепки.

Avatar
Avatar

Ну так при таком масштабе развертываемого взгляд-то должен быть особо пристальный ). И средства моделирования давно б пора нарисовать, не находите? Факбук тратит столько мощностей на анализ пользовательских фейсов, что одной десятой от этого хватило бы для организации маленького виртуального интернета с блекджеком и прочими удовольствиями.

Avatar

это всё понятно, но qa тут всё ещё не причём))

а так понятно, что у чуваков системные проблемы. или с протоколами изменений или с проектирование сети - тут уж я не знаю

👍1
Avatar

Ну то есть далее вы перечислили то, что должен бы выявить высокоуровневый QA, если спрашивать с него по декларируемым целям ). То есть QC мож и не причем, а вот выше - ни шиша не работает.

Avatar

Ну то есть, мы удаленно накатываем изменения, которые могут отрезать нас от сети полностью. И посадить с той стороны специально обученную макаку, которая в случае таки да по команде откатит конфиг на предыдущий - не сообразили...

👍3
Avatar
  1. посегментно 2. с автооткатом если нет подтверждения более N минут. 3. Там где возможна потеря контроля - живой оператор у консоли чтобы откатить. 4. ну и да, management network как-то сепарировать
👍4
Avatar
Avatar

Ну блин, после аварии каждый сможет написать план, что надо сделать, чтобы такое не повторилось. А вы попробуйте предположить возможности такого исхода заранее

👍1
Avatar

Так это как раз сфера нашего профессионального интереса. Мы делаем так, как написали. И удивляемся происшедшему в ФБ. Понабирали, понимаешь, по обьявлению...

👍4
Avatar

Вы серьезно? Пальцы еще на месте? Нельзя же предположить, что если по пальцу зарядить молотком - он отвалится!

👍1
Avatar

Этот молоток использовали веками, регулярно попадали по пальцам и ничего страшного не случалось. Всегда можно позвать васю, который довезёт до поликлиники. А сейчас вася на удалёнке, и разбитой рукой нельзя набрать телефонный номер, и даже дверь открыть тяжело. Ну блин, не ппедусмотрели

👍2
Avatar

Не, ТАК попасть - это умудриться надо. Базовую причину выше озвучивали: попытка сделать все сразу, везде и мигом. Голова при этом не включалась вообще.

Avatar

Главная причина - медленное и постепенное складывание всех яиц в одну корзину и отсутствие аварийных каналов.

Сам по себе факап с конфигурацией - ерунда, если бы быстро откатили, никто бы не обратил внимания.

👍2
Avatar

Ну вот потому я QA привет и передавала: они должны в первую голову оценивать сами процессы разработки и поддержки.

👍1
Avatar
Shmuel Leib Melamud a month ago (updated a month ago)

Если верить рассказам, это всегда было стилем Facebook. Когда они стали популярными, они едва успевали добавлять сервера и датацентры и вставлять в код костыли, чтобы он хоть как-то работал при нагрузке, на которую изначально не был рассчитан.

💯👍3
To react or comment  View in Web Client