Разбор сбоя от Ghost In The Block @ Shmuel Leib Melamud

Shmuel Leib Melamud
04-10-2021 23:02

Разбор сбоя от Ghost In The Block

В ~18:50 в сети Facebook раскатали обновление на всё своё сетевое оборудование, занимавшееся анонсами BGP, которое объявляет маршрутизацию к их сервисам.

Это привело к полной остановке связи между сервисами FACEBOOK, а вместе с этим и приостановке обслуживания их DNS: входы по facebook.com буквально у всего мира около получаса-часа показывали "can't resolve domain".

WhatsApp и Instagram также принадлежат FB и размещаются на их площадке, в связи с чем они также стали недоступны.

Для починки требуется ручное вмешательство:

Во все BGP-роутеры
Во всех датацентрах
Всех точек присутствия FACEBOOK

Что очень сложно: физического доступа до всех нужных ЦОД'ов нет, а там, на местах, физически сейчас присутствуют не самые опытные дежурные сотрудники, чьими руками приходится производить манипуляции с большой задержкой, так как из головного офиса инженеры не могут мгновенно "прилететь" во все необходимые датацентры.

Ситуация осложняется эпидем. обстановкой: физическое присутствие персонала в датацентрах сильно сокращено.

Кроме того, у сотрудников FACEBOOK из-за настолько масштабного влияния проблемы стали недоступны внутренние средства коммуникации - по этой причине они вынуждены координировать все происходящие сейчас работы через иные платформы. Что также замедляет решение.

Не говоря о том, что настолько долгий перерыв прервал все их репликации данных между датацентрами, и на разбор последствий аварии теперь уйдёт какое-то время, в связи с тем, что автоматика их не разрулит после возобновления сетевого общения.

👍8

19 comments

Comments (19)

Tigra 4 yr

Зато порядок, единоначалие, нет вот этой вот децентрализованной кутерьмы 🙂

👍3

unidentified 4 yr

"Person on FB recovery effort said the outage was from a routine BGP update gone wrong. But the update blocked remote users from reverting changes, and people with physical access didn't have network/logical access."

👍1

Galina 4 yr

Большой привет их QA. Огромный просто ).

Eliyahu Duvidzon 4 yr

Galina Большой привет их QA. Огромный просто ).

а чем qa тут мог помочь? это же настройки сети, тут пока не развернёшь на прод у тебя из средств диагностики только пристальный взгляд.

другое дело, что проектировать сети надо так чтобы падало не сразу всё, но задним умом все крепки.

Michael Yatsko 4 yr

Eliyahu Duvidzon а чем qa тут мог помочь? это же настройки сети, тут пока не развернёшь на прод у…

А раскатывать не все сразу, а сегментами?

👍2

Galina 4 yr

Eliyahu Duvidzon а чем qa тут мог помочь? это же настройки сети, тут пока не развернёшь на прод у…

Ну так при таком масштабе развертываемого взгляд-то должен быть особо пристальный ). И средства моделирования давно б пора нарисовать, не находите? Факбук тратит столько мощностей на анализ пользовательских фейсов, что одной десятой от этого хватило бы для организации маленького виртуального интернета с блекджеком и прочими удовольствиями.

Eliyahu Duvidzon 4 yr

Galina Ну так при таком масштабе развертываемого взгляд-то должен быть особо пристальны…

это всё понятно, но qa тут всё ещё не причём))

а так понятно, что у чуваков системные проблемы. или с протоколами изменений или с проектирование сети - тут уж я не знаю

👍1

Galina 4 yr

Eliyahu Duvidzon это всё понятно, но qa тут всё ещё не причём)) а так понятно, что у чуваков сист…

Ну то есть далее вы перечислили то, что должен бы выявить высокоуровневый QA, если спрашивать с него по декларируемым целям ). То есть QC мож и не причем, а вот выше - ни шиша не работает.

Michael Yatsko 4 yr

unidentified "Person on FB recovery effort said the outage was from a routine BGP update gone…

Ну то есть, мы удаленно накатываем изменения, которые могут отрезать нас от сети полностью. И посадить с той стороны специально обученную макаку, которая в случае таки да по команде откатит конфиг на предыдущий - не сообразили...

👍3

Alter 4 yr

посегментно 2. с автооткатом если нет подтверждения более N минут. 3. Там где возможна потеря контроля - живой оператор у консоли чтобы откатить. 4. ну и да, management network как-то сепарировать

👍4

Michael Yatsko 4 yr

Alter посегментно 2. с автооткатом если нет подтверждения более N минут. 3. Там где во…

Альтер, боюсь, что мы не работаем в ФБ именно поэтому ))

👍2

unidentified 4 yr

Michael Yatsko Альтер, боюсь, что мы не работаем в ФБ именно поэтому ))

Ну блин, после аварии каждый сможет написать план, что надо сделать, чтобы такое не повторилось. А вы попробуйте предположить возможности такого исхода заранее

👍1

Michael Yatsko 4 yr

unidentified Ну блин, после аварии каждый сможет написать план, что надо сделать, чтобы такое…

Так это как раз сфера нашего профессионального интереса. Мы делаем так, как написали. И удивляемся происшедшему в ФБ. Понабирали, понимаешь, по обьявлению...

👍4

Galina 4 yr

unidentified Ну блин, после аварии каждый сможет написать план, что надо сделать, чтобы такое…

Вы серьезно? Пальцы еще на месте? Нельзя же предположить, что если по пальцу зарядить молотком - он отвалится!

👍1

unidentified 4 yr

Galina Вы серьезно? Пальцы еще на месте? Нельзя же предположить, что если по пальцу зар…

Этот молоток использовали веками, регулярно попадали по пальцам и ничего страшного не случалось. Всегда можно позвать васю, который довезёт до поликлиники. А сейчас вася на удалёнке, и разбитой рукой нельзя набрать телефонный номер, и даже дверь открыть тяжело. Ну блин, не ппедусмотрели

👍2

Galina 4 yr

unidentified Этот молоток использовали веками, регулярно попадали по пальцам и ничего страшно…

Не, ТАК попасть - это умудриться надо. Базовую причину выше озвучивали: попытка сделать все сразу, везде и мигом. Голова при этом не включалась вообще.

unidentified 4 yr

Galina Не, ТАК попасть - это умудриться надо. Базовую причину выше озвучивали: попытка …

Главная причина - медленное и постепенное складывание всех яиц в одну корзину и отсутствие аварийных каналов.

Сам по себе факап с конфигурацией - ерунда, если бы быстро откатили, никто бы не обратил внимания.

👍2

Galina 4 yr

unidentified Главная причина - медленное и постепенное складывание всех яиц в одну корзину и …

Ну вот потому я QA привет и передавала: они должны в первую голову оценивать сами процессы разработки и поддержки.

👍1

Shmuel Leib Melamud 4 yr (updated 4 yr)

Galina Не, ТАК попасть - это умудриться надо. Базовую причину выше озвучивали: попытка …

Если верить рассказам, это всегда было стилем Facebook. Когда они стали популярными, они едва успевали добавлять сервера и датацентры и вставлять в код костыли, чтобы он хоть как-то работал при нагрузке, на которую изначально не был рассчитан.

💯👍3