В ~18:50 в сети Facebook раскатали обновление на всё своё сетевое оборудование, занимавшееся анонсами BGP, которое объявляет маршрутизацию к их сервисам.
Это привело к полной остановке связи между сервисами FACEBOOK, а вместе с этим и приостановке обслуживания их DNS: входы по facebook.com
буквально у всего мира около получаса-часа показывали "can't resolve domain".
WhatsApp и Instagram также принадлежат FB и размещаются на их площадке, в связи с чем они также стали недоступны.
Для починки требуется ручное вмешательство:
- Во все BGP-роутеры
- Во всех датацентрах
- Всех точек присутствия FACEBOOK
Что очень сложно: физического доступа до всех нужных ЦОД'ов нет, а там, на местах, физически сейчас присутствуют не самые опытные дежурные сотрудники, чьими руками приходится производить манипуляции с большой задержкой, так как из головного офиса инженеры не могут мгновенно "прилететь" во все необходимые датацентры.
Ситуация осложняется эпидем. обстановкой: физическое присутствие персонала в датацентрах сильно сокращено.
Кроме того, у сотрудников FACEBOOK из-за настолько масштабного влияния проблемы стали недоступны внутренние средства коммуникации - по этой причине они вынуждены координировать все происходящие сейчас работы через иные платформы. Что также замедляет решение.
Не говоря о том, что настолько долгий перерыв прервал все их репликации данных между датацентрами, и на разбор последствий аварии теперь уйдёт какое-то время, в связи с тем, что автоматика их не разрулит после возобновления сетевого общения.
Comments (19)
Зато порядок, единоначалие, нет вот этой вот децентрализованной кутерьмы 🙂
"Person on FB recovery effort said the outage was from a routine BGP update gone wrong. But the update blocked remote users from reverting changes, and people with physical access didn't have network/logical access."
Большой привет их QA. Огромный просто ).
а чем qa тут мог помочь? это же настройки сети, тут пока не развернёшь на прод у тебя из средств диагностики только пристальный взгляд.
другое дело, что проектировать сети надо так чтобы падало не сразу всё, но задним умом все крепки.
А раскатывать не все сразу, а сегментами?
Ну так при таком масштабе развертываемого взгляд-то должен быть особо пристальный ). И средства моделирования давно б пора нарисовать, не находите? Факбук тратит столько мощностей на анализ пользовательских фейсов, что одной десятой от этого хватило бы для организации маленького виртуального интернета с блекджеком и прочими удовольствиями.
это всё понятно, но qa тут всё ещё не причём))
а так понятно, что у чуваков системные проблемы. или с протоколами изменений или с проектирование сети - тут уж я не знаю
Ну то есть далее вы перечислили то, что должен бы выявить высокоуровневый QA, если спрашивать с него по декларируемым целям ). То есть QC мож и не причем, а вот выше - ни шиша не работает.
Ну то есть, мы удаленно накатываем изменения, которые могут отрезать нас от сети полностью. И посадить с той стороны специально обученную макаку, которая в случае таки да по команде откатит конфиг на предыдущий - не сообразили...
Альтер, боюсь, что мы не работаем в ФБ именно поэтому ))
Ну блин, после аварии каждый сможет написать план, что надо сделать, чтобы такое не повторилось. А вы попробуйте предположить возможности такого исхода заранее
Так это как раз сфера нашего профессионального интереса. Мы делаем так, как написали. И удивляемся происшедшему в ФБ. Понабирали, понимаешь, по обьявлению...
Вы серьезно? Пальцы еще на месте? Нельзя же предположить, что если по пальцу зарядить молотком - он отвалится!
Этот молоток использовали веками, регулярно попадали по пальцам и ничего страшного не случалось. Всегда можно позвать васю, который довезёт до поликлиники. А сейчас вася на удалёнке, и разбитой рукой нельзя набрать телефонный номер, и даже дверь открыть тяжело. Ну блин, не ппедусмотрели
Не, ТАК попасть - это умудриться надо. Базовую причину выше озвучивали: попытка сделать все сразу, везде и мигом. Голова при этом не включалась вообще.
Главная причина - медленное и постепенное складывание всех яиц в одну корзину и отсутствие аварийных каналов.
Сам по себе факап с конфигурацией - ерунда, если бы быстро откатили, никто бы не обратил внимания.
Ну вот потому я QA привет и передавала: они должны в первую голову оценивать сами процессы разработки и поддержки.
Если верить рассказам, это всегда было стилем Facebook. Когда они стали популярными, они едва успевали добавлять сервера и датацентры и вставлять в код костыли, чтобы он хоть как-то работал при нагрузке, на которую изначально не был рассчитан.