Когда ей позвонили, Саманта Шаевиц участвовала в стажировке в Huridocs, некоммерческой организации по правам человека. Шаевиц работает над проектированием надежности сайтов в Google; они те, кто держит корабль на плаву, когда дела идут плохо. А к февралю этого года, когда большая часть Азии была закрыта в попытке замедлить распространение нового коронавируса, Google Meet оказался на грани воды. Им нужен был Шаевитц на работе.
Google запустил Meet в 2017 году в качестве корпоративной альтернативы своему чату Hangouts. (Google неуклонно прекращает использование Hangouts и подталкивает пользователей к Meet и Chat, что является частью своей вечно запутанной стратегии платформы обмена сообщениями.) По мере распространения коронавируса и того, что все больше стран выдавали приказы о сохранении дома, люди стекались в сервисы видеочата для работы и чтобы проверить семью и друзей. В первые месяцы пандемии Google видел, что Meet выросла в 30 раз; Вскоре сервис ежедневно принимал до 100 миллионов участников встреч. Это много.
На фоне всех глубоких изменений, которые люди внесли в ответ на Covid-19, инфраструктура, лежащая в основе Интернета, также претерпела изменения в моделях использования, поскольку люди меняли рабочие часы на домашнюю изоляцию. Компании, которые занимаются этими системами, в основном смогли удовлетворить новые потребности пользователей. «По сути, вы взяли пик и продлили его на гораздо более длительный период дня», — говорит Бен Трейнор Слосс, вице-президент Google по техническим вопросам. «Использование росло, но в основном это было похоже на пик большую часть дня, а не на то, что пики резко выросли». Тем не менее, для некоторых сервисов наблюдался всплеск использования, намного превышающий обычный.
Google регулярно готовится к чрезвычайным ситуациям с помощью тестов реагирования на бедствия и инциденты, или DIRT. В этих упражнениях около 10 000 сотрудников одновременно будут моделировать преодоление какого-либо кризиса, от локального стихийного бедствия до атаки Годзиллы. Однако пандемия Covid-19 превзошла даже самые драматические сценарии компании.
«Обычно мы моделировали событие регионального уровня, — говорит Трейнор Слосс. «Мы никогда не делали DIRT для мероприятий глобального уровня, отчасти, если честно, потому что это было маловероятно». Существовала и практическая проблема: убедительное моделирование инцидента, повлиявшего на мировой масштаб, может привести к ухудшению впечатлений реальных пользователей Google, что является главным грехом в мире DIRT.
Все это означало, что Шаевиц, который руководил реагирование на инциденты для Google Meet, и вовлеченным командам приходилось разбираться во всем на лету. Тем более, что стало ясно, что у них гораздо больше новых пользователей, чем их самые амбициозные ранние прогнозы.
«Вначале мы начали планировать удвоение нашей площади, которая и без того огромна. Это не нормальная кривая роста. Вскоре мы поняли, что этого будет недостаточно », — говорит Шаевиц. «Мы продолжали пытаться добиться прогресса в строительстве дополнительных взлетно-посадочных полос … чтобы у нас было время найти решение, если что-то возникнет в более длительном временном горизонте, а не просто каждый день просыпаться и думать: что нового горит сегодня?»
Проблема заключалась в том, что инженеры Google, участвовавшие в реагировании, сами работали из дома в четырех офисах в трех странах. «Все люди, которые работали над этим — а это большое количество команд — даже люди, работающие над этим в одном месте, на самом деле никогда не были в комнате вместе с тех пор, как это началось», — говорит Шаевиц из Цюриха. Швейцария. На техническом уровне это оказалось достаточно управляемым; Как вы понимаете, Google отдает приоритет веб-инструментам, к которым можно получить доступ из любого места. Но для удаленной координации круглосуточной работы потребовалось настроить резервирование не только для полосы пропускания. В сообщении в блоге, подробно описывающем ответ, Шаэвиц описал, как каждому, кто выполнял роль реагирования на инциденты, был назначен «резерв», в основном дублер, который мог вмешаться, если директор заболел или был вынужден отвлечься. (Особенно осторожная мера во время глобального кризиса в области здравоохранения.)