OCP (Open Compute Project) — результат дальнейшей централизации вычислительных мощностей, нацеленный на экономию в стоимости владения. Унификация стоечных серверов привела к ревизии габаритных параметров, удешевлению системы питания, пересмотру ее бесперебойной доставки и надежного охлаждения. Наряду со сменой форм-фактора стоечных шасси, в рамках OCP наиболее значимой стала иная, более плотная компоновка серверов с возможностью горячей замены узлов — обязательно из «холодной зоны». Необходимость фронтального доступа обусловила появление нового дизайна флеш-накопителей и сетевых адаптеров. Что стало причиной перемен, почему устоявшиеся конструкции шасси вошли в противоречие с серверной инфраструктурой?
История вопроса
Старт эры серверных x86-платформ прошел в ускоренном темпе. Их производительность росла, как на дрожжах: тактовые частоты процессоров, памяти и шин обмена данными неуклонно повышались. Поддерживать высокий темп роста становилось все сложнее и сложнее, и настал момент, когда производительности перестала отвечать запросам рынка. Наметился второй путь: распараллеливание вычислений с помощью мультипроцессорных систем. Благо, наиболее требовательные к вычислительным ресурсам задачи поддавались такому переходу на «параллельные вычисления» без кардинальных переделок. И на фоне краха «гонки частот», постепенно подходящей к физическим пределам технологий, мы стали свидетелями взрывного роста количества процессорных ядер — на кристалле, в сокете, в сервере, в стойке, в контейнере, в дата-центре.
На сегодня технологические возможности позволяют построить вычислительный комплекс практически с любой заданной (и сколь угодно большой) производительностью. Но, как и всегда, этот показатель оказался в очередной раз ограничен, на сей раз — экономикой. Пока суперкомпьютеры строили в основном для организаций, не разменивающихся на мелкий прайс — типа Министерства энергетики США с его моделированием ядерных процессов, — особых трудностей не возникало: государственные закрома большие, сколько понадобится — столько и будет выделено. Но когда потребность в соизмеримых производительных вычислительных системах появилась у коммерческих предприятий — ситуация резко изменилась.
Гиганты бизнеса облачных решений уровня Google, Amazon, Facebook, Microsoft постепенно осознали, что в мире, требующем все больше и больше вычислений, главным параметром становится уже не столько производительность сама по себе, сколько эффективность вычислений. Наращивание производительности вычислительного кластера легко осуществляется вводом в эксплуатацию очередного контейнера с серверами. Но каждый такой контейнер, помимо самой стоимости, приводит к росту «стоимости владения» — это расходы на электроэнергию для его питания и охлаждения, оплата обслуживающего персонала, сервисные процедуры и т.п.
Каждый в отдельности оператор рынка облачных решений стал задумываться о снижении стоимости владения единицей быстро растущей IT-инфраструктуры. Пересматривалось все — начиная со стоимости серверной комплектации до пересмотра концепции аппаратных платформ. В апреле 2011 года Facebook выступает с инициативой открыто делиться наработками в области разработок продукции для дата-центров. Компании, к тому времени успевшие и сами заняться разработками в этой области, ясно представили масштабы грядущих затрат и разумно рассудили скооперировать усилия для поиска взаимоприемлемого варианта. И в результате совместных усилий был организован Open Compute Project — организация, участники которой обмениваются идеями и разработками (включая серверы, системы хранения данных, стойки, сетевое оборудование, электропитание и охлаждение) и программного обеспечения для современных дата-центров
Открытая дверь OCP
Изначально на столь масштабный проект решились только гиганты IT-индустрии, впоследствии к нему стали присоединяться и другие игроки: одних интересовала оптимизация затрат, другие готовы были вложиться в разработки, обретающие практическое наполнение и сулящие реальную экономию.
За время, прошедшее с запуска проекта, концепция OCP получила дальнейшее развитие: сегодня открытый конструктив стоечных серверов регламентирует уже третья версия спецификации. Из интересных нововведений — пересмотр места и роли объединительной платы (бэкплейна), что дало заметное сокращение количества компонентов и привело к оптимизации схемы распределения питания. Как результат — повышение эксплуатационных эффективности и надежности за счет «горячего» подключения карт из фронтальной (т.е. из «холодной») зоны серверной стойки.
Из прочих особенностей OCP стоит отметить возможность установки в стойки оборудования увеличенной ширины (21" вместо стандартных 19"). Также стандартом OCP вводится новая единица измерения серверных «юнитов» OpenU, равная 48 мм (1OU=48mm). Все это позволяет разместить больше оборудования в том же самом объеме и повысить эффективность охлаждения.
Mellanox: законодатель мод
Одним из первых в 2011 году к Open Compute Project присоединилась компания Mellanox, предоставив сообществу как свои наработки, так и готовые решения, позволяющие повысить энергоэффективность и масштабируемость сетевой инфраструктуры. Основным направлением, в котором Mellanox сконцентрировала свои усилия, был перенос обработки все более и более сложных сетевых протоколов из центральных процессоров в специализированные сетевые контроллеры для освобождения ресурсов CPU под другие задачи.
Визитной карточкой Mellanox для Open Compute Project V3.0 являются решения 200G Infiniband в SFF-формате (76 х 115 мм) с возможностью использования двух сетевых интерфейсов. Разумеется, такой форм-фактор кардинально отличается и от привычных PCIe-плат половинной и полной высоты, и от мезонинных сетевых технологий. Адаптеры SFF OCP V3.0 предназначены для установки в совершенно иные серверные платформы, разработанные в расчете максимально плотную упаковку компонентов с оптимизацией как по энергозатратам и теплоотводу, так и по занимаемому ими объему.
Показательно, что в июньском рейтинге суперкомпьютеров TOP500 (2020 г.) почти три четверти новых систем, оснащены коммутаторами NVIDIA Mellanox HDR 200G InfiniBand. Это явным образом говорит о важности быстрого обмена данными внутри вычислительных систем.
Supermicro: особое мнение
Компания Supermicro присоединилась к Open Compute Project не так давно, но у нее на счету есть очень любопытное решение в виде AIOM — усовершенствованных модулей ввода-вывода, соответствующих требованиям OCP V3.0. Это компромисс для центров обработки данных, использующих привычные 19-дюймовые шасси, ориентированные тем не менее на Small From Factor.
В отличие от топовых моделей Mellanox, с которой Supermicro, кстати, поддерживает тесные деловые контакты, у тайваньского производителя предложением сетевых адаптеров OCP V3.0 на любой вкус и кошелек. Рассмотрим решения Supermicro, построенные на базе сетевых контроллеров Intel — главного конкурента Mellanox в области RoCE.

Адаптеры семейства AOC-ATG-i2T представлены в полновысотном 1U-конструктиве и в виде устройств половинной высоты, что теоретически позволяет удвоить плотность серверной компоновки. Сетевые карты соответствуют требованиям SFF OCP V3.0: они оснащены ножевым типом ламелей, что обеспечивает легкость, простоту и удобство hot-plug подключений.
Выполненные на контроллерах Intel X550, адаптеры AOC-ATG-i2T поддерживают классические подключения по витой паре на скорости до 10GbE. Поддержка технологий виртуализации NVGRE и VXLAN одинаково хорошо находит применение для них, как на платформах под управлением Microsoft, так и в VMware-средах.

Ассортимент сетевых адаптеров OCP V3.0 у Supermicro расширен за счет использования контроллеров от Broadcom — еще одного стратегического партнера компании. Семейство AOC-A25G-b2S, как и версия на Intel, выполнено в двух разновысотных конструкциях, предназначенных для 1U-шасси, но в отличие от них использует оптический интерфейс SFP28, необходимый для поддержки 25GbE. В своем классе это одни из самых экономных по устройств — паспортные характеристики ограничивают их потребляемую мощность 7,7 Ваттами. Кроме технологий сетевой виртуализации, контроллер Broadcom BCM57414 обеспечивает адаптеры AOC-A25G-b2S работой по протоколу RDMA over Converged Ethernet.
Серверы MegaDC для дата-центров
Спецификация OCP NIC 3.0, определяющая использование адаптеров с открытой архитектурой Open Compute Project, легла в основу новой линейки серверов Supermicro MegaDC. Это первые в отрасли готовые системы, предназначенные для крупномасштабного развертывания в центрах обработки данных.

Основой для MegaDC послужили шасси, рассчитанные на установку в 19-дюймовые стойки. Тем самым компания демонстрирует, что и классические серверные системы далеко не исчерпали потенциал для оптимизации эффективности по всем направлениям – от производительности на каждый ватт используемой мощности до трудозатрат по развертыванию требуемой серверной конфигурации.
Линейка MegaDC состоит из пяти моделей поколения X11 – двух 1U-серверов и трех 2U, предназначенных специально для крупных и масштабируемых центров обработки данных. Все они отличаются максимально плотной для своих размеров компоновкой и возможностью подключения AIOM – сетевых карт SFF OCP 3.0, когда требуются максимальные скорости сетевых интерфейсов.

Учитывая, что с точки зрения энергоэффективности вычислительные системы, использующие графические процессоры NVIDIA, в 2,8 раза эффективнее систем без GPU NVIDIA (при замере в гигафлопсах на ватт), очень перспективной является серия MegaDC GPU, в которой предусмотрена возможность установки двух карт Double Wide GPU или пяти Single Wide GPU и использование интерконнект-карт OCP 3.0/AIOM.
Из наработок OCP используется новый метод сопряжения, который упрощает установку и извлечение внешних устройств, сокращая общее время простоя. Для подключения SFF OCP 3.0 применяется универсальный коннектор SFF-TA-1002, отлично зарекомендовавший себя с SSD-накопителями в формате Ruler, т.е. EDSFF.
Вычислительная мощность MegaDC обеспечивается поддержкой двух процессоров с разъемом LGA3647 (Socket P), вплоть до новейшего второго поколения Intel Xeon Scalable с TDP до 205 Вт. Имеется 16 слотов DIMM, способных работать с модулями DDR4-2933. Суммарно в серверном шасси можно разместить до 3 терабайт оперативной памяти, в том числе и энергонезависимые модули Intel Optane.
Для большей гибкости новые серверы поддерживают открытые стандарты управления и администрирования, включая OpenBMC для контроля за функциональностью платформы и поддержкой актуальных версий микропрограммного обеспечения.
Перспективы
Из-за пандемии в 2020 году ежегодное мероприятие OCP Global Summit было проведено в виртуальном виде. Есть надежда, что OCP Global Summit 2021, запланированный на 3-4 марта, состоится в привычном формате.
Спецификация OCP предусматривает стандартизацию оборудования, увеличение надежности решений, упрощение обслуживания и разработку унифицированного оборудования, что приведет к значительным изменениям в сегменте серверов высокой плотности. Также инициатива OCP открывает новые горизонты для роста вычислительных мощностей, стимулирует производителей выпускать сетевое оборудование сразу в двух конструктивах.
Пока что популяризацию устройств стандарта OCP V3.0 сдерживают существующие подходы к проектированию серверных платформ, которые допускают загрузку OCP-адаптеров как с фронтальной, так и с тыльной зоны. И хотя на рынке доля устройств OCP V3.0 еще невелика, похоже, что классические PCIe-устройства и их мезонинные варианты уже в ближайшем будущем рискуют стать рудиментом, востребованным разве что в отдельно стоящих либо в пьедестальных серверах.
Не за горами выход новых процессоров Intel с кодовым названием Cooper Lake 2S, в которых уже включена поддержка OCP 3.0.

Вот как выглядит «концепт-cервер» от Facebook – Sonora Pass на процессорах Cooper Lake. В нем предусмотрены два слота под сетевые платы OCP 3.0, два слота PCIe под полновысотные карты половинной глубины (FHHL — full height, half length), один 3,5" отсек SATA HDD и слот расширения под SSD-накопитель форм-фактора E1.S (25 мм). Есть два порта USB 3.0 и отладочный OCP-разъем для USB debug port. В сервер могут устанавливаться до восьми 40-мм вентиляторов, обеспечивающих мощное охлаждение.

Для дополнительной информации рекомендуем посетить сайт https://www.opencompute.org/summit/global-summit.
Благодарим компанию Onix
за содействие в подготовке данного материала