Open Compute Project – новая реальность или передел рынка?

OCP (Open Compute Project) — ре­зуль­тат даль­ней­шей цен­т­ра­ли­за­ции вы­чис­ли­тель­ных мощ­но­с­тей, на­це­лен­ный на эко­но­мию в сто­и­мос­ти вла­де­ния. Уни­фи­ка­ция сто­еч­ных сер­ве­ров при­ве­ла к ре­ви­зии га­ба­рит­ных па­ра­мет­ров, уде­шев­ле­нию сис­те­мы пи­та­ния, пе­ре­смот­ру ее бес­пе­ре­бой­ной до­став­ки и на­деж­но­го ох­лаж­де­ния. На­ря­ду со сме­ной форм-фак­то­ра сто­еч­ных шас­си, в рам­ках OCP наи­бо­лее зна­чи­мой ста­ла иная, бо­лее плот­ная ком­по­нов­ка сер­ве­ров с воз­мож­но­стью го­ря­чей за­ме­ны уз­лов — обя­за­тель­но из «хо­лод­ной зо­ны». Необходимость фрон­таль­но­го до­сту­па об­ус­ло­ви­ла по­яв­ле­ние но­вого ди­зайна флеш-на­ко­пи­те­лей и се­те­вых адап­те­ров. Что ста­ло при­чи­ной пе­ре­мен, по­чему ус­то­яв­ши­е­ся кон­ст­рук­ции шас­си во­шли в про­ти­во­ре­чие с сер­вер­ной ин­фра­ст­ру­к­ту­рой?

История вопроса

Старт эры серверных x86-платформ прошел в ус­ко­рен­ном темпе. Их про­из­во­ди­тель­ность росла, как на дрож­жах: так­то­вые час­то­ты процессоров, памяти и шин обмена данными неуклонно повышались. Под­дер­жи­вать вы­со­кий темп ро­с­та становилось все сложнее и сложнее, и настал момент, когда про­из­во­ди­тель­но­с­ти пе­ре­ста­ла отвечать за­про­сам рын­ка. Наметился второй путь: рас­па­рал­ле­ли­ва­ние вы­чис­ле­ний с помощью муль­ти­про­цес­сор­ных систем. Благо, на­и­бо­лее тре­бо­ва­тель­ные к вы­чис­ли­тель­ным ре­сур­сам задачи под­да­ва­лись такому переходу на «па­рал­лель­ные вы­чис­ле­ния» без кар­ди­наль­ных пе­ре­де­лок. И на фоне кра­ха «гон­ки час­тот», постепенно подходящей к фи­зи­че­ским пре­де­лам технологий, мы ста­ли свидетелями взрыв­но­го ро­с­та ко­ли­че­с­т­ва про­цес­сор­ных ядер — на кристалле, в со­ке­те, в сервере, в стой­ке, в кон­тей­не­ре, в да­та-­цен­т­ре.

На сегодня технологические воз­мож­но­с­ти по­зво­ля­ют по­ст­ро­ить вы­чис­ли­тель­ный комплекс прак­ти­че­ски с лю­бой за­дан­ной (и сколь угод­но большой) про­из­во­ди­тель­но­стью. Но, как и всегда, этот по­ка­за­тель ока­зал­ся в оче­ред­ной раз ог­ра­ни­чен, на сей раз — экономикой. Пока су­пер­ком­пью­те­ры строили в ос­нов­ном для ор­га­ни­за­ций, не раз­ме­ни­ва­ю­щих­ся на мел­кий прайс — типа Министерства энергетики США с его мо­де­ли­ро­ва­ни­ем ядер­ных процессов, — особых труд­но­с­тей не возникало: го­су­дар­ст­вен­ные закрома боль­шие, сколько по­на­до­бит­ся — столько и будет выделено. Но ког­да по­треб­ность в со­из­ме­ри­мых про­из­во­ди­тель­ных вы­чис­ли­тель­ных системах появилась у ком­мер­че­ских пред­при­я­тий — ситуация резко из­ме­ни­лась.

Гиганты бизнеса облачных решений уровня Google, Amazon, Facebook, Microsoft постепенно осознали, что в ми­ре, тре­бу­ю­щем все больше и больше вычислений, главным параметром становится уже не столько про­из­во­ди­тель­ность са­ма по се­бе, сколько эффективность вычислений. На­ра­щи­ва­ние про­из­во­ди­тель­но­с­ти вы­чис­ли­тель­но­го кластера лег­ко осу­щест­вля­ет­ся вводом в эксплуатацию очередного контейнера с сер­ве­ра­ми. Но каж­дый такой контейнер, по­ми­мо са­мой сто­и­мос­ти, приводит к росту «стоимости вла­де­ния» — это рас­хо­ды на элек­т­ро­э­нер­гию для его питания и ох­лаж­де­ния, оп­ла­та об­слу­жи­ва­ю­ще­го пер­со­на­ла, сер­вис­ные про­це­ду­ры и т.п.

Каждый в отдельности оператор рынка облачных решений стал за­ду­мы­вать­ся о снижении стоимости вла­де­ния еди­ни­цей быст­ро растущей IT-ин­фра­ст­рук­ту­ры. Пе­ре­смат­ри­ва­лось все — начиная со сто­и­мос­ти сер­вер­ной ком­п­лек­та­ции до пе­ре­смот­ра кон­цеп­ции ап­па­рат­ных плат­форм. В апреле 2011 года Facebook вы­сту­па­ет с ини­ци­а­ти­вой открыто делиться наработками в области раз­ра­бо­ток продукции для дата-центров. Компании, к тому времени ус­пев­шие и сами заняться раз­ра­бот­ка­ми в этой об­лас­ти, яс­но пред­ста­ви­ли масштабы гря­ду­щих затрат и разумно рассудили ско­опе­ри­ро­вать уси­лия для по­ис­ка вза­и­мо­при­ем­ле­мо­го варианта. И в результате сов­мест­ных усилий был ор­га­ни­зо­ван Open Com­pute Pro­ject — организация, участники которой обмениваются идеями и раз­ра­бот­ка­ми (вклю­чая серверы, системы хранения данных, стойки, сетевое оборудование, электропитание и охлаждение) и про­г­рам­мно­го обес­пе­че­ния для со­вре­мен­ных дата-центров

Открытая дверь OCP

Изначально на столь масштабный проект решились только гиганты IT-индустрии, впоследствии к нему стали при­со­е­ди­нять­ся и другие игроки: одних ин­те­ре­со­ва­ла оп­ти­ми­за­ция затрат, другие готовы были вложиться в раз­ра­бот­ки, об­ре­та­ю­щие прак­ти­че­ское наполнение и сулящие реальную экономию.

За время, прошедшее с запуска проекта, концепция OCP получила даль­ней­шее развитие: сегодня от­кры­тый кон­с­т­рук­тив стоечных серверов ре­г­ла­мен­ти­ру­ет уже третья версия спе­ци­фи­ка­ции. Из ин­те­рес­ных но­во­вве­де­ний — пересмотр места и роли объе­ди­ни­тель­ной платы (бэкплейна), что дало за­мет­ное со­кра­ще­ние ко­ли­че­с­т­ва компонентов и привело к оптимизации схемы распределения питания. Как ре­зуль­тат — по­вы­ше­ние экс­плу­а­та­ци­онных эф­фектив­но­с­ти и на­дежно­сти за счет «горячего» подключения карт из фрон­таль­ной (т.е. из «хо­лод­ной») зоны серверной стойки.

Из прочих особенностей OCP стоит отметить воз­мож­ность ус­та­нов­ки в стойки обо­ру­до­ва­ния уве­ли­чен­ной ши­ри­ны (21" вме­с­то стандартных 19"). Также стандартом OCP вводится новая единица измерения сер­вер­ных «юни­тов» OpenU, рав­ная 48 мм (1OU=48mm). Все это позволяет разместить больше обо­ру­до­ва­ния в том же самом объеме и по­вы­сить эф­фек­тив­ность охлаждения.

Mellanox: законодатель мод

Одним из первых в 2011 году к Open Compute Project при­со­е­ди­ни­лась компания Mellanox, предоставив со­об­ще­с­т­ву как свои на­ра­бот­ки, так и готовые решения, по­зво­ля­ю­щие повысить энер­го­эф­фек­тив­ность и мас­шта­би­ру­е­мость се­те­вой ин­фра­ст­рук­ту­ры. Основным направлением, в котором Mellanox сконцентрировала свои усилия, был пе­ре­нос об­ра­бот­ки все более и более сложных сетевых протоколов из цен­т­раль­ных про­цес­со­ров в спе­ци­а­ли­зи­ро­ван­ные се­те­вые кон­т­рол­ле­ры для освобождения ресурсов CPU под другие задачи.

Визитной карточкой Mellanox для Open Compute Project V3.0 яв­ля­ют­ся решения 200G Infiniband в SFF-фор­ма­те (76 х 115 мм) с воз­мож­но­стью ис­поль­зо­ва­ния двух сетевых интерфейсов. Разумеется, та­кой форм-фак­тор кар­ди­наль­но отличается и от привычных PCIe-плат половинной и полной вы­со­ты, и от ме­зо­нин­ных се­те­вых тех­но­ло­гий. Адаптеры SFF OCP V3.0 пред­наз­на­че­ны для установки в со­вер­шен­но иные сер­вер­ные платформы, раз­ра­бо­тан­ные в расчете мак­си­маль­но плот­ную упа­ков­ку ком­по­нен­тов с оп­ти­ми­за­ци­ей как по энер­го­за­тра­там и теп­ло­от­во­ду, так и по за­ни­ма­е­мо­му ими объ­ему.

Показательно, что в июньском рейтинге суперкомпьютеров TOP500 (2020 г.) почти три четверти новых систем, оснащены коммутаторами NVIDIA Mellanox HDR 200G InfiniBand. Это явным образом говорит о важности быстрого обмена данными внутри вычислительных систем.

Supermicro: особое мнение

Компания Supermicro присоединилась к Open Compute Project не так давно, но у нее на счету есть очень лю­бо­пыт­ное решение в виде AIOM — усо­вер­шен­ст­во­ван­ных модулей ввода-вывода, со­от­вет­ст­ву­ю­щих тре­бо­ва­ни­ям OCP V3.0. Это ком­про­мисс для центров обработки данных, ис­поль­зу­ю­щих при­выч­ные 19-дюй­мо­вые шас­си, ори­ен­ти­рован­ные тем не менее на Small From Factor.

В отличие от топовых моделей Mellanox, с которой Supermicro, кстати, поддерживает тесные деловые кон­так­ты, у тай­вань­ско­го про­из­во­ди­те­ля пред­ло­же­ни­ем сетевых адаптеров OCP V3.0 на любой вкус и ко­ше­лек. Рас­смот­рим решения Supermicro, построенные на базе сетевых контроллеров Intel — главного кон­ку­рен­та Mel­la­nox в области RoCE.

Выполненные на контроллерах Intel X550, адаптеры AOC-ATG-i2T поддерживают классические подключения по витой паре на скорости до 10GbE

Адаптеры семейства AOC-ATG-i2T представлены в пол­но­вы­сот­ном 1U-конструктиве и в виде устройств по­ло­вин­ной вы­со­ты, что те­о­ре­ти­че­ски позволяет удвоить плотность серверной компоновки. Сетевые кар­ты со­от­вет­ст­ву­ют тре­бо­ва­ни­ям SFF OCP V3.0: они оснащены ножевым типом ламелей, что обес­пе­чи­ва­ет лег­кость, прос­то­ту и удобство hot-plug под­клю­че­ний.

Выполненные на контроллерах Intel X550, адаптеры AOC-ATG-i2T под­дер­жи­ва­ют классические под­клю­че­ния по ви­той па­ре на ско­ро­с­ти до 10GbE. Поддержка технологий виртуализации NVGRE и VXLAN оди­на­ко­во хо­ро­шо на­хо­дит при­ме­не­ние для них, как на плат­фор­мах под управлением Microsoft, так и в VMware-сре­дах.

 

Семейство сетевых адаптеров AOC-A25G-b2S с поддержкой 25GbE выполнено в двух разновысотных конструкциях, предназначенных для 1U-шасси

Ассортимент сетевых адаптеров OCP V3.0 у Supermicro расширен за счет ис­поль­зо­ва­ния кон­т­рол­ле­ров от Broad­com — еще од­но­го стра­те­ги­че­ско­го партнера компании. Семейство AOC-A25G-b2S, как и версия на Intel, вы­пол­не­но в двух раз­но­вы­сот­ных кон­ст­рук­ци­ях, пред­наз­на­чен­ных для 1U-шасси, но в отличие от них ис­поль­зу­ет оптический интерфейс SFP28, не­об­хо­ди­мый для поддержки 25GbE. В своем классе это одни из са­мых эко­ном­ных по уст­ройств — паспортные ха­рак­те­рис­ти­ки ог­ра­ни­чи­ва­ют их по­треб­ля­е­мую мощность 7,7 Ваттами. Кроме технологий сетевой вир­ту­а­ли­за­ции, контроллер Broadcom BCM57414 обеспечивает адап­те­ры AOC-A25G-b2S работой по протоколу RDMA over Converged Ethernet.

Серверы MegaDC для дата-центров

Спецификация OCP NIC 3.0, определяющая использование адаптеров с открытой архитектурой Open Com­pute Pro­ject, лег­ла в основу новой линейки серверов Supermicro MegaDC. Это первые в отрасли готовые системы, пред­наз­на­чен­ные для круп­но­мас­ш­таб­но­го раз­вер­ты­ва­ния в центрах обработки данных.

Спецификация OCP NIC 3.0, определяющая использование адаптеров с открытой архитектурой Open Compute Project, легла в основу новой линейки серверов Supermicro MegaDC

 

Основой для MegaDC послужили шасси, рас­счи­тан­ные на установку в 19-дюймовые стойки. Тем самым ком­па­ния де­мон­с­т­ри­ру­ет, что и клас­си­че­ские серверные системы далеко не исчерпали потенциал для оп­ти­ми­за­ции эф­фек­тив­но­с­ти по всем на­прав­ле­ниям – от про­из­во­ди­тель­но­с­ти на каждый ватт ис­поль­зу­е­мой мощ­но­с­ти до тру­до­за­трат по раз­вер­ты­ва­нию требуемой серверной конфигурации.

Линейка MegaDC состоит из пяти моделей поколения X11 – двух 1U-серверов и трех 2U, предназначенных спе­ци­аль­но для круп­ных и масштабируемых центров обработки данных. Все они отличаются максимально плот­ной для сво­их раз­ме­ров компоновкой и возможностью подключения AIOM – сетевых карт SFF OCP 3.0, ког­да требуются мак­си­маль­ные ско­рос­ти сетевых интерфейсов.

Серия MegaDC позволяет установить две карты Double Wide GPU или пять Single Wide GPU с использованием OCP 3.0/AIOM

 

Учитывая, что с точки зрения энер­го­эф­фек­тив­но­с­ти вычислительные системы, использующие гра­фи­че­ские про­цес­со­ры NVIDIA, в 2,8 ра­за эффективнее систем без GPU NVIDIA (при замере в гигафлопсах на ватт), очень пер­с­пек­тив­ной является серия MegaDC GPU, в которой предусмотрена возможность установки двух карт Double Wide GPU или пяти Single Wide GPU и использование интерконнект-карт OCP 3.0/AIOM.

Из наработок OCP используется новый метод сопряжения, который упрощает установку и извлечение внеш­них уст­ройств, со­кра­щая общее время простоя. Для подключения SFF OCP 3.0 применяется уни­вер­саль­ный кон­нектор SFF-TA-1002, от­лич­но за­ре­ко­мен­до­вав­ший себя с SSD-накопителями в формате Ruler, т.е. EDSFF.

Вычислительная мощность MegaDC обес­пе­чи­ва­ет­ся под­держ­кой двух процессоров с разъемом LGA3647 (Socket P), вплоть до новейшего второго поколения Intel Xeon Scalable с TDP до 205 Вт. Имеется 16 сло­тов DIMM, спо­соб­ных ра­бо­тать с модулями DDR4-2933. Суммарно в серверном шасси можно раз­мес­тить до 3 те­ра­байт опе­ра­тив­ной па­мя­ти, в том числе и энер­го­не­за­ви­си­мые модули Intel Optane.

Для большей гибкости новые серверы поддерживают открытые стандарты управления и ад­ми­ни­с­т­ри­ро­ва­ния, вклю­чая Open­BMC для контроля за функциональностью платформы и поддержкой актуальных версий ми­к­ро­про­г­рам­мно­го обеспечения.

Перспективы

Из-за пандемии в 2020 году ежегодное мероприятие OCP Global Summit было проведено в виртуальном ви­де. Есть на­деж­да, что OCP Global Summit 2021, запланированный на 3-4 марта, состоится в привычном фор­мате.

Спецификация OCP пред­ус­мат­ри­ва­ет стан­дар­ти­за­цию оборудования, увеличение надежности решений, уп­ро­ще­ние об­слу­жи­ва­ния и раз­ра­бот­ку уни­фи­ци­ро­ван­ного оборудования, что приведет к значительным из­ме­не­ни­ям в сег­мен­те сер­ве­ров высокой плотности. Также инициатива OCP открывает новые горизонты для роста вы­чи­сли­тель­ных мощ­но­с­тей, сти­му­ли­ру­ет про­из­во­ди­те­лей выпускать сетевое оборудование сразу в двух кон­ст­рук­ти­вах.

Пока что популяризацию устройств стандарта OCP V3.0 сдерживают существующие подходы к про­ек­ти­ро­ва­нию сер­вер­ных плат­форм, которые допускают загрузку OCP-адаптеров как с фронтальной, так и с тыль­ной зо­ны. И хо­тя на рын­ке доля устройств OCP V3.0 еще невелика, похоже, что классические PCIe-устройства и их ме­зо­нин­ные варианты уже в ближайшем будущем рискуют стать рудиментом, вос­тре­бо­ван­ным раз­ве что в отдельно стоящих либо в пье­де­сталь­ных серверах.

Не за горами выход новых процессоров Intel с кодовым названием Cooper Lake 2S, в которых уже включена под­дер­жка OCP 3.0.

Платформа Sonora для Facebook OCP

Вот как выглядит «концепт-cервер» от Facebook – Sonora Pass на процессорах Cooper Lake. В нем пред­ус­мот­ре­ны два сло­та под сетевые платы OCP 3.0, два слота PCIe под пол­но­вы­сот­ные карты половинной глубины (FHHL — full height, half length), один 3,5" отсек SATA HDD и слот рас­ши­ре­ния под SSD-накопитель форм-фак­то­ра E1.S (25 мм). Есть два порта USB 3.0 и от­ла­доч­ный OCP-разъем для USB debug port. В сер­вер мо­гут ус­та­нав­ли­ва­ть­ся до восьми 40-мм вен­ти­ля­то­ров, обес­пе­чи­ва­ю­щих мощ­ное охлаждение.

 

Для дополнительной информации рекомендуем посетить сайт https://www.opencompute.org/summit/global-summit.

Благодарим компанию Onix
за содействие в подготовке данного материала

Tags