Гетерогенные вычисления на платформе Supermicro

Аналитические вычисления на базе ис­кус­ст­вен­но­го ин­тел­лек­та (AI) под­ни­ма­ют ог­ром­ные плас­ты ин­фор­ма­ции, на­хо­дя­щей­ся в «озе­рах», а под­час и «бо­ло­тах» дан­ных — т.е. в та­ких хра­ни­ли­щах, где не­об­ра­бо­тан­ные дан­ные хра­нят­ся в ори­ги­наль­ном фор­ма­те или до тех пор, по­ка они не по­на­до­бят­ся. Эти ал­го­рит­мы с по­мо­щью опе­ра­ций ли­ней­ной ал­геб­ры тру­дят­ся над ана­ли­зом по­ве­ден­че­ских фак­то­ров, рас­по­зна­ва­ни­ем изо­бра­же­ний и го­ло­са, об­ра­бот­кой ес­тес­т­вен­но­го язы­ка и т.п. Вы­би­рая сер­вер­ную плат­фор­му для ре­ше­ния та­ких за­дач, сто­ит при­смо­т­реть­ся к Supermicro SYS-7049GP-TRT. Чем она при­ме­ча­тель­на с точ­ки зре­ния про­цес­сор­ных ре­сур­сов об­ще­го на­зна­че­ния — ба­зи­са ге­те­ро­ген­ных вы­чис­ле­ний, ис­поль­зу­ю­щих раз­лич­ные ти­пы вы­чис­ли­тель­ных бло­ков?

Масштабируемые процессоры и сегрегация данных

Моделирование AI является мощным драйвером рынка гетерогенных платформ и напрямую связано с при­ме­не­ни­ем операций линейной алгебры, основными объектами которых являются векторы и матрицы. В первую очередь стоит об­ра­тить внимание на поддержку платформой процессоров Cascade Lake-SP. Их вы­чис­ли­тель­ные воз­мож­но­сти рас­ши­ре­ны за счет 32 регистров ZMM0-ZMM31, разрядность которых составляет 512 бит. Особенность длин­ных фор­ма­тов пред­став­ле­ния данных состоит в том, что в рамках развития функционального расширения FMA (Fused Multiply-Add, умножение-сложение с однократным округлением) количество чисел, загружаемое в векторный регистр, рав­но част­но­му раз­ряд­но­с­ти регистра и разрядности числа.

Плата Supermicro X11DPG-QT оснащена двумя сокетами LGA3647 для установки процессоров Intel Xeon Scalable семейства Cascade Lake-SP

Системная плата Su­per­mic­ro X11DPG-QT в составе серверной платформы Supermicro SYS-7049GP-TRT оснащена двумя сокетами LGA3647 для установки процессоров Intel Xeon Scalable семейства Cascade Lake-SP

Другими словами, AVX512 (Advanced Vector Extensions — расширение системы команд x86 для ми­кро­про­цес­со­ров Intel и AMD, предложенное Intel в марте 2008) оперирует с отдельными полями ZMMx: одной ин­ст­рук­ци­ей в регистре можно обработать, например, восемь 64-битных чисел двойной точности (double pre­ci­sion). Это весьма кстати для ре­ше­ния ря­да за­дач, мо­де­ли­ру­ю­щих искусственный интеллект: можно ис­поль­зо­вать числа меньшей разрядности — до 8-битных целых, кратно увеличив их количество в векторном регистре. Налицо рост эффективности вычислений за счет повышения производительности. Важным до­пол­ни­тель­ным фактором является экономное рас­хо­до­ва­ние объ­е­мов ОЗУ и ресурсов дорогостоящей кэш-памяти.

Пример вычисления скалярного произведения векторов: обрабатываются 8-битные множители и вычисляется 32-битное произведение (сравнение реализации несколькими инструкциями из набора AVX512 BW и одной инструкцией из набора VNNI)

Пример вычисления скалярного произведения векторов: обрабатываются 8-битные множители и вычисляется 32-битное произведение (сравнение реализации несколькими инструкциями из набора AVX512 BW и одной инструкцией из набора VNNI)

Инструкции же функционального расширения VNNI (Vector Neural Network Instructions) обес­пе­чи­ва­ют ап­па­рат­ную под­держ­ку операции умножения векторов, которая, в свою очередь может стать строительным блоком для умножения матриц.

GPU ускоряет вычисления

Альтернативным видом радикальной оптимизации обработки больших массивов данных по праву считается тех­но­ло­гия SIMT, по­лу­чив­шая рас­про­ст­ра­не­ние в графических процессорах. Здесь используется множество ска­ляр­ных по­то­ков данных, параллельно выполняемых под управлением общего потока инструкций.

Платформа Supermicro SYS-7049GP-TRT годится для установки четырех NVIDIA-ускорителей с шиной PCI Express x16, даже если каждый из них требует два корпусных отсека

Платформа Supermicro SYS-7049GP-TRT годится для установки четырех NVIDIA-ускорителей с шиной PCI Express x16, даже если каждый из них требует два корпусных отсека

Гетерогенные вычисления позволяют перенести чувствительные к производительности рабочие нагрузки с про­цес­со­ров общего назначения на GPU. Мощность вычислений здесь напрямую зависит от количества обрабатываемых ска­ляр­ных потоков. Серверная пла­та Su­per­­mic­ro X11DPG-QT в составе платформы SYS-7049GP-TRT го­дит­ся для ус­та­нов­ки четырех NVIDIA-ускорителей с шиной PCI Express x16, даже если каждый из них тре­бу­ет два кор­пус­ных от­се­ка. Такое расширение платформы особенно важно для под­держ­ки гра­фи­че­ских ус­ко­ри­те­лей в кон­тей­нер­ных сре­дах.

Для дополнительной оснастки дисковой и сетевой подсистем остаются еще два слота PCIe x16 и один PCIe x4. Под­хо­ды к реализации систем хранения и средств коммуникации вполне могут быть подстроены под осо­бые тре­бо­ва­ния са­мо­го взыс­ка­тель­но­го поль­зо­ва­те­ля.

Вместо резюме

Возрастающий интерес к результатам от применения GPU подпитывается раз­ра­бот­кой ап­па­рат­ных платформ, спо­соб­ных решать самые разнообразные задачи. Практическое их применение для ин­тел­лек­ту­аль­но­го ана­ли­за дан­ных будет находить новые области применения, отражая все аспекты по­все­днев­ной жиз­ни. Ре­а­ли­за­ция по­доб­ных про­г­рамм лучше всего осуществляется с помощью ге­те­ро­ген­ных вы­чис­ле­ний на плат­фор­мах, гар­мо­нич­но со­вме­ща­ю­щих мощь процессоров общего назначения и глубину гра­фи­че­ских вы­чис­ли­те­лей.

Платформа Supermicro SYS-7049GP-TRT
предоставлена компанией Onix