Серверные процессоры идут на рекорд

11 Окт 2018

Пока AMD EPYC под кодовым названием Naples первенствует по ко­ли­че­ству ядер в од­ном со­ке­те, чип-тес­те­ры на­хо­дят­ся в пред­чув­ст­вии но­вых до­сти­же­ний. Дня­ми No­te­book­Check, ос­но­вы­ва­ясь на слу­хах, рас­про­ст­ра­ня­е­мых Ado­red­TV, по­де­лил­ся со­об­ра­же­ни­я­ми, ка­ким бу­дет сер­вер на ба­зе EPYC Rome, и как Intel на­ме­рен па­ри­ро­вать ли­дер­ские ам­би­ции AMD.
Аналитики сходятся во мнениях, что серверный процессор AMD EPYC2 с име­нем Rome, со­сто­я­щий из 64 ядер, со­дер­жит в од­ном кор­пу­се в об­щей слож­но­сти 8 про­цес­сор­ных крис­тал­лов и (вни­ма­ние!) крис­талл для об­слу­жи­ва­ния опе­ра­ций ввода-вы­вода — то, что рань­ше на­зы­ва­лось чип­се­том и раз­ме­ща­лось в от­дельном чипе. Алаверды от Intel, и тут непоянтно что рассматривать: ту­пиковый, но еще бодрый CooperLake или «красавчик» IceLake с реализованной уже логикой, соответствующей тре­бованиям PCIe Specification 4.0 — так вот, в ответ Intel покажет конструкцию из трех кристаллов — два 28-ядер­ных плюс допкристалл для I/O-функций (I/O die).

EPYC2 Rome тоже с поддержкой PCIe Gen 4, но ранее предполагалось, что его архитектура будет основана на пяти сущностях — четырех процессорных и встроенный чипсет. Вариант на 8 кристаллах все же более вероятен, так как при меньшем размере фотошаблона для литографии выше выход годных чипов.

По сравнению с Naples процессоры Rome имеют вдвое плотную компоновку, что обусловлено переходом с 14 нм техпроцесса на 7 нм. Хотя Intel исходит из других принципов оценки техпроцесса, тем не менее, его новый Coop­er­Lake будет жить по-старому, т.е. на 14 нм. По новой технологии станут выпускаться процессоры IceLake – там будет 10 нм техпроцесс. Сравнивая их с конкурентным предложением от AMD, трудно оценить перспективы «медного озера», разве что цена будет более чем привлекательной, что за Intel ранее никогда не замечалось.

Самое пристальное внимание вызывает слух о том, что в EPYC2 годами наработанная технология NUMA может быть кардинально пересмотрена. Как 64 процессорных ядра будут работать с 4 терабайтами оперативной памяти, доступной для одного сокета, пока что остается загадкой.

Серверная системная плата ASUS KNPA-U16 с поддержкой AMD EPYC
Пока в одном сокете AMD EPYC допускает не более 32 процессорных ядер

Можно лишь предположить, что будет изменен принцип декларирования топологических дистанций между вы­чис­ли­тель­ны­ми ядрами и контроллерами оперативной памяти. Логичным шагом компании был бы ряд мер, на­прав­лен­ных на минимизацию латентности при выполнении транзакций, маршрут которых пересекает границы до­ме­нов. Вместе с тем, говорить об отказе от NUMA даже только в пределах одного сокета можно было бы в случае реализации процессора в виде единого кристалла с единым многоканальным контроллером оперативной памяти, равноудаленным от всех вычислительных ядер. Если такое произойдет и пропускная способность вну­т­ри­про­цес­сор­но­го ин­тер­кон­нек­та будет адекватной, это поставит конкурента в достаточно затруднительное положение.

Отдельную неопределенность вносит южный мост в составе процессорного корпуса. Выполненный отдельным крис­тал­лом (I/O die), как для AMD, так и Intel, он также является элементом NUMA-топологии. Она, как известно, тре­бу­ет­ся не только при доступе процессорных ядер к DRAM, но и для организации обмена с вы­со­ко­про­из­во­ди­тель­ной периферией, такой как NVMe-накопители или RDMA-адаптеры. Ведь скорость доступа к памяти не­из­беж­но зависит от длины маршрута, будь то операции, инициированные процессорным ядром или bus-master уст­рой­ст­вом.

Резюме

Итак, в ожидании официального релиза процессоров AMD EPYC2 Rome, попробуем перечислить версии раз­ви­тия со­бы­тий.

1) Конструкция, содержащая восемь вычислительных кристаллов с собственным DRAM-контроллером в каждом из них. Сохранение базовых принципов NUMA-топологии, оптимально с точки зрения технологичности и пре­ем­ст­вен­нос­ти. Вместе с тем, как нетрудно посчитать, в распоряжении каждого из восьми доменов одного сокета ока­жет­ся лишь один канал оперативной памяти, что может отразиться на производительности вычислительных сце­на­ри­ев с небольшим количеством потоков.

2) Реализация DRAM-контроллера в виде отдельного кристалла делает его равноудаленным относительно всех до­ме­нов, устраняя как преимущества, так и недостатки NUMA в пределах одного сокета. Напомним, такая то­по­ло­гия использовалась до реализации контроллера оперативной памяти в составе микросхемы центрального про­цес­со­ра. Вариант спорный, он жизнеспособен лишь при условии эффективной межкристальной ком­му­ни­ка­ции.

3) Отказ от многочиповой конструкции с реализацией процессора в виде монолитного кристалла. При наивысшей производительности, такой путь связан с существенным ростом себестоимости производства, поэтому в нашем рей­тин­ге он оказался на последнем месте. Заметим, разделение на домены может быть оправдано и в пределах мо­но­лит­ного кристалла, а значит, данный вариант в общем случае не отрицает применение NUMA-топологии.