
Пока AMD EPYC под кодовым названием Naples первенствует по количеству ядер в одном сокете, чип-тестеры находятся в предчувствии новых достижений. Днями NotebookCheck, основываясь на слухах, распространяемых AdoredTV, поделился соображениями, каким будет сервер на базе EPYC Rome, и как Intel намерен парировать лидерские амбиции AMD.
Аналитики сходятся во мнениях, что серверный процессор AMD EPYC2 с именем Rome, состоящий из 64 ядер, содержит в одном корпусе в общей сложности 8 процессорных кристаллов и (внимание!) кристалл для обслуживания операций ввода-вывода — то, что раньше называлось чипсетом и размещалось в отдельном чипе. Алаверды от Intel, и тут непоянтно что рассматривать: тупиковый, но еще бодрый CooperLake или «красавчик» IceLake с реализованной уже логикой, соответствующей требованиям PCIe Specification 4.0 — так вот, в ответ Intel покажет конструкцию из трех кристаллов — два 28-ядерных плюс допкристалл для I/O-функций (I/O die).
EPYC2 Rome тоже с поддержкой PCIe Gen 4, но ранее предполагалось, что его архитектура будет основана на пяти сущностях — четырех процессорных и встроенный чипсет. Вариант на 8 кристаллах все же более вероятен, так как при меньшем размере фотошаблона для литографии выше выход годных чипов.
По сравнению с Naples процессоры Rome имеют вдвое плотную компоновку, что обусловлено переходом с 14 нм техпроцесса на 7 нм. Хотя Intel исходит из других принципов оценки техпроцесса, тем не менее, его новый CooperLake будет жить по-старому, т.е. на 14 нм. По новой технологии станут выпускаться процессоры IceLake – там будет 10 нм техпроцесс. Сравнивая их с конкурентным предложением от AMD, трудно оценить перспективы «медного озера», разве что цена будет более чем привлекательной, что за Intel ранее никогда не замечалось.
Самое пристальное внимание вызывает слух о том, что в EPYC2 годами наработанная технология NUMA может быть кардинально пересмотрена. Как 64 процессорных ядра будут работать с 4 терабайтами оперативной памяти, доступной для одного сокета, пока что остается загадкой.
Пока в одном сокете AMD EPYC допускает не более 32 процессорных ядер
Можно лишь предположить, что будет изменен принцип декларирования топологических дистанций между вычислительными ядрами и контроллерами оперативной памяти. Логичным шагом компании был бы ряд мер, направленных на минимизацию латентности при выполнении транзакций, маршрут которых пересекает границы доменов. Вместе с тем, говорить об отказе от NUMA даже только в пределах одного сокета можно было бы в случае реализации процессора в виде единого кристалла с единым многоканальным контроллером оперативной памяти, равноудаленным от всех вычислительных ядер. Если такое произойдет и пропускная способность внутрипроцессорного интерконнекта будет адекватной, это поставит конкурента в достаточно затруднительное положение.
Отдельную неопределенность вносит южный мост в составе процессорного корпуса. Выполненный отдельным кристаллом (I/O die), как для AMD, так и Intel, он также является элементом NUMA-топологии. Она, как известно, требуется не только при доступе процессорных ядер к DRAM, но и для организации обмена с высокопроизводительной периферией, такой как NVMe-накопители или RDMA-адаптеры. Ведь скорость доступа к памяти неизбежно зависит от длины маршрута, будь то операции, инициированные процессорным ядром или bus-master устройством.
Резюме
Итак, в ожидании официального релиза процессоров AMD EPYC2 Rome, попробуем перечислить версии развития событий.
1) Конструкция, содержащая восемь вычислительных кристаллов с собственным DRAM-контроллером в каждом из них. Сохранение базовых принципов NUMA-топологии, оптимально с точки зрения технологичности и преемственности. Вместе с тем, как нетрудно посчитать, в распоряжении каждого из восьми доменов одного сокета окажется лишь один канал оперативной памяти, что может отразиться на производительности вычислительных сценариев с небольшим количеством потоков.
2) Реализация DRAM-контроллера в виде отдельного кристалла делает его равноудаленным относительно всех доменов, устраняя как преимущества, так и недостатки NUMA в пределах одного сокета. Напомним, такая топология использовалась до реализации контроллера оперативной памяти в составе микросхемы центрального процессора. Вариант спорный, он жизнеспособен лишь при условии эффективной межкристальной коммуникации.
3) Отказ от многочиповой конструкции с реализацией процессора в виде монолитного кристалла. При наивысшей производительности, такой путь связан с существенным ростом себестоимости производства, поэтому в нашем рейтинге он оказался на последнем месте. Заметим, разделение на домены может быть оправдано и в пределах монолитного кристалла, а значит, данный вариант в общем случае не отрицает применение NUMA-топологии.