AMD Rome: в ожидании перемен

AMD Rome: в ожидании перемен

Появившаяся в сети информация о новинках — серверных про­цес­со­рах AMD EPYC2 Ro­me — позволяет про­а­на­ли­зи­ро­вать преимущества и не­до­стат­ки новой то­по­ло­гии, пред­по­ла­га­ю­щей от­каз от ар­хи­тек­ту­ры NU­MA в пре­де­лах од­но­го про­цес­сор­но­го гнез­да. Сде­лав по­прав­ку на не­о­фи­ци­аль­ный ха­рак­тер све­де­ний, об­на­ро­до­ван­ных по­пу­ляр­ным ре­сур­сом, про­мо­де­ли­ру­ем пред­по­ла­га­е­мый сце­на­рий раз­ви­тия со­бы­тий: смо­жет ли но­вин­ка дать но­вый им­пульс про­из­во­ди­тель­но­с­ти па­мя­ти?

System Controller Die

Согласно блок-схеме, топология новых процессоров основывается на применении отдельного кристалла сис­тем­но­го контроллера или System Controller Die, ответственного за интерконнект мультичиповой конструкции и со­дер­жа­ще­го полный набор ресурсов системной логики (как северного так и южного мостов), включая порты PCI Express Gen 4 и восьмиканальный контроллер оперативной памяти.

Блок-схема процессора AMD EPYC2 Rome
Блок-схема процессора AMD EPYC2 Rome
ллюстрация с сайта www.techpowerup.com)

Кристаллы вычислительных модулей, количество которых  может достигать восьми, подключаются к системному контроллеру с помощью высокопроизводительного параллельного интерфейса. Каждый из таких модулей может содержать до 8 ядер, что при условии применения технологии SMT дает 16 потоков. Это означает 16*8 = 128 ло­ги­че­ских процессоров на сокет.

Что в итоге?

Рассмотренная многочиповая конструкция предполагает наличие общего восьмиканального DRAM-контроллера, равноудаленного относительно всех ядер, содержащихся в восьми вычислительных модулях. Чтобы дез­ин­те­гра­ция северного моста не стала шагом назад, потребуется высокопроизводительный интерфейс, ведь в та­кой сис­те­ме лю­бое обращение ядер CPU к оперативной памяти будет означать взаимодействие двух чипов.

Для сравнения, в топологии Naples, где каждый из четырех кристаллов содержит свой собственный двух­ка­наль­ный DRAM-контроллер, коммуникация между чипами в случае NUMA-оптимального обращения к локальному домену не требуется. Вместе с тем, равенство топологических расстояний для всех сценариев работы с памятью по определению означает отказ от архитектуры неоднородного доступа, в том числе для обращений к системному ОЗУ со стороны многочисленной и высокопроизводительной bus-master периферии.

Таким образом, для программного обеспечения, выполняемого на односокетной платформе, NUMA-оптимизация (вернее, ее отсутствие) может потерять статус критического фактора. Сказанное не означает наступление без­за­бот­ной жизни для разработчиков программного обеспечения, ведь реализация возможностей платформ, со­дер­жа­щих более 64 логических процессоров проблематична без аккуратной поддержки технологии Processor Groups.