Широкополосный доступ к памяти в фокусе внимания Rambus

25 Авг 2017

Широкополосный доступ к памяти в фокусе внимания Rambus

Появление в персональных платформах оперативной памяти Rambus Di­rect RAM, гармонично дополненное ее последующим исчезновением, по праву считается одним из наиболее драматичных моментов развития IT-ин­ду­с­т­рии. С тех пор прошло более десяти лет и прямые ана­ло­гии меж­ду RDRAM и HBM неуместны. Ра­ди­каль­ные пе­ре­ме­ны в кон­струк­ции опе­ра­тив­ных за­по­ми­на­ю­щих устройств открывают «окно воз­мож­но­с­тей» для ком­па­нии, рас­по­ла­га­ю­щей багажом интеллектуальной соб­ствен­но­сти в тех­но­ло­ги­ях вза­и­мо­дей­ствия DRAM и управляющей ло­ги­ки. В фокусе внимания Rambus — дизайн схемы физического сопряжения чипов HBM и контроллера, вы­де­ля­е­мой в отдельный функционально-завершенный узел под названием PHY.

Функциональная схема

Rambus PHY обеспечивает соединение массива запоминающих устройств HBM DRAM, объединенных в стековую конструкцию и контроллера оперативной памяти Memory Controller, реализованного в процессорном кристалле.

Подключение устройства сопряжения Rambus PHY между элементами памяти DRAM и контроллером
Рис 1. Подключение устройства сопряжения Rambus PHY между элементами памяти DRAM и контроллером

В обязанности Rambus PHY входит трансляция сигналов шин управления, адреса и данных, поддержание их эле­к­тро­фи­зи­че­ских характеристик с учетом геометрии соединительных цепей, обеспечение тактирования интерфейса и управление электропитанием. Два фактора: сложность управляющей логики и необходимость прецизионного контроля таймингов, обусловили конструктивное разделение DRAM-контроллера и схемы физического со­пря­же­ния.

Redundancy Remapping

Важным атрибутом устройства является технологический порт IEEE 1500, способный обеспечить не только ди­а­гно­сти­ку но и ремонт изделий с применением резервных блоков запоминающей матрицы. Коммутация, обес­пе­чи­ва­ю­щая замещение неисправного блока резервным, называемая Redundancy Remapping в документации JEDEC, ос­но­ва­на на двух операциях:

Команда SOFT_LANE_REPAIR позволяет выполнить оперативное замещение сбойных блоков, действующее до от­клю­че­ния питания чипа или сигнала сброса RESET, что удобно для последующего выполнения теста памяти. Ко­ман­ду HARD_LANE_REPAIR применяют для постоянного замещения банков, если испытуемый вариант опе­ра­тив­но­го замещения успешно прошел верификацию.

Закономерно возникает вопрос: ремап дефектных областей, традиционно применяемый в магнитных дисках и твер­до­тель­ных накопителях, может стать свойством оперативной памяти?

Pseudo Channel Mode

Одно устройство HBM DRAM, в сочетании со схемой физического сопряжения PHY обеспечивает 1024-битную ши­ну данных, организованную в виде восьми 128-битных каналов. Такой формат доступа, классифицируемый в до­ку­мен­та­ции JEDEC как Legacy Mode, оптимален для передачи больших непрерывных массивов информации.

Опция Pseudo Channel Mode, предоставляет шестнадцать 64-битных независимо адресуемых псевдоканалов при неизменной общей ширине шины, что может оказаться более производительным решением в режиме од­но­вре­мен­но­го обращения процессора к большому количеству массивов или информации, расположенной про­из­воль­но.

Диаграмма чтения памяти в режиме Pseudo Channel Mode
Рис 2. Диаграмма чтения памяти в режиме Pseudo Channel Mode

Как показано на диаграмме, каждый из двух 64-битных псевдоканалов (PS0, PS1), образующих 128-битный канал, управляется отдельными командами активации и чтения. Выбор канала определяет состояние адресной линии BA4 (на диаграмме не показана). Выбор одного из двух вариантов форматирования 1024-битной шины оп­ре­де­ля­ет­ся протоколом взаимодействием DRAM и контроллера, задача схемы сопряжения (PHY) сводится к пре­до­став­ле­нию физических линий.

Конструктивная реализация

Экстремальное повышение разрядности шины данных в сочетании с высокой тактовой частотой передачи сиг­на­лов требует прецизионного управления электрофизическими характеристиками, а значит минимизации длины соединительных проводников и общих габаритов электронной схемы. В результате, на смену традиционному раз­ме­ще­нию микросхем на печатной плате приходят компактные многочиповые конструкции.

Физическая реализация подсистемы оперативной памяти на основе High Bandwidth Memory
Рис 3. Физическая реализация подсистемы оперативной памяти на основе High Bandwidth Memory

В этом примере, процессор или графический ускоритель содержит центральный кристалл и 4 устройства опе­ра­тив­ной памяти, каждое из которых насчитывает несколько DRAM-чипов, снабженных схемой физического со­пря­же­ния (PHY). Термином 3D Memory в данном случае подчеркивается «многоэтажная» реализация банков. Аб­бре­ви­а­ту­ра TSV или Through Silicon Via, в дословном переводе «через кремниевые отверстия» означает метод сквозного соединения сигнальных цепей нескольких микросхем в пределах стековой конструкции.

Показанный на блок-схеме технологический порт Direct Access Test Port (DA) позволяет подключать тестовое обо­ру­до­ва­ние согласно нормативным документам JEDEC, но при этом протокол взаимодействия диагностического контроллера и проверяемого изделия вынесен за пределы сферы действия стандарта и классифицирован как Vendor-Specific.

Характеристики

Пропускная способность, выражаемая в гигабайтах в секунду (GBPS) определяется произведением пропускной спо­соб­но­сти одной сигнальной линии и количества таких линий.

Характеристики устройств оперативной памяти на основе High Bandwidth Memory Gen2
Рис 4. Характеристики устройств оперативной памяти на основе High Bandwidth Memory Gen2

Как видно из сравнительной таблицы, реализации запоминающих устройств High Bandwidth Memory Gen 2 раз­ли­ча­ют­ся по количеству кристаллов многочиповой конструкции и полосе пропускания. При ширине шины 1024 бита (восемь 128-битных каналов или шестнадцать 64-битных псевдоканалов) и полосе пропускания 2 гигабита в се­кун­ду на одну сигнальную линию, каждый стековый многочиповый блок обеспечивает:

1024 * 2 / 8 = 256 гигабайт в секунду.

Агрегирование четырех таких блоков на 4096-битной шине обеспечит теоретический трафик около 1 терабайта в секунду.

Применение

Наличие HBM в виде локальной высокопроизводительной оперативной памяти в центральных процессорах для мас­шта­бируемых систем, а также в графических ускорителях является необходимым условием рационального использования ресурсов процессора для ряда вычислительных сценариев. Факторы ограниченного объема ло­каль­ной кэш-памяти, а также ограниченной производительности классической DRAM-подсистемы создают сво­е­об­раз­ную «нишу» между двумя этими видами памяти в иерархии запоминающих устройств, для заполнения ко­то­рой раз­ра­ботчики современных CPU и GPU применяют High Bandwidth Memory.

Вместо послесловия

Как уже подчеркивалось, несмотря на упоминание бренда Rambus, параллели между ныне раритетными мо­ду­ля­ми RIMM и HBM-памятью неуместны, в разработке новых запоминающих устройств компания занимает до­ста­точ­но узкую нишу. Многих фундаментальных проблем, связанных с передачей высокочастотных цифровых сигналов удается избежать в силу плотной компоновки рассмотренных конструкций, минимальной длины соединительных проводников и отсутствия разъемных соединений.

Это означает, что ситуация может измениться, если HBM обозначит свои претензии на статус основного ОЗУ вы­чи­сли­тель­ной платформы, что неизбежно вызовет радикальные изменения в DRAM-интерфейсе. В таком случае ди­зайн схемы сопряжения не будет ограничен электрическим согласованием, потребуется интеллектуальная об­ра­бот­ка данных с целью обеспечения их устойчивой передачи, а здесь Rambus, несомненно способна сказать свое веское слово, само название компании подтверждает этот тезис...