High Bandwidth: поиск сложных решений

06 Фев 2016

По ряду объективных причин первым полигоном для испытания новых стан­дар­тов оперативной памяти становятся видео адаптеры. Судя по но­мен­кла­ту­ре уже выпущенных устройств, технология вертикальной ком­по­нов­ки кристаллов Through Silicon Via и стандарт High Bandwidth Memory не ста­нут исключением из такой закономерности. Было бы не­про­сти­тельным упу­ще­ни­ем выпустить из поля зрения столь важную ини­ци­а­ти­ву.


Анатомия производительности

Оперативная память High Bandwidth Memory (HBM) для повышения пропускной способности использует шину дан­ных увеличенной разрядности (от 1024 до 4096 бит). Для того чтобы такое решение стало возможным, как с тех­ни­че­ской так и экономической точки зрения, необходим метод компактного монтажа элементов памяти. Ми­кро­схе­мы размещаются в виде многоэтажной конструкции (3D stacked). Сигнальные линии пропускаются через такую мно­го­этаж­ную конструкцию с использованием технологии TSV (Through Silicon Via), в дословном переводе «через крем­ни­е­вые отверстия».

Сравнение классического метода подключения и TSV. TSV позволяет пропустить сигнальные линии сквозь «многоэтажную конструкцию» из микросхем памяти, что существенно уменьшает занимаемую площадь и длину проводников
Рис 1. Сравнение классического метода подключения и TSV, который позволяет пропустить сигнальные линии сквозь «многоэтажную конструкцию» из микросхем памяти, что существенно уменьшает занимаемую площадь и длину проводников

Конечно, никто не запрещает экстенсивный подход — можно реализовать высокую разрядность просто поставив много микросхем на плату большой площади, пойдя на существенное увеличение стоимости и габаритов уст­рой­ства, а также ограничив тактовую частоту, поскольку устойчивая синхронизация и передача сигналов в этом слу­чае была бы затруднительной. В качестве примера одного из таких «устройств, опередивших время» можно при­вес­ти ви­де­о­адап­тер Matrox Parhelia-512.

Итак, физический принцип, лежащий в основе HBM, предельно прост: увеличение разрядности шины данных. А «изюминка» новой памяти кроется в методе реализации. Контактные площадки размещаются на микросхеме па­мя­ти таким образом, что несколько микросхем можно установить на плате в виде многоэтажной конструкции, что существенно уменьшает занимаемую площадь и длину проводников, влияющую на устойчивость передачи сиг­на­лов высокой частоты.

Сравнение характеристик стандартного DDR3 DIMM и примера реализации подсистемы памяти на основе HBM
Рис 2. Сравнение характеристик стандартного модуля DDR3 и реализации подсистемы памяти на основе HBM

Разрядность шины данных удалось увеличить от 64 бит до 1024 бит без увеличения габаритов конструкции. Про­пуск­ная способность подсистемы памяти для операций чтения и записи, равная произведению пропускной спо­соб­нос­ти одной сигнальной линии на количество сигнальных линий, увеличилась от 12.8 (PC3-12800) до 256 GBPS. Паразитные параметры, характеризующие электрофизическую устойчивость передачи сигналов, ми­ни­ми­зи­ро­ва­ны в результате минимизации габаритов подсистемы памяти. Здесь RLC расшифровывается как: R = активное со­про­тив­ле­ние линии связи L = индуктивность линии связи C = паразитная емкость

Сравнение характеристик первого и второго поколений памяти HBM и схематическая иллюстрация метода монтажа с применением TSV
Рис 3. Сравнение характеристик первого и второго поколений памяти HBM и схематическая иллюстрация метода монтажа с применением TSV

Критерии сравнения: емкость кристалла, пропускная способность в пересчете на одну линию, полная пропускная способность шины и количество «этажей» монтажа кристаллов памяти. Проблема отвода тепла в такой кон­струк­ции заслуживает быть темой отдельной статьи

Разрядность — не панацея

Решения, основанные на повышении разрядности, эффективны для потоковых операций, при которых вы­пол­ня­ет­ся чтение или запись непрерывных блоков сравнительно большого размера. В первую очередь это актуально для видео адаптеров. При работе графического акселератора, а также при передаче отображаемых данных из фрейм-буфера в канал отображения, имеет место последовательный доступ, для которого такой подход эффективен. Ан­та­го­ни­сти­ческий пример — при обработке фрагментированных, «мелко разбросанных» данных, когда не­об­хо­ди­мо прочитать несколько байтов, произвольно расположенных в адресном пространстве на большом расстоянии, шина данных высокой разрядности будет использоваться нерационально, так как в каждом 1024 или 4096-битном шин­ном цикле будет задействовано всего только 8 бит.

Вспомним и нашумевшую в свое время технологию Rambus, которая использует повышение частоты шины как аль­тернативу увеличению количества линий данных. Латентность (время реакции на изменившийся адрес) у нее то­же высокая, так как изменен подход к передаче сигналов и адресации банков, а не быстродействие самой ячей­ки па­мя­ти. Решение проблемы латентности и обеспечения производительности при работе с не потоковыми данными состояло бы в увеличении тактовой частоты самих ячеек DRAM, а не количества проводников и частоты пе­ре­да­ю­щих сигналы шин, но это значительно сложнее и затрагивает фундаментальные физические принципы, поэтому как HBM, так и RAMBUS делают упор на потоковые операции.

Резюме

Увеличение разрядности памяти, например, в видеоадаптере, где это в первую очередь актуально, принесет поль­зу только тогда, когда остальные участники событий (CPU, GPU, видеодрайвер etc.) способны обрабатывать дан­ные в увеличившемся темпе. Иначе, процесс будет напоминать соревнование между производственными ли­ни­я­ми, выпускающими правый и левый ботинок. В любом случае, не следует забывать и о маркетинговой со­став­ля­ю­щей про­ис­хо­дя­щих процессов.