Обзор видео подсистемы серверной платы Tyan S5533

30 Ноя 2014

Обзор видео подсистемы серверной платы Tyan S5533

Плата TYAN S5533 позиционируется производителем как серверная. Но, наличие слота PCI Express 3.0 с шириной шины x16 и полосой пропус­ка­ния 8.0 гига-транзакций в секунду дает возможность построить на ее основе графическую станцию. Сегодня предметом нашего низко­уров­не­во­го исследования будет измерение пропускной способности для опе­ра­ции записи в видео память, выполняемой центральным процессором. В этом нам поможет утилита UEFImark от IC Book Labs.

Интегрированный видео адаптер

Интегрированный видео адаптер входит в состав многофункциональной микросхемы ASPEED AST2300. Микросхема подключена к PCI Express порту, реализованному в составе системной логики c шириной шины x1. Как и ожидалось, результаты скромные (рис.1). Низкая пропускная способность обусловлена малой разрядностью соединения, а высокая латентность – большим количеством транзитных звеньев между центральным процессором и видео адаптером. Но для выполнения функций интегрированного видео адаптера серверной платы, такой производительности вполне достаточно.

Результаты для интегрированного видео адаптера
Рис.1 Результаты для интегрированного видео адаптера. Запись в видео память с использованием 128-битных SSE-инструкций – 69.6 мегабайт в секунду, с использованием классических 32-битных 386-инструкций – 18.3 мегабайта в секунду. При вызове функции firmware BLT – 36.4 мегабайта в секунду.

Дискретный видео адаптер PCI Express 3.0

Экспериментируем с видео адаптером ASUS HD7950. В этом опыте задействуется порт PCI Express 3.0, входящий в состав процессора. Порт поддерживает ширину шины x16 и полосу пропускания 8.0 GT/S (гига-транзакций в секунду). Примечательно, что UEFI BIOS Setup позволяет управлять установкой полосы пропускания и устанавливать три значения, соответствующие трем поколениям шины PCI Express: 2.5GT/S, 5.0GT/S и 8.0GT/S.

Как и ожидалось, при старте платформы UEFI firmware устанавливает диапазон доступа к видео памяти ниже отметки 4GB. Это обеспечивает совместимость с 32-битным программным обеспечением, но блокирует возможность использования технологии Write Combining, существенно ускоряющей запись в видео память. Данная проблема и методы ее решения детально рассмотрены в материале "UEFI-диагностика: первые итоги". Используемая в наших экспериментах утилита UEFImark Extreme Edition v0.98 позволяет выполнить бенчмарки как в обычном, так и в оптимизированном системном контексте. Во втором случае, конфигурационные регистры платформы модифицируются, и диапазон доступа к видео памяти располагается выше 4GB. Проигнорировать этот, казалось бы, частный технический аспект, мы не можем, так как для ряда тестов, примененная оптимизация повышает производительность более чем на порядок и, как будет показано ниже, только при ее включении результаты бенчмарок зависят от установленной полосы пропускания шины PCI Express. 

Итак, приступаем к тестированию…


Установлен режим PCI Express 1.0 (2.5 GT/S). Оптимизация системного контекста не используется. Диапазон доступа к видео памяти расположен ниже отметки 4GB (E0000000h-EFFFFFFFh). Запись в видео память с использованием 128-битных SSE-инструкций – 311.6 мегабайт в секунду, с использованием классических 32-битных 386- инструкций - 77.1 мегабайта в секунду. При вызове функции firmware BLT – 153.2 мегабайта в секунду.
 


Установлен режим PCI Express 1.0 (2.5 GT/S). Включена оптимизация системного контекста. Диапазон доступа к видео памяти расположен выше отметки 4GB (7F0000000h-7FFFFFFFFh). Запись в видео память с использованием 128-битных SSE-инструкций – 2793.0 мегабайт в секунду, с использованием классических 32-битных 386-инструкций – 2674.4 мегабайта в секунду. Вызов функции firmware BLT в данном тесте невозможен из-за измененного базового адреса видео памяти.


Установлен режим PCI Express 2.0 (5.0 GT/S). Оптимизация системного контекста не используется. Диапазон доступа к видео памяти расположен ниже отметки 4GB (E0000000h-EFFFFFFFh). Запись в видео память с использованием 128-битных SSE-инструкций – 311.6 мегабайт в секунду, с использованием классических 32-битных 386- инструкций – 77.1 мегабайта в секунду. При вызове функции firmware BLT – 153.2 мегабайта в секунду.


Установлен режим PCI Express 2.0 (5.0 GT/S). Включена оптимизация системного контекста. Диапазон доступа к видео памяти расположен выше отметки 4GB (7F0000000h-7FFFFFFFFh). Запись в видео память с использованием 128-битных SSE-инструкций – 4995.4 мегабайт в секунду, с использованием классических 32-битных 386-инструкций – 3823.1 мегабайта в секунду. Вызов функции firmware BLT в данном тесте невозможен из-за измененного базового адреса видео памяти.


Установлен режим PCI Express 3.0 (8.0 GT/S). Оптимизация системного контекста не используется. Диапазон доступа к видео памяти расположен ниже отметки 4GB (E0000000h-EFFFFFFFh). Запись в видео память с использованием 128-битных SSE-инструкций – 311.6 мегабайт в секунду, с использованием классических 32-битных 386- инструкций – 77.1 мегабайта в секунду. При вызове функции firmware BLT – 153.2 мегабайта в секунду.


Установлен режим PCI Express 3.0 (8.0 GT/S). Включена оптимизация системного контекста. Диапазон доступа к видео памяти расположен выше отметки 4GB (7F0000000h-7FFFFFFFFh). Запись в видео память с использованием 128-битных SSE-инструкций – 5099.7 мегабайт в секунду, с использованием классических 32-битных 386-инструкций – 3823.0 мегабайта в секунду. Вызов функции firmware BLT в данном тесте невозможен из-за измененного базового адреса видео памяти.

Резюме

Одной из задач данного исследования было подтвердить, что серверный статус исследуемой платформы не несет каких-либо ограничений при использовании высокопроизводительной дискретной графики. Вывод – противопоказаний не найдено. Вместе с тем мы в очередной раз убеждаемся, что производительность графической подсистемы существенно зависит от качества написания программного обеспечения: firmware и драйверов.

Для правильной оценки полученных результатов необходимо понимать следующее. В современных операционных системах при использовании технологий 2D и 3D-акселерации, графический процессор видео карты выполняет собственную программу и взаимодействует с оперативной памятью в обход центрального процессора. В утилите UEFImark используется другой подход – запись в видео память выполняется центральным процессором. Это дает возможность применить единые алгоритмы и методы тестирования, независимо от модели видео адаптера. Такой подход уместен, если мы анализируем шинную топологию системной платы и не уместен – если необходимо протестировать сам графический процессор.

Теги: