Процессоры AMD EPYC 4 поколения

Заказ звонка

*
*
Защита от автоматических сообщений
CAPTCHA
Введите слово на картинке*

Процессоры AMD EPYC 4 поколения

15.09.23

10 ноября 2022 года корпорация AMD анонсировала выпуск серверных процессоров EPYC серии 9004, основанных на микроархитектуре Zen4. AMD продолжает делать ставку на наращивание количества ядер и объема кэша для 1- и 2-процессорных систем. Максимальное число ядер в первоначально вышедшей линейке процессоров — 96, а после появления в июне 2013 процессоров с микроархитектурой Zen4c — 128.

Процессор AMD EPYC 9654. © ServeTheHome.

Кодовое название новой серии процессоров — Genoa («Генуя»). AMD продолжает традицию названий по итальянским городам. Предыдущие процессоры были названы в честь Рима, Неаполя и Милана.

EPYC 4-го поколения — это не просто экстенсивное улучшение предыдущей архитектуры Zen3 за счет уменьшения техпроцесса (переход на 5 нм вместо 7) и оптимизации архитектуры. Улучшение блоков предсказания ветвлений, увеличение объема кэша L2 и другие изменения позволили получить небольшой прирост, около 14%, производительности на ядро в сравнении с Zen3. Но основные улучшения Zen4 заключаются в другом:

  • Рост плотности размещения ядер (в 1,5, затем в 2 раза — с 64 до 128 ядер).
  • Рост пропускной способности памяти. Вместо 8 каналов DDR4-3200 теперь 12 каналов DDR5-4800. Пропускную способность и объем можно увеличить дополнительно за счет подключения устройств CXL, о которых мы расскажем ниже.
  • Рост пропускной способности ввода-вывода за счет перехода на PCIe 5.0.

PCIe 5.0

Теоретическая пропускная способность нового поколения PCI Express удвоилась в сравнении с PCIe 4.0 — до 32 Гбит/с без учета кодирования. Пропускная способность 16 линий составляет внушительные 63 ГБ/с.

Наращивание плотности размещения ядер влияет на доступную пропускную способность ввода-вывода. Дело в том, что процессоры с большим количеством ядер состоят не из одного монолитного блока. Процессорные ядра сгруппированы по 8 на модуле CCD (Сore Сomplex Die) в процессорах Genoa или по 16 в появившихся летом процессорах Bergamo. Например, в 96-ядерном AMD EPYC 9654 используется 12 8-ядерных CCD. Блоки CCD подключены к блоку ввода-вывода (I/O die) через шину GMI3. Хорошая новость заключается в том, что процессоры с «небольшим» числом ядер (до 32) с 4 CCD используют два линка GMI3 на каждый CCD вместо одного.

Для соединения процессоров в 2-процессорных конфигурациях используется Infinity Fabric, но соответствующие блоки SerDes являются универсальными — они могут работать в режиме PCI Express. Это дает интересную возможность производителям материнских плат. Процессоры позволяют выбрать между 3 и 4 линками Infinity Fabric. Сэкономленный линк можно задействовать под дополнительные 16 линий PCIe 5.0 и получить таким образом в 2-процессорной системе 160 линий вместо 128.

DDR5

В сравнении с DDR4 мы получаем даже на старте увеличение пропускной способности в 1,5 раза — с 3,2 до 4,8 ГБ/с на модуль для поддерживаемой новыми процессорами AMD DDR5-4800. Прогнозируется дальнейшее увеличение пропускной способности. Сейчас уже есть образцы серверных модулей 5600 и 6400 МБ/с, в дальнейшем планируется до 8400 МБ/с.

Модуль памяти DDR5. © Wikimedia Foundation.

Уменьшение техпроцесса вместе с наращиванием объема памяти отрицательно сказывается на надежности. Для решения этой проблемы применяется коррекция ошибок на уровне чипа (On-Die ECC) по схеме 128+8. Внутричиповый ECC не отменяет необходимости в традиционном ECC на уровне модулей для серверной памяти.

К сожалению, стоит DDR5 сейчас существенно дороже. Например, модули 64 ГБ RDIMM обойдутся в два раза дороже, чем DDR4. Производители пытаются сгладить эту разницу за счет выпуска модулей нестандартного объёма — 48 и 96 ГБ.

Существующие на данный момент материнские платы для AMD EPYC 4-го поколения поддерживают 1 или 2 модуля на канал, объём — до 6 ТБ на процессор. Вместе с увеличением количества каналов быстрая DDR5 обеспечивает более чем 2-кратный рост пропускной способности памяти, но при небольшом увеличении задержки — со 105 до 118 нс. При установке 2 модулей на канал максимальная частота работы памяти снижается до 4000 или 3600 (при использовании 1-ранговых и 2-ранговых модулей соответственно).

CXL (Compute Express Link)

Compute Express Link — высокоскоростной интерфейс для подключения устройств ввода-вывода и памяти. Спецификация первой версии стандарта CXL появились в 2019 году, а поддержка со стороны серверных платформ повилась в последних поколениях процессоров AMD и Intel. Особенность CXL заключается в том, что он работает поверх PCI Express, и для получения достаточной пропускной способности потребовалось дождаться появления PCIe 5.0.

Процессоры AMD EPYC 9004 поддерживают устройства класса CXL.mem, то есть устройства, обеспечивающие простое расширение оперативной памяти. Такие устройства в поддерживаемых ОС выглядят, как дополнительный узел NUMA, содержащий только память, без своего процессора.

Для CXL в процессоре можно выделить до 64 линий, а одно CXL устройство, подключаемое через 16 линий, получает пропускную способность, приблизительно соответствующую двум каналам DDR5 при уровне задержек 170–250 нс (в 1,5–2 выше в сравнении с памятью, подключаемой к контроллеру процессора). То есть память, подключаемая через CXL рассматривается инженерами в качестве еще одного уровня в иерархии — между NVMe и подключаемой напрямую DRAM.

Модуль памяти DDR5 CXL EDSFF. © Samsung.

Прототипы модулей DDR5 объемом 512 ГБ уже представили Samsung и Hynix. Модули выполнены в форм-факторе EDSFF, который уже применяется для SSD. Впрочем, использование определенного форм-фактора не является обязательным, устройства CXL могут быть выполнены и в виде плат расширения PCIe.

Теоретически, при использовании 4 устройств CXL.mem для 1-процессорной системы мы можем получить в дополнение к штатным 12 каналам DDR5 ещё 8.

Обновление: процессоры Bergamo

13 июня 2023 года были анонсированы процессоры под кодовым названием Bergamo. Инженерам AMD удалось уменьшить площадь, занимаемую ядром Zen4 на 35% за счет оптимизации и уменьшения размера кэшей, что позволило разместить в одном корпусе 128 ядер.

Блоки CCD вместо 8-ядерных стали 16-ядерными, новые процессоры используют 7 или 8 таких блоков (112 или 128 ядер). Основное применение этих процессоров — крупные облачные проекты, где требуется постоянное наращивание плотности размещения вычислительных ресурсов.

Процессор AMD EPYC серии Genoa-X со снятой крышкой. © ServeTheHome.

Одновременно были представлены три процессора серии Genoa-X, в которых была применена технология 3D V-Cache, ранее уже опробованная на процессорах Ryzen последнего поколения и серверных EPYC серии Milan-X. Площадь кристалла всегда была основным фактором, ограничивающим объем кэш-памяти. В процессорах с 3D V-Cache дополнительный объем кэша L3 находится на отдельном кристалле, который смонтирован поверх CCD. В случае с AMD Bergamo применение данной технологии позволило на той же площади получить гигантский кэш L3 — более 1 гигабайта в максимальной конфигурации (96-ядерный EPYC 9684X). Еще два процессора, 16-ядерный 9184X и 32-ядерный 9384X получили по 768 МБ кэша L3 вместо 256 МБ у обычных процессоров с аналогичным количеством ядер из этой линейки.

Платформы Supermicro H13

Платформа Supermicro AS-2125HS-TNR. © Super Micro Computer, Inc.

Компания Supermicro выпустила большое количество платформ под новое поколение процессоров EPYC. Их можно разделить на 4 группы (модульные решения, Twin, MicroCloud мы рассматривать не будем из-за логистических трудностей):

  1. H13 CloudDC. Бюджетные серверы общего назначения. 12 DIMM, опциональная поддержка NVMe:
  2. H13 Hyper. Однопроцессорные серверы с 24 DIMM и штатной поддержкой NVMe:
    • AS-1115HS-TNR. 1U, 8x 2.5", 3 слота PCIe x16
    • AS-2015HS-TNR. 2U, 12x 3.5", 4 слота PCIe x16 (с возможность сконфигурировать до 8 слотов x8 в разных сочетаниях).
    • AS-2115HS-TNR. 2U, 24x 2.5", 4 слота PCIe x16 (с возможность сконфигурировать до 8 слотов x8 в разных сочетаниях), количество доступных слотов PCIe зависит от количества используемых накопителей NVMe.
  3. H13 Hyper-U. Двухпроцессорные серверы:
    • AS-1125HS-TNR. 1U, 8x 2.5", 3 слота PCIe x16
    • AS-2025HS-TNR. 2U, 12x 3.5", 4 слота PCIe x16 (с возможность сконфигурировать до 8 слотов x8 в разных сочетаниях).
    • AS-2125HS-TN. 2U, 24x 2.5", 4 слота PCIe x16 (с возможность сконфигурировать до 8 слотов x8 в разных сочетаниях), количество доступных слотов PCIe зависит от количества используемых накопителей NVMe.
  4. H13 All-Flash EDSFF. Однопроцессорные серверы с поддержкой устройств форм-фактора EDSFF (накопителей NVMe и устройств CXL):

Ссылки:

  • Пресс-релиз AMD.
  • AMD EPYC 9004 Series Architecture Overview. Обзор архитектуры процессоров AMD EPYC серии 9004. Содержит важную информацию о топологии CCD/CCX, контроллера памяти и возможностях настройки топологии NUMA (Numa Nodes Per Socket, LLC as NUMA).

Вернуться к списку


Контакты:

  • Адрес: 115487, г. Москва, ул. Нагатинская, дом 16 (Метро "Нагатинская")
  • Телефон: (495) 747-3113
  • Факс: (495) 747-3112
  • Гарантийный отдел: (495) 747-3113 (доб. 333, 304)
  • Отдел продаж: (495) 747-3113
© 2006-2024 True System inc