Обзор Ampere AmpereOne A192-32X

Категория
Обзоры
Дата
Ноябрь 6, 2024
AmpereOne A192-32X: Обзор 192-ядерного ARM-процессора для облака
AmpereOne A192-32X важно рассматривать в контексте. Это 192-ядерный процессор с тактовой частотой 3,2 ГГц (отсюда и название A192-32X), который по меркам 2024 года кажется заурядным. Предположительно, он был впервые продан в 2022–2023 годах, в основном в Oracle Cloud. Поскольку изначально он предназначался для облачных провайдеров, другим клиентам потребовалось немало времени, чтобы получить его. В 2024 году ситуация изменилась, и теперь у нас есть такие серверы, как Supermicro MegaDC ARS-211M-NR.


Компания Ampere нацелена на создание чипа, который можно будет разделить на части с помощью контейнеров или виртуальных машин для одновременного использования несколькими клиентами. Несмотря на все заявления о производительности, давайте на минутку задумаемся. Ampere не пытается создать процессор для высокопроизводительных вычислений. Это облачный чип.



Центральный чип, который вы видите, содержит ядра и кэш-память, изготовленные по 5-нм техпроцессу TSMC. Вокруг этого основного чипа расположены чипы меньшего размера, отвечающие за подключение PCIe и DDR5. В конечном счёте с AmpereOne M компания Ampere добавит ещё два чипа DDR5 и получит 12-канальный DDR5, соответствующий стандартам AMD и Intel. На данный момент мы рассматриваем 8-канальный процессор DDR5.


Тем не менее одним из преимуществ такого подхода является то, что задержка между ядрами может быть меньше, чем у Intel и AMD, поскольку используется единая вычислительная ячейка.

Производительность Supermicro MegaDC ARS-211M-NR
Теперь о том, что интересует всех: давайте немного поговорим о том, что происходит, когда вы получаете процессор Ampere AmpereOne A192-32X. В нём 192 ядра без SMT, то есть 192 потока. Это похоже на Intel Xeon 6 6700E Sierra Forest в том смысле, что SMT отсутствует, и это скорее E-ядро, чем P-ядро на языке x86.
Одна из областей, в которой этот процессор показывает себя с наилучшей стороны, — это работа всех ядер на частоте 3,2 ГГц. Это стресс-тест для 192 ядер, и тактовая частота 3,2 ГГц распространяется на все 192 ядра.

Результаты SPEC CPU2017
SPEC CPU2017 — это, пожалуй, самый известный и часто используемый бенчмарк в серверных RFP. Мы проводим собственное тестирование SPEC CPU2017, и наши результаты обычно на несколько процентных пунктов ниже, чем официальные результаты OEM-производителей. Разница составляет примерно 5 % из-за всей той работы по оптимизации, которую проводят OEM-производители для этих важных бенчмарков. Поскольку на данный момент есть официальные цифры, логично использовать их, если мы говорим об отраслевом бенчмарке.

Кто-то может возразить, что GCC — это наименьший общий знаменатель, и это правильный подход. С другой стороны, крупнейшая компания по производству чипов, NVIDIA, добилась таких результатов с помощью CUDA и оптимизированной цепочки инструментов. Если мы скажем, что нам нужно использовать GCC, значит ли это, что нам нужно отказаться от использования инструментов NVIDIA для оценки производительности ИИ? Мы считаем, что, поскольку официальные результаты не зависят от используемого компилятора, мы должны придерживаться этой методологии.
Во-первых, разница в производительности между Altra Max и AmpereOne огромна. На 50 % больше ядер, но производительность выросла почти вдвое.
Если сравнивать результаты с AMD, то Turin Dense просто монстр. У AMD в два раза выше производительность на сокет и в два раза больше потоков. Ampere может похвастаться компиляторами, а соотношение 1 ядро/1 поток позволяет запускать 192 виртуальные машины с 1 виртуальным ЦП на процессор. AMD, скорее всего, возразит, что может запускать 192 виртуальные машины с 2 виртуальными ЦП на процессор.
По сравнению с Intel, которая снова использует другой компилятор, 144-ядерный Intel Xeon 6780E очень близок к ней. Ampere может работать с 192 виртуальными машинами с 1 виртуальным процессором на ядро, в то время как Intel — только с 144. Если вы являетесь поставщиком облачных услуг, то чем больше виртуальных процессоров, тем больше клиентов на одну систему.
Учитывая, что Sierra Forest-AP выйдет в первом квартале 2025 года, можно предположить, что 288-ядерная часть будет иметь производительность 1250–1410. AmpereOne M, если он будет линейно масштабироваться до 256 ядер, будет иметь производительность 936. Это близко к 128-ядерной/256-поточной части AMD EPYC Bergamo.
Производительность STH nginx CDN
В тесте nginx CDN мы используем старый снимок и шаблоны доступа с веб-сайта STH с отключенным кэшированием DRAM, чтобы показать, как выглядит процесс извлечения данных с дисков с точки зрения производительности. Для этого требуется низкая задержка при работе nginx, но при этом требуется дополнительный этап доступа к вводу-выводу с низкой задержкой, что делает этот процесс интересным на уровне сервера. Вот краткий обзор дистрибутива:

Мы подробно рассмотрели энергопотребление платформы AmpereOne, которую мы используем в обзоре Supermicro MegaDC ARS-211M-NR. Главный вывод заключается в том, что энергопотребление в режиме ожидания было довольно высоким по сравнению с платформой Xeon 6700E или платформой AMD EPYC 9005. Разница была не в 10–20 Вт, а в 70 Вт и более, что очень заметно для односокетной системы.

Ключевые выводы: конкуренция Intel
Во-первых, Intel Xeon 6700E выглядит очень неплохо. Intel конкурентоспособна с точки зрения производительности. E-ядра Intel как минимум не уступают ядрам AmpereOne. Можно отдать предпочтение AmpereOne, но в то же время это было бы недальновидно. На данный момент тот факт, что у Ampere 192 ядра, в то время как Intel Xeon 6700E ограничен 144 ядрами, является большим преимуществом для Ampere. У Ampere больше ядер, поэтому он выигрывает там. Тем не менее, Intel в значительной степени сократила отставание.

Возможно, ещё одним важным фактором является стоимость. AmpereOne с 192 ядрами стоит вдвое дешевле, чем Intel Xeon 6780E.
Ключевые выводы: конкуренция с AMD
У крупных чипов AMD более высокая прейскурантная цена, но серия AMD EPYC 9005 «Турин» очень хороша. Возможно, для этого есть веская причина. AmpereOne на самом деле должен был стать конкурентом AMD EPYC 9754 «Бергамо», а не Turin Dense. Если вспомнить, что в 2023 году Ampere поставляла AmpereOne таким клиентам, как Oracle Cloud, то это становится гораздо более логичным. 8-канальный процессор AmpereOne не был предназначен для конкуренции с процессором Turin Dense, имеющим 192 ядра и 384 потока.

Ключевые выводы: конкуренция с NVIDIA
NVIDIA здесь выступает в роли «подстановочного символа».

Мы не видим рынка для AmpereOne в высокопроизводительных системах для обучения и логического вывода HGX B100/ HGX B200. В то же время, поскольку NVIDIA продвигает Arm среди своих клиентов и в экосистеме, одними из наиболее оптимизированных приложений для Arm на данный момент являются веб-серверы, на которые нацелен AmpereOne.
Дело в том, что если вам нужна локальная архитектура Arm, то вы покупаете либо NVIDIA, либо Ampere, и оба производителя ориентируются на противоположные крайности в спектре производительности на ядро.
Ключевые выводы: конкуренция в сфере облачных технологий
Облако — это не что иное, как поле битвы для Ampere. Основная проблема Ampere заключается в том, что крупные гиперскейлеры создают собственные чипы. Такие компании, как Microsoft с Azure Cobalt 100, могут использовать Arm Neoverse CSS для создания собственных разработок. AWS выходит на новый уровень с Graviton.

AmpereOne фактически занимает эту нишу на рынке. Гораздо сложнее заключить сделку на поставку от нескольких до нескольких тысяч процессоров, чем на поставку 25 000 процессоров. Теперь вопрос в том, сосредоточится ли Ampere на предоставлении пользователям доступа к облачным инстансам Arm.
Заключительные слова
Является ли AmpereOne самым быстрым процессором, который можно купить в четвёртом квартале 2024 года? Нет. Он и не претендует на это. Вместо этого он представляет собой конструкцию на базе архитектуры Arm, которая предлагает 192 ядра с энергопотреблением чуть более 2 Вт на ядро. Одна из серьёзных проблем заключается в том, что мы всегда оцениваем производительность целых чипов. На самом деле они используются в облачных инстансах, состоящих в основном из 8 виртуальных ЦП или меньшего их количества. Скорее всего, эти экземпляры работают с низкой загрузкой процессора, и более мощное и быстрое ядро будет просто лишним.

В целом, учитывая, что это процессор 2022–2023 годов, который мы рассматриваем в 2024 году, AmpereOne хорош. Однако, возможно, более важным выводом будет то, что AmpereOne — единственный вариант, если вы не работаете в компании, которая может производить собственные чипы, но хочет использовать облачную архитектуру Arm. Иногда быть единственным в своём роде — это здорово.
Источник: ServeTheHome