Китайская компания Moore Threads представила специализированный ускоритель вычислений MTT S4000 на фирменном GPU, который обеспечивает производительность на уровне 200 TOPS (триллионов операций в секунду) в операциях, связанных с искусственным интеллектом и большими языковыми моделями.
В основе MTT S4000 используется графический процессор на основе архитектуры MUSA третьего поколения. Подробностей о самом GPU компания не сообщила. Ускоритель выполнен в формате карты расширения PCIe и оснащён 48 Гбайт памяти GDDR6 со скоростью 16 Гбит/с на контакт и общей пропускной способностью на уровне 768 Гбайт/с. Для MTT S4000 заявляется поддержка интерфейса MTLink 1.0, позволяющего объединять несколько подобных ускорителей в одной системе. Новинка обладает интерфейсом PCIe 5.0. Moore Threads — единственная компания на рынке, оснащающая свои видеокарты интерфейсом PCIe 5.0.
Компания заявляет, что MTT S4000 обеспечивает производительность 25 Тфлопс в операциях FP32, 50 Тфлопс в операциях TF32, 100 Тфлопс в операциях FP16/BF16 и 200 TOPS в операциях INT8. Это в пять раз больше, чем обеспечивают новейшие процессоры AMD Ryzen 8040 и Intel Core Ultra, оснащённые специализированными нейродвижками (NPU), предназначенными для различных ИИ-задач. Однако до флагманских ИИ-ускорителей NVIDIA и AMD ему далеко. PCIe-версия NVIDIA H100 обеспечивает до 51 Тфлопс в операциях FP32, до 756 Тфлопс в вычислениях TF32, 1513 Тфлопс при работе с FP16/BF16 и до 3026 TOPS в INT8.
Примечательной особенностью специализированного ИИ-ускорителя MTT S4000 является его оснащение четырьмя внешними видеоразъёмами. Обычно решения такого уровня подобных интерфейсов не имеют. К MTT S4000 можно подключать дисплеи с поддержкой разрешения до 8K. Ускоритель поддерживает до 96 видеопотоков в разрешении 1080p, а также работает с новейшими инструментами разработки USIFY, которые могут в полной мере использовать программное обеспечение NVIDIA на базе CUDA.
Moore Threads на презентации отметила, что MTT S4000 будут предлагаться в том числе в составе серверных вычислительных систем KUAE, аналогичных DGX-системам NVIDIA. В составе одного сервера KUAE MCCX D800 содержится восемь ускорителей MTT S4000. Платформа предлагает дальнейшую масштабируемость, позволяя объединять несколько таких серверов в единые кластеры. Ускорители Moore Threads MTT S4000 и системы KUAE на их основе поддерживают все современные большие языковые модели (LLM), включая Llama, GLM, Aquila, Baichuan, GPT, Bloom, Yuyan, и способны справляться с LLM, имеющими до 130 млрд различных параметров.
О стоимости MTT S4000 производитель ничего не сообщил. Известно, что первая партия из тысячи таких ускорителей будет использоваться для создания первого в Китае крупномасштабного вычислительного кластера для задач, связанных с ИИ.