Мы подобрали одни из самых выосокопроизводительных и надежных вариантов платформ с поддержкой максимального количества видеокарт из доступных на рынке.
С описанием некоторых из них можно ознакомиться ниже. Если вас заинтересовало какое-то иное решение от указанных производителей - вы также можете обратиться к нам и мы расчитаем решение на его основе.
SuperServer от Supermicro на базе NVIDIA® HGX-2, 9029GP-TNVRT, поддерживает 16 GPU NVIDIA Tesla® V100 Tensor Core 32 ГБ с возможностью соединения посредством NVIDIA NVLink™ и NVSwitch™, что позволяет ему использовать свыше 80 000 ядер CUDA и обеспечивает феноменальное ускорение ИИ (искуственного интелекта) и ВПВ как в физической среде, так и в облаке. Эта система демонстрирует производительность на уровне до 2 петафлопсов, занимая при этом всего десять юнитовк стоечного пространства.
Сервер Dell EMC DSS 8440 предлагает гибкий баланс ускорителей, начиная с 4, 8 или 10 графических процессоров NVIDIA® Tesla® V100 и высокоскоростного ввода-вывода с производительным локальным хранилищем, чтобы обеспечить высокое быстродействие для ресурсоемких рабочих нагрузок, таких как моделирование, имитационное моделирование и предиктивная аналитика в научных и инженерных средах. Предлагая эффективную производительность для популярных фреймворков, система DSS 8440 идеально подходит для приложений машинного обучения, сокращая время, необходимое для обучения моделей и получения результатов аналитики. Это позволяет заказчику легко масштабировать ускорение и ресурсы в соответствии с требованиями бизнеса. Открытая архитектура сервера DSS 8440, основанная на отраслевом стандарте PCIe, позволяет осуществлять запланированную кастомизацию внутренних компонентов, таких как ускорители, опции хранения и сетевые карты.
Сервер Lenovo ThinkSystem SR670 обеспечивает оптимальную производительность для рабочих нагрузок, связанных с искусственным интеллектом и высокопроизводительными вычислениями (HPC). Благодаря поддержке до 4 видеокарт большого форм-фактора или 8 видеокарт малого форм-фактора в каждом узле размером 2U он отлично подходит для обработки рабочих нагрузок, требующих большой вычислительной мощности (например, для машинного обучения, глубокого обучения и анализа данных).
Сервер ThinkSystem SR670, построенный на базе новейшего семейства процессоров Intel® Xeon® Scalable и поддерживающий самые мощные видеокарты, включая NVIDIA Tesla V100 или T4, обеспечивает оптимальную производительность для ускоренной обработки рабочих нагрузок, связанных с высокопроизводительными вычислениями, искусственным интеллектом
Платформа Gigabyte G291 - оптимальный вариант для реализации сервера для машинного обучения и иных задач с высокой нагрузкой на видеомодули. Есть два варианта реализации с 8-ю двухслотовыми видеокартами и 16-ю однослотовых.
Поддерживаемые процессоры Xeon Scalable последних поколений, включая Cascade Lake до 2 штук.
Под опертаивную память доступно 24 слота с поддержкой до 128GB на модуль. В наличии также два блока питания и IPMI.
Под накопители отведено 8 x 2,5 слотов HDD/SSD
Шасси PRIMERGY CX400 M4 является самым компактным вычислительным решением компании Fujitsu. Оно позволяет установить до 4 двухпроцессорных серверных узлов и до 24 накопителей данных в одном корпусе форм-фактора 2U. CX400 M4 обеспечивает общее питание, охлаждение и управление для узлов и компонентов.
Первыми сертифицированы серверы Fujitsu Primergy CX2570 M4, выступающие компонентами модульной платформы CX400 M4, а также сервер Fujitsu Primergy RX2540 M4.
Конфигурация CX2570 M4 может включать до четырех графических процессоров Tesla V100, подключенных через интерфейс NVLink. В RX2540 M4 используется интерфейс PCle, а максимальное число графических процессоров Tesla V100 равно двум.
Универсальный сервер Huawei Atlas G5500 Server предназначен для развертывания в центрах обработки данных. В шасси высотой 4U можно установить до 8 полноразмерных универсальных двухслотовых плат ускорителя (GPU) мощностью до 350 Вт или 16 универсальных однослотовых платы ускорителя (GPU) мощностью до 75 Вт.
Поддержка технологий GPUDirect RDMA и однорангового взаимодействия, обеспечивающих прямой доступ к памяти с помощью нескольких плат GPU.
FusionServer G5500 базируется на 2-х процессора Xeon Scalable последнего поколения и поддерживает до 24 слотов модулей оперативной памяти.
Компания Тринити – системный интегратор с богатым опытом реализации решений для глубокого обучения и искусственного интеллекта (Deep learning & AI) и официальный партнер со статусом NVIDIA Solution Provider.
Решения Nvidia
Лидирующим игроком, продукты которого наиболее популярны для решения задач машинного обучения, является сегодня, по большинству оценок, компания Nvidia. Важнейшие компоненты нейронных сетей - графические процессоры, обеспечивающие высокую производительность при выполнении таких операций, как умножение больших матриц, свертка функций и ряд других, где очень важен массовый параллелизм. Например, такими возможностями обладают графические карты Nvidia Tesla T4, разработанные для приложений искусственного интеллекта, которые предназначены для установки в специализированные серверные платформы и используются в вычислительных системах центров обработки данных. GPU (графические процессоры) Nvidia содержат новые тензорные ядра на основе микроархитектуры Turing, обеспечивающие, в том числе, очень высокую производительность при перемножении матриц с пониженной точностью и отличаются низким энергопотреблением, позволяющим устанавливать их без дополнительных источников питания в разъемы PCI Express серверов. А для оптимизации моделей глубинного обучения в Nvidia выпустили обновление TensorRT. Теперь эта платформа глубинного обучения содержит сервер принятия решений, а также контейнеризированный микросервис поддержки процессов логических умозаключений (inference), который, легко интегрируется с инфраструктурой Kubernetes, автоматизирующей развертывание и масштабирование контейнеризированных приложений, а также управление ими.
Высокопроизводительные вычисления GPU стали новой тенденцией в развитии машинного обучения благодаря высокой производительности и энергоёмкости, которые необходимы для эффективной обработки данных. Ведь для обучения глубоких нейронных сетей, являющихся параллельными алгоритмами, вычисления с помощью GPU требуют гораздо меньше времени. Облачные вычисления на базе GPU помогают решать задачи, требовавшие ранее значительных мощностей, долгого времени на исследования и привлечения больших людских ресурсов. Теперь же инфраструктура, на которой базируется графический процессор, стала намного более энергоемкой и не нуждается в больших финансовых затратах.
Для получения наиболее высоких результатов в указанных областях и надежности решений нами используются одни из самых производительных графических адаптеров на текущий момент.
В том числе NVidia Tesla T4 и V100 на архитектурах Turing и Volta, которые ориентированы на центры обработки данных, системы искусственного интеллекта и так далее.
NVIDIA Tesla V100 с тензорными ядрами – самый технически продвинутый в мире GPU для дата-центров, предназначенный для ускорения искусственного интеллекта, HPC, наука о данных и графики. Созданный на основе архитектуры NVIDIA Volta, он доступен в конфигурации с 16 или 32ГБ памяти и обеспечивает производительность на уровне 100 CPU.
Для Tesla V100 также доступны 2 модификации: с интерфейсом NVLink, и с интерфейсом PCIe. И точно также как и для Telsa P100 версия с PCIe незначительно проигрывает по производительности версии с NVLink, но несмотря на это версия с PCIe Tesla V100 почти в полтора раза превосходит Tesla P100 с NVLink по производительности.
Одним из главных отличий и нововведений Tesla V100 является наличие 640 тензорных ядер. Они специализируются на простых матричных перемножениях: если CUDA ядро вычисляет произведение двух чисел за один такт, то тензорное ядро за один такт производит перемножение двух матриц 4х4. Эти ядра имеют относительно небольшую сложность в реализации на транзисторах и занимают небольшую площадь на плате, но значительно повышают энергоэффективность при работе с обучением искусственного интеллекта.
Tesla V100 как представитель следующего поколения графических ускорителей Tesla тоже нацелена на высокопроизводительные вычисления в области искусственного интеллекта и обучении нейронных сетей. Но, благодаря улучшенной версии NVLink можно более продуктивно соединить несколько ускорителей, тем самым получив больший прирост производительности.
NVIDIA Tesla T4 - это новейшее и наиболее продвинутое решение для логического вывода для гипермасштабных центров обработки данных, которые обеспечивают универсальное ускорение вывода и охватывают такие приложения, как классификация изображений, теги, видеоаналитика, обработка естественного языка, автоматическое распознавание речи и интеллектуальный поиск. Широкие возможности логического вывода Tesla T4 позволяют использовать его в корпоративных решениях и периферийных устройствах.
Архитектура Turing GPU, в дополнение к тензорным ядрам Turing, включает в себя несколько функций для улучшения производительности приложений ЦОД. Некоторые из ключевых особенностей:
Улучшенный видео движок
По сравнению с архитектурами Pascal и Volta GPU предыдущего поколения, Turing поддерживает дополнительные форматы декодирования видео, такие как HEVC 4: 4: 4 (8/10/12 бит) и VP9 (10/12 бит)
Усовершенствованный видео движок в Turing способен декодировать значительно большее количество одновременных видеопотоков, чем эквивалентные графические процессоры Tesla на основе Pascal.
Многопоточность Turing
Архитектура Turing GPU первой наследует расширенную функцию многопоточной службы (MPS), введенную в архитектуре Вольта. По сравнению с графическими процессорами Tesla на основе Pascal, MPS на Tesla T4 улучшает производительность вывода для небольших размеров пакетов, уменьшает задержку запуска, улучшает качество и увеличивает количество одновременно обработанных запросов.
Более высокая пропускная способность и больший объем памяти
Благодаря 16 ГБ памяти GPU и пропускной способности 320 ГБ / с Tesla T4 позволяет удвоить пропускную способность и объем памяти своего предшественника Tesla P4 GPU. С Tesla T4 центры обработки данных в гиперпространстве могут фактически удвоить плотность пользователей для виртуальных приложений настольной инфраструктуры (VDI).
Машинное обучение – один из методов искусственного интеллекта, для достижения конечной цели в котором применяется не прямое решение задачи, а «обучение» компьютерных систем на основе решения множества сходных задач. Алгоритмы машинного обучения основаны на средствах математической статистики, теории вероятностей, теории графов, численных методах, задач аппроксимации функций, когда входные данные об объектах могут быть неполными, неточными, нечисловыми, разнородными. Для сложных задач, требующих аналитических вычислений, которые основываются на современных представлениях о возможностях мозга человека, используются нейронные сети, предоставляющие, в том числе, возможность решения в ИТ-системах проблемы эффективного параллелизма.
Современные приложения для машинного обучения требуют значительных вычислительных ресурсов. Такими ресурсами сегодня располагают крупные центры обработки данных, а также большие облачные провайдеры. Но мы предлагаем Вам другое решение – построить собственное ИТ-решение для задач машинного обучения. Преимущество такого шага – это свой комплекс, который вы можете настраивать под свои нужды и распологать его ресурсами в полном объеме и полной уверенностью в сохранности результатов вашей работы. Применение графических или нейро-процессоров в таких решениях является безусловнымю Лидерами компонентов для построения конечного высокопроизводительного комплекса машинного обучения являются компании Intel и Nvidia. Каждый вендор предлагает свою архитектуру, которая имеет различные преимущества для решения задач искусственного интеллекта и машинного обучения и реализуется в центральных и графических процессорах, интегральных схемах специального назначения (ASIC) и программируемых логических матрицах (PLM).
Развернуть
Свернуть