Jul 14, 2023
Meta, MIT и другие тестируют роботизированную руку в оптической инфраструктуре искусственного интеллекта
Автор Агам Шах, 19 апреля 2023 г. Исследователи из Meta, MIT и других учреждений соединили серверы с дюжиной графических процессоров Nvidia с помощью оптических переключателей и роботизированной руки, разработав новое соединение, которое могло бы
Агам Шах
19 апреля 2023 г.
Исследователи из Meta, MIT и других учреждений соединили серверы с дюжиной графических процессоров Nvidia с помощью оптических переключателей и роботизированной руки, разработав новое соединение, которое можно было бы использовать для машинного обучения. Структура под названием «TopoOpt» может создавать сетевые топологии «на лету» в зависимости от вычислительных потребностей. Эта технология появилась в связи с тем, что высокопроизводительные компьютеры испытывают нагрузку из-за более широкого внедрения технологий искусственного интеллекта, таких как ChatGPT, который проверяет пределы суперкомпьютеров Microsoft с искусственным интеллектом.
Доклад об этой технологии был представлен на симпозиуме USENIX по проектированию и внедрению сетевых систем, который проходит на этой неделе.
TopoOpt использует алгоритмы для поиска самых быстрых методов параллельных вычислений на основе такой информации, как требования к обработке, доступные вычислительные ресурсы, методы маршрутизации данных и топология сети. Исследователи также усовершенствовали функцию AllReduce от Nvidia, которая минимизирует время связи между графическими процессорами и другими компонентами.
«TopoOpt создает выделенные разделы для каждого учебного задания, используя реконфигурируемые оптические переключатели и патч-панели, а также совместно оптимизирует топологию и стратегию распараллеливания внутри каждого раздела», — пишут исследователи.
Исследователи протестировали TopoOpt в инфраструктуре Meta, используя дюжину серверов Asus ESC4000A-E10, каждый из которых оснащен одним графическим процессором A100, сетевыми адаптерами HPE и сетевым адаптером Mellanox ConnectX5 со скоростью 100 Гбит/с. Сетевые адаптеры имели оптические приемопередатчики с прорывными волокнами.
«TopoOpt — это первая система, которая совместно оптимизирует топологию и стратегию распараллеливания для рабочих нагрузок машинного обучения, и в настоящее время она проходит оценку для развертывания в Meta», — сказали исследователи.
В установке также используется патч-панель от Telescent, которая реконфигурирует сеть с помощью «роботизированной руки, которая захватывает волокно на стороне передачи и соединяет его с волокном на стороне приема», говорится в документе. Роботизированная рука, управляемая программным обеспечением, перемещается вверх и вниз, чтобы соединить передающее волокно с принимающим волокном в любой точке системы. Это обеспечивает гибкость и эластичность, необходимые для быстрой реконфигурации сети. Патч-панели уже широко используются в коммерческих приложениях, но в настоящее время их предлагают использовать в центрах обработки данных.
Недавно компания Google представила документ, в котором подробно описывается, как она использовала суперкомпьютер искусственного интеллекта с оптическими переключателями для повышения скорости обучения на своих чипах TPU v4, сохраняя при этом энергопотребление. Коммутация оптических цепей (OCS) в установке Google не такая мобильная, как роботизированная рука, но использует зеркала для переключения между входными и выходными волокнами. Установка Google также представляла собой более крупный испытательный стенд с масштабным развертыванием на 4096 TPU.
Исследователи выбрали патч-панель, поскольку обнаружили, что оптические переключатели типа Google «в пять раз дороже» и поддерживают меньшее количество портов. В то же время исследователи заявили, что технология OCS, подобная той, что используется в Google, предназначена для масштабного развертывания. «Основное преимущество OCS заключается в том, что задержка их реконфигурации на четыре порядка быстрее, чем у патч-панелей», — пишут исследователи.
TopoOpt заранее определяет требования к вычислительным ресурсам и сети и готов к работе, как только серверы будут готовы и задача будет готова к развертыванию. «Мы уже знаем последовательность поступления заданий и количество серверов, необходимых для каждого задания», — пишут исследователи, добавляя, что «такая конструкция позволяет каждому серверу участвовать в двух независимых топологиях».
Исследователи пришли к выводу, что TopoOpt обеспечивает в 3,4 раза более быстрое время итерации обучения, чем другой метод, называемый «жирным деревом», в котором сетевая магистраль является центральным элементом инфраструктуры, которая затем передает данные на несколько уровней статических коммутаторов, связывающих серверную часть базовой сети. оборудование для интерфейсных серверов. Эта техника широко используется сегодня.
Использование оптических сетей в центрах обработки данных — это новая концепция, и исследователи представляют роботизированную руку и новый протокол связи как более дешевый способ создания сетевой инфраструктуры искусственного интеллекта. Жизнеспособность технологии проверяется Meta.