Программируемые фотонные нейронные сети, сочетающие WDM с когерентной линейной оптикой

Блог

ДомДом / Блог / Программируемые фотонные нейронные сети, сочетающие WDM с когерентной линейной оптикой

Aug 13, 2023

Программируемые фотонные нейронные сети, сочетающие WDM с когерентной линейной оптикой

Scientific Reports, том 12, номер статьи: 5605 (2022) Цитировать эту статью 4884 Доступов 19 Цитирований 1 Подробности об альтметрических метриках Нейроморфная фотоника до сих пор полагалась либо исключительно на когерентную, либо на

Научные отчеты, том 12, Номер статьи: 5605 (2022) Цитировать эту статью

4884 Доступа

19 цитат

1 Альтметрика

Подробности о метриках

До сих пор нейроморфная фотоника полагалась либо исключительно на когерентные конструкции, либо на конструкции мультиплексирования с разделением по длине волны (WDM) для обеспечения возможности скалярного произведения или умножения векторов на матрицу, что привело к впечатляющему разнообразию архитектур. Здесь мы делаем еще один шаг вперед и используем WDM для обогащения схемы возможностями распараллеливания на этапах развертывания и/или взвешивания вместо того, чтобы служить вычислительным целям, и впервые представляем нейронную архитектуру, которая сочетает в себе когерентную оптику с WDM для достижения многофункциональная программируемая нейросетевая платформа. Наша реконфигурируемая платформа поддерживает четыре различных режима работы на одном и том же фотонном оборудовании, поддерживая многоуровневые, сверточные, полностью подключенные и энергосберегающие уровни. Мы математически подтверждаем успешную работу во всех четырех режимах работы, принимая во внимание перекрестные помехи, расстояние между каналами и спектральную зависимость критических оптических элементов, что приводит к надежной работе с относительной ошибкой MAC \(< 2\%\).

Взрывной рост искусственного интеллекта (ИИ) и глубокого обучения (DL) вместе с развитием фотонной интеграции создали новое окно возможностей для использования оптики в вычислительных задачах1,2,3,4,5. Прогнозируется, что использование фотонов и соответствующих оптических технологий в оборудовании нейронной сети (NN) обеспечит значительный прирост количества операций умножения-накопления (MAC) в секунду по сравнению с соответствующими электронными платформами NN, при этом эффективность вычислительной энергии и площади, по оценкам, достигнет < fJ/MAC и > TMAC/s/mm\(^{2}\) соответственно6,7. Путь к реализации этого сдвига аппаратной парадигмы NN направлен на использование высоких скоростей передачи данных, поддерживаемых интегрированными фотонными технологиями, вместе с функцией взвешивания небольшого размера и малой мощности, которая может быть предложена в масштабе чипа4,8. До сих пор в подавляющем большинстве фотонных устройств, используемых для взвешивания, основное внимание уделялось медленно реконфигурируемым элементам, таким как термооптические (T/O) фазовращатели9,10 и структуры энергонезависимой памяти на основе материалов с фазовым переходом (PCM)4,8. Это означает, что приложения для вывода в настоящее время считаются основной целью в области нейроморфной фотоники3.

Механизмы вывода действительно требуют довольно статичной нейронной архитектуры и графа связности слоев, который обычно определяется для оптимального выполнения определенной задачи ИИ. Например, отслеживание объектов и классификация изображений обычно выполняются с помощью нескольких сверточных слоев, за которыми следуют один или несколько слоев Fully Connected (FC), в то время как автокодировщикам требуются каскадные этапы слоев FC11,12. Хотя сверточные уровни и уровни FC составляют критические архитектурные элементы почти во всех платформах вывода, большой набор параметров, таких как количество слоев и/или нейронов на слой и граф связности, может значительно различаться в зависимости от целевой архитектуры и приложения DL. Электронные реализации могут заключаться в использовании специализированных интегральных схем (ASIC), настроенных для конкретной задачи вывода, но использование графических процессоров, TPU или даже FPGA становится неизбежным, когда требуются перепрограммируемость и реконфигурируемость для использования одного и того же оборудования для нескольких приложений13.

Для передачи возможности реконфигурации в реализации Photonic (P)-NN требуется платформа, которая может гибко поддерживать различные функциональные схемы на одном и том же нейронном оборудовании. Программируемость в фотонике достигла значительного прогресса за последние годы14,15,16, и было показано, что программируемые фотонные интегральные схемы (PIC) предлагают важные преимущества в выпуске экономичных, гибких и многофункциональных фотонных платформ, которые могут точно следовать концепции электронные ПЛИС17. В ходе этой работы также было подчеркнуто, что простое использование медленно реконфигурируемых \(2 \times 2\) интерферометрических переключателей Маха-Цендера (MZI) в рамках соответствующей архитектурной схемы может дать большой набор возможностей подключения цепей и функциональных возможностей14,15. . Однако особенности архитектуры нейронных сетей должны проявляться в альтернативных функциях, которые в настоящее время еще не предлагаются программируемыми фотонными реализациями. Хотя реконфигурация весовых значений действительно может быть предложена с помощью современной технологии фотонного взвешивания4,8,9,10, а также начал появляться сдвиг в перспективе в сторону программируемых функций активации16,18,19, нейроморфные фотонные архитектуры, продемонстрированные до сих пор не поддерживают какой-либо механизм реконфигурации своих стадий линейных нейронов. PNN до сих пор развивались по двум основным архитектурным категориям для реализации линейных нейронных слоев, где платформы мультиплексирования с разделением по длине волны (WDM) и когерентные платформы, по-видимому, следуют дискретным и параллельным дорожным картам: (i) некогерентные или основанные на WDM макеты, где дискретная длина волны используется для каждого аксона в одном и том же нейроне3,4,20, и (ii) когерентные интерферометрические схемы, где одна длина волны используется для всего нейрона, используя интерференцию между когерентными электрическими полями для операций взвешенной суммы9,10.

4\) and \(N>2\) is imposed, respectively). Index n in the implementation (a) is set to \(n \le 4\) to denote that the lit nth branch carries a non-zero input. Similarly, if the number of available wavelengths M exceeds the number of required ones, the excess LDs are powered off./p> 90\%\) of analyzed random sets./p>