연구 소개

  • 연구
  • 연구 소개

Parallel Training of GRU Networks with a Multi-Grid Solver for Long Sequences

  • AI융합대학
  • 2022-06-02

문의현 교수의 연구실에서 발표한 논문 "Parallel Training of GRU Networks with a Multi-Grid Solver for Long Sequences"가 "International Conference on Learning Representations 2022 (ICLR22)" 게재되었다. ICLR Google Scholar 머신러닝 분야에서 세계 랭킹 1위에 올라 있는 세계 최고 수준의 인공지능 학술대회이다.

 

논문 사이트로 이동

 

본 연구에서는 Multi-Grid Reduction in Time (MGRIT) Solver 기술을 활용하여 길이가 매우  시계열 데이터가 주어졌을  GRU모델의 학습 과정을 효율적으로 분산 처리할  있는 알고리즘을 개발하였다 연구에서 제안하는 parallel-in-time 기반의 새로운 병렬 처리 방식은 아래 그림 같이  시계열 입력 데이터를 여러 개의 짧은 시계열 데이터로 분할하고 다수의 프로세서에서 짧은 시계열 데이터를 처리하도록 설계되었다이를 통해 시계열 데이터 내에서의 지역 정보(local information) 기본 GRU 모델의 학습 방식에 비해서 정밀하게 인식할  있다는 장점이 있다제안한 모델이 학습하는 동안 사용되고 갱신되어야  파라미터 값은 서로 다른 프로세서들 간에 상호 전달  공유할  있도록 병렬화 모델을 설계하였다 구체적으로는 MGRIT 알고리즘의 inexact propagation 개념을 GRU 모델에 적용함으로써, 아래 그림과 같이  프로세서에서 계산되는 지역 에러(local error) fine grid에서 완화(relaxation)시켜주는 과정을 통하여 업데이트되며 전역 에러(global error) coarse grid에서 보정(correction)해주는 과정을 통하여 갱신될  있다. 

 

 


[그림 1] 2단계 MGRIT 구조도 

 

 

이러한 과정을 반복적(recursive)으로 수행해가면서 GRU모델을 학습한다. 논문의 실험 결과에서는 HMDB51 비디오 데이터를 이용하여 새로운 모델의 학습 결과가 순차적인 GRU 모델의 학습 방식에 비해 질적인 성능을 보장하면서 최대 6.5 빠르게 학습이 가능한 것을 보였다. 시계열 입력 데이터의 길이가 길어질수록 연구에서 제안한 모델은 학습 시간을 더욱 단축시킬 있다는 장점을 가지고 있다.