-
Notifications
You must be signed in to change notification settings - Fork 0
Neural Ordinary Differential Equations
이 페이퍼의 경우 abstract가 좋으므로 abstract를 꼼꼼히 읽어보면,
We introduce a new family of deep neural network models. Instead of specifying a discrete sequence of hidden layers, we parameterize the derivative of the hidden state using a neural network.
input 혹은 hidden state의 변화를 parameter로 나타내었다고 합니다.
The output of the network is computed using a blackbox differential equation solver.
즉, 위에서 input의 도함수를 모델링하고 특정 시간이 흘렀을 때의 값을 기존의 ODE solver를 통해 계산하였다.
These continuous-depth models have constant memory cost, adapt their evaluation strategy to each input, and can explicitly trade numerical precision for speed.
메모리를 아낄 수 있다고 합니다. (이게 가능한 이유는 고정된 파라미터를 통해 임의의 time step에서의 상태의 변화량을 모델링하기 때문입니다. 근데 이것은 기존의 neural network에서도 모든 layer의 parameter를 sharing 함으로서도 가능합니다.)
We demonstrate these properties in continuous-depth residual networks and continuous-time latent variable models. We also construct continuous normalizing flows, a generative model that can train by maximum likelihood, without partitioning or ordering the data dimensions.
기존의 network를 대체할 수 있다고 합니다. 다만 제가 보기에 input과 output의 size가 같아야하는 것 같습니다. 다만 end to end로 gradient를 계산할 수 있어서 모듈화 가능합니다. 이 논문에서 application으로 classification과 normalizing flow generative model 그리고 toy sequence generation을 다룹니다.
For training, we show how to scalably backpropagate through any ODE solver, without access to its internal operations. This allows end-to-end training of ODEs within larger models
가장 중요한 optimization은 다시 ODE solver를 이용해 해결가능합니다.
ResNet의 skip connection에 영감을 받아 NN을 개념적으로 확장을 하고 이를 구현하고 module화 한다.
ODE solver는 존재한다. 그러나 optimization은?
수식적으로 obejective에 대한 gradient에 대한 ODE를 구할 수가 있다고 합니다. 그리고 이를 풀면 되는데 이 과정도 ODE solver를 통해 해결을 합니다.
개인적으로 불명확한 부분은 저 gradient에 대한 ODE를 계산하기 위해 state의 값을 계산해야하는데 이 state의 값을 계산하기 위해서는 ODE를 또 풀어야 합니다... 즉, 이중적분같은 느낌인데 이것도 어떻게 풀 수 있나 봅니다.
noatation의 수식은 말로 설명하겠습니다.
이 부분은 논문으로 대체하겠습니다.
새로운 관점을 NN에 잘 제시를 해주었다고 생각합니다. 다만 논문에서 가능성만 제시하고 속도 측면에서의 효율성을 구체적으로 분석하지 않았고 실용적인지에 대한 의문이 있습니다.