Структурированный блокнот   
 Машинное обучение (Machine Learning, обучающиеся алгоритмы) →  Оптимизация скорости обучения →  

Сглаживание шагов (momentum)

https://habr.com/post/318970/
Идея в том, что мы делаем шаг не по градиенту, а по сглаженному за несколько шагов градиенту (типично экспоненциальное среднее с весом старых данных 0.9). Это позволяет быстрее сходиться за счёт меньшего шума от осцилирующих координат
Nesterov mementum
Развитие предыдущей идеи, сучётом того, что мы заранее знаем: с весом 0.9 мы шагнём в направлении предыдущего вычисленного градиента. Тогда разумно считать градиент не рядом с текущей точкой, а уже сразу рядом с той точкой, куда мы шагнём. Т.е. считаем градиент не в текущей точке Х, а в точке (Х + сохранённый градиент * шаг).
Поиск по записям: только в текущем разделе.