https://habr.com/post/318970/ Идея в том, что мы делаем шаг не по градиенту, а по сглаженному за несколько шагов градиенту (типично экспоненциальное среднее с весом старых данных 0.9). Это позволяет быстрее сходиться за счёт меньшего шума от осцилирующих координат Nesterov mementum Развитие предыдущей идеи, сучётом того, что мы заранее знаем: с весом 0.9 мы шагнём в направлении предыдущего вычисленного градиента. Тогда разумно считать градиент не рядом с текущей точкой, а уже сразу рядом с той точкой, куда мы шагнём. Т.е. считаем градиент не в текущей точке Х, а в точке (Х + сохранённый градиент * шаг).