Page 27 - ИССЛЕДОВАНИЯ И ИННОВАЦИИ СИНЕРГИЯ ЗНАНИЙ И ПРАКТИКИ ч1
P. 27
«Исследования и инновации: синергия знаний и практики»
градиента или его вариантов, таких как метод стохастического
понижения градиента или методы адаптивной скорости обучения.
Прямое распространение
Прямое распределение включает в себя вычисление выходных
данных для каждого слоя последовательно от входных к выходным
слоям:
( ) ( )
( )
( +1) = ( + )
( )
( )
( )
где - активации на l-м слое, и - веса и смещения l-го слоя
[3, с. 132].
Обратное распространение
Обратное распространение включает вычисление градиентов для
каждого слоя, начиная с выходного слоя и возвращаясь к входному
слою. Градиенты используются для корректировки весов, чтобы
минимизировать ошибку. Градиент для весов на l-м слое вычисляется
следующим образом:
′
δ ( ) = ( ( +1) − ) ⊙ ( ( +1) )
( )
где δ - ошибка на l-м слое, y - целевые значения, ⊙ - поэлементное
умножение, а f′ - производная функции активации [2, с. 78].
Обновление весовых коэффициентов
Обновление весов осуществляется с помощью правил
градиентного спуска:
( ) ( )
( ) ← ( ) − ηδ
где η - скорость обучения [1, с. 290].
Методы оптимизации
Различные методы оптимизации используются для повышения
эффективности обучения и преодоления различных проблем, таких как
застревание в локальных минимумах:
• Метод стохастического градиентного спуска (SGD): Значения
веса обновляются после каждого примера из обучающего набора, что
ускоряет обучение.
27