Page 27 - ИССЛЕДОВАНИЯ И ИННОВАЦИИ СИНЕРГИЯ ЗНАНИЙ И ПРАКТИКИ ч1
P. 27

«Исследования и инновации: синергия знаний и практики»

                  градиента  или  его  вариантов,  таких  как  метод  стохастического

                  понижения градиента или методы адаптивной скорости обучения.

                         Прямое распространение

                         Прямое  распределение  включает  в  себя  вычисление  выходных

                  данных  для  каждого  слоя  последовательно  от  входных  к  выходным

                  слоям:

                                                             (  ) (  )
                                                                         (  )
                                                (  +1)  =   (       +    )
                        (  )
                                                            (  )
                                                                   (  )
                  где     - активации на l-м слое,     и     - веса и смещения l-го слоя
                  [3, с. 132].
                         Обратное распространение

                         Обратное распространение включает вычисление градиентов для

                  каждого  слоя,  начиная  с  выходного  слоя  и  возвращаясь  к  входному

                  слою.  Градиенты  используются  для  корректировки  весов,  чтобы

                  минимизировать ошибку. Градиент для весов на l-м слое вычисляется

                  следующим образом:

                                                                     ′
                                          δ (  )  = (   (  +1)  −   ) ⊙    (   (  +1) )

                        (  )
                  где δ  - ошибка на l-м слое, y - целевые значения, ⊙ - поэлементное
                  умножение, а f′ - производная функции активации [2, с. 78].

                         Обновление весовых коэффициентов

                         Обновление  весов  осуществляется  с  помощью  правил

                  градиентного спуска:

                                                                    (  ) (  )
                                                  (  )  ←    (  )  − ηδ   
                  где η - скорость обучения [1, с. 290].

                         Методы оптимизации

                         Различные  методы  оптимизации  используются  для  повышения

                  эффективности обучения и преодоления различных проблем, таких как

                  застревание в локальных минимумах:

                         • Метод стохастического градиентного спуска (SGD): Значения

                  веса обновляются после каждого примера из обучающего набора, что

                  ускоряет обучение.

                                                           27
   22   23   24   25   26   27   28   29   30   31   32