Машинное обучение и анализ данных (4 курс). Лекция 7-1. Обучение нейронной сети

https://t.me/gigachat_bot

промт – выдели основные мысли текста

Основные мысли текста:

  1. Обучение нейронной сети заключается в настройке ее внутренних параметров (весов).
  2. Для настройки параметров используется функция штрафа или потери, которая должна быть минимизирована.
  3. Минимизация функции штрафа осуществляется методами градиентного спуска.
  4. Стохастический градиентный спуск использует случайные объекты из обучающей выборки для определения направления движения.
  5. Правильный выбор шага и скорости обучения важен для успешного обучения нейронной сети.

Расшифровка видео

Поиск по видео
0:01
Ну мы с вами стали рассматривать вопрос
0:05
обучения нейронной
0:07
сети обучение нейронной сети – это
0:10
настройка параметров модели внутренних
0:14
параметров параметры модели в данном
0:15
случае это вот веса нейронной сети те
0:19
самые числа которые приписаны рёбрам в
0:22
нейронной сети и мы их должны подобрать
0:26
так чтобы наилучшим образом
0:28
предсказывать ответ по обучающие выбо на
0:31
обучающие
0:32
выборки а именно берётся
0:37
функция
0:39
штраф функция потери она ещё
0:42
называется который вычисляется
0:46
по
0:48
текущей текущей нейронной сети зависит
0:51
от её параметров и естественно обучающей
0:54
вы и подбираются такы минимизировать
0:59
[музыка]
1:02
штраф аналогичный подход мы использовали
1:05
например в линейной регрессии но там для
1:08
минимизации оказалось что достаточно
1:10
решить просто систему линейных
1:14
уравнений в данном случае
1:17
Функция которую нужно минимизировать
1:20
непростая в линейной регрессии она была
1:23
квадратичной от параметров здесь она
1:25
зависит очень хитро от параметров и там
1:29
действительно берём производные получаем
1:31
линейную функцию А здесь берём
1:33
производную
1:34
получаем нелинейную функцию хитрую
1:38
функцию исходная
1:40
функция Ну и обычно используют для её
1:43
минимизации методы на основе
1:45
градиентного спуска Ну что это такое мы
1:47
вспомнили в прошлый раз И что такое
1:50
стохастические градиентные спуск Я тоже
1:53
вам
1:54
рассказал Да вот здесь у меня очака я
1:57
так е не исправил Мы хотим вот эту штуку
2:00
обозначить за мину R это штраф конкретно
2:03
на итом
2:04
объекте Ну и для задачи восстановления
2:10
регрессии такой наиболее
2:12
распространённый штраф и для задачи
2:15
классификации тоже один из возможных
2:17
наиболее распространённый штраф Крос
2:20
энтропия Она же алгоритмические потери
2:22
выглядит вот так Ну и тут и тут у нас
2:26
R W где W назвали множество всех-всех
2:32
э обозначили через W множество всех-всех
2:35
весов это 1 де N Да Сумма по и от
2:42
единицы до n большого R
2:46
Итого для и того и другого
2:49
случая Ну и в
2:53
методе стохастического А вначале в
2:56
методе просто градиентного спуска
2:58
требуется найти
3:00
искать минимум этой
3:02
функции нужно искать Градиент который
3:06
там используется на каждом шаге Да ну
3:09
который
3:10
мы обозначаем просто Dr по DW потому что
3:14
это Вектор из всех частных производных и
3:18
видим
3:19
что это есть опять-таки среднее значение
3:23
от
3:24
градиентов вот этих потерь на каждом
3:27
объекте
3:29
Ну и отличие алгоритма стохастического
3:32
градиентного спуска от алгоритма просто
3:34
градиентного спуска в том что на каждом
3:37
шаге Мы двигаемся в направлении не
3:41
[музыка]
3:42
антиград функции RW А в направлении
3:45
антиграв функции D W где и
3:49
какой-то Случайный объект отсюда вот
3:52
название стохастический градиентный
3:54
спуск правда часто берут не случайные
3:57
объекты из обучающей выборки а следующий
4:00
по
4:01
очереди и вот такая модификация как бы
4:05
незаконно называется стохастическим НТМ
4:07
спуском но тем не менее Ну так как вот
4:11
действительно
4:13
здесь Градиент – это есть средний
4:15
значение вот из этих диен Да ну то мы
4:18
можем действительно поверить что если мы
4:20
возьмём Случайный здесь Вектор вот этот
4:23
Градиент например да а это вот он
4:25
является средним этих векторов если мы
4:27
возьмём здесь Случайный вектор
4:30
в этом направлении
4:32
то делает так много шагов Мы в целом
4:35
будем двигаться в правильном направлении
4:37
и так оно Бывает и на самом
4:41
деле Ну и конечно же возникает вопрос
4:45
как вычислить этот самый Градиент уже
4:48
давайте Градиент на конкретном объекте
4:51
потому что ясно Градиент на всех
4:52
объектах надо всю
4:54
обучать как выс Градиент на конкретном
4:57
обк вот глав вот алгоритм вычисления
5:01
градиента на конкретном объекте это и
5:03
есть алгоритм так называемый алгоритм
5:05
обратного распространения если полностью
5:08
обратного распростронения ошибки Он же
5:11
ба на самом деле это просто такая такое
5:16
регулярное использование цепного правила
5:19
Ну цепным правилом Что называют правило
5:22
взятия производной сложной функции у
5:25
меня есть функция
5:27
F кото от функции G которая зависит там
5:33
от скажем Т но Мы помним как взять
5:38
производную
5:40
Этой функции Ну в данном случае это
5:42
будет полная производная по
5:44
Т В начале мы берём производную
5:49
по G и умножаем производную D здесь
5:55
можно уже полную написать
6:04
кстати вот такой вопрос А если у нас
6:07
функция вот такого вида какая-то функция
6:13
F она зависит от скажем функции
6:19
G которая в свою очередь зависит от т и
6:23
зависит от функции H которая тоже
6:27
зависит от
6:29
равна производная DF по
6:31
DT Давайте
6:34
вспомним вот такую замечательную
6:37
формулу что надо писать Диктуйте DF подж
6:43
дж ПДТ так DF DF Ну частная Понятно
6:48
производная DF по DG дальше умножить на
6:52
DG по DT умножить на DG по DT Конечно же
6:55
да и плюс DF DH Умно
7:00
Совершенно верно плюс DF по
7:05
DH на
7:07
DH по
7:10
DT кто-то считает что здесь надо писать
7:13
не плюс А умножить Ну конечно конечно же
7:16
не не умножить откуда он здесь этот
7:17
умножитель возьмётся вот конечно же плюс
7:21
Всё верно Ну вот по сути дела
7:24
использование использование вот этого
7:26
правила и даёт нам правило вычисления
7:31
вычисление всех компонент
7:35
градиента
7:37
Кстати что может показаться вот смотрите
7:40
вот меня есть какая-то нейронная сеть ну
7:42
давайте я вот буду показывать на
7:43
следующий слайд
7:46
так спуск тут кстати перерисовал
7:48
картинки оказывается я их перерисовал
7:50
уже Но они у меня не были вставлены в
7:52
презентацию
7:54
[музыка]
7:59
что-то ВС очень гладенько спускается Да
8:02
шарик вот сюда спускается замечательно
8:04
часто бывает что это градиентный спуск
8:08
он даёт какую-то вот такую траекторию Ну
8:12
а стохастические градиентные спуски ещё
8:14
более такую извилистую
8:18
ясно что здесь он запросто мог скатиться
8:21
Вот не в эту яму да а в
8:24
каго
8:28
товада вот да вот линии уровня он сюда
8:31
мог закатиться если бы начал даже отсюда
8:34
Да как-то так шёл бы
8:36
шёл Куда ушёл

Поделиться: