https://t.me/gigachat_bot
промт – выдели основные мысли текста
Основные мысли текста:
- Обучение нейронной сети заключается в настройке ее внутренних параметров (весов).
- Для настройки параметров используется функция штрафа или потери, которая должна быть минимизирована.
- Минимизация функции штрафа осуществляется методами градиентного спуска.
- Стохастический градиентный спуск использует случайные объекты из обучающей выборки для определения направления движения.
- Правильный выбор шага и скорости обучения важен для успешного обучения нейронной сети.
Расшифровка видео
Поиск по видео
0:01
Ну мы с вами стали рассматривать вопрос
0:05
обучения нейронной
0:07
сети обучение нейронной сети – это
0:10
настройка параметров модели внутренних
0:14
параметров параметры модели в данном
0:15
случае это вот веса нейронной сети те
0:19
самые числа которые приписаны рёбрам в
0:22
нейронной сети и мы их должны подобрать
0:26
так чтобы наилучшим образом
0:28
предсказывать ответ по обучающие выбо на
0:31
обучающие
0:32
выборки а именно берётся
0:37
функция
0:39
штраф функция потери она ещё
0:42
называется который вычисляется
0:46
по
0:48
текущей текущей нейронной сети зависит
0:51
от её параметров и естественно обучающей
0:54
вы и подбираются такы минимизировать
0:59
[музыка]
1:02
штраф аналогичный подход мы использовали
1:05
например в линейной регрессии но там для
1:08
минимизации оказалось что достаточно
1:10
решить просто систему линейных
1:14
уравнений в данном случае
1:17
Функция которую нужно минимизировать
1:20
непростая в линейной регрессии она была
1:23
квадратичной от параметров здесь она
1:25
зависит очень хитро от параметров и там
1:29
действительно берём производные получаем
1:31
линейную функцию А здесь берём
1:33
производную
1:34
получаем нелинейную функцию хитрую
1:38
функцию исходная
1:40
функция Ну и обычно используют для её
1:43
минимизации методы на основе
1:45
градиентного спуска Ну что это такое мы
1:47
вспомнили в прошлый раз И что такое
1:50
стохастические градиентные спуск Я тоже
1:53
вам
1:54
рассказал Да вот здесь у меня очака я
1:57
так е не исправил Мы хотим вот эту штуку
2:00
обозначить за мину R это штраф конкретно
2:03
на итом
2:04
объекте Ну и для задачи восстановления
2:10
регрессии такой наиболее
2:12
распространённый штраф и для задачи
2:15
классификации тоже один из возможных
2:17
наиболее распространённый штраф Крос
2:20
энтропия Она же алгоритмические потери
2:22
выглядит вот так Ну и тут и тут у нас
2:26
R W где W назвали множество всех-всех
2:32
э обозначили через W множество всех-всех
2:35
весов это 1 де N Да Сумма по и от
2:42
единицы до n большого R
2:46
Итого для и того и другого
2:49
случая Ну и в
2:53
методе стохастического А вначале в
2:56
методе просто градиентного спуска
2:58
требуется найти
3:00
искать минимум этой
3:02
функции нужно искать Градиент который
3:06
там используется на каждом шаге Да ну
3:09
который
3:10
мы обозначаем просто Dr по DW потому что
3:14
это Вектор из всех частных производных и
3:18
видим
3:19
что это есть опять-таки среднее значение
3:23
от
3:24
градиентов вот этих потерь на каждом
3:27
объекте
3:29
Ну и отличие алгоритма стохастического
3:32
градиентного спуска от алгоритма просто
3:34
градиентного спуска в том что на каждом
3:37
шаге Мы двигаемся в направлении не
3:41
[музыка]
3:42
антиград функции RW А в направлении
3:45
антиграв функции D W где и
3:49
какой-то Случайный объект отсюда вот
3:52
название стохастический градиентный
3:54
спуск правда часто берут не случайные
3:57
объекты из обучающей выборки а следующий
4:00
по
4:01
очереди и вот такая модификация как бы
4:05
незаконно называется стохастическим НТМ
4:07
спуском но тем не менее Ну так как вот
4:11
действительно
4:13
здесь Градиент – это есть средний
4:15
значение вот из этих диен Да ну то мы
4:18
можем действительно поверить что если мы
4:20
возьмём Случайный здесь Вектор вот этот
4:23
Градиент например да а это вот он
4:25
является средним этих векторов если мы
4:27
возьмём здесь Случайный вектор
4:30
в этом направлении
4:32
то делает так много шагов Мы в целом
4:35
будем двигаться в правильном направлении
4:37
и так оно Бывает и на самом
4:41
деле Ну и конечно же возникает вопрос
4:45
как вычислить этот самый Градиент уже
4:48
давайте Градиент на конкретном объекте
4:51
потому что ясно Градиент на всех
4:52
объектах надо всю
4:54
обучать как выс Градиент на конкретном
4:57
обк вот глав вот алгоритм вычисления
5:01
градиента на конкретном объекте это и
5:03
есть алгоритм так называемый алгоритм
5:05
обратного распространения если полностью
5:08
обратного распростронения ошибки Он же
5:11
ба на самом деле это просто такая такое
5:16
регулярное использование цепного правила
5:19
Ну цепным правилом Что называют правило
5:22
взятия производной сложной функции у
5:25
меня есть функция
5:27
F кото от функции G которая зависит там
5:33
от скажем Т но Мы помним как взять
5:38
производную
5:40
Этой функции Ну в данном случае это
5:42
будет полная производная по
5:44
Т В начале мы берём производную
5:49
по G и умножаем производную D здесь
5:55
можно уже полную написать
6:04
кстати вот такой вопрос А если у нас
6:07
функция вот такого вида какая-то функция
6:13
F она зависит от скажем функции
6:19
G которая в свою очередь зависит от т и
6:23
зависит от функции H которая тоже
6:27
зависит от
6:29
равна производная DF по
6:31
DT Давайте
6:34
вспомним вот такую замечательную
6:37
формулу что надо писать Диктуйте DF подж
6:43
дж ПДТ так DF DF Ну частная Понятно
6:48
производная DF по DG дальше умножить на
6:52
DG по DT умножить на DG по DT Конечно же
6:55
да и плюс DF DH Умно
7:00
Совершенно верно плюс DF по
7:05
DH на
7:07
DH по
7:10
DT кто-то считает что здесь надо писать
7:13
не плюс А умножить Ну конечно конечно же
7:16
не не умножить откуда он здесь этот
7:17
умножитель возьмётся вот конечно же плюс
7:21
Всё верно Ну вот по сути дела
7:24
использование использование вот этого
7:26
правила и даёт нам правило вычисления
7:31
вычисление всех компонент
7:35
градиента
7:37
Кстати что может показаться вот смотрите
7:40
вот меня есть какая-то нейронная сеть ну
7:42
давайте я вот буду показывать на
7:43
следующий слайд
7:46
так спуск тут кстати перерисовал
7:48
картинки оказывается я их перерисовал
7:50
уже Но они у меня не были вставлены в
7:52
презентацию
7:54
[музыка]
7:59
что-то ВС очень гладенько спускается Да
8:02
шарик вот сюда спускается замечательно
8:04
часто бывает что это градиентный спуск
8:08
он даёт какую-то вот такую траекторию Ну
8:12
а стохастические градиентные спуски ещё
8:14
более такую извилистую
8:18
ясно что здесь он запросто мог скатиться
8:21
Вот не в эту яму да а в
8:24
каго
8:28
товада вот да вот линии уровня он сюда
8:31
мог закатиться если бы начал даже отсюда
8:34
Да как-то так шёл бы
8:36
шёл Куда ушёл