Таймкоды
00:00 Пределы масштабирования нейронных сетей
- Искусственные нейроны и сети не могут преодолеть предел ошибок.
- Количество ошибок уменьшается с увеличением размера модели, но требует больше вычислительных ресурсов.
- Существует оптимальный предел, который не зависит от архитектуры модели.
00:59 Исследование OpenAI
- В 2020 году OpenAI опубликовала статью с тенденциями производительности языковых моделей.
- Уравнение степенного закона позволяет оценить производительность в зависимости от вычислительных ресурсов и размера модели.
- Самая крупная модель требовала 10 петафлопс дней вычислений для обучения.
01:57 Масштабирование и производительность GPT-3
- GPT-3 не достигла пределов масштабирования, что указывает на дальнейшее повышение производительности.
- В октябре 2021 года команда APNI исследовала масштабирование для различных задач, включая моделирование изображений и видео.
- В некоторых случаях тенденции к масштабированию сглаживаются до достижения нулевой погрешности.
02:55 Потери и функции потерь
- Потери определяют оптимизацию параметров модели.
- Функция потерь L1 и кросс-энтропия используются для измерения ошибок.
- Кросс-энтропия показывает уверенность модели в правильности ответа.
04:50 Энтропия естественного языка
- Большие языковые модели выбирают реалистичные следующие слова.
- Оценка энтропии данных показывает, что потери по кросс-энтропии никогда не могут быть сведены к нулю.
- Команда оценила естественную энтропию изображений и видео, но не смогла получить значимую оценку для языковых данных.
05:48 ьМасштабирование нейросетей
- Google Deepmind опубликовал серию экспериментов по масштабированию нейросетей.
- Обнаружена привязная граница эффективности вычислений для естественного языка.
- Закон масштабирования нейросетей разбивает общую потерю на три составляющие.
06:47 GPT-4 и предсказание производительности
- OpenAI выпустила GPT-4, но не поделилась технической информацией.
- Предсказание производительности GPT-4 оказалось точным.
- Обучение GPT-4 требует более 200 флоп дней, что подтверждает справедливость законов масштабирования.
07:44 Теория глубокого обучения
- Производительность моделей глубокого обучения подчиняется степенному закону.
- Модели эффективно используют данные для работы с многомерными массивами.
- Brilliant предлагает интерактивные уроки для понимания теории глубокого обучения.
08:42 Многомерное пространство данных
- Данные можно рассматривать как точки в многомерном пространстве.
- Изображения и текст можно представить как точки в многомерном пространстве.
- Большинство точек в многомерном пространстве не являются рукописными цифрами.
09:39 Геометрия многообразия
- Многообразие содержит информацию о данных.
- Нейронная сеть преобразует многомерное пространство в меньшее.
- Геометрия многообразия помогает понять структуру данных.
10:37 Закон масштабирования нейросетей
- Обучающие данные – это точки на поверхности в многомерном пространстве.
- Модель изучает форму этой поверхности.
- Плотность обучающих точек влияет на производительность модели.
11:35 Расстояние между точками данных
- В двумерном пространстве расстояние между точками данных равно S.
- В трехмерном пространстве расстояние равно S.
- Среднее расстояние между точками данных масштабируется в зависимости от количества данных и размерности пространства.
12:33 Ошибка тестовой точки
- Ошибка тестовой точки пропорциональна квадрату расстояния до ближайшей точки данных для обучения.
- Глубокая нейронная сеть может линейно интерполировать между точками обучения для прогнозов.
- Потери при перекрёстной энтропии пропорциональны квадрату расстояния между предсказаниями и истинными значениями.
13:31 Теоретические результаты
- Потери при перекрёстной энтропии масштабируются в зависимости от размера набора данных в степени -0.95.
- Теория предсказывает, что потери должны быть пропорциональны размеру набора данных в степени -4.
- Наблюдаемые коэффициенты масштабирования соответствуют теоретическим прогнозам для синтетических данных и небольших наборов данных изображений.
14:28 Прогресс в области ИИ
- Законы масштабирования нейросетей показывают путь к улучшению производительности.
- Прогнозирование поведения остаётся сложной задачей.
- Подход на основе нейронных сетей демонстрирует значительный прогресс за последние 5 лет.
15:27 Заключение и анонс книги
- Автор анонсирует книгу о мнимых числах, которая выйдет в этом году.
- Книга будет доступна в твёрдом переплёте и с бесплатной электронной версией.
- Автор также работает над новыми постерами для визуализации данных, обрабатываемых моделями машинного зрения.
Таймкоды сделпны в Нейросети YandexGPT https://300.ya.ru/
Расшифровка видео
0:00
искусственные нейроны и сети не могут
0:01
преодолеть этот предел и мы не знаем
0:03
Почему когда мы обучаем модель
0:04
количество ошибок обычно быстро
0:05
уменьшается а затем стабилизируется если
0:06
мы возьмём модель большего размера то
0:08
количество ошибок уменьшится но для
0:09
этого потребуется больше вычислительных
0:10
ресурсов с увеличением размера модели мы
0:12
получаем семейство кривых подобных этой
0:13
если мы переведём наши оси в
0:14
логарифмический масштаб то увидим чёткую
0:15
тенденцию при которой ни одна модель не
0:17
может преодолеть этот предел называемый
0:18
оптимальным или эффективным с точки
0:19
зрения вычисления это один из трёх
0:20
законов масштабирования нейронных сетей
0:22
которые широко распространены количество
0:23
ошибок очень похоже зависит от
0:24
вычислительных ресурсов размера модели и
0:26
объёма данных и что примечательно не
0:28
сильно зависит от архитектуры модели или
0:29
других ал ческих деталей если сделан
0:31
разумный выбор отсюда возникает
0:32
интересный вопрос как мы открыли
0:33
фундаментальный закон природы например
0:35
закон идеального газа для создания
0:36
интеллектуальных систем или это просто
0:37
результат того что мы сейчас используем
0:39
нейронные сети для искусственного
0:40
интеллекта насколько мощными могут стать
0:41
эти модели если мы продолжим увеличивать
0:43
объём данных размер модели и
0:44
вычислительные ресурсы Сможем ли мы
0:45
свести ошибки к нулю или
0:46
производительность стабилизируется
0:47
Почему данные размер модели и
0:48
вычислительные ресурсы являются
0:50
фундаментальными ограничениями
0:51
создаваемых нами систем И почему они так
0:52
просто связаны с производительностью
0:53
модели 2020 год стал переломным для Open
0:56
ai в январе команда опубликовала статью
0:57
в которой показала чёткие тенденции
0:59
производительности в широком диапазоне
1:00
масштабов для языковых моделей команда
1:01
подобрала уравнение степенного закона
1:02
для каждого набора результатов Что
1:03
позволило точно оценить как
1:04
производительность зависит от
1:05
вычислительных ресурсов размера набора
1:06
данных и модели на логарифмических
1:08
графиках эти степенные уравнения
1:09
отображаются в виде прямых линий и
1:10
наклон каждой линии равен показателю
1:11
степени уравнения соответствия чем
1:13
больше показатель степени тем круче
1:14
линии и быстрее улучшается
1:15
производительность команда не заметила
1:16
никаких признаков отклонения от этих
1:17
тенденций в верхнем сегменте что
1:18
предвещает стратегию pni на этот год
1:20
самая крупная модель которую команда
1:21
тестировала в то время имела 1,5 млрд
1:23
поддающихся изучению параметров и
1:24
требовало около 10 петафлопс дней
1:25
вычислений для обучения петафлопс в день
1:27
Это количество вычислений которое
1:28
система способная выполнять один
1:29
квадриллион операций плавающей забитой
1:30
может выполнить за день лучшие
1:31
графические процессоры линейки на тот
1:32
момент NV V1 производили около 30 tflops
1:35
таким образом система с тёх из этих
1:36
десяти нулевых графических процессоров
1:37
будет производить около петафлопс
1:38
вычисление тем летом с выпуском гпт
1:40
команда получила эмпирический
1:41
предсказанный прирост производительности
1:42
команда Open A сдела огромную ставку на
1:44
масштаб заключив партнёрство с Microsoft
1:45
создание огромного суперкомпьютера
1:50
оснащённость параметром gpt-3
1:52
использующая 3640 петафлопс
1:54
вычислительных дней производительность
1:55
гп-3 на удивление хорошо соответствовала
1:57
трендовой линии предсказанный в январе
1:58
но также не выронила что указывает на
1:59
дальнейшее повышение производительности
2:01
ещё более крупных моделей если массивная
2:02
гпт 3 не достигло пределов нейронов
2:04
масштабирования то где же они были
2:05
Возможно ли свести частоту ошибок к нулю
2:06
при достаточном количестве вычислений
2:07
данных и размере модели в Октябрьской
2:09
публикации команда apni уделила более
2:10
пристальное внимание масштабированию
2:11
команда обнаружила одни и те же чёткие
2:13
законы масштабирования для целого ряда
2:14
задач включая моделирование изображения
2:15
и видео они также обнаружили что в
2:16
некоторых других случаях тенденции к
2:18
масштабированию в конечном итоге
2:19
сглаживать прежде чем достигалась
2:20
нулевая погрешность это логично Если
2:21
учесть что именно измеряют эти
2:22
показатели погрешности большие языковые
2:24
модели такие как гпт 3 являются
2:25
авторегрессия они обучаются
2:26
предсказывать следующее слово или
2:27
фрагмент слова в последовательности
2:28
текста на основе предыдущих эти прогнозы
2:30
обычно Имеют форму векторов вероятностей
2:32
поэтому для заданной последовательности
2:33
входных слов языковая модель выдаст
2:35
Вектор значений от нуля до единицы где
2:36
каждая запись соответствует вероятности
2:38
определённого слова из её словаря эти
2:39
векторы обычно нормализуются с помощью
2:41
операции Soft Ma которая гарантирует что
2:42
все вероятности в сумме равны единице
2:44
гпт 3 имеет словарь из
2:46
5257 слов Поэтому если мы ведём
2:48
последовательность текста например
2:49
первое имя Эйнштейна модель выдаст
2:51
Вектор длиной 50.2 и мы ожидаем что этот
2:53
Вектор будет близо к нулю везде кроме
2:55
индекса соответствующего слову Альберт
2:56
это индекс 4,59 если вам интересно во
2:59
время обучения мы знаем Какое слово
3:00
будет следующим в тексте поэтому мы
3:02
можем вычислить ошибку или показать им
3:03
потерь который показывает насколько
3:04
хорошо Наша модель справляется с задачей
3:05
по сравнению с тем что мы знаем это
3:06
значение потерь невероятно важно потому
3:08
что оно определяет оптимизацию или
3:09
обучение параметров модели все эти
3:11
петафлопс обучения направлены на то
3:12
чтобы уменьшить это значение потерь есть
3:14
много разных способов измерить потери в
3:15
нашем примере с Эйнштейна мы знаем что
3:16
правильный выходной Вектор должен иметь
3:18
единицу в индексе 4,59 поэтому мы можем
3:20
определить нашу функцию потерь как
3:21
единицу минус вероятность которую модель
3:22
выдала в этом индексе если бы наша
3:24
модель Была уверена на 100% что ответ
3:25
Альберт и выдала единицу то наши потери
3:26
были бы равны нулю Что логично если бы
3:28
наша модель выдала значение 0,9 то наши
3:30
потери в этом примере были бы 0,1 если
3:32
бы модель выдала значение 0,8 то наши
3:34
потери были бы 0,2 и так далее Это
3:36
формулировка эквивалентно так называемой
3:37
функции потерь L1 которая хорошо
3:38
работает во многих задачах машинного
3:40
обучения Однако на практике мы
3:41
обнаружили что модели часто работают
3:42
лучше при использовании другой функции
3:43
потерь называемой Крос энтропии
3:45
теоретическая обоснование Крос энтропии
3:46
немного сложное но реализация проста всё
3:48
что нам нужно сделать – это взять
3:49
отрицательный натуральный логарифм
3:50
вероятности которую модель выдала в
3:51
индексе правильного ответа таким образом
3:53
чтобы вычислить наши потери в примере с
3:54
эйнштейном мы просто берём отрицательный
3:55
логарифм вероятности которую модель
3:56
выдала в индексе 4,59 поэтому Если наша
3:59
модель на 100% то наши потери при Крос
4:01
энтропии равны отрицательному
4:02
натуральному логарифму единиц или нулю
4:03
Что логично и соответствует нашим
4:04
потерям L1 Если наша модель уверена в
4:06
правильном ответе на 90% то наши потери
4:07
при Крос энтропии равны отрицательному
4:09
натуральному логарифму 0,9 или примерно
4:11
0,1 опять же это близко к нашим потерям
4:13
L1 если мы построим график наших потери
4:14
при Крос энтропии в зависимости от
4:15
вероятности которую выдаёт модель мы
4:17
увидим что потери растут медленно а
4:18
затем резко увеличиваются когда
4:19
вероятность правильного слова
4:20
приближается к нулю Это означает что
4:21
если модель не уверена в правильности
4:22
ответа то потери по перекрёстной
4:23
энтропии будут очень высокими потери по
4:25
перекрёстной энтропии которые мы видим
4:26
на си во всех рассмотренных нами
4:27
примерах – это показатель уверенности
4:28
модели в правильности следу дуго слова в
4:30
тестовом наборе чем больше модель
4:31
уверена в правильности следующего слова
4:32
в тестовом наборе тем ближе к нулю
4:33
становятся средние потери по
4:34
перекрёстной энтропии Теперь понятно
4:36
почему кривая потерь в начале обучения у
4:37
команды не стремится к нулю а
4:38
выравнивается дело в том что в таких
4:39
последовательностях Как это нет
4:40
однозначного правильного ответа на
4:42
вопрос о следующем слове Например в
4:43
предложении первое имя Эйнштейна
4:44
следующее слово очевидно но в
4:46
большинстве текстов это не так большая
4:47
часть обучающих данных гпт 3 взята из
4:49
текстов найденных в интернете если мы
4:50
ведём запрос нейрона сеть это то получим
4:52
множество разных ответов из разных
4:53
источников ни один из этих ответов не
4:54
является неправильным просто есть много
4:56
разных способов объяснить что такое
4:57
нейронная сеть эта фундаментальная
4:58
неопределённость называется энтропии
5:00
естественного языка лучшее на что мы
5:01
можем надеяться в наших языковых моделях
5:02
это то что они с высокой вероятностью
5:03
выберут реалистичный набор следующих
5:05
слов и удивительно Но именно это делают
5:06
большие языковые модели например вот
5:08
пять лучших вариантов от модели Мета
5:09
лома Мы никогда не сможем свести потери
5:11
по перекрёстной энтропии к нулю Но
5:12
насколько близко мы можем к этому
5:13
приблизиться Можем ли мы вычислить или
5:14
оценить значение энтропии естественного
5:16
языка подставив степенные модели к
5:17
графиком потерь которые включают
5:18
постоянную величину неподдающиеся в
5:20
численную команда смогла оценить
5:21
естественную энтропию изображений видео
5:22
и других источников данных с низким
5:24
разрешением для каждой задачи они
5:25
оценивали естественную энтропию данных
5:26
двумя способами первый по графику где
5:28
прива масштабирование модели
5:29
выравнивается а второй по графику где
5:30
кривая вычисление выравнивается они
5:31
обнаружили что эти отдельные оценки
5:33
очень хорошо согласуются друг с другом
5:34
Обратите внимание что степенные законы
5:35
масштабирования по-прежнему работают в
5:36
этих случаях но с добавлением постоянной
5:38
величины наша линия тренда или Граница
5:39
на графике логарифмической шкалы больше
5:40
не является прямой Интересно что команда
5:42
не смогла обнаружить снижение
5:43
производительности при работе с
5:43
языковыми данными отметив что к
5:45
сожалению даже с данными самых больших
5:46
языковых моделей мы пока не можем
5:47
получить значимую оценку энтропии
5:48
естественного языка Через 18 месяцев
5:50
команда Google deepmind опубликовала
5:51
серию масштабных экспериментов по
5:52
масштабированию нейросетей в ходе
5:54
которых они действительно обнаружили
5:55
некоторую привязной границы
5:55
эффективности вычислений для
5:56
естественного языка Они использовали
5:58
полученные результаты для построения
5:59
закона масштаби нейросетей который
6:00
разбивает общую потерю на три
6:01
составляющие одна из них зависит от
6:02
размера модели другая от размера набора
6:04
данных а третья от энтропии
6:05
естественного текста эти эмпирические
6:07
результаты показывают что даже
6:08
бесконечно большая модель с бесконечным
6:09
объёмом данных не может иметь среднюю
6:10
потерю Крос энтропии в массиве текстовых
6:12
данных менее
6:13
1,69 год спустя в день пи 2023 команда
6:16
Open ai выпустила gt4 Несмотря на то что
6:18
технический отчёт гпт 4 занимает 100
6:20
страниц в нём почти нет технической
6:22
информации о самой модели команда Open
6:24
не поделилась этой информацией
6:25
сославшись на конкурентную среду и
6:26
последствия для безопасности Однако в
6:27
документе есть два графика
6:28
масштабирования стоимость обучения ПТФ
6:30
огромный по имеющимся сведениям
6:31
превышает 100 млн долларов прежде чем
6:32
осуществить эти масштабные инвестиции
6:34
команда предсказала как будет
6:35
масштабироваться производительность
6:36
используя те же простые степенные законы
6:37
сопоставив эту кривую с результатами
6:38
гораздо меньших экспериментов Обратите
6:40
внимание что на этом графике
6:40
используется линейный а не
6:41
логарифмический масштаб II что
6:43
увеличивает кривизну машбир не если мы
6:44
сопоставим эту кривую с логарифмическим
6:45
масштабам мы увидим некоторую кривизну
6:47
но в целом она будет соответствовать
6:48
другим графикам масштабирования которые
6:49
мы видели что здесь Невероятно так это
6:50
то насколько точно команда apn смогла
6:52
предсказать производительность ПТФ даже
6:53
в таком огромном масштабе в то время как
6:55
обучение гпт 3 потребовало и без того
6:56
огромных 3,64 флоп дней по некоторым
6:58
прочим при обучении ПТФ вычислительная
7:01
мощность составляет более 200 флоп дней
7:03
что как сообщается требует 25 а
7:04
графический процессор NVIDIA A 100
7:05
работают более 3 месяцев всё это
7:07
означает что законы нероново
7:08
масштабирования по-видимому справедливы
7:09
в невероятном диапазоне масштабов
7:10
примерно на 13 порядков от 10 до мину во
7:12
флоп дней о которых сообщалось в
7:14
публикация P1 2020 до просочи вше гося
7:16
значения более 200 флоп дней для
7:17
обучения гпт 4 это возвращает нас к
7:19
нашему вопросу Почему во-первых
7:20
производительность модели искусственного
7:21
интеллекта подчиняется таким простым
7:23
законам Почему данные размер модели и
7:24
вычисления являются фундаментальными
7:25
ограничениями систем которые мы создаём
7:26
И почему они так просто связаны с
7:28
производительностью модели теория
7:29
глубоко обучения которая нужна нам для
7:30
ответа на подобные вопросы как правило
7:31
сильно отстаёт от практики глубокого
7:32
обучения но недавние исследования
7:34
убедительно доказывают что
7:34
производительность моделе глубокого
7:36
обучения подчиняется степному закону и
7:37
это объясняется тем что модели
7:38
эффективно используют данные для работы
7:40
с многомерные массивами данных понять
7:41
эти теории бывает непросто лучше всего
7:43
разбираться в них постепенно чтобы
7:44
разобраться в моделях глубокого обучения
7:46
и других темах посмотрите видео от
7:47
спонсора brillant когда я пытаюсь
7:49
разобраться в таких теориях как
7:50
нейронной масштабирование я начинаю с
7:51
чтения статей но это не всегда помогает
7:53
Я почти всегда что-то программирую чтобы
7:54
поэкспериментировать и посмотреть что
7:55
происходит на самом деле бриллиант
7:57
делает это за вас позволяя сразу перейти
7:58
к практике
8:00
у них есть тысячи интерактивных уроков
8:01
по математике программированию анализу
8:02
данных и искусственному интеллекту
8:04
брилиант помогает вам развивать интуицию
8:05
решая реальные задачи это очень важно
8:07
для меня через несколько минут вы
8:08
увидите анимацию показывающую как
8:09
нейронная сеть учится представлять набор
8:11
данных инис в ниско мерном пространстве
8:12
решение небольших задач подобных этой
8:14
помогает мне развивать интуицию
8:15
Brilliant предлагает Такой формат
8:16
обучения который позволяет вам
8:17
заниматься всего несколько минут в день
8:18
Вы удивитесь Насколько быстро вы будете
8:20
продвигаться вперёд если будете
8:21
прилагать усилия у brillant есть целы
8:22
курс по большим языковым моделям включая
8:23
уроки которые помогут вам глубже изучить
8:25
темы которые мы уже затронули например
8:26
предсказание следующего слова и расчёт
8:27
вероятности слов чтобы попробовать курс
8:28
БН большим таковым моделям и всё
8:30
остальное Что они предлагают бесплатно в
8:31
течение 30 дней Посетите сайт
8:32
brilliant.org / wchs или перейдите по
8:33
ссылке в описании этого видео перейдя по
8:35
этой ссылке вы также получите ДТИ
8:36
процентную скидку на годовую премиум
8:37
подписку на бриллиант Большое спасибо
8:38
блин за спонсорство этого видео А теперь
8:40
вернёмся к нейроном масштабированию в
8:41
машинном обучении есть идея что набор
8:42
данных на основе которых учатся наши
8:43
модели существуют на многообразия в
8:45
многомерном пространстве мы можем
8:46
рассматривать естественные данные такие
8:47
как изображение или текст как точки в
8:48
этом многомерном пространстве например в
8:50
наборе данных ин состоящим из рукописных
8:51
изображений каждое изображение состоит
8:52
из сетки размером 208 на 28 пикселей а
8:54
интенсивность каждого пикселя хранится в
8:55
виде числа от нуля до один если мы на
8:57
мгновение представим что на наших
8:58
изображениях всего два пикселя мы мы
8:59
можем визуализировать эти два пиксельных
9:00
изображения как точки в двухмерном
9:01
пространстве где значение интенсивности
9:02
первого пикселя соответствует координате
9:04
X а значение интенсивности второго
9:05
пикселя координате Y изображение
9:06
состоящие из двух белых пикселей будет
9:07
иметь нулевую точку В нашем трёхмерном
9:09
пространстве изображение с чёрным
9:10
пикселем в первой позиции и белым
9:11
пикселем во второй позиции будет иметь
9:12
единицу а изображение со значением
9:13
серого равно 0,4 для обоих пикселей
9:15
будет иметь значение 0,4 зап 0,4 и так
9:17
далее если бы наших изображениях было
9:19
три пикселя вместо двух то тот же подход
9:20
всё равно Работал бы только в трёх
9:21
измерениях увеличив масштаб до наших
9:22
изображений размером 28 на 28 пикселей
9:24
наше изображения превратились бы в точки
9:25
784 мерном пространстве подавляющее
9:27
большинство точек в этом многомерном
9:28
пространстве не являются цифрами на мят
9:29
руки мы можем убедиться в этом выбрав
9:30
случайным образом точки в пространстве и
9:32
ото образив их в виде изображений они
9:33
почти всегда выглядят как Случайный шум
9:34
чтобы случайно выбрать рукописную цифру
9:36
нужно очень-очень-очень сильно повести
9:37
такая редкость говорит о том что в этом
9:39
784 мерном пространстве Может быть
9:41
какая-то форма меньшей размерности где
9:42
каждая точка на этой форме является
9:44
рукописной цифрой если вернуться к нашим
9:45
игрушечным изображениям из трёх пикселей
9:47
то если бы мы узнали что значение
9:48
интенсивности нашего третьего пикселя
9:49
назовём его X3 всегда равно единице плюс
9:51
косинус значения второго пикселя X2 все
9:53
наше изображения из трёх пикселей лежали
9:54
бы на изогнутой поверхности в трёхмерном
9:56
пространстве определяемой как X3 рано 1
9:57
- cos X2 это поверхность двух мы можем
9:59
определить местоположение наших
10:00
изображений в трёхмерном пространстве
10:02
используя только X1 и X2 нам больше не
10:03
нужен X3 мы можем представить себе
10:05
нейронную сеть которая классифицирует
10:06
низ работая похожим образом например в
10:07
этой архитектуре сети наш предпоследний
10:09
слой состоит из 16 нейронов Что означает
10:11
что сеть преобразовалась 784 мерное
10:12
входное пространство в гораздо меньшее
10:14
шестнадцати мерное пространство очень
10:15
похожая на нашу функцию 1 + косинус
10:17
которая
10:19
преобразовалась действительно интересной
10:21
когда мы понимаем что многообразие – Это
10:22
не просто представление данных в
10:23
пространстве меньшей размерности
10:24
геометрия многообразия часто содержит
10:26
информацию о данных если мы возьмём
10:27
шестнадцати мерного мерное представление
10:29
набора данных низ которое было получено
10:30
нашей нейронной сетью мы сможем понять
10:31
его геометрию
10:34
проецируемого техники как ю которая
10:36
пытается сохранить структуру
10:37
пространства большей размерности при
10:38
раскрашивания каждой точки с помощью
10:39
номера соответствующего изображению Мы
10:41
видим что по мере обучения нейросети
10:43
одинаковые цифры группируются в
10:44
небольшие области на поверхности Это
10:45
обычное явление во многих задачах
10:47
машинного обучения изображения на
10:48
которых изображены похожие объекты или
10:49
текст описывающие схожие понятия В итоге
10:51
оказываются близко друг к другу на
10:52
обученной поверхности один из способов
10:53
понять что делают модели глубокого
10:55
обучения – это отображение многомерных
10:56
входных данных в многомерной поверхности
10:57
где положение данных на поверхности
10:59
имеет смысл Теперь давайте разберёмся
11:00
как гипотеза о поверхности связана с
11:02
законами масштабирования нейросетей
11:03
рассмотрим закон масштабирования
11:04
нейросетей который связывает размер
11:05
обучающего набора данных с
11:06
производительностью моделий измеряемой
11:07
как потеря Крос энтропии на тестовом
11:08
наборе если гипотеза о поверхности верна
11:10
то наши обучающие данные – это точки на
11:11
некоторой поверхности в многомерном
11:12
пространстве и наша модель пытается
11:14
изучить форму этой поверхности плотность
11:15
наших обучающих точек на поверхности
11:17
зависит от того сколько у нас данных а
11:18
также от размерности поверхности в
11:19
одномерном пространстве если у нас есть
11:20
D точек данных для обучения и общая
11:22
длина нашего многообразия равна L мы
11:23
можем вычислить среднее расстояние между
11:24
точками данных для обучения S раздели L
11:26
на D Обратите внимание что вместо того
11:27
чтобы думать о расстоянии между точками
11:28
данных для обучения напрямую в более
11:30
высоких измерениях проще представить
11:31
себе небольшой участок вокруг каждой
11:32
точки размером S и поскольку эти
11:33
небольшие участки соприкасаются друг с
11:35
другом расстояние между точками данных
11:36
для обучения по-прежнему равно S
11:37
переходя к двумерному пространству мы
11:38
фактически заполняем квадрат со стороной
11:40
L маленькими квадратами со стороной S
11:41
расположенными вокруг каждой точки
11:42
данных для обучения общая площадь нашего
11:43
большого квадрата L к должна быть равна
11:45
количеству точек данных D умноженному на
11:46
площадь каждого маленького квадрата то
11:48
есть D умноженное на S к переставляя и
11:49
решая мы можем показать что S = L уму на
11:51
D в степени – 0,5 переходя к трёхмерном
11:54
пространству мы заполняем куб со
11:55
стороной L маленькими кубиками со
11:56
стороной S приравниваемый маленьких
11:58
кубиков и большого Куба мы можем
11:59
показать что S = L уму на D в Степе -3
12:01
таким образом По мере перехода к более
12:03
высоким измерениям среднее расстояние
12:04
между точками масштабируется в
12:05
зависимости от количества данных
12:06
которыми Мы располагаем в степени -1
12:08
делённой на размерность многообразия
12:09
теперь когда мы говорим о плотности
12:10
точек данных на нашем многообразии это
12:11
важно потому что Ошибка тестовой точки
12:13
будет ограничена функцией её расстояния
12:14
до ближайшей точки данных для обучения
12:16
если мы предположим что наша модель
12:17
достаточно мощная чтобы идеально
12:18
соответствовать обучающим данным то наше
12:19
обученной пространство будет точно
12:20
соответствовать реальному пространству
12:21
данных в точках обучения глубокая
12:23
нейронная сеть с функцией активации ril
12:24
может линейно интерполировать между
12:25
этими точками обучения для получения
12:27
прогнозов если мы предположим что наше
12:28
пространство гладкие то можем
12:29
использовать разложение Тейлора Чтобы
12:30
показать что наша ошибка будет
12:31
пропорционально квадрат расстояния между
12:32
ближайшими точками обучения и
12:33
тестирования мы установили что среднее
12:35
расстояние между точками обучения
12:36
пропорционально размеру нашего набора
12:37
данных D в степени -1 делённый на
12:38
размерность нашего пространства Таким
12:39
образом мы можем возвести это значение в
12:41
квадрат чтобы оценить как наша ошибка
12:42
зависит от размера набора данных и
12:43
вычислить D в степени -2 делённый на
12:45
размерность пространства наконец помните
12:46
что наши модели используют функцию
12:47
потерь с перекрёстной энтропией но до
12:48
сих пор в нашем анализе пространства мы
12:49
рассматривали только расстояние между
12:51
предсказанный и истинным значением это
12:52
эквивалентно значению потери L1 которое
12:53
мы рассматривали ранее применяя
12:54
аналогичное разложение Тейлора функции
12:56
перекрёстной энтропии мы можем показать
12:57
что потери при перекрёстной энтропии
12:58
будут пропорциональны ра растояния между
12:59
предсказанный истинным значением таким
13:01
образом для нашего окончательного
13:01
теоретического результа мы ожидаем что
13:03
потери перекрёстной энтропии будут
13:04
пропорциональны размеру набор данных D в
13:05
степени -2 де на квадрат размерности
13:07
пространства таким образом D в степени
13:08
ми4 делённой на размер набора данных это
13:10
представляет собой наихудшим поэтому это
13:11
Верхняя граница Следовательно мы ожидаем
13:13
что потери при перекрёстной энтропии
13:14
будут пропорционально или меньше этого
13:15
значения команда разработавший эту
13:16
теорию называет это масштабированием с
13:17
ограничениями потому что чем больше
13:19
данных тем лучше модель справляется С
13:20
обработкой данных Интересно что При
13:21
рассмотрении зависимости между размером
13:23
моделе и потерями теория предсказывает
13:24
ту же зависимость в четвёртой степени в
13:25
данном случае предполагается что
13:27
дополнительные параметры модели
13:28
позволяют ей лучше соответствовать
13:29
данным при более высоком разрешении так
13:31
как же этот теоретический результат
13:32
соотносится с наблюдениями команды Open
13:34
ai и Google deepmind публикуют свои
13:35
значения масштабирования соответствуют
13:37
ли они теоретическим прогнозам в статье
13:39
Open ai за январь 2020 года команда
13:41
обнаружила что потери при Крос энтропии
13:42
масштабируется в зависимости от размера
13:44
набора данных в степени – 0,95 Они
13:47
называют это значение Альфа суб D если
13:48
теория верна то Альфа суб D должна быть
13:50
больше или равна четырём дем на
13:51
внутреннее измерение данных этот
13:53
последний шаг довольно сложный так как
13:54
требует оценки размерности данных также
13:56
известный как внутреннее измерение
13:57
естественного языка команда началась
13:58
небольших задач где внутреннее измерение
14:00
известно или может быть хорошо оценено
14:01
они обнаружили хорошее соответствие
14:02
между теоретическими экспериментальными
14:03
параметрами масштабирования в случаях
14:05
когда синтетические обучающие данные с
14:06
известным внутренним измерением
14:07
создаются моделью учителям и изучаются
14:08
моделью учеников они также смогли
14:10
показать что прогноз -4 на D хорошо
14:12
работает с небольшими наборами данных
14:13
изображений включая СТ наконец если мы
14:15
применим наблюдаемый коэффициент
14:16
масштабирования равный 0,95 языку то
14:18
сможем вычислить что внутреннее
14:20
измерение естественного языка должно
14:21
быть примерно равно 42 команда проверила
14:23
этот результат оценив внутреннее
14:24
измерение многообразий которые изучила
14:25
языковая модель и обнаружила что оно
14:27
значительно выше порядка 100 заметьте
14:28
что не из теорий всё ещё действует но мы
14:30
не видим такого же согласия как в
14:31
синтетических и меньших наборах данных
14:33
Таким образом у нас есть убедительная
14:34
теория обладающая реальной
14:35
предсказательной силой Но пока ещё не
14:37
единая теория и за последние 5 лет мы
14:38
стали свидетелями поразительного
14:40
прогресса в области и от первой статьи в
14:42
начале 2020 года до выпуска гпт 4 в 2023
14:45
году законы масштабирования нейросетей
14:46
показали нам Путь к улучшению
14:48
производительности важно отметить что
14:49
хотя законы масштабирования невероятно
14:50
точно предсказывают производительность
14:51
при прогнозировании следующего слова
14:53
прогнозирование наличия определённых
14:54
моделей поведения остаётся более сложной
14:55
задачей способности к таким задачам как
14:57
расшифровка слов арифметика и мно ное
14:59
мышление похоже просто появляются в
15:00
разных масштабах удивительно видеть как
15:01
далеко нас продвинул наш подход на
15:03
основе нейронных сетей и конечно мы не
15:04
знаем как далеко Он может зайти многие
15:06
авторы статей которые мы здесь
15:07
рассмотрели имеют опыт работы в области
15:08
физики и в их подходах и речи
15:10
чувствуется что они ищут объединяющие
15:11
принципы приятно видеть что такой подход
15:13
применяется в и законы масштабирования
15:14
нейросетей – Это мощный пример
15:16
объединения в и который даёт удивительно
15:17
точные и полезные эмпирические
15:19
результаты и дразня намёки на единую
15:20
теорию масштабирования для
15:21
интеллектуальных систем будет интересно
15:23
посмотреть к чему приведут законы
15:24
масштабирования и другие теории в
15:25
Ближайшие 5 лет и понять Действительно
15:27
ли искусственный интеллект не может
15:28
предо этот
15:29
рубеж если вам нравится видео на wlop то
15:32
вам точно понравится моя книга о мнимых
15:34
числах она выйдет в этом году в 2016
15:36
году Я выпустил серию из 13 частей на
15:37
YouTube посвящённую мнимым числам это
15:39
невероятно интересная тема Я выпустил
15:40
первую версию этой книги в 2016 году а
15:42
сейчас работаю над её обновлением
15:43
исправлением и значительным расширени
15:45
моя цель – создать лучшую книгу о мнимых
15:46
числах книги в твёрдом переплёте
15:48
высокого качества начнут поступать в
15:49
продажу в конце этого года вы можете
15:50
оформить предзаказ на книгу по ссылке в
15:51
описании ниже в комплект входит
15:52
бесплатная электронная версия книги 2016
15:54
года которую вы можете скачать уже
15:56
сегодня я также работаю над новыми
15:57
постерами У меня есть версия мной Темой
16:00
Это отличный способ визуализировать
16:01
данные которые обрабатывают модели
16:02
машинного зрения всё это и многое другое
16:04
вы найдёте в магазине