ИИ не может пересечь Эту Линию? Почему? Искусственный интеллект почему-то пока уперся.

Оценили: 30

Таймкоды

00:00 Пределы масштабирования нейронных сетей

Искусственные нейроны и сети не могут преодолеть предел ошибок.
Количество ошибок уменьшается с увеличением размера модели, но требует больше вычислительных ресурсов.
Существует оптимальный предел, который не зависит от архитектуры модели.

00:59 Исследование OpenAI

В 2020 году OpenAI опубликовала статью с тенденциями производительности языковых моделей.
Уравнение степенного закона позволяет оценить производительность в зависимости от вычислительных ресурсов и размера модели.
Самая крупная модель требовала 10 петафлопс дней вычислений для обучения.

01:57 Масштабирование и производительность GPT-3

GPT-3 не достигла пределов масштабирования, что указывает на дальнейшее повышение производительности.
В октябре 2021 года команда APNI исследовала масштабирование для различных задач, включая моделирование изображений и видео.
В некоторых случаях тенденции к масштабированию сглаживаются до достижения нулевой погрешности.

02:55 Потери и функции потерь

Потери определяют оптимизацию параметров модели.
Функция потерь L1 и кросс-энтропия используются для измерения ошибок.
Кросс-энтропия показывает уверенность модели в правильности ответа.

04:50 Энтропия естественного языка

Большие языковые модели выбирают реалистичные следующие слова.
Оценка энтропии данных показывает, что потери по кросс-энтропии никогда не могут быть сведены к нулю.
Команда оценила естественную энтропию изображений и видео, но не смогла получить значимую оценку для языковых данных.

05:48 ьМасштабирование нейросетей

Google Deepmind опубликовал серию экспериментов по масштабированию нейросетей.
Обнаружена привязная граница эффективности вычислений для естественного языка.
Закон масштабирования нейросетей разбивает общую потерю на три составляющие.

06:47 GPT-4 и предсказание производительности

OpenAI выпустила GPT-4, но не поделилась технической информацией.
Предсказание производительности GPT-4 оказалось точным.
Обучение GPT-4 требует более 200 флоп дней, что подтверждает справедливость законов масштабирования.

07:44 Теория глубокого обучения

Производительность моделей глубокого обучения подчиняется степенному закону.
Модели эффективно используют данные для работы с многомерными массивами.
Brilliant предлагает интерактивные уроки для понимания теории глубокого обучения.

08:42 Многомерное пространство данных

Данные можно рассматривать как точки в многомерном пространстве.
Изображения и текст можно представить как точки в многомерном пространстве.
Большинство точек в многомерном пространстве не являются рукописными цифрами.

09:39 Геометрия многообразия

Многообразие содержит информацию о данных.
Нейронная сеть преобразует многомерное пространство в меньшее.
Геометрия многообразия помогает понять структуру данных.

10:37 Закон масштабирования нейросетей

Обучающие данные — это точки на поверхности в многомерном пространстве.
Модель изучает форму этой поверхности.
Плотность обучающих точек влияет на производительность модели.

11:35 Расстояние между точками данных

В двумерном пространстве расстояние между точками данных равно S.
В трехмерном пространстве расстояние равно S.
Среднее расстояние между точками данных масштабируется в зависимости от количества данных и размерности пространства.

12:33 Ошибка тестовой точки

Ошибка тестовой точки пропорциональна квадрату расстояния до ближайшей точки данных для обучения.
Глубокая нейронная сеть может линейно интерполировать между точками обучения для прогнозов.
Потери при перекрёстной энтропии пропорциональны квадрату расстояния между предсказаниями и истинными значениями.

13:31 Теоретические результаты

Потери при перекрёстной энтропии масштабируются в зависимости от размера набора данных в степени -0.95.
Теория предсказывает, что потери должны быть пропорциональны размеру набора данных в степени -4.
Наблюдаемые коэффициенты масштабирования соответствуют теоретическим прогнозам для синтетических данных и небольших наборов данных изображений.

14:28 Прогресс в области ИИ

Законы масштабирования нейросетей показывают путь к улучшению производительности.
Прогнозирование поведения остаётся сложной задачей.
Подход на основе нейронных сетей демонстрирует значительный прогресс за последние 5 лет.

15:27 Заключение и анонс книги

Автор анонсирует книгу о мнимых числах, которая выйдет в этом году.
Книга будет доступна в твёрдом переплёте и с бесплатной электронной версией.
Автор также работает над новыми постерами для визуализации данных, обрабатываемых моделями машинного зрения.

^{Таймкоды сделпны в Нейросети YandexGPT https://300.ya.ru/}

Расшифровка видео

0:00
искусственные нейроны и сети не могут
0:01
преодолеть этот предел и мы не знаем
0:03
Почему когда мы обучаем модель
0:04
количество ошибок обычно быстро
0:05
уменьшается а затем стабилизируется если
0:06
мы возьмём модель большего размера то
0:08
количество ошибок уменьшится но для
0:09
этого потребуется больше вычислительных
0:10
ресурсов с увеличением размера модели мы
0:12
получаем семейство кривых подобных этой
0:13
если мы переведём наши оси в
0:14
логарифмический масштаб то увидим чёткую
0:15
тенденцию при которой ни одна модель не
0:17
может преодолеть этот предел называемый
0:18
оптимальным или эффективным с точки
0:19
зрения вычисления это один из трёх
0:20
законов масштабирования нейронных сетей
0:22
которые широко распространены количество
0:23
ошибок очень похоже зависит от
0:24
вычислительных ресурсов размера модели и
0:26
объёма данных и что примечательно не
0:28
сильно зависит от архитектуры модели или
0:29
других ал ческих деталей если сделан
0:31
разумный выбор отсюда возникает
0:32
интересный вопрос как мы открыли
0:33
фундаментальный закон природы например
0:35
закон идеального газа для создания
0:36
интеллектуальных систем или это просто
0:37
результат того что мы сейчас используем
0:39
нейронные сети для искусственного
0:40
интеллекта насколько мощными могут стать
0:41
эти модели если мы продолжим увеличивать
0:43
объём данных размер модели и
0:44
вычислительные ресурсы Сможем ли мы
0:45
свести ошибки к нулю или
0:46
производительность стабилизируется
0:47
Почему данные размер модели и
0:48
вычислительные ресурсы являются
0:50
фундаментальными ограничениями
0:51
создаваемых нами систем И почему они так
0:52
просто связаны с производительностью
0:53
модели 2020 год стал переломным для Open
0:56
ai в январе команда опубликовала статью
0:57
в которой показала чёткие тенденции
0:59
производительности в широком диапазоне
1:00
масштабов для языковых моделей команда
1:01
подобрала уравнение степенного закона
1:02
для каждого набора результатов Что
1:03
позволило точно оценить как
1:04
производительность зависит от
1:05
вычислительных ресурсов размера набора
1:06
данных и модели на логарифмических
1:08
графиках эти степенные уравнения
1:09
отображаются в виде прямых линий и
1:10
наклон каждой линии равен показателю
1:11
степени уравнения соответствия чем
1:13
больше показатель степени тем круче
1:14
линии и быстрее улучшается
1:15
производительность команда не заметила
1:16
никаких признаков отклонения от этих
1:17
тенденций в верхнем сегменте что
1:18
предвещает стратегию pni на этот год
1:20
самая крупная модель которую команда
1:21
тестировала в то время имела 1,5 млрд
1:23
поддающихся изучению параметров и
1:24
требовало около 10 петафлопс дней
1:25
вычислений для обучения петафлопс в день
1:27

Это количество вычислений которое
1:28
система способная выполнять один
1:29
квадриллион операций плавающей забитой
1:30
может выполнить за день лучшие
1:31
графические процессоры линейки на тот
1:32
момент NV V1 производили около 30 tflops
1:35
таким образом система с тёх из этих
1:36
десяти нулевых графических процессоров
1:37
будет производить около петафлопс
1:38
вычисление тем летом с выпуском гпт
1:40
команда получила эмпирический
1:41
предсказанный прирост производительности
1:42
команда Open A сдела огромную ставку на
1:44
масштаб заключив партнёрство с Microsoft
1:45
создание огромного суперкомпьютера
1:50
оснащённость параметром gpt-3
1:52
использующая 3640 петафлопс
1:54
вычислительных дней производительность
1:55
гп-3 на удивление хорошо соответствовала
1:57
трендовой линии предсказанный в январе
1:58
но также не выронила что указывает на
1:59
дальнейшее повышение производительности
2:01
ещё более крупных моделей если массивная
2:02
гпт 3 не достигло пределов нейронов
2:04
масштабирования то где же они были
2:05
Возможно ли свести частоту ошибок к нулю
2:06
при достаточном количестве вычислений
2:07
данных и размере модели в Октябрьской
2:09
публикации команда apni уделила более
2:10
пристальное внимание масштабированию
2:11
команда обнаружила одни и те же чёткие
2:13
законы масштабирования для целого ряда
2:14
задач включая моделирование изображения
2:15
и видео они также обнаружили что в
2:16
некоторых других случаях тенденции к
2:18
масштабированию в конечном итоге
2:19
сглаживать прежде чем достигалась
2:20
нулевая погрешность это логично Если
2:21
учесть что именно измеряют эти
2:22
показатели погрешности большие языковые
2:24
модели такие как гпт 3 являются
2:25
авторегрессия они обучаются
2:26
предсказывать следующее слово или
2:27
фрагмент слова в последовательности
2:28
текста на основе предыдущих эти прогнозы
2:30
обычно Имеют форму векторов вероятностей
2:32
поэтому для заданной последовательности
2:33
входных слов языковая модель выдаст
2:35
Вектор значений от нуля до единицы где
2:36
каждая запись соответствует вероятности
2:38
определённого слова из её словаря эти
2:39
векторы обычно нормализуются с помощью
2:41
операции Soft Ma которая гарантирует что
2:42
все вероятности в сумме равны единице
2:44
гпт 3 имеет словарь из
2:46
5257 слов Поэтому если мы ведём
2:48
последовательность текста например
2:49
первое имя Эйнштейна модель выдаст
2:51
Вектор длиной 50.2 и мы ожидаем что этот
2:53
Вектор будет близо к нулю везде кроме
2:55
индекса соответствующего слову Альберт
2:56
это индекс 4,59 если вам интересно во
2:59
время обучения мы знаем Какое слово
3:00
будет следующим в тексте поэтому мы
3:02
можем вычислить ошибку или показать им
3:03
потерь который показывает насколько
3:04
хорошо Наша модель справляется с задачей
3:05
по сравнению с тем что мы знаем это
3:06
значение потерь невероятно важно потому
3:08
что оно определяет оптимизацию или
3:09
обучение параметров модели все эти
3:11
петафлопс обучения направлены на то
3:12
чтобы уменьшить это значение потерь есть
3:14
много разных способов измерить потери в
3:15
нашем примере с Эйнштейна мы знаем что
3:16
правильный выходной Вектор должен иметь
3:18
единицу в индексе 4,59 поэтому мы можем
3:20
определить нашу функцию потерь как
3:21
единицу минус вероятность которую модель
3:22
выдала в этом индексе если бы наша
3:24
модель Была уверена на 100% что ответ
3:25
Альберт и выдала единицу то наши потери
3:26
были бы равны нулю Что логично если бы
3:28
наша модель выдала значение 0,9 то наши
3:30
потери в этом примере были бы 0,1 если
3:32
бы модель выдала значение 0,8 то наши
3:34
потери были бы 0,2 и так далее Это
3:36
формулировка эквивалентно так называемой
3:37
функции потерь L1 которая хорошо
3:38
работает во многих задачах машинного
3:40
обучения Однако на практике мы
3:41
обнаружили что модели часто работают
3:42
лучше при использовании другой функции
3:43
потерь называемой Крос энтропии
3:45
теоретическая обоснование Крос энтропии
3:46
немного сложное но реализация проста всё
3:48
что нам нужно сделать — это взять
3:49
отрицательный натуральный логарифм
3:50
вероятности которую модель выдала в
3:51
индексе правильного ответа таким образом
3:53
чтобы вычислить наши потери в примере с
3:54
эйнштейном мы просто берём отрицательный
3:55
логарифм вероятности которую модель
3:56
выдала в индексе 4,59 поэтому Если наша
3:59
модель на 100% то наши потери при Крос
4:01
энтропии равны отрицательному
4:02
натуральному логарифму единиц или нулю
4:03
Что логично и соответствует нашим
4:04
потерям L1 Если наша модель уверена в
4:06
правильном ответе на 90% то наши потери
4:07
при Крос энтропии равны отрицательному
4:09
натуральному логарифму 0,9 или примерно
4:11
0,1 опять же это близко к нашим потерям
4:13
L1 если мы построим график наших потери
4:14
при Крос энтропии в зависимости от
4:15
вероятности которую выдаёт модель мы
4:17
увидим что потери растут медленно а
4:18
затем резко увеличиваются когда
4:19
вероятность правильного слова
4:20
приближается к нулю Это означает что
4:21
если модель не уверена в правильности
4:22
ответа то потери по перекрёстной
4:23
энтропии будут очень высокими потери по
4:25
перекрёстной энтропии которые мы видим
4:26
на си во всех рассмотренных нами
4:27
примерах — это показатель уверенности
4:28
модели в правильности следу дуго слова в
4:30
тестовом наборе чем больше модель
4:31
уверена в правильности следующего слова
4:32
в тестовом наборе тем ближе к нулю
4:33
становятся средние потери по
4:34
перекрёстной энтропии Теперь понятно
4:36
почему кривая потерь в начале обучения у
4:37
команды не стремится к нулю а
4:38
выравнивается дело в том что в таких
4:39
последовательностях Как это нет
4:40
однозначного правильного ответа на
4:42
вопрос о следующем слове Например в
4:43
предложении первое имя Эйнштейна
4:44
следующее слово очевидно но в
4:46
большинстве текстов это не так большая
4:47
часть обучающих данных гпт 3 взята из
4:49
текстов найденных в интернете если мы
4:50
ведём запрос нейрона сеть это то получим
4:52
множество разных ответов из разных
4:53
источников ни один из этих ответов не
4:54
является неправильным просто есть много
4:56
разных способов объяснить что такое
4:57
нейронная сеть эта фундаментальная
4:58
неопределённость называется энтропии
5:00
естественного языка лучшее на что мы
5:01
можем надеяться в наших языковых моделях
5:02
это то что они с высокой вероятностью
5:03
выберут реалистичный набор следующих
5:05
слов и удивительно Но именно это делают
5:06
большие языковые модели например вот
5:08
пять лучших вариантов от модели Мета
5:09
лома Мы никогда не сможем свести потери
5:11
по перекрёстной энтропии к нулю Но
5:12
насколько близко мы можем к этому
5:13
приблизиться Можем ли мы вычислить или
5:14
оценить значение энтропии естественного
5:16
языка подставив степенные модели к
5:17
графиком потерь которые включают
5:18
постоянную величину неподдающиеся в
5:20
численную команда смогла оценить
5:21
естественную энтропию изображений видео
5:22
и других источников данных с низким
5:24
разрешением для каждой задачи они
5:25
оценивали естественную энтропию данных
5:26
двумя способами первый по графику где
5:28
прива масштабирование модели
5:29
выравнивается а второй по графику где
5:30
кривая вычисление выравнивается они
5:31
обнаружили что эти отдельные оценки
5:33
очень хорошо согласуются друг с другом
5:34
Обратите внимание что степенные законы
5:35
масштабирования по-прежнему работают в
5:36
этих случаях но с добавлением постоянной
5:38
величины наша линия тренда или Граница
5:39
на графике логарифмической шкалы больше
5:40
не является прямой Интересно что команда
5:42
не смогла обнаружить снижение
5:43
производительности при работе с
5:43
языковыми данными отметив что к
5:45
сожалению даже с данными самых больших
5:46
языковых моделей мы пока не можем
5:47
получить значимую оценку энтропии
5:48
естественного языка Через 18 месяцев
5:50
команда Google deepmind опубликовала
5:51
серию масштабных экспериментов по
5:52
масштабированию нейросетей в ходе
5:54
которых они действительно обнаружили
5:55
некоторую привязной границы
5:55
эффективности вычислений для
5:56
естественного языка Они использовали
5:58
полученные результаты для построения
5:59
закона масштаби нейросетей который
6:00
разбивает общую потерю на три
6:01
составляющие одна из них зависит от
6:02
размера модели другая от размера набора
6:04
данных а третья от энтропии
6:05
естественного текста эти эмпирические
6:07
результаты показывают что даже
6:08
бесконечно большая модель с бесконечным
6:09
объёмом данных не может иметь среднюю
6:10
потерю Крос энтропии в массиве текстовых
6:12
данных менее
6:13
1,69 год спустя в день пи 2023 команда
6:16
Open ai выпустила gt4 Несмотря на то что
6:18
технический отчёт гпт 4 занимает 100
6:20
страниц в нём почти нет технической
6:22
информации о самой модели команда Open
6:24
не поделилась этой информацией
6:25
сославшись на конкурентную среду и
6:26
последствия для безопасности Однако в
6:27
документе есть два графика
6:28
масштабирования стоимость обучения ПТФ
6:30
огромный по имеющимся сведениям
6:31
превышает 100 млн долларов прежде чем
6:32
осуществить эти масштабные инвестиции
6:34
команда предсказала как будет
6:35
масштабироваться производительность
6:36
используя те же простые степенные законы
6:37
сопоставив эту кривую с результатами
6:38
гораздо меньших экспериментов Обратите
6:40
внимание что на этом графике
6:40
используется линейный а не
6:41
логарифмический масштаб II что
6:43
увеличивает кривизну машбир не если мы
6:44
сопоставим эту кривую с логарифмическим
6:45
масштабам мы увидим некоторую кривизну
6:47
но в целом она будет соответствовать
6:48
другим графикам масштабирования которые
6:49
мы видели что здесь Невероятно так это
6:50
то насколько точно команда apn смогла
6:52
предсказать производительность ПТФ даже
6:53
в таком огромном масштабе в то время как
6:55
обучение гпт 3 потребовало и без того
6:56
огромных 3,64 флоп дней по некоторым
6:58
прочим при обучении ПТФ вычислительная
7:01
мощность составляет более 200 флоп дней
7:03
что как сообщается требует 25 а
7:04
графический процессор NVIDIA A 100
7:05
работают более 3 месяцев всё это
7:07
означает что законы нероново
7:08
масштабирования по-видимому справедливы
7:09
в невероятном диапазоне масштабов
7:10
примерно на 13 порядков от 10 до мину во
7:12
флоп дней о которых сообщалось в
7:14
публикация P1 2020 до просочи вше гося
7:16
значения более 200 флоп дней для
7:17
обучения гпт 4 это возвращает нас к
7:19
нашему вопросу Почему во-первых
7:20
производительность модели искусственного
7:21
интеллекта подчиняется таким простым
7:23
законам Почему данные размер модели и
7:24
вычисления являются фундаментальными
7:25
ограничениями систем которые мы создаём
7:26
И почему они так просто связаны с
7:28
производительностью модели теория
7:29
глубоко обучения которая нужна нам для
7:30
ответа на подобные вопросы как правило
7:31
сильно отстаёт от практики глубокого
7:32
обучения но недавние исследования
7:34
убедительно доказывают что
7:34
производительность моделе глубокого
7:36
обучения подчиняется степному закону и
7:37
это объясняется тем что модели
7:38
эффективно используют данные для работы
7:40
с многомерные массивами данных понять
7:41
эти теории бывает непросто лучше всего
7:43
разбираться в них постепенно чтобы
7:44
разобраться в моделях глубокого обучения
7:46
и других темах посмотрите видео от
7:47
спонсора brillant когда я пытаюсь
7:49
разобраться в таких теориях как
7:50
нейронной масштабирование я начинаю с
7:51
чтения статей но это не всегда помогает
7:53
Я почти всегда что-то программирую чтобы
7:54
поэкспериментировать и посмотреть что
7:55
происходит на самом деле бриллиант
7:57
делает это за вас позволяя сразу перейти
7:58
к практике
8:00
у них есть тысячи интерактивных уроков
8:01
по математике программированию анализу
8:02
данных и искусственному интеллекту
8:04
брилиант помогает вам развивать интуицию
8:05
решая реальные задачи это очень важно
8:07
для меня через несколько минут вы
8:08
увидите анимацию показывающую как
8:09
нейронная сеть учится представлять набор
8:11
данных инис в ниско мерном пространстве
8:12
решение небольших задач подобных этой
8:14
помогает мне развивать интуицию
8:15
Brilliant предлагает Такой формат
8:16
обучения который позволяет вам
8:17
заниматься всего несколько минут в день
8:18
Вы удивитесь Насколько быстро вы будете
8:20
продвигаться вперёд если будете
8:21
прилагать усилия у brillant есть целы
8:22
курс по большим языковым моделям включая
8:23
уроки которые помогут вам глубже изучить
8:25
темы которые мы уже затронули например
8:26
предсказание следующего слова и расчёт
8:27
вероятности слов чтобы попробовать курс
8:28
БН большим таковым моделям и всё
8:30
остальное Что они предлагают бесплатно в
8:31
течение 30 дней Посетите сайт
8:32
brilliant.org / wchs или перейдите по
8:33
ссылке в описании этого видео перейдя по
8:35
этой ссылке вы также получите ДТИ
8:36
процентную скидку на годовую премиум
8:37
подписку на бриллиант Большое спасибо
8:38
блин за спонсорство этого видео А теперь
8:40
вернёмся к нейроном масштабированию в
8:41
машинном обучении есть идея что набор
8:42
данных на основе которых учатся наши
8:43
модели существуют на многообразия в
8:45
многомерном пространстве мы можем
8:46
рассматривать естественные данные такие
8:47
как изображение или текст как точки в
8:48
этом многомерном пространстве например в
8:50
наборе данных ин состоящим из рукописных
8:51
изображений каждое изображение состоит
8:52
из сетки размером 208 на 28 пикселей а
8:54
интенсивность каждого пикселя хранится в
8:55
виде числа от нуля до один если мы на
8:57
мгновение представим что на наших
8:58
изображениях всего два пикселя мы мы
8:59
можем визуализировать эти два пиксельных
9:00
изображения как точки в двухмерном
9:01
пространстве где значение интенсивности
9:02
первого пикселя соответствует координате
9:04
X а значение интенсивности второго
9:05
пикселя координате Y изображение
9:06
состоящие из двух белых пикселей будет
9:07
иметь нулевую точку В нашем трёхмерном
9:09
пространстве изображение с чёрным
9:10
пикселем в первой позиции и белым
9:11
пикселем во второй позиции будет иметь
9:12
единицу а изображение со значением
9:13
серого равно 0,4 для обоих пикселей
9:15
будет иметь значение 0,4 зап 0,4 и так
9:17
далее если бы наших изображениях было
9:19
три пикселя вместо двух то тот же подход
9:20
всё равно Работал бы только в трёх
9:21
измерениях увеличив масштаб до наших
9:22
изображений размером 28 на 28 пикселей
9:24
наше изображения превратились бы в точки
9:25
784 мерном пространстве подавляющее
9:27
большинство точек в этом многомерном
9:28
пространстве не являются цифрами на мят
9:29
руки мы можем убедиться в этом выбрав
9:30
случайным образом точки в пространстве и
9:32
ото образив их в виде изображений они
9:33
почти всегда выглядят как Случайный шум
9:34
чтобы случайно выбрать рукописную цифру
9:36
нужно очень-очень-очень сильно повести
9:37
такая редкость говорит о том что в этом
9:39
784 мерном пространстве Может быть
9:41
какая-то форма меньшей размерности где
9:42
каждая точка на этой форме является
9:44
рукописной цифрой если вернуться к нашим
9:45
игрушечным изображениям из трёх пикселей
9:47
то если бы мы узнали что значение
9:48
интенсивности нашего третьего пикселя
9:49
назовём его X3 всегда равно единице плюс
9:51
косинус значения второго пикселя X2 все
9:53
наше изображения из трёх пикселей лежали
9:54
бы на изогнутой поверхности в трёхмерном
9:56
пространстве определяемой как X3 рано 1
9:57

cos X2 это поверхность двух мы можем
9:59
определить местоположение наших
10:00
изображений в трёхмерном пространстве
10:02
используя только X1 и X2 нам больше не
10:03
нужен X3 мы можем представить себе
10:05
нейронную сеть которая классифицирует
10:06
низ работая похожим образом например в
10:07
этой архитектуре сети наш предпоследний
10:09
слой состоит из 16 нейронов Что означает
10:11
что сеть преобразовалась 784 мерное
10:12
входное пространство в гораздо меньшее
10:14
шестнадцати мерное пространство очень
10:15
похожая на нашу функцию 1 + косинус
10:17
которая
10:19
преобразовалась действительно интересной
10:21
когда мы понимаем что многообразие — Это
10:22
не просто представление данных в
10:23
пространстве меньшей размерности
10:24
геометрия многообразия часто содержит
10:26
информацию о данных если мы возьмём
10:27
шестнадцати мерного мерное представление
10:29
набора данных низ которое было получено
10:30
нашей нейронной сетью мы сможем понять
10:31
его геометрию
10:34
проецируемого техники как ю которая
10:36
пытается сохранить структуру
10:37
пространства большей размерности при
10:38
раскрашивания каждой точки с помощью
10:39
номера соответствующего изображению Мы
10:41
видим что по мере обучения нейросети
10:43
одинаковые цифры группируются в
10:44
небольшие области на поверхности Это
10:45
обычное явление во многих задачах
10:47
машинного обучения изображения на
10:48
которых изображены похожие объекты или
10:49
текст описывающие схожие понятия В итоге
10:51
оказываются близко друг к другу на
10:52
обученной поверхности один из способов
10:53
понять что делают модели глубокого
10:55
обучения — это отображение многомерных
10:56
входных данных в многомерной поверхности
10:57
где положение данных на поверхности
10:59
имеет смысл Теперь давайте разберёмся
11:00
как гипотеза о поверхности связана с
11:02
законами масштабирования нейросетей
11:03
рассмотрим закон масштабирования
11:04
нейросетей который связывает размер
11:05
обучающего набора данных с
11:06
производительностью моделий измеряемой
11:07
как потеря Крос энтропии на тестовом
11:08
наборе если гипотеза о поверхности верна
11:10
то наши обучающие данные — это точки на
11:11
некоторой поверхности в многомерном
11:12
пространстве и наша модель пытается
11:14
изучить форму этой поверхности плотность
11:15
наших обучающих точек на поверхности
11:17
зависит от того сколько у нас данных а
11:18
также от размерности поверхности в
11:19
одномерном пространстве если у нас есть
11:20
D точек данных для обучения и общая
11:22
длина нашего многообразия равна L мы
11:23
можем вычислить среднее расстояние между
11:24
точками данных для обучения S раздели L
11:26
на D Обратите внимание что вместо того
11:27
чтобы думать о расстоянии между точками
11:28
данных для обучения напрямую в более
11:30
высоких измерениях проще представить
11:31
себе небольшой участок вокруг каждой
11:32
точки размером S и поскольку эти
11:33
небольшие участки соприкасаются друг с
11:35
другом расстояние между точками данных
11:36
для обучения по-прежнему равно S
11:37
переходя к двумерному пространству мы
11:38
фактически заполняем квадрат со стороной
11:40
L маленькими квадратами со стороной S
11:41
расположенными вокруг каждой точки
11:42
данных для обучения общая площадь нашего
11:43
большого квадрата L к должна быть равна
11:45
количеству точек данных D умноженному на
11:46
площадь каждого маленького квадрата то
11:48
есть D умноженное на S к переставляя и
11:49
решая мы можем показать что S = L уму на
11:51
D в степени — 0,5 переходя к трёхмерном
11:54
пространству мы заполняем куб со
11:55
стороной L маленькими кубиками со
11:56
стороной S приравниваемый маленьких
11:58
кубиков и большого Куба мы можем
11:59
показать что S = L уму на D в Степе -3
12:01
таким образом По мере перехода к более
12:03
высоким измерениям среднее расстояние
12:04
между точками масштабируется в
12:05
зависимости от количества данных
12:06
которыми Мы располагаем в степени -1
12:08
делённой на размерность многообразия
12:09
теперь когда мы говорим о плотности
12:10
точек данных на нашем многообразии это
12:11
важно потому что Ошибка тестовой точки
12:13
будет ограничена функцией её расстояния
12:14
до ближайшей точки данных для обучения
12:16
если мы предположим что наша модель
12:17
достаточно мощная чтобы идеально
12:18
соответствовать обучающим данным то наше
12:19
обученной пространство будет точно
12:20
соответствовать реальному пространству
12:21
данных в точках обучения глубокая
12:23
нейронная сеть с функцией активации ril
12:24
может линейно интерполировать между
12:25
этими точками обучения для получения
12:27
прогнозов если мы предположим что наше
12:28
пространство гладкие то можем
12:29
использовать разложение Тейлора Чтобы
12:30
показать что наша ошибка будет
12:31
пропорционально квадрат расстояния между
12:32
ближайшими точками обучения и
12:33
тестирования мы установили что среднее
12:35
расстояние между точками обучения
12:36
пропорционально размеру нашего набора
12:37
данных D в степени -1 делённый на
12:38
размерность нашего пространства Таким
12:39
образом мы можем возвести это значение в
12:41
квадрат чтобы оценить как наша ошибка
12:42
зависит от размера набора данных и
12:43
вычислить D в степени -2 делённый на
12:45
размерность пространства наконец помните
12:46
что наши модели используют функцию
12:47
потерь с перекрёстной энтропией но до
12:48
сих пор в нашем анализе пространства мы
12:49
рассматривали только расстояние между
12:51
предсказанный и истинным значением это
12:52
эквивалентно значению потери L1 которое
12:53
мы рассматривали ранее применяя
12:54
аналогичное разложение Тейлора функции
12:56
перекрёстной энтропии мы можем показать
12:57
что потери при перекрёстной энтропии
12:58
будут пропорциональны ра растояния между
12:59
предсказанный истинным значением таким
13:01
образом для нашего окончательного
13:01
теоретического результа мы ожидаем что
13:03
потери перекрёстной энтропии будут
13:04
пропорциональны размеру набор данных D в
13:05
степени -2 де на квадрат размерности
13:07
пространства таким образом D в степени
13:08
ми4 делённой на размер набора данных это
13:10
представляет собой наихудшим поэтому это
13:11
Верхняя граница Следовательно мы ожидаем
13:13
что потери при перекрёстной энтропии
13:14
будут пропорционально или меньше этого
13:15
значения команда разработавший эту
13:16
теорию называет это масштабированием с
13:17
ограничениями потому что чем больше
13:19
данных тем лучше модель справляется С
13:20
обработкой данных Интересно что При
13:21
рассмотрении зависимости между размером
13:23
моделе и потерями теория предсказывает
13:24
ту же зависимость в четвёртой степени в
13:25
данном случае предполагается что
13:27
дополнительные параметры модели
13:28
позволяют ей лучше соответствовать
13:29
данным при более высоком разрешении так
13:31
как же этот теоретический результат
13:32
соотносится с наблюдениями команды Open
13:34
ai и Google deepmind публикуют свои
13:35
значения масштабирования соответствуют
13:37
ли они теоретическим прогнозам в статье
13:39
Open ai за январь 2020 года команда
13:41
обнаружила что потери при Крос энтропии
13:42
масштабируется в зависимости от размера
13:44
набора данных в степени — 0,95 Они
13:47
называют это значение Альфа суб D если
13:48
теория верна то Альфа суб D должна быть
13:50
больше или равна четырём дем на
13:51
внутреннее измерение данных этот
13:53
последний шаг довольно сложный так как
13:54
требует оценки размерности данных также
13:56
известный как внутреннее измерение
13:57
естественного языка команда началась
13:58
небольших задач где внутреннее измерение
14:00
известно или может быть хорошо оценено
14:01
они обнаружили хорошее соответствие
14:02
между теоретическими экспериментальными
14:03
параметрами масштабирования в случаях
14:05
когда синтетические обучающие данные с
14:06
известным внутренним измерением
14:07
создаются моделью учителям и изучаются
14:08
моделью учеников они также смогли
14:10
показать что прогноз -4 на D хорошо
14:12
работает с небольшими наборами данных
14:13
изображений включая СТ наконец если мы
14:15
применим наблюдаемый коэффициент
14:16
масштабирования равный 0,95 языку то
14:18
сможем вычислить что внутреннее
14:20
измерение естественного языка должно
14:21
быть примерно равно 42 команда проверила
14:23
этот результат оценив внутреннее
14:24
измерение многообразий которые изучила
14:25
языковая модель и обнаружила что оно
14:27
значительно выше порядка 100 заметьте
14:28
что не из теорий всё ещё действует но мы
14:30
не видим такого же согласия как в
14:31
синтетических и меньших наборах данных
14:33
Таким образом у нас есть убедительная
14:34
теория обладающая реальной
14:35
предсказательной силой Но пока ещё не
14:37
единая теория и за последние 5 лет мы
14:38
стали свидетелями поразительного
14:40
прогресса в области и от первой статьи в
14:42
начале 2020 года до выпуска гпт 4 в 2023
14:45
году законы масштабирования нейросетей
14:46
показали нам Путь к улучшению
14:48
производительности важно отметить что
14:49
хотя законы масштабирования невероятно
14:50
точно предсказывают производительность
14:51
при прогнозировании следующего слова
14:53
прогнозирование наличия определённых
14:54
моделей поведения остаётся более сложной
14:55
задачей способности к таким задачам как
14:57
расшифровка слов арифметика и мно ное
14:59
мышление похоже просто появляются в
15:00
разных масштабах удивительно видеть как
15:01
далеко нас продвинул наш подход на
15:03
основе нейронных сетей и конечно мы не
15:04
знаем как далеко Он может зайти многие
15:06
авторы статей которые мы здесь
15:07
рассмотрели имеют опыт работы в области
15:08
физики и в их подходах и речи
15:10
чувствуется что они ищут объединяющие
15:11
принципы приятно видеть что такой подход
15:13
применяется в и законы масштабирования
15:14
нейросетей — Это мощный пример
15:16
объединения в и который даёт удивительно
15:17
точные и полезные эмпирические
15:19
результаты и дразня намёки на единую
15:20
теорию масштабирования для
15:21
интеллектуальных систем будет интересно
15:23
посмотреть к чему приведут законы
15:24
масштабирования и другие теории в
15:25
Ближайшие 5 лет и понять Действительно
15:27
ли искусственный интеллект не может
15:28
предо этот
15:29
рубеж если вам нравится видео на wlop то
15:32
вам точно понравится моя книга о мнимых
15:34
числах она выйдет в этом году в 2016
15:36
году Я выпустил серию из 13 частей на
15:37
YouTube посвящённую мнимым числам это
15:39
невероятно интересная тема Я выпустил
15:40
первую версию этой книги в 2016 году а
15:42
сейчас работаю над её обновлением
15:43
исправлением и значительным расширени
15:45
моя цель — создать лучшую книгу о мнимых
15:46
числах книги в твёрдом переплёте
15:48
высокого качества начнут поступать в
15:49
продажу в конце этого года вы можете
15:50
оформить предзаказ на книгу по ссылке в
15:51
описании ниже в комплект входит
15:52
бесплатная электронная версия книги 2016
15:54
года которую вы можете скачать уже
15:56
сегодня я также работаю над новыми
15:57
постерами У меня есть версия мной Темой
16:00
Это отличный способ визуализировать
16:01
данные которые обрабатывают модели
16:02
машинного зрения всё это и многое другое
16:04
вы найдёте в магазине

Таймкоды

Расшифровка видео

Похожие записи