ИИ не может пересечь Эту Линию? Почему? Искусственный интеллект почему-то пока уперся.

Таймкоды

00:00 Пределы масштабирования нейронных сетей

  • Искусственные нейроны и сети не могут преодолеть предел ошибок.
  • Количество ошибок уменьшается с увеличением размера модели, но требует больше вычислительных ресурсов.
  • Существует оптимальный предел, который не зависит от архитектуры модели.

00:59 Исследование OpenAI

  • В 2020 году OpenAI опубликовала статью с тенденциями производительности языковых моделей.
  • Уравнение степенного закона позволяет оценить производительность в зависимости от вычислительных ресурсов и размера модели.
  • Самая крупная модель требовала 10 петафлопс дней вычислений для обучения.

01:57 Масштабирование и производительность GPT-3

  • GPT-3 не достигла пределов масштабирования, что указывает на дальнейшее повышение производительности.
  • В октябре 2021 года команда APNI исследовала масштабирование для различных задач, включая моделирование изображений и видео.
  • В некоторых случаях тенденции к масштабированию сглаживаются до достижения нулевой погрешности.

02:55 Потери и функции потерь

  • Потери определяют оптимизацию параметров модели.
  • Функция потерь L1 и кросс-энтропия используются для измерения ошибок.
  • Кросс-энтропия показывает уверенность модели в правильности ответа.

04:50 Энтропия естественного языка

  • Большие языковые модели выбирают реалистичные следующие слова.
  • Оценка энтропии данных показывает, что потери по кросс-энтропии никогда не могут быть сведены к нулю.
  • Команда оценила естественную энтропию изображений и видео, но не смогла получить значимую оценку для языковых данных.

05:48 ьМасштабирование нейросетей

  • Google Deepmind опубликовал серию экспериментов по масштабированию нейросетей.
  • Обнаружена привязная граница эффективности вычислений для естественного языка.
  • Закон масштабирования нейросетей разбивает общую потерю на три составляющие.

06:47 GPT-4 и предсказание производительности

  • OpenAI выпустила GPT-4, но не поделилась технической информацией.
  • Предсказание производительности GPT-4 оказалось точным.
  • Обучение GPT-4 требует более 200 флоп дней, что подтверждает справедливость законов масштабирования.

07:44 Теория глубокого обучения

  • Производительность моделей глубокого обучения подчиняется степенному закону.
  • Модели эффективно используют данные для работы с многомерными массивами.
  • Brilliant предлагает интерактивные уроки для понимания теории глубокого обучения.

08:42 Многомерное пространство данных

  • Данные можно рассматривать как точки в многомерном пространстве.
  • Изображения и текст можно представить как точки в многомерном пространстве.
  • Большинство точек в многомерном пространстве не являются рукописными цифрами.

09:39 Геометрия многообразия

  • Многообразие содержит информацию о данных.
  • Нейронная сеть преобразует многомерное пространство в меньшее.
  • Геометрия многообразия помогает понять структуру данных.

10:37 Закон масштабирования нейросетей

  • Обучающие данные – это точки на поверхности в многомерном пространстве.
  • Модель изучает форму этой поверхности.
  • Плотность обучающих точек влияет на производительность модели.

11:35 Расстояние между точками данных

  • В двумерном пространстве расстояние между точками данных равно S.
  • В трехмерном пространстве расстояние равно S.
  • Среднее расстояние между точками данных масштабируется в зависимости от количества данных и размерности пространства.

12:33 Ошибка тестовой точки

  • Ошибка тестовой точки пропорциональна квадрату расстояния до ближайшей точки данных для обучения.
  • Глубокая нейронная сеть может линейно интерполировать между точками обучения для прогнозов.
  • Потери при перекрёстной энтропии пропорциональны квадрату расстояния между предсказаниями и истинными значениями.

13:31 Теоретические результаты

  • Потери при перекрёстной энтропии масштабируются в зависимости от размера набора данных в степени -0.95.
  • Теория предсказывает, что потери должны быть пропорциональны размеру набора данных в степени -4.
  • Наблюдаемые коэффициенты масштабирования соответствуют теоретическим прогнозам для синтетических данных и небольших наборов данных изображений.

14:28 Прогресс в области ИИ

  • Законы масштабирования нейросетей показывают путь к улучшению производительности.
  • Прогнозирование поведения остаётся сложной задачей.
  • Подход на основе нейронных сетей демонстрирует значительный прогресс за последние 5 лет.

15:27 Заключение и анонс книги

  • Автор анонсирует книгу о мнимых числах, которая выйдет в этом году.
  • Книга будет доступна в твёрдом переплёте и с бесплатной электронной версией.
  • Автор также работает над новыми постерами для визуализации данных, обрабатываемых моделями машинного зрения.

Таймкоды сделпны в Нейросети YandexGPT https://300.ya.ru/

Расшифровка видео

0:00
искусственные нейроны и сети не могут
0:01
преодолеть этот предел и мы не знаем
0:03
Почему когда мы обучаем модель
0:04
количество ошибок обычно быстро
0:05
уменьшается а затем стабилизируется если
0:06
мы возьмём модель большего размера то
0:08
количество ошибок уменьшится но для
0:09
этого потребуется больше вычислительных
0:10
ресурсов с увеличением размера модели мы
0:12
получаем семейство кривых подобных этой
0:13
если мы переведём наши оси в
0:14
логарифмический масштаб то увидим чёткую
0:15
тенденцию при которой ни одна модель не
0:17
может преодолеть этот предел называемый
0:18
оптимальным или эффективным с точки
0:19
зрения вычисления это один из трёх
0:20
законов масштабирования нейронных сетей
0:22
которые широко распространены количество
0:23
ошибок очень похоже зависит от
0:24
вычислительных ресурсов размера модели и
0:26
объёма данных и что примечательно не
0:28
сильно зависит от архитектуры модели или
0:29
других ал ческих деталей если сделан
0:31
разумный выбор отсюда возникает
0:32
интересный вопрос как мы открыли
0:33
фундаментальный закон природы например
0:35
закон идеального газа для создания
0:36
интеллектуальных систем или это просто
0:37
результат того что мы сейчас используем
0:39
нейронные сети для искусственного
0:40
интеллекта насколько мощными могут стать
0:41
эти модели если мы продолжим увеличивать
0:43
объём данных размер модели и
0:44
вычислительные ресурсы Сможем ли мы
0:45
свести ошибки к нулю или
0:46
производительность стабилизируется
0:47
Почему данные размер модели и
0:48
вычислительные ресурсы являются
0:50
фундаментальными ограничениями
0:51
создаваемых нами систем И почему они так
0:52
просто связаны с производительностью
0:53
модели 2020 год стал переломным для Open
0:56
ai в январе команда опубликовала статью
0:57
в которой показала чёткие тенденции
0:59
производительности в широком диапазоне
1:00
масштабов для языковых моделей команда
1:01
подобрала уравнение степенного закона
1:02
для каждого набора результатов Что
1:03
позволило точно оценить как
1:04
производительность зависит от
1:05
вычислительных ресурсов размера набора
1:06
данных и модели на логарифмических
1:08
графиках эти степенные уравнения
1:09
отображаются в виде прямых линий и
1:10
наклон каждой линии равен показателю
1:11
степени уравнения соответствия чем
1:13
больше показатель степени тем круче
1:14
линии и быстрее улучшается
1:15
производительность команда не заметила
1:16
никаких признаков отклонения от этих
1:17
тенденций в верхнем сегменте что
1:18
предвещает стратегию pni на этот год
1:20
самая крупная модель которую команда
1:21
тестировала в то время имела 1,5 млрд
1:23
поддающихся изучению параметров и
1:24
требовало около 10 петафлопс дней
1:25
вычислений для обучения петафлопс в день
1:27

Это количество вычислений которое
1:28
система способная выполнять один
1:29
квадриллион операций плавающей забитой
1:30
может выполнить за день лучшие
1:31
графические процессоры линейки на тот
1:32
момент NV V1 производили около 30 tflops
1:35
таким образом система с тёх из этих
1:36
десяти нулевых графических процессоров
1:37
будет производить около петафлопс
1:38
вычисление тем летом с выпуском гпт
1:40
команда получила эмпирический
1:41
предсказанный прирост производительности
1:42
команда Open A сдела огромную ставку на
1:44
масштаб заключив партнёрство с Microsoft
1:45
создание огромного суперкомпьютера
1:50
оснащённость параметром gpt-3
1:52
использующая 3640 петафлопс
1:54
вычислительных дней производительность
1:55
гп-3 на удивление хорошо соответствовала
1:57
трендовой линии предсказанный в январе
1:58
но также не выронила что указывает на
1:59
дальнейшее повышение производительности
2:01
ещё более крупных моделей если массивная
2:02
гпт 3 не достигло пределов нейронов
2:04
масштабирования то где же они были
2:05
Возможно ли свести частоту ошибок к нулю
2:06
при достаточном количестве вычислений
2:07
данных и размере модели в Октябрьской
2:09
публикации команда apni уделила более
2:10
пристальное внимание масштабированию
2:11
команда обнаружила одни и те же чёткие
2:13
законы масштабирования для целого ряда
2:14
задач включая моделирование изображения
2:15
и видео они также обнаружили что в
2:16
некоторых других случаях тенденции к
2:18
масштабированию в конечном итоге
2:19
сглаживать прежде чем достигалась
2:20
нулевая погрешность это логично Если
2:21
учесть что именно измеряют эти
2:22
показатели погрешности большие языковые
2:24
модели такие как гпт 3 являются
2:25
авторегрессия они обучаются
2:26
предсказывать следующее слово или
2:27
фрагмент слова в последовательности
2:28
текста на основе предыдущих эти прогнозы
2:30
обычно Имеют форму векторов вероятностей
2:32
поэтому для заданной последовательности
2:33
входных слов языковая модель выдаст
2:35
Вектор значений от нуля до единицы где
2:36
каждая запись соответствует вероятности
2:38
определённого слова из её словаря эти
2:39
векторы обычно нормализуются с помощью
2:41
операции Soft Ma которая гарантирует что
2:42
все вероятности в сумме равны единице
2:44
гпт 3 имеет словарь из
2:46
5257 слов Поэтому если мы ведём
2:48
последовательность текста например
2:49
первое имя Эйнштейна модель выдаст
2:51
Вектор длиной 50.2 и мы ожидаем что этот
2:53
Вектор будет близо к нулю везде кроме
2:55
индекса соответствующего слову Альберт
2:56
это индекс 4,59 если вам интересно во
2:59
время обучения мы знаем Какое слово
3:00
будет следующим в тексте поэтому мы
3:02
можем вычислить ошибку или показать им
3:03
потерь который показывает насколько
3:04
хорошо Наша модель справляется с задачей
3:05
по сравнению с тем что мы знаем это
3:06
значение потерь невероятно важно потому
3:08
что оно определяет оптимизацию или
3:09
обучение параметров модели все эти
3:11
петафлопс обучения направлены на то
3:12
чтобы уменьшить это значение потерь есть
3:14
много разных способов измерить потери в
3:15
нашем примере с Эйнштейна мы знаем что
3:16
правильный выходной Вектор должен иметь
3:18
единицу в индексе 4,59 поэтому мы можем
3:20
определить нашу функцию потерь как
3:21
единицу минус вероятность которую модель
3:22
выдала в этом индексе если бы наша
3:24
модель Была уверена на 100% что ответ
3:25
Альберт и выдала единицу то наши потери
3:26
были бы равны нулю Что логично если бы
3:28
наша модель выдала значение 0,9 то наши
3:30
потери в этом примере были бы 0,1 если
3:32
бы модель выдала значение 0,8 то наши
3:34
потери были бы 0,2 и так далее Это
3:36
формулировка эквивалентно так называемой
3:37
функции потерь L1 которая хорошо
3:38
работает во многих задачах машинного
3:40
обучения Однако на практике мы
3:41
обнаружили что модели часто работают
3:42
лучше при использовании другой функции
3:43
потерь называемой Крос энтропии
3:45
теоретическая обоснование Крос энтропии
3:46
немного сложное но реализация проста всё
3:48
что нам нужно сделать – это взять
3:49
отрицательный натуральный логарифм
3:50
вероятности которую модель выдала в
3:51
индексе правильного ответа таким образом
3:53
чтобы вычислить наши потери в примере с
3:54
эйнштейном мы просто берём отрицательный
3:55
логарифм вероятности которую модель
3:56
выдала в индексе 4,59 поэтому Если наша
3:59
модель на 100% то наши потери при Крос
4:01
энтропии равны отрицательному
4:02
натуральному логарифму единиц или нулю
4:03
Что логично и соответствует нашим
4:04
потерям L1 Если наша модель уверена в
4:06
правильном ответе на 90% то наши потери
4:07
при Крос энтропии равны отрицательному
4:09
натуральному логарифму 0,9 или примерно
4:11
0,1 опять же это близко к нашим потерям
4:13
L1 если мы построим график наших потери
4:14
при Крос энтропии в зависимости от
4:15
вероятности которую выдаёт модель мы
4:17
увидим что потери растут медленно а
4:18
затем резко увеличиваются когда
4:19
вероятность правильного слова
4:20
приближается к нулю Это означает что
4:21
если модель не уверена в правильности
4:22
ответа то потери по перекрёстной
4:23
энтропии будут очень высокими потери по
4:25
перекрёстной энтропии которые мы видим
4:26
на си во всех рассмотренных нами
4:27
примерах – это показатель уверенности
4:28
модели в правильности следу дуго слова в
4:30
тестовом наборе чем больше модель
4:31
уверена в правильности следующего слова
4:32
в тестовом наборе тем ближе к нулю
4:33
становятся средние потери по
4:34
перекрёстной энтропии Теперь понятно
4:36
почему кривая потерь в начале обучения у
4:37
команды не стремится к нулю а
4:38
выравнивается дело в том что в таких
4:39
последовательностях Как это нет
4:40
однозначного правильного ответа на
4:42
вопрос о следующем слове Например в
4:43
предложении первое имя Эйнштейна
4:44
следующее слово очевидно но в
4:46
большинстве текстов это не так большая
4:47
часть обучающих данных гпт 3 взята из
4:49
текстов найденных в интернете если мы
4:50
ведём запрос нейрона сеть это то получим
4:52
множество разных ответов из разных
4:53
источников ни один из этих ответов не
4:54
является неправильным просто есть много
4:56
разных способов объяснить что такое
4:57
нейронная сеть эта фундаментальная
4:58
неопределённость называется энтропии
5:00
естественного языка лучшее на что мы
5:01
можем надеяться в наших языковых моделях
5:02
это то что они с высокой вероятностью
5:03
выберут реалистичный набор следующих
5:05
слов и удивительно Но именно это делают
5:06
большие языковые модели например вот
5:08
пять лучших вариантов от модели Мета
5:09
лома Мы никогда не сможем свести потери
5:11
по перекрёстной энтропии к нулю Но
5:12
насколько близко мы можем к этому
5:13
приблизиться Можем ли мы вычислить или
5:14
оценить значение энтропии естественного
5:16
языка подставив степенные модели к
5:17
графиком потерь которые включают
5:18
постоянную величину неподдающиеся в
5:20
численную команда смогла оценить
5:21
естественную энтропию изображений видео
5:22
и других источников данных с низким
5:24
разрешением для каждой задачи они
5:25
оценивали естественную энтропию данных
5:26
двумя способами первый по графику где
5:28
прива масштабирование модели
5:29
выравнивается а второй по графику где
5:30
кривая вычисление выравнивается они
5:31
обнаружили что эти отдельные оценки
5:33
очень хорошо согласуются друг с другом
5:34
Обратите внимание что степенные законы
5:35
масштабирования по-прежнему работают в
5:36
этих случаях но с добавлением постоянной
5:38
величины наша линия тренда или Граница
5:39
на графике логарифмической шкалы больше
5:40
не является прямой Интересно что команда
5:42
не смогла обнаружить снижение
5:43
производительности при работе с
5:43
языковыми данными отметив что к
5:45
сожалению даже с данными самых больших
5:46
языковых моделей мы пока не можем
5:47
получить значимую оценку энтропии
5:48
естественного языка Через 18 месяцев
5:50
команда Google deepmind опубликовала
5:51
серию масштабных экспериментов по
5:52
масштабированию нейросетей в ходе
5:54
которых они действительно обнаружили
5:55
некоторую привязной границы
5:55
эффективности вычислений для
5:56
естественного языка Они использовали
5:58
полученные результаты для построения
5:59
закона масштаби нейросетей который
6:00
разбивает общую потерю на три
6:01
составляющие одна из них зависит от
6:02
размера модели другая от размера набора
6:04
данных а третья от энтропии
6:05
естественного текста эти эмпирические
6:07
результаты показывают что даже
6:08
бесконечно большая модель с бесконечным
6:09
объёмом данных не может иметь среднюю
6:10
потерю Крос энтропии в массиве текстовых
6:12
данных менее
6:13
1,69 год спустя в день пи 2023 команда
6:16
Open ai выпустила gt4 Несмотря на то что
6:18
технический отчёт гпт 4 занимает 100
6:20
страниц в нём почти нет технической
6:22
информации о самой модели команда Open
6:24
не поделилась этой информацией
6:25
сославшись на конкурентную среду и
6:26
последствия для безопасности Однако в
6:27
документе есть два графика
6:28
масштабирования стоимость обучения ПТФ
6:30
огромный по имеющимся сведениям
6:31
превышает 100 млн долларов прежде чем
6:32
осуществить эти масштабные инвестиции
6:34
команда предсказала как будет
6:35
масштабироваться производительность
6:36
используя те же простые степенные законы
6:37
сопоставив эту кривую с результатами
6:38
гораздо меньших экспериментов Обратите
6:40
внимание что на этом графике
6:40
используется линейный а не
6:41
логарифмический масштаб II что
6:43
увеличивает кривизну машбир не если мы
6:44
сопоставим эту кривую с логарифмическим
6:45
масштабам мы увидим некоторую кривизну
6:47
но в целом она будет соответствовать
6:48
другим графикам масштабирования которые
6:49
мы видели что здесь Невероятно так это
6:50
то насколько точно команда apn смогла
6:52
предсказать производительность ПТФ даже
6:53
в таком огромном масштабе в то время как
6:55
обучение гпт 3 потребовало и без того
6:56
огромных 3,64 флоп дней по некоторым
6:58
прочим при обучении ПТФ вычислительная
7:01
мощность составляет более 200 флоп дней
7:03
что как сообщается требует 25 а
7:04
графический процессор NVIDIA A 100
7:05
работают более 3 месяцев всё это
7:07
означает что законы нероново
7:08
масштабирования по-видимому справедливы
7:09
в невероятном диапазоне масштабов
7:10
примерно на 13 порядков от 10 до мину во
7:12
флоп дней о которых сообщалось в
7:14
публикация P1 2020 до просочи вше гося
7:16
значения более 200 флоп дней для
7:17
обучения гпт 4 это возвращает нас к
7:19
нашему вопросу Почему во-первых
7:20
производительность модели искусственного
7:21
интеллекта подчиняется таким простым
7:23
законам Почему данные размер модели и
7:24
вычисления являются фундаментальными
7:25
ограничениями систем которые мы создаём
7:26
И почему они так просто связаны с
7:28
производительностью модели теория
7:29
глубоко обучения которая нужна нам для
7:30
ответа на подобные вопросы как правило
7:31
сильно отстаёт от практики глубокого
7:32
обучения но недавние исследования
7:34
убедительно доказывают что
7:34
производительность моделе глубокого
7:36
обучения подчиняется степному закону и
7:37
это объясняется тем что модели
7:38
эффективно используют данные для работы
7:40
с многомерные массивами данных понять
7:41
эти теории бывает непросто лучше всего
7:43
разбираться в них постепенно чтобы
7:44
разобраться в моделях глубокого обучения
7:46
и других темах посмотрите видео от
7:47
спонсора brillant когда я пытаюсь
7:49
разобраться в таких теориях как
7:50
нейронной масштабирование я начинаю с
7:51
чтения статей но это не всегда помогает
7:53
Я почти всегда что-то программирую чтобы
7:54
поэкспериментировать и посмотреть что
7:55
происходит на самом деле бриллиант
7:57
делает это за вас позволяя сразу перейти
7:58
к практике
8:00
у них есть тысячи интерактивных уроков
8:01
по математике программированию анализу
8:02
данных и искусственному интеллекту
8:04
брилиант помогает вам развивать интуицию
8:05
решая реальные задачи это очень важно
8:07
для меня через несколько минут вы
8:08
увидите анимацию показывающую как
8:09
нейронная сеть учится представлять набор
8:11
данных инис в ниско мерном пространстве
8:12
решение небольших задач подобных этой
8:14
помогает мне развивать интуицию
8:15
Brilliant предлагает Такой формат
8:16
обучения который позволяет вам
8:17
заниматься всего несколько минут в день
8:18
Вы удивитесь Насколько быстро вы будете
8:20
продвигаться вперёд если будете
8:21
прилагать усилия у brillant есть целы
8:22
курс по большим языковым моделям включая
8:23
уроки которые помогут вам глубже изучить
8:25
темы которые мы уже затронули например
8:26
предсказание следующего слова и расчёт
8:27
вероятности слов чтобы попробовать курс
8:28
БН большим таковым моделям и всё
8:30
остальное Что они предлагают бесплатно в
8:31
течение 30 дней Посетите сайт
8:32
brilliant.org / wchs или перейдите по
8:33
ссылке в описании этого видео перейдя по
8:35
этой ссылке вы также получите ДТИ
8:36
процентную скидку на годовую премиум
8:37
подписку на бриллиант Большое спасибо
8:38
блин за спонсорство этого видео А теперь
8:40
вернёмся к нейроном масштабированию в
8:41
машинном обучении есть идея что набор
8:42
данных на основе которых учатся наши
8:43
модели существуют на многообразия в
8:45
многомерном пространстве мы можем
8:46
рассматривать естественные данные такие
8:47
как изображение или текст как точки в
8:48
этом многомерном пространстве например в
8:50
наборе данных ин состоящим из рукописных
8:51
изображений каждое изображение состоит
8:52
из сетки размером 208 на 28 пикселей а
8:54
интенсивность каждого пикселя хранится в
8:55
виде числа от нуля до один если мы на
8:57
мгновение представим что на наших
8:58
изображениях всего два пикселя мы мы
8:59
можем визуализировать эти два пиксельных
9:00
изображения как точки в двухмерном
9:01
пространстве где значение интенсивности
9:02
первого пикселя соответствует координате
9:04
X а значение интенсивности второго
9:05
пикселя координате Y изображение
9:06
состоящие из двух белых пикселей будет
9:07
иметь нулевую точку В нашем трёхмерном
9:09
пространстве изображение с чёрным
9:10
пикселем в первой позиции и белым
9:11
пикселем во второй позиции будет иметь
9:12
единицу а изображение со значением
9:13
серого равно 0,4 для обоих пикселей
9:15
будет иметь значение 0,4 зап 0,4 и так
9:17
далее если бы наших изображениях было
9:19
три пикселя вместо двух то тот же подход
9:20
всё равно Работал бы только в трёх
9:21
измерениях увеличив масштаб до наших
9:22
изображений размером 28 на 28 пикселей
9:24
наше изображения превратились бы в точки
9:25
784 мерном пространстве подавляющее
9:27
большинство точек в этом многомерном
9:28
пространстве не являются цифрами на мят
9:29
руки мы можем убедиться в этом выбрав
9:30
случайным образом точки в пространстве и
9:32
ото образив их в виде изображений они
9:33
почти всегда выглядят как Случайный шум
9:34
чтобы случайно выбрать рукописную цифру
9:36
нужно очень-очень-очень сильно повести
9:37
такая редкость говорит о том что в этом
9:39
784 мерном пространстве Может быть
9:41
какая-то форма меньшей размерности где
9:42
каждая точка на этой форме является
9:44
рукописной цифрой если вернуться к нашим
9:45
игрушечным изображениям из трёх пикселей
9:47
то если бы мы узнали что значение
9:48
интенсивности нашего третьего пикселя
9:49
назовём его X3 всегда равно единице плюс
9:51
косинус значения второго пикселя X2 все
9:53
наше изображения из трёх пикселей лежали
9:54
бы на изогнутой поверхности в трёхмерном
9:56
пространстве определяемой как X3 рано 1
9:57

  • cos X2 это поверхность двух мы можем
    9:59
    определить местоположение наших
    10:00
    изображений в трёхмерном пространстве
    10:02
    используя только X1 и X2 нам больше не
    10:03
    нужен X3 мы можем представить себе
    10:05
    нейронную сеть которая классифицирует
    10:06
    низ работая похожим образом например в
    10:07
    этой архитектуре сети наш предпоследний
    10:09
    слой состоит из 16 нейронов Что означает
    10:11
    что сеть преобразовалась 784 мерное
    10:12
    входное пространство в гораздо меньшее
    10:14
    шестнадцати мерное пространство очень
    10:15
    похожая на нашу функцию 1 + косинус
    10:17
    которая
    10:19
    преобразовалась действительно интересной
    10:21
    когда мы понимаем что многообразие – Это
    10:22
    не просто представление данных в
    10:23
    пространстве меньшей размерности
    10:24
    геометрия многообразия часто содержит
    10:26
    информацию о данных если мы возьмём
    10:27
    шестнадцати мерного мерное представление
    10:29
    набора данных низ которое было получено
    10:30
    нашей нейронной сетью мы сможем понять
    10:31
    его геометрию
    10:34
    проецируемого техники как ю которая
    10:36
    пытается сохранить структуру
    10:37
    пространства большей размерности при
    10:38
    раскрашивания каждой точки с помощью
    10:39
    номера соответствующего изображению Мы
    10:41
    видим что по мере обучения нейросети
    10:43
    одинаковые цифры группируются в
    10:44
    небольшие области на поверхности Это
    10:45
    обычное явление во многих задачах
    10:47
    машинного обучения изображения на
    10:48
    которых изображены похожие объекты или
    10:49
    текст описывающие схожие понятия В итоге
    10:51
    оказываются близко друг к другу на
    10:52
    обученной поверхности один из способов
    10:53
    понять что делают модели глубокого
    10:55
    обучения – это отображение многомерных
    10:56
    входных данных в многомерной поверхности
    10:57
    где положение данных на поверхности
    10:59
    имеет смысл Теперь давайте разберёмся
    11:00
    как гипотеза о поверхности связана с
    11:02
    законами масштабирования нейросетей
    11:03
    рассмотрим закон масштабирования
    11:04
    нейросетей который связывает размер
    11:05
    обучающего набора данных с
    11:06
    производительностью моделий измеряемой
    11:07
    как потеря Крос энтропии на тестовом
    11:08
    наборе если гипотеза о поверхности верна
    11:10
    то наши обучающие данные – это точки на
    11:11
    некоторой поверхности в многомерном
    11:12
    пространстве и наша модель пытается
    11:14
    изучить форму этой поверхности плотность
    11:15
    наших обучающих точек на поверхности
    11:17
    зависит от того сколько у нас данных а
    11:18
    также от размерности поверхности в
    11:19
    одномерном пространстве если у нас есть
    11:20
    D точек данных для обучения и общая
    11:22
    длина нашего многообразия равна L мы
    11:23
    можем вычислить среднее расстояние между
    11:24
    точками данных для обучения S раздели L
    11:26
    на D Обратите внимание что вместо того
    11:27
    чтобы думать о расстоянии между точками
    11:28
    данных для обучения напрямую в более
    11:30
    высоких измерениях проще представить
    11:31
    себе небольшой участок вокруг каждой
    11:32
    точки размером S и поскольку эти
    11:33
    небольшие участки соприкасаются друг с
    11:35
    другом расстояние между точками данных
    11:36
    для обучения по-прежнему равно S
    11:37
    переходя к двумерному пространству мы
    11:38
    фактически заполняем квадрат со стороной
    11:40
    L маленькими квадратами со стороной S
    11:41
    расположенными вокруг каждой точки
    11:42
    данных для обучения общая площадь нашего
    11:43
    большого квадрата L к должна быть равна
    11:45
    количеству точек данных D умноженному на
    11:46
    площадь каждого маленького квадрата то
    11:48
    есть D умноженное на S к переставляя и
    11:49
    решая мы можем показать что S = L уму на
    11:51
    D в степени – 0,5 переходя к трёхмерном
    11:54
    пространству мы заполняем куб со
    11:55
    стороной L маленькими кубиками со
    11:56
    стороной S приравниваемый маленьких
    11:58
    кубиков и большого Куба мы можем
    11:59
    показать что S = L уму на D в Степе -3
    12:01
    таким образом По мере перехода к более
    12:03
    высоким измерениям среднее расстояние
    12:04
    между точками масштабируется в
    12:05
    зависимости от количества данных
    12:06
    которыми Мы располагаем в степени -1
    12:08
    делённой на размерность многообразия
    12:09
    теперь когда мы говорим о плотности
    12:10
    точек данных на нашем многообразии это
    12:11
    важно потому что Ошибка тестовой точки
    12:13
    будет ограничена функцией её расстояния
    12:14
    до ближайшей точки данных для обучения
    12:16
    если мы предположим что наша модель
    12:17
    достаточно мощная чтобы идеально
    12:18
    соответствовать обучающим данным то наше
    12:19
    обученной пространство будет точно
    12:20
    соответствовать реальному пространству
    12:21
    данных в точках обучения глубокая
    12:23
    нейронная сеть с функцией активации ril
    12:24
    может линейно интерполировать между
    12:25
    этими точками обучения для получения
    12:27
    прогнозов если мы предположим что наше
    12:28
    пространство гладкие то можем
    12:29
    использовать разложение Тейлора Чтобы
    12:30
    показать что наша ошибка будет
    12:31
    пропорционально квадрат расстояния между
    12:32
    ближайшими точками обучения и
    12:33
    тестирования мы установили что среднее
    12:35
    расстояние между точками обучения
    12:36
    пропорционально размеру нашего набора
    12:37
    данных D в степени -1 делённый на
    12:38
    размерность нашего пространства Таким
    12:39
    образом мы можем возвести это значение в
    12:41
    квадрат чтобы оценить как наша ошибка
    12:42
    зависит от размера набора данных и
    12:43
    вычислить D в степени -2 делённый на
    12:45
    размерность пространства наконец помните
    12:46
    что наши модели используют функцию
    12:47
    потерь с перекрёстной энтропией но до
    12:48
    сих пор в нашем анализе пространства мы
    12:49
    рассматривали только расстояние между
    12:51
    предсказанный и истинным значением это
    12:52
    эквивалентно значению потери L1 которое
    12:53
    мы рассматривали ранее применяя
    12:54
    аналогичное разложение Тейлора функции
    12:56
    перекрёстной энтропии мы можем показать
    12:57
    что потери при перекрёстной энтропии
    12:58
    будут пропорциональны ра растояния между
    12:59
    предсказанный истинным значением таким
    13:01
    образом для нашего окончательного
    13:01
    теоретического результа мы ожидаем что
    13:03
    потери перекрёстной энтропии будут
    13:04
    пропорциональны размеру набор данных D в
    13:05
    степени -2 де на квадрат размерности
    13:07
    пространства таким образом D в степени
    13:08
    ми4 делённой на размер набора данных это
    13:10
    представляет собой наихудшим поэтому это
    13:11
    Верхняя граница Следовательно мы ожидаем
    13:13
    что потери при перекрёстной энтропии
    13:14
    будут пропорционально или меньше этого
    13:15
    значения команда разработавший эту
    13:16
    теорию называет это масштабированием с
    13:17
    ограничениями потому что чем больше
    13:19
    данных тем лучше модель справляется С
    13:20
    обработкой данных Интересно что При
    13:21
    рассмотрении зависимости между размером
    13:23
    моделе и потерями теория предсказывает
    13:24
    ту же зависимость в четвёртой степени в
    13:25
    данном случае предполагается что
    13:27
    дополнительные параметры модели
    13:28
    позволяют ей лучше соответствовать
    13:29
    данным при более высоком разрешении так
    13:31
    как же этот теоретический результат
    13:32
    соотносится с наблюдениями команды Open
    13:34
    ai и Google deepmind публикуют свои
    13:35
    значения масштабирования соответствуют
    13:37
    ли они теоретическим прогнозам в статье
    13:39
    Open ai за январь 2020 года команда
    13:41
    обнаружила что потери при Крос энтропии
    13:42
    масштабируется в зависимости от размера
    13:44
    набора данных в степени – 0,95 Они
    13:47
    называют это значение Альфа суб D если
    13:48
    теория верна то Альфа суб D должна быть
    13:50
    больше или равна четырём дем на
    13:51
    внутреннее измерение данных этот
    13:53
    последний шаг довольно сложный так как
    13:54
    требует оценки размерности данных также
    13:56
    известный как внутреннее измерение
    13:57
    естественного языка команда началась
    13:58
    небольших задач где внутреннее измерение
    14:00
    известно или может быть хорошо оценено
    14:01
    они обнаружили хорошее соответствие
    14:02
    между теоретическими экспериментальными
    14:03
    параметрами масштабирования в случаях
    14:05
    когда синтетические обучающие данные с
    14:06
    известным внутренним измерением
    14:07
    создаются моделью учителям и изучаются
    14:08
    моделью учеников они также смогли
    14:10
    показать что прогноз -4 на D хорошо
    14:12
    работает с небольшими наборами данных
    14:13
    изображений включая СТ наконец если мы
    14:15
    применим наблюдаемый коэффициент
    14:16
    масштабирования равный 0,95 языку то
    14:18
    сможем вычислить что внутреннее
    14:20
    измерение естественного языка должно
    14:21
    быть примерно равно 42 команда проверила
    14:23
    этот результат оценив внутреннее
    14:24
    измерение многообразий которые изучила
    14:25
    языковая модель и обнаружила что оно
    14:27
    значительно выше порядка 100 заметьте
    14:28
    что не из теорий всё ещё действует но мы
    14:30
    не видим такого же согласия как в
    14:31
    синтетических и меньших наборах данных
    14:33
    Таким образом у нас есть убедительная
    14:34
    теория обладающая реальной
    14:35
    предсказательной силой Но пока ещё не
    14:37
    единая теория и за последние 5 лет мы
    14:38
    стали свидетелями поразительного
    14:40
    прогресса в области и от первой статьи в
    14:42
    начале 2020 года до выпуска гпт 4 в 2023
    14:45
    году законы масштабирования нейросетей
    14:46
    показали нам Путь к улучшению
    14:48
    производительности важно отметить что
    14:49
    хотя законы масштабирования невероятно
    14:50
    точно предсказывают производительность
    14:51
    при прогнозировании следующего слова
    14:53
    прогнозирование наличия определённых
    14:54
    моделей поведения остаётся более сложной
    14:55
    задачей способности к таким задачам как
    14:57
    расшифровка слов арифметика и мно ное
    14:59
    мышление похоже просто появляются в
    15:00
    разных масштабах удивительно видеть как
    15:01
    далеко нас продвинул наш подход на
    15:03
    основе нейронных сетей и конечно мы не
    15:04
    знаем как далеко Он может зайти многие
    15:06
    авторы статей которые мы здесь
    15:07
    рассмотрели имеют опыт работы в области
    15:08
    физики и в их подходах и речи
    15:10
    чувствуется что они ищут объединяющие
    15:11
    принципы приятно видеть что такой подход
    15:13
    применяется в и законы масштабирования
    15:14
    нейросетей – Это мощный пример
    15:16
    объединения в и который даёт удивительно
    15:17
    точные и полезные эмпирические
    15:19
    результаты и дразня намёки на единую
    15:20
    теорию масштабирования для
    15:21
    интеллектуальных систем будет интересно
    15:23
    посмотреть к чему приведут законы
    15:24
    масштабирования и другие теории в
    15:25
    Ближайшие 5 лет и понять Действительно
    15:27
    ли искусственный интеллект не может
    15:28
    предо этот
    15:29
    рубеж если вам нравится видео на wlop то
    15:32
    вам точно понравится моя книга о мнимых
    15:34
    числах она выйдет в этом году в 2016
    15:36
    году Я выпустил серию из 13 частей на
    15:37
    YouTube посвящённую мнимым числам это
    15:39
    невероятно интересная тема Я выпустил
    15:40
    первую версию этой книги в 2016 году а
    15:42
    сейчас работаю над её обновлением
    15:43
    исправлением и значительным расширени
    15:45
    моя цель – создать лучшую книгу о мнимых
    15:46
    числах книги в твёрдом переплёте
    15:48
    высокого качества начнут поступать в
    15:49
    продажу в конце этого года вы можете
    15:50
    оформить предзаказ на книгу по ссылке в
    15:51
    описании ниже в комплект входит
    15:52
    бесплатная электронная версия книги 2016
    15:54
    года которую вы можете скачать уже
    15:56
    сегодня я также работаю над новыми
    15:57
    постерами У меня есть версия мной Темой
    16:00
    Это отличный способ визуализировать
    16:01
    данные которые обрабатывают модели
    16:02
    машинного зрения всё это и многое другое
    16:04
    вы найдёте в магазине
Поделиться: