Сегодня знакомимся с публикацией, которая сейчас активно обсуждается в интернете. В ней представлен новый метод обучения искусственного интеллекта, который не требует предоставления данных от людей. Модель добывает данные самостоятельно – и обучается на них. Авторы назвали этот метод «Абсолютный Ноль» (Absolute Zero).
*https://www.youtube.com/watch?v=UkhnCWm-7kA
**https://300.ya.ru/v_6XNr9hYV
Таймкоды
00:00:10 Введение в статью китайских исследователей
- Обсуждение новой статьи китайских исследователей, активно обсуждаемой в интернете.
- Идея модели ИИ, которая учится решать сложные задачи без человеческих примеров.
- Подход «абсолютный ноль» может изменить правила игры в обучении ИИ.
00:01:15 Современные подходы к обучению ИИ
- Два основных подхода: supervised fine-tuning SFT и reinforcement learning RL.
- SFT требует огромного количества качественных примеров, что дорого и долго.
- RL требует разнообразного набора задач и ответов, что также зависит от человеческого фактора.
00:03:17 Парадигма «абсолютный ноль»
- Идея модели, которая сама придумывает задачи и решает их, получая обратную связь от среды.
- Пример с роботом, который пробует взять кубик и учится на опыте.
- Применение принципа к открытым областям рассуждений, таким как программирование и математика.
00:05:24 Реализация парадигмы в системе AZR
- Система AZR использует исполняемую среду кода, например, Python.
- Языковая модель играет две роли: предлагатель задач и решатель.
- Три типа задач: дедукция, обдукция и индукция.
00:07:23 Процесс обучения и награды
- Предлагатель генерирует новые задачи, среда проверяет их корректность и безопасность.
- Решатель пытается решить задачи, среда проверяет ответы.
- Две награды: за решение и за обучаемость.
- Обе роли обучаются одновременно с помощью алгоритма TRR++.
00:10:02 Результаты и выводы
- AZR достиг лучших показателей среди моделей нулевой настройки.
- Сильный кросс-доменный перенос: умение рассуждать о коде улучшает математические навыки.
- Масштабирование: чем больше базовая модель, тем больше прогресс.
- Модели, изначально предобученные на коде, показали лучший итоговый результат.
00:12:30 Перспективы и ограничения
- Парадигма «абсолютный ноль» открывает перспективы для масштабирования обучения ИИ.
- Необходимость исследования других сред, формальной математики и взаимодействия с реальным миром.
- Важность улучшения процесса самообучения и обеспечения безопасности.
00:13:52 Проблемы самообучающихся систем
- Модель Llama-318B во время обучения генерировала странные и вызывающие беспокойство мысли.
- Это напоминает о необходимости тщательного контроля и разработки методов безопасного управления мощными самообучающимися системами.
00:13:52 Переход к обучению на опыте
- Абсолютный ноль — это шаг вперёд от обучения на данных, собранных людьми, к обучению на опыте, генерируемом самой системой.
- Возможно, мы вступаем в эру опыта для искусственного интеллекта, где ИИ будет учиться мыслить с абсолютного нуля без подсказок от человека.
00:14:41 Заключение
- Будущее, где ИИ самостоятельно исследует и обучается, становится ближе.
- Зрителей призывают оставлять мнения в комментариях.
Расшифровка видео
0:01
[музыка]
0:10
Всем снова привет и добро пожаловать на
0:12
борт. Сегодня мы попробуем ознакомиться
0:15
с новой статьёй китайских
0:17
исследователей, которая сейчас активно
0:19
обсуждается в интернете.
0:22
Представьте себе модель искусственного
0:24
интеллекта, которая учится решать
0:26
сложные задачи, например, писать код и
0:29
доказывать математические теоремы, при
0:31
этом не имея никаких примеров от
0:34
человека. Вообще ни единого размеченного
0:37
датасета и ни одной подсказки. Звучит
0:40
фантастически, но исследователи из
0:43
университета Цинхуа, Пекинского
0:45
института общего Иинсильванского
0:47
университета приглашают нас в новую эру,
0:51
эру опыта, как они называют её в конце
0:53
своей статьи. Они назвали свой подход
0:56
абсолютный ноль, Absolute Zero, и он
0:59
может изменить правила игры, позволяя
1:01
искусственному интеллекту становиться
1:03
умным самостоятельно.
1:06
Звучит многообещающе, но только будущее.
1:08
Надеюсь, ближайшее покажет нам,
1:10
насколько оправданы эти громкие слова.
1:13
Ну а пока мы просто взглянем на их
1:15
работу. Итак, начинаем. Современные
1:18
большие языковые модели LMS поражают нас
1:22
своими способностями. Но как они учатся
1:25
мыслить, то есть решать задачи,
1:26
требующие логики и последовательных
1:29
рассуждений. Долгое время доминировали
1:32
два основных подхода. Первый — это
1:35
Supervised Fine Tuning SFT до обучения с
1:38
учителем или в более буквальном переводе
1:41
тонкая настройка с учителем. Здесь всё
1:44
просто. Мы показываем модели кучу
1:46
примеров, то есть задачи, подробные
1:48
пошаговые решения, так называемая
1:50
цепочка мыслей, chain of sword и
1:52
правильные ответы. А модель учится
1:55
имитировать эти шаги. Но здесь есть
1:57
проблема. нужно огромное количество
2:00
качественных, вручную созданных и
2:02
проверенных примеров. Это дорого, долго,
2:05
и люди не всегда могут идеально
2:07
объяснить свой мыслительный
2:09
процесс. Второй более продвинутый подход
2:12
это reinforcement learning verifiable
2:15
rewards rvr или обучение с подкреплением
2:19
на основе проверяемых
2:21
вознаграждений. Здесь моделям не
2:23
обязательно показывают, как решать, им
2:25
просто дают задачу и правильный ответ.
2:28
Модель сама генерирует решение, а затем
2:30
получает награду, если её конечный ответ
2:33
совпал с правильным. Это гибче, так как
2:36
не требует разметки процесса
2:38
рассуждения. Многие современные топовые
2:41
модели используют именно этот метод
2:44
RLVR. Однако и у него есть загвоздка.
2:48
Хотя нам и не нужны пошаговые решения,
2:50
нам всё ещё нужны задачи и ответы. И не
2:53
просто какие-то, а большой,
2:55
разнообразный и качественный набор,
2:57
созданный экспертами. То есть мы опять
3:00
упираемся в человеческий фактор, в
3:02
необходимость ручной работы. Это
3:04
создаёт, как говорится, бутылочное
3:06
горлышко. По мере того, как и становится
3:09
умнее, сможем ли мы, люди, создавать
3:12
достаточно сложные и разнообразные
3:14
задачи, чтобы он продолжал
3:17
учиться? А что, если и превзойдёт нас?
3:20
будут ли наши задачи для него вообще
3:22
полезны. И вот тут на сцену выходит
3:25
парадигма абсолютный ноль. Идея
3:28
радикальна. А что, если модель будет
3:30
учиться вообще без внешних данных? Что
3:32
если она сама будет придумывать себе
3:34
задачи, сама их решать и сама себя
3:37
оценивать, опираясь только на обратную
3:39
связь от какой-то среды? Представьте
3:42
себе робота или лучше посмотрите на
3:44
экран. Так он изображён в
3:47
статье. В методе SFT, то есть в
3:50
дообучении с учителем. Мы бы показывали
3:52
ему каждый шаг, как взять кубик. В
3:55
методе RLVR, то есть при обучении с
3:58
подкреплением на основе проверяемых
3:59
вознаграждений, мы бы давали ему кубик и
4:02
говорили: «Молодец!» Когда он его взял.
4:05
Но в парадигме абсолютный ноль робот сам
4:08
решает, размышляя как-то так. Хм, а что
4:11
если попробовать взять вот этот кубик?
4:13
Интересно, получится ли? Он пробует, а
4:16
среда, физический мир, даёт ему обратную
4:19
связь. Кубик упал или успешно схвачен, и
4:22
он учится на этом опыте. И что самое
4:25
важное, он сам выбирает, какие кубики
4:27
пробовать брать. Возможно, выбирая те,
4:30
которые кажутся ему наиболее обучающе
4:32
полезными на данном этапе. Это похоже на
4:35
то, как Deep Mind создавали Альфа Zero.
4:38
Программа, которая научилась играть в го
4:41
шахматы и сёги лучше любого человека,
4:43
играя миллионы партий сама с собой и
4:46
зная только правила игры. Но авторы
4:48
абсолютного нуля хотят применить этот
4:51
принцип не к закрытым играм, а к
4:53
открытым областям рассуждений, таким как
4:55
программирование и математика. Ключевая
4:58
идея такова: модель должна сама
5:01
предлагать задачи, которые максимизируют
5:03
её собственный прогресс в обучении, и
5:05
решать их, получая проверяемую обратную
5:08
связь от среды. Никаких заранее
5:11
собранных датасетов. Обучение происходит
5:14
исключительно через взаимодействие и
5:17
самосовершенствование. Хорошо, с
5:19
парадигмой разобрались. Переходим к
5:21
тому, как авторы предлагают это
5:23
реализовать. Исследователи представили
5:26
систему Absolute Zero Reasoner AZR,
5:30
которую я для удобства назову просто
5:32
рассуждатель. А в качестве среды для
5:35
обучения они выбрали код, точнее
5:37
исполняемую среду кода, например,
5:40
Python. Но почему код? Во-первых, языки
5:43
программирования — это формальные
5:45
системы с чёткими правилами. Во-вторых,
5:49
результат выполнения кода легко
5:51
проверить. Если программа должна сложить
5:53
2 + 2 и выдать 4, это легко
5:57
верифицировать. В-третьих,
5:58
программирование тесно связано с
6:00
логическим мышлением и решением задач.
6:03
Авторы предполагают, что умение
6:05
рассуждать о коде переносится и на
6:07
другие области, например,
6:09
математику. В AZ и ZR, то есть в
6:12
рассуждателе, одна и та же языковая
6:14
модель играет две
6:16
роли. Первая роль — пропозор, то есть
6:19
предлагатель. Он генерирует новые задачи
6:22
по
6:23
программированию. Вторая роль solver, то
6:25
есть решатель. Он пытается решить эти
6:28
задачи. А какие задачи они используют?
6:31
Авторы выделили три фундаментальных типа
6:34
рассуждений, представленных в виде задач
6:36
на коде. Первый тип — дедукция — это
6:40
классика. Данкод программа и входные
6:43
данные. Нужно предсказать выходные
6:45
данные. Это как проследить логику
6:47
выполнения программы.
6:50
Программа плюс вот равно какой вывод?
6:53
Второй тип обдукция. Это интереснее.
6:57
Данкод программы и выходные данные.
7:00
Нужно найти входные данные, которые
7:02
привели к такому результату. Это похоже
7:04
на поиск причины последствию. Здесь
7:07
требуется перебор или интуиция.
7:09
Программа плюс вывод равно какой вот.
7:13
Третий тип — индукция. Здесь происходит
7:16
синтез. даны несколько пар вход-выход, и
7:19
нужно написать программу, которая
7:21
реализует эту зависимость. Это обобщение
7:24
на основе примеров. Ввод один, вывод
7:28
один, ввод, вывод два, равно какая
7:32
программа. Но как происходит само
7:34
обучение посредством цикла.
7:37
Предлагатель, посмотрев на несколько
7:39
прошлых примеров, чтобы генерировать
7:41
что-то новое и разнообразное, предлагает
7:43
новую задачу, например, программу и вход
7:46
для дедукции. Среда, то есть питон,
7:50
проверяет, корректитен ли код, безопасен
7:52
ли он, то есть не содержит ли
7:54
вредоносных команд и детерминирован ли
7:57
он, то есть всегда даёт один результат
7:59
на одни и те же входные данные. Если
8:02
задача валидна, среда вычисляет
8:04
правильный выход. После этого решатель
8:07
получает часть задачи, например,
8:09
программу и вход, и пытается её решить,
8:12
предсказать выход. Среда снова проверяет
8:15
ответ
8:16
решателя. А теперь самые интересные
8:18
награды. Их две. Первая награда- за
8:22
решение. Её получает решатель. Это
8:25
просто. Ответ верный, молодец, держи
8:28
плюс один, а если неверный, получай
8:30
ноль. Вторая награда за обучаемость. Её
8:34
получает предлагатель. Это награда
8:37
хитрее. Предлагатель получает высокую
8:39
награду, если он предложил задачу
8:41
средней сложности для текущего решателя.
8:44
То есть, если решатель иногда решает её
8:46
правильно, а иногда нет. Если задача
8:49
слишком лёгкая, то есть решатель всегда
8:51
прав или слишком сложная, то есть
8:54
решатель всегда ошибается, то
8:56
предлагатель получает низкую награду.
8:59
Идея в том, чтобы предлагатель учился
9:01
генерировать задачи, которые находятся,
9:03
так сказать, в зоне ближайшего развития
9:05
для решателя, таким образом обеспечивая
9:08
наиболее эффективное
9:10
обучение. Обе роли обучаются
9:13
одновременно с помощью модифицированной
9:15
версии алгоритма обучения с
9:17
подкреплением
9:18
TRR+, чтобы максимизировать и точность
9:21
решения, и генерацию полезных задач.
9:25
Я здесь не буду детально объяснять, что
9:27
такое
9:28
TRR+. Если вам интересны такие
9:30
подробности в статье, это объясняется в
9:32
разделе
9:33
Ключевой момент здесь такой. Весь
9:36
этот процесс может начаться буквально с
9:38
одного тривиального примера. В статье в
9:41
качестве такого примера упоминается
9:43
простая функция, выводящая входную
9:45
переменную в неизменном виде. И дальше
9:48
система сама себя раскручивает,
9:50
генерируя всё более сложные задачи и
9:52
улучшая свои способности к рассуждению.
9:55
Действительно, ноль внешних данных. И
9:58
что же получилось? Результаты, честно
10:01
говоря, поражают. AZR, то есть
10:03
рассуждатель, обученный абсолютно без
10:05
внешних данных. На графиках он помечен
10:08
как, не просто показал хорошие
10:10
результаты, а достиг, что называется,
10:13
State of the Art, то есть лучших на
10:15
сегодняшний день показателей среди
10:17
моделей нулевой настройки, то есть
10:19
моделей, которые обучались RLVR без
10:22
предварительного SFT на стандартных
10:25
бичмарках по программированию, таких как
10:27
Human Evil Plus, MBP+ и математики.
10:31
таких как Mat и AI ME и других. Он
10:36
обогнал модели, которые обучались на
10:38
десятках тысяч специально отобранных
10:40
человеком примеров задач и ответов.
10:43
Подумайте об этом. Модель, которая
10:45
училась, играя сама собой в песочнице
10:48
кода, превзошла модели, которым давали
10:50
готовые ответы на экзаменационные
10:52
вопросы. Но это ещё не всё.
10:55
Исследователи обнаружили несколько
10:57
интересных вещей.
10:59
Во-первых, сильный кроссдоменный
11:01
перенос. Рассуждатель обучался только на
11:04
задачах по коду, но его способности к
11:07
решению математических задач выросли
11:09
значительно сильнее, чем у других
11:11
моделей, обученных RLVR на коде.
11:14
Рассуждатель версии Base 7B улучшил
11:18
математику почти на 11%, а рассуждатель
11:21
версии кодер 7B на целых 15%.
11:25
Это говорит о том, что умение рассуждать
11:27
о коде действительно формирует более
11:30
общие навыки логического мышления.
11:33
Во-вторых, масштабирование. Чем больше и
11:35
способнее была базовая модель, тем
11:38
большего прогресса она достигала с
11:40
помощью рассуждателя. По мере роста
11:42
числа параметров прирост увеличивался.
11:45
Это хороший знак для будущего
11:47
масштабирования данного подхода.
11:49
В-третьих, модели, изначально
11:51
предобученные на коде кодер варианты,
11:54
показали лучший итоговый результат после
11:57
AZR тренировки, даже если изначально
12:00
немного уступали в
12:02
математике. Похоже, сильные кодерские
12:04
задатки — отличный фундамент для
12:06
развития рассуждения через AZR. Модели
12:10
рассуждателя начали демонстрировать
12:12
интересное поведение без специального
12:14
обучения к этому. Например, при решении
12:17
задач индукции, то есть написания кода
12:19
по примерам, модель часто вставляла в
12:22
код комментарии, описывающие её план шаг
12:24
за шагом. Это очень похоже на известный
12:27
фреймворк React Reason
12:30
п. Также разные типы задач дедукция,
12:33
обдукция, индукция, приводили к
12:35
генерации ответов разной длины, отражая
12:38
разную когнитивную нагрузку. Так что же
12:41
всё это значит? Парадигма абсолютный
12:44
ноль и система AZR, которую я для
12:47
выпуска назвал рассуждателем, это не
12:49
просто очередное улучшение моделей, это
12:52
потенциальное решение фундаментальной
12:54
проблемы масштабирования обучения и если
12:58
модели смогут эффективно учиться
13:00
рассуждать без нашей постоянной помощи в
13:03
создании данных, это открывает
13:05
невероятные перспективы. Представьте
13:07
себе и и учёного, который сам ставит
13:10
эксперименты, то есть генерирует задачи
13:12
в симулированной среде, например, код
13:15
физический симулятор веб, и сам
13:17
интерпретирует результаты, постоянно
13:19
расширяя границы своих знаний и
13:22
способностей. Это путь к созданию
13:24
систем, которые смогут решать проблемы,
13:26
неподвластные человеку. Конечно, путь
13:29
ещё долгий. AZR пока сфокусирован на
13:32
коде. Нужно исследовать другие среды:
13:35
формальную математику, взаимодействие с
13:37
реальным миром через симуляторы или
13:39
роботов и научные эксперименты. Нужно
13:42
улучшать сам процесс самообучения,
13:44
возможно, вводя более сложные механизмы
13:47
постановки задач или исследования. И
13:50
есть важный аспект- безопасность.
13:53
Исследователи заметили, что одна из
13:55
моделей Lama
13:56
318B во время AZR обучения иногда
14:00
генерировала странные или даже
14:02
вызывающие беспокойство мысли. Авторы
14:05
назвали это «Ух ох момент». Это
14:08
напоминание, что мощные самообучающиеся
14:10
системы требуют тщательного контроля и
14:13
разработки методов безопасного
14:15
управления. Несмотря на вызовы,
14:17
абсолютный ноль — это захватывающий шаг
14:19
вперёд. Это переход от обучения на
14:22
данных, собранных людьми, к обучению на
14:25
опыте, генерируемом самой системой. Как
14:28
говорят авторы, возможно, мы вступаем в
14:30
эру опыта для искусственного интеллекта.
14:33
Так что не исключено, что скоро мы
14:35
увидим искусственный интеллект, который
14:37
учится мыслить с абсолютного нуля и без
14:39
подсказок от человека. Будущее, где и И
14:42
самостоятельно исследует и обучается,
14:45
становится немного ближе. Похоже, на
14:48
сегодня всё. Мнение можете оставлять в
14:50
комментариях. До следующих выпусков.

