СПбМО - 2025.04.22 - AI в математике

Оценили: 22

Это запись доклада «AI и математика: что модели могут сейчас и куда мы идём» на заседании Санкт-Петербургского математического общества 22 апреля 2025 года.

*Прямая ссылка на видео https://www.youtube.com/watch?v=ygqNjojA3Hk
**Таймкоды сделала нейросеть

Таймкоды

00:00:11 Введение

Начало заседания Санкт-Петербургского математического общества.
Докладчик — профессор Сергей Николенко из Поми.
Тема доклада: как искусственный интеллект справляется с математикой в наше время.

00:00:52 План доклада

Амбициозный план доклада.
Упоминание о рассуждающих моделях и секретных слайдах.

00:02:04 История искусственного интеллекта

Начало ИИ как науки: тест Тьюринга и Дартманский семинар.
Эволюция ИИ: оптимизм, «зима ИИ», машинное обучение, революция глубокого обучения.

00:02:39 Тест Тьюринга и языковые модели

Успешное прохождение теста Тьюринга языковыми моделями.
Необходимость дообучения моделей для сохранения роли. 00:03:18 Нейросети и революция глубокого обучения
История нейросетей: от первой модели Маккалока-Питтса до современных архитектур.
Технологическая революция в середине 2000-х: большие датасеты и вычислительные мощности.

00:04:45 Развитие нейросетей

Применение нейросетей в распознавании речи, изображений и естественном языке.
Нобелевская премия Джеффри Хенттона за вклад в обучение нейросетей.

00:06:04 Архитектура трансформеров

Появление архитектуры трансформеров в 2017 году.
Механизм самовнимания в трансформерах.
Развитие языковых моделей на основе трансформеров.

00:07:50 Языковое моделирование

Задача языкового моделирования: предсказание следующего слова в тексте.
История языковых моделей: от марковских цепей до нейросетей.

00:10:26 Законы масштабирования

Законы масштабирования для нейросетевых архитектур.
Улучшение качества предсказания при увеличении данных и вычислительного бюджета.

00:11:26 Преимущества языкового моделирования

Продуктивность задачи языкового моделирования.
Доступность больших объёмов данных для обучения.

00:12:18 Разметка данных для машинного обучения

Для многих задач машинного обучения требуется размеченный датасет.
Пример: для обучения модели отличать котиков от песиков нужен датасет с пометками «котики» и «песики».
Создание размеченного датасета — самый дорогой этап, но его можно использовать для многих моделей.

00:13:16 Языковые модели и их ограничения

Языковые модели обучаются на текстах из интернета, которые уже автоматически размечены.
После обучения модель может только продолжать текст, но не отвечать на вопросы.

00:14:16 Дообучение языковых моделей

Дообучение включает метод обратной связи от людей для оценки полезности ответов модели.
Люди выбирают наиболее полезные ответы из предложенных моделью вариантов.
На основе этих данных обучается модель вознаграждения, которая затем используется для улучшения языковой модели.

00:16:23 Прогресс в искусственном интеллекте

После появления ChatGPT прогресс в искусственном интеллекте значительно ускорился.
Новые достижения в области ИИ появляются каждую неделю.

00:18:10 Математика и искусственный интеллект

Математика — формальная область, где искусственный интеллект применялся давно.
Попытки автоматического доказательства теорем с помощью компьютеров не всегда успешны.

00:20:53 История автоматического доказательства теорем

В 1956 году Аллен Ньюэлл и Герберт Саймон создали первый автоматический провер.
С 1960-х по 1980-е годы развивались символьные вычисления и проверы, такие как Maxima, Maple, Memetic.
Гипотеза Робинса о голевых алгебрах — единственный пример успешного доказательства с помощью провера.

00:25:44 Современные методы машинного обучения

Глубокое обучение и мощные видеокарты открывают новые возможности для математических исследований.
Обучение с подкреплением — одно из перспективных направлений, которое уже начало приносить результаты.

00:26:02 Обучение с подкреплением

Обучение с подкреплением отличается от обучения с учителем и обучения без учителя.
В обучении с подкреплением модель учится на опыте, получая вознаграждения или наказания.

00:26:55 Обучение с учителем и без учителя

Обучение с учителем: наличие размеченного набора данных, например, фотографий с кошками и собаками. Цель — аппроксимировать условное распределение меток при условии входных данных.
Обучение без учителя: набор данных без меток, например, множество фотографий. Задача — понять структуру многообразия настоящих фотографий.

00:27:54 Многообразие и обучение с подкреплением

Многообразие фотографий — непрерывное и открытое множество. Изменение нескольких пикселей не меняет сущность фотографии.
Обучение с подкреплением начинается без данных, датасет собирается в процессе обучения. Агент взаимодействует с окружающей средой, которая реагирует на его действия и даёт награды.

00:28:53 Пример обучения с подкреплением

Пример: агент учится играть в шахматы, взаимодействуя с правилами и другим агентом. Действия агента — ходы, состояния — позиции на доске. После завершения партии агент получает награду: +1 за победу, 0 за поражение, 0.5 за ничью.

00:30:15 Реализация окружающей среды

Для обучения с подкреплением нужна автоматизированная окружающая среда, которая автоматически возвращает награды.
Необходимо сыграть множество партий для обучения агента.

00:31:09 Развитие обучения с подкреплением

Примеры успешных агентов: AlphaGo, AlphaZero.
DeepMind и его модель AlphaFold, которая находит трёхмерные структуры молекул белков и революционизирует медицину.

00:33:05 Влияние на математику

Вопрос о влиянии обучения с подкреплением на математику остаётся открытым.

00:33:11 Альфа-тензор

В 2022 году модель Альфа-тензор улучшила алгоритмы умножения матриц.
Алгоритм умножения матриц включает последовательность элементарных операций.
Дерево поиска в математических задачах значительно шире, чем в играх, например, в шахматах или го.

00:35:03 Альфа-геометрия

Альфа-геометрия решает школьные геометрические задачи.
Использует алгоритм для символьных вычислений и языковую модель для предложения новых построений.
Успешно решает сложные задачи, требующие множества построений.

00:36:52 Альфа-пруф

Соединяет языковую модель и поиск формальных доказательств.
Формализует проблемы на естественном языке и ищет доказательства с помощью обучения с подкреплением.
На международной математической олимпиаде получил почти золото, но не хватило одного балла.

00:39:20 Сложности поиска доказательств

Статья «Почему новые доказательства трудно искать через обучение с подкреплением» показывает сложности поиска доказательств.
Пример с гипотезой Эндрюса Кертиса иллюстрирует трудности из-за большого количества возможных действий и длинного горизонта поиска.
Несмотря на сложности, удалось доказать тривиальность одного класса потенциальных контрпримеров.

00:43:22 Языковые модели и математика

Языковые модели обучаются предсказывать следующий токен в тексте, что позволяет получать бесплатную разметку.
Для обучения языковых моделей математике легко создавать синтетические данные с правильными ответами.
Математика и программирование — важные тестовые примеры для языковых моделей.

00:47:16 Первые успехи языковых моделей

Модель Минера в 2022 году могла решать простые школьные задачи, но с трудом.
Следующий шаг включает дальнейшее улучшение моделей и их обучение на математических задачах.

00:47:37 Внешние инструменты для языковых моделей

Языковые модели не умеют считать, в отличие от людей.
Нейросети не могут запускать циклы внутри себя.
Пилон позволяет языковым моделям запускать алгоритмы на Python.

00:49:00 Поиск в интернете

Языковые модели научились искать информацию в интернете.
Модель придумывает, что хочет поискать, и обрабатывает результаты поиска.

00:49:21 Кепс пролом

Задача кепс пролом связана с поиском наборов атрибутов в игре «Сет».
Языковая модель пишет программы для перебора вариантов.
Результаты программ подаются обратно модели для улучшения.

00:51:24 Математические олимпиады для ИИ

Языковые модели решают олимпиадные задачи, но не могут доказать новые теоремы.
Модель дообучается на математических датасеях и писать программы на Python.
Пример успешной модели: 7 миллиардов параметров.

00:53:25 Машинное обучение в математике

Машинное обучение используется для генерации гипотез и поиска паттернов.
Автоматизация перебора случаев и запись доказательств.
Пока модели не могут писать доказательства теорем.

00:55:15 Рассуждающие модели

Рассуждающие модели улучшают качество ответов, предоставляя полное рассуждение.
Фью-шот промпинг: предоставление примеров с решениями улучшает качество ответов.
Чайна сот: примеры с решениями улучшают качество ответов без фью-шот промпинга.

00:59:52 Обучение с подкреплением

Модели обучаются с подкреплением для реализации сложных рассуждений.
Рассуждения рассматриваются как последовательность ходов, ведущих к правильному ответу.
Цель — довести рассуждения до правильного ответа, получая награду за правильный ответ.

01:00:51 Гипотезы о работе моделей

Существуют разные гипотезы о том, как устроены модели.
Независимые тесты подтверждают возможности моделей, но детали обучения остаются неизвестными.

01:01:25 Про сворд моделс

Про сворд моделс помогают находить ошибки в рассуждениях моделей.
Автоматический верификатор может определить конкретный ошибочный шаг.
Детальный сигнал для обучения, включающий указание на ошибки, улучшает результаты.

01:02:11 Альфа-зиро и поиск Монте-Карло

Альфа-зиро использует поиск Монте-Карло для оценки позиций в игре.
Модель строит дерево поиска с оценками позиций в листьях.
Выбор первого хода зависит от оценок в листьях дерева поиска.

01:03:18 Попытки репликации

Лаборатории пытаются реплицировать успешные модели, используя различные алгоритмы.
Пример лаборатории из Шанхая: анонс плана по повторению успехов U-1.
Дистилляция позволяет улучшить результаты меньших моделей, но не превосходит лучшие.

01:06:20 Успехи Dipsic

Dipsic успешно использует чистое обучение с подкреплением.
Модель R-1.0 улучшает способность использовать длинные рассуждения.
Dipsic не использует про сворд моделс или деревья поиска.

01:09:11 Современные рассуждающие модели

Ведущие лаборатории, такие как Anthropic и Google, выпускают рассуждающие модели.
Jemina и 2.5 — одна из лучших моделей для рассуждений.
Современные языковые модели включают рассуждения.

01:10:04 Насыщение датасетов

Некоторые датасеты, например, MAT, насыщаются, модели достигают высоких результатов.
Школьные задачи, такие как решение квадратных уравнений, становятся нерелевантными.
Переход к более сложным датасетам, таким как Frontiers.

01:12:01 Frontiers

Frontiers — это датасет с сложными математическими задачами.
Задачи имеют непростые решения и требуют глубокого понимания.
В конце 2024 года модели решали максимум 2% задач на Frontiers.

01:13:47 Прогресс моделей

В марте 2025 года U-3 решала четверть задач на Frontiers.
Официальные результаты показывают, что U-3 решает 17–18% задач, а Neo-3 — 12%.
Progress с 2% до 18% выглядит значительным.

01:15:24 Статья «Пруф-блаф»

В 2025 году Петров и его коллеги проверили, как языковые модели справляются с задачами американской олимпиады ASM.
Использовался подход без формальных проверов, только языковые модели с рассуждениями.
Результаты были почти нулевыми, максимум — 2 балла из 42.

01:16:19 Обновление статьи

Через две недели статью обновили из-за выхода модели Jamie и 2.5 Pro.
Jamie и 2.5 Pro решила одну задачу на 6.5 баллов из семи и одну наполовину на 3.5 из семи.
Остальные задачи остались нерешёнными.

01:18:04 Обучение с подкреплением

Обучение с подкреплением делает поиск более направленным, но также делает его беднее.
При многократном запуске модели на одной задаче она может начать выигрывать у дообученных моделей.
Возможно, существует золотая середина между направленностью и случайностью.

01:18:59 Nitis Last Exam

Nitis Last Exam — сложный асет с математической и нематематической частями.
Сначала модели справлялись плохо, затем появились рассуждающие модели, и результаты улучшились до 8%.
Семейство O3 достигло 10–15%.

01:20:04 Open Depress

Open Depress — модель типа O3, которая может искать в интернете и целенаправленно анализировать информацию.
Пример использования: запрос о скрытых марковских моделях, модель выдаёт обзор на 12 страниц с 14 ссылками на статьи.
Важно проверять качество информации, так как модель может делать выводы из ненадёжных источников.

01:22:30 Анхолинг и скайфолдинг

Анхолинг — новые результаты, которые не улучшают модели, а извлекают их возможности.
Скайфолдинг — обвязка вокруг базовой модели, которая может существенно улучшить практические приложения.
Системы на базе GPT-4 приближались к человеческому уровню, но пока уступают.

01:25:55 Будущее языковых моделей

Языковые модели умеют читать и самоизировать, но пока нет новых результатов, полученных искусственным интеллектом.
Вопрос о новых результатах остаётся открытым.

01:26:23 Обучение LLM порождать проверяемые доказательства

Существует большое направление исследований по обучению LLM порождать проверяемые доказательства.
Методы включают генерацию идей шагов доказательства и кода для их выбора.
Существует множество методов и статей на эту тему.

01:27:16 Эффект «горького урока глубокого обучения»

Ричард Саттон описал эффект, когда новые модели быстро устаревают из-за улучшения вычислительных мощностей.
Старые модели, обученные на больших данных, могут превзойти новые, даже если они сложнее.
Этот эффект виден и в развитии языковых моделей.

01:29:17 Мультиагентные системы и их применение

Мультиагентные системы, такие как Google Co-Search, используют несколько LLM для генерации и оценки идей.
Пример успешного применения: микробиолог Хасапинадес использовал Co-Search для генерации идей по механизму резистентности к антибиотикам.
Co-Search генерировал идеи, которые подтвердились и были признаны перспективными.

01:32:37 Система Researcher и полный цикл исследований

Система Researcher позволяет языковым моделям проводить полный цикл исследований в области машинного обучения.
Она генерирует идеи, планирует и проводит эксперименты, обрабатывает результаты и пишет статьи.
Первая версия системы генерировала инкрементальные улучшения, но вторая версия, возможно, достигла большего.

01:36:13 Результаты второй версии системы Researcher

Вторая версия системы написала десять статей, из которых выбрали три лучших.
Три лучшие статьи были отправлены на воркшоп при ведущей конференции по машинному обучению.
Пока нет статьи, описывающей изменения в системе, но очевидно, что базовая LLM и современные рассуждающие модели были добавлены.

01:37:04 Эксперимент с автоматически порождёнными статьями

Одна из статей, написанных ИИ, прошла рецензирование, получив проходные оценки.
Рецензенты не знали о эксперименте, но программный комитет был в курсе.
Статья не была опубликована, но получила положительные оценки.

01:38:02 Тема воркшопа и результаты

Воркшоп был посвящён различиям между теорией и практикой диплернинга.
Система написала десять статей на эту тему, одна из которых прошла рецензирование.

01:38:54 Оптимизационные процессы в научном поиске

Оптимизационные процессы ранжируются по возрастанию креативности.
Случайный поиск — самый низкий уровень, ингредиентный спуск — локальный поиск с направлением.
Эволюция — направленный и параллельный поиск.

01:39:51 Мета-оптимизация и нейронные сети

Нейронный поиск архитектур сочетает эволюцию и ингредиентный спуск.
Альфа-ЗИРО решает узкие задачи с нуля.
Большие языковые модели — более общий ИИ, способный выполнять множество задач.

01:40:43 Сравнение с научными открытиями

Общая теория относительности Эйнштейна — пример значительного научного скачка.
Текущие системы находятся на уровне среднего аспиранта, но прогресс впечатляет.

01:41:39 Будущее ИИ и научного поиска

Вопрос о том, что будет на уровне 15 или 25 по шкале креативности, остаётся открытым.

01:42:50 Благодарность докладчику

Докладчик благодарит слушателей и обещает, что доклад изменится за год.

01:44:31 Вопрос о помощи ИИ в математике

Обсуждается использование ИИ для помощи в доказательстве теорем.
Эксперименты с LLM показали ограниченные результаты, но ситуация может измениться.

01:47:19 Завершение

Благодарность докладчику и слушателям.
Прощание и ожидание новых встреч.

В этом видео

Введение, таймлайны и революции AI, трансформеры и LLM
0:03
[музыка]
0:11
О’кей. Мы начинаем, э, заседание Санкт-Петербургского
0:17
математического общества. И сегодняшний наш докладчик
0:23
профессор Сергей Николенко из Памя. Пожалуйста, Сергей.
0:30
Да, здравствуйте, уважаемые коллеги. Очень рад, очень рад быть здесь, очень
0:35
рад что-то рассказывать на заседании математического
0:41
общества. И меня пригласили рассказать о том, как там искусственный интеллект
0:47
справляется с математикой в наше время. А у меня план довольно амбициозный.
0:57
Плюс мне поступил отдельный запрос поподробнее рассказать о рассуждающих
1:04
моделях, поэтому то, что я планировал проскочить, я, видимо, тоже расскажу. А, и ещё у меня куча секретных
1:13
слайдов на случай, если кому-то будет интересно, э, узнать какие-то детали, потому что я, честно говоря, времени у
1:21
меня не так много, я не планировал рассказывать детали именно машинного обучения. а скорее переходить к тому,
1:28
что там с математикой, машинным обучением. Вот. Но давайте начнём и
1:34
посмотрим, сколько всё это времени займёт. Значит, во-первых, начну с того, с чего я всегда
1:41
начинаю подобные общие доклады, даже если они в итоге должны прийти к конкретной теме. Э начну с, так сказать,
1:51
краткой истории искусственного интеллекта. И, конечно, обычный доклад по
1:57
искусственному интеллекту до последних там нескольких лет начинался бы с какой-нибудь картинки вроде вот такой,
2:04
да, искусственный интеллект, как наука начался. Ну, одни считают в пятидесятом
2:10
году с тестом тюринга, другие считают в пятьдесят шестом с дартманским семинаром. И потом, значит, сначала было
2:18
ээ много оптимизма, потом оптимизм изменился зимой искусственного интеллекта, потом пришло машинное
2:24
обучение, потому что подтянулись датасеты и вычислительные мощности. И
2:29
вот в 2000 в середине нулевых, в 2005-шеишла революция глубокого
2:35
обучения. И вот мы в ней сейчас все живём. А, кстати, а тестюринга
2:41
наконец-то прошли. Это совсем недавний результат, потому что тесттюринга, ну
2:47
вот в нормальной, так сказать, состязательной постановке трудно пройти языковыми моделями по
2:54
умолчанию, потому что ты её спросишь: «А ты не языковая модель случайная?» А она тебе радостно ответит: «Конечно, я
3:00
языковая модель». Поэтому нужно было как-то чего-то там их дообучить, чтобы они оставались в роли и не выдавали
3:08
себя. Ну, в общем, наконец это упражнение было проделано. уже давно не сомневался никто, что тестюринга будет
3:15
пройдена. И вот, наконец, это случилось. А последняя революция
3:20
deeplearning происходит произошла на основе искусственных нейронных сетей. В
3:26
детали этого я вдаваться точно не буду, но скажу, что нейросети были всегда. То
3:33
есть нейросети появились до того, как искусственный интеллект появился как наука, да? Первая ээ модель
3:39
искусственного нейрона макалапиц сорок третьего года. Она на самом деле до сих пор довольно современная. Мы сейчас тоже
3:46
отдельные элементы нейросетей часто моделируем как линейная комбинация входов и потом какая-то нелинейная
3:53
функция. Но с тех пор очень много воды утекло в плане архитектур, в плане алгоритмов обучения и так далее и тому
3:59
подобное. Но до вот как раз середина
4:05
нулевых везде, кроме очень небольших ограниченных
4:11
областей, глубокие нейронные сети считались, ну, как бы second best way of
4:18
doing just about anything, как сказал Джон Денкер в середине девяностых. А
4:23
считалось, что да, конечно, мы все знаем, что нейросети очень выразительная
4:28
штука. Есть теоремы об универсальной апропсимации, но как их обучишь, что-то
4:34
слишком это сложно и, а, не хватает данных, не хватает мощностей, а то, на
4:40
что хватает, то ещё не работает. И вот в середине нулевых всё сошлось. То есть, ээ, тут я как всегда
4:48
говорю, э, хотя в этой революции, конечно, были и математические,
4:54
ээ, новые идеи, были и какие-то новые архитектуры, новые там алгоритмы
4:59
обучения, но по большому счёту это была чисто технологическая революция. То есть
5:05
датасеты стали, наборы данных стали достаточно большими, сети, как
5:10
следствие, стали достаточно большими. То есть достаточно большие сети, было на чём обучить, и вычислительные мощности
5:18
подтянулись, и их было ещё и чем обучить. Вот. И с тех пор нейросети
5:25
шагают по планете, простите за рифму, и, э, так сказать, область за областью
5:31
покоряют разные аспекты искусственного интеллекта. Сначала это было распознавание речи в конце нулевых,
5:37
потом картинки, распознавания изображений с начала десятых, там с двенадцатого года, а, и так далее.
5:44
Потом, естественный язык и так далее. Кстати, вот, Давича, наверное, вы слышали в прошлом году Нобелевскую
5:51
премию по физике почему-то, но, видимо, больше не почему было, получил Джефри
5:57
Хинтон, один из главных идеологов и вдохновителей обучения искусственных университей.
6:03
А, и потом произошла ещё одна революция, как бы внутри революции deep learning, а
6:10
в 2017, в конце семнадцатого года появилась новая архитектура, архитектура
6:16
трансформера. Вот про него у меня есть секретные слайды, если будет интересно, если останется время в конце. А пока
6:23
просто скажу, что Трансформер — это такая новая архитектура нейронной сети. Что такое архитектура? это, э, структура
6:31
того, ну, граф вычисления, структура того, как, э, из маленьких элементарных
6:37
функций, из узлов получается вот эта гигантская композиция, которая является большой нейросетью. И трансформер
6:45
предложил новый механизм для такой архитектуры, так называемое самовнимание, self attention, который
6:53
оказался очень хорошим, прямо на два порядка лучше в каком-то смысле, чем то,
6:59
что было раньше. И, э, с тех пор всё это начало развиваться ещё быстрее. То есть
7:07
первый трансформер в семнадцатом году был так называемый энкоodдер, декодер архитектурой. То есть он, ээ, изначально
7:14
был создан для задачи машинного перевода, ну, в целом для перевода последовательности. У него была
7:19
последовательность на входе и последовательность на выходе. А, но
7:24
очень быстро люди сообразили, что если эту архитектуру из двух частей разрезать пополам, то и левая часть, и правая по
7:31
отдельности будут очень полезны. Ну, про левую часть, про модели типа Берт я не
7:37
буду рассказывать. А вот правая часть модели типа GPT, которые получились из декодера, трансформера — это как раз те
7:46
самые языковые модели, о которых сейчас все говорят. Что это такое? Ну, опять же,
7:53
про структуру, если вы спросите, то в конце расскажу. А какую задачу она
7:58
решает, эта структура? Что, собственно, происходит в этой модели, на чём она обучается и какую задачу призваны
8:06
решать? Ну, как вы опять же наверняка слышали,
8:12
всё это языковое моделирование. Что такое языковое моделирование? Language modeling это, по сути, очень простая
8:19
задача. И я подчеркну, что это не тип нейросети, это не тип как бы метода
8:25
решения, это именно тип постановки задач. А постановка задачи такая. Ну вот есть у
8:32
нас текст. Давайте предскажем, а какое в нём будет следующее слово. Я упрощаю, ну
8:39
не слово, может быть токен. Не обязательно разделять именно по словам, но в целом давайте для простоты буду
8:44
говорить задача предсказания следующего слова в тексте. И языковые модели тоже были
8:52
всегда. Вот у меня на этом слайде справа аэ картинка из
8:58
второй статьи Андрея Андреевича Маркова про марковские цепи. Ну вот, насколько я смог найти, да, первая статья там была
9:04
чисто математическая, просто вводится постановка и какое и задача. А вот
9:09
вторая статья с первым же приложением так или иначе практики — это как раз языковая модель. Ну, языковая модель на
9:17
уровне отдельных букв, но тем не менее он считал, как там гласные и согласные
9:22
друг после друга встречаются в Евгении Онегине, но и как следствие в русском
9:28
языке. Вот. То есть языковые модели, как постановка задачи были всегда, а
9:34
нейросетевые языковые модели в целом тоже были сразу, как только появлялись
9:40
нейросети. Но всё это как бы не очень работало. Не работало, не работало.
9:45
языковые модели, которые использовались на практике, например, в распознавателях
9:51
речи, где очень важно, потому что вы не можете, даже мы с вами, вот люди, не
9:56
можем чисто по акустике хорошо распознавать речь. Если нам начать э
10:02
давать послушать отдельные фонемки без контекста, то мы на самом деле довольно плохо их будем распознавать. А мы в
10:09
основном так хорошо распознаём речь, именно потому, что мы по контексту понимаем, что там вообще может быть, и
10:16
не так много вариантов, из которых мы выбираем в итоге. Поэтому, а, да, и там, поэтому для этого
10:23
там нужны языковые модели. И они всю дорогу были тоже марковские. Ну, конечно, не так, как в тринадцатом году
10:29
1900, а скорее на нграмах слов. Но вот, а после появления трансформеров
10:37
чисто нейросетевые, языковые модели начали работать всё лучше и лучше. И
10:43
оказалось, про это у меня недавно был отдельный доклад, я его выложу обязательно, сейчас не буду про это, но
10:49
оказалось, что а для нейросетевых архитектур, таких как Трансформер, ну и
10:56
для многих других, выполняются так называемые законы масштабирования. То есть, если мы
11:04
механически делаем модель больше и даём ей больше данных, для
11:09
этого эти данные должны у нас присутствовать, но тем не менее даём ей больше данных, а, соответственно, тратим
11:15
больше вычислительный бюджет на обучение, то в итоге довольно предсказуемо прямо законы со всеми
11:22
константами там можно обучить, и они выполняются в том числе в будущее.
11:27
А довольно предсказуемо можно понять, какое качество вот этого предсказания
11:32
следующего слова мы получим на выходе. И да, извините, я забыл это проговорить. А
11:38
почему это такая хорошая задача с точки зрения как бы понимания всего по двум
11:44
причинам. Во-первых, потому что внутри текста, ну, как бы неявно есть всё, да,
11:50
вот всё о чём угодно можно поговорить на естественном языке, в том числе, например, теорему доказать. К этому мы
11:56
перейдём попозже. Вот. А, но во-вторых и в главных, а, это оказалась очень
12:04
продуктивная задача, потому что для неё довольно долго фактически был было
12:11
неограничено много бесплатных данных. Ведь в чём всегда большое загвозд в
12:17
машинном обучении? В том, что для самых лучших методов данные должны быть всё-таки размечены, хотя бы частично. То
12:24
есть, если вы, аэ, учитесь отличать котиков от пёсиков на фотографиях, то,
12:32
конечно, э вам нужен датасет, в котором какие-то фотографии помечены как
12:38
содержащие котиков, а какие-то фотографии помечены как содержащие пёсиков. И пока у вас нет модели,
12:44
которая это умеет делать, вы это должны сделать вручную, чтобы её обучить. То есть для многих задач, для большинства
12:50
задач машинного обучения самый главный, так сказать,
12:56
шаг — это первый шаг, на котором вам нужно получить размеченный датасет. И вот он самый дорогой, как правило. Ну
13:02
правда, зато если один раз этот датасет сделать, его потом, конечно, можно для многих разных моделей
13:08
использовать. А с языковой моделью этого не нужно. Вот у вас есть текст, написанный человеком. вы скачиваете себе
13:14
весь интернет, и весь интернет полон текстами, написанными людьми. Ну да, там
13:20
нужно немножко их пофильтровать, деплицировать, ещё что-то, но в целом эти тексты уже автоматически размечены.
13:28
Вы знаете, какое слово следующее, и вам не нужно ничего вручную с этими данными
13:33
делать. Можно сразу обучаться. Но а последнее вот общее замечание,
13:40
которое я сделаю здесь, но то, что у вас получится, это ещё не
13:46
очень полезная штука. То есть после того, как вы обучили языковую модель, у вас получается такое такая, ну, это
13:53
называется там сырая модель RAW language model или базовая base lm. А у вас
14:00
получается просто механизм для предсказания токенов. Но это не значит,
14:05
что если вы его вы ему зададите вопрос, то он постарается вам на него ответить.
14:11
Нет, а он продолжит этот текст каким-нибудь образом. Ну, например,
14:16
переведёт тему, ответит вопросом на вопрос, поставит сепарат, скажет: «Всё, начинается следующий чат у меня в
14:23
данных». А, в общем, это ещё не совсем полезный
14:28
инструмент. Это пока просто штука, которая очень хорошо умеет тексты продолжать. И вот, чтобы сделать из неё
14:35
полезный инструмент, используется так называемая дообучение fтюниing. И в
14:42
частности самый главный метод, который вот в своё время и запустил вот эту
14:47
очередную, значит, революцию языковых моделей — это так называемый метод RLHF,
14:52
reinforcement learning from Human Feedback. Здесь опять получается, что
14:58
нужны люди, потому что только люди могут оценить, насколько, по крайней мере, поначалу, насколько полезен тот или иной
15:05
ответ. Но от людей задача уже не писать тексты, а просто выбирать из нескольких вариантов
15:12
самый полезный ответ. На основе этих данных мы обучаем Reward Model, модель
15:18
вознаграждения. И потом с этой моделью вознаграждения уже большая языковая
15:24
модель учатся, ну, как бы её удовлетворять, да, учатся э выдавать
15:29
ответы, которые согласно этой модели наиболее полезны. Здесь есть кое-какие интересные тонкости, в которые я не буду
15:35
углубляться. А, в частности, как видите, поскольку обучать
15:42
её нужно так называемым обучением с подкреплением, я об этом ещё скажу пару слов ниже, а мы не можем обучать её
15:48
напрямую на людях, просто не хватит человеческой разметки на это. Там нужны какие-то миллионы и миллионы шагов. Вот
15:55
поэтому нам приходится прибегать к таким проксимоделям полезности. И в этом,
16:00
конечно, есть некоторый подвох, но сегодня мы не об этом. Сегодня мы о том, что после вот этого до обучения
16:09
получается действительно уже языковая модель, которая хочет отвечать на ваши вопросы. Ну, хочет в кавычках,
16:15
естественно, которая дооучена обучать на ваши вопросы. И вот тут и началось, да, вот когда
16:25
впервые успешно это сделал Open AI с GPT3, а, получился чат GPT, о котором
16:32
все мы слышали, и после этого прогресс начался совершенно невероятно. Я,
16:39
конечно, не буду проговаривать эту картинку полностью, но вот обратите внимание, что на картинках раньше там
16:45
какие-то годы проходили между разными событиями, а теперь проходят недели. Ну,
16:51
конечно, здесь немножко больше детализации, чем на картинке протестюринга, но а действительно
16:57
прогресс в искусственном интеллекте после появления чат GPT ускорился невероятно.
17:03
И самое потрясающее, что это был не просто всплеск, который потом затих и
17:09
вышел на плато и насытился, а вот так оно всё и продолжается. И вот эту
17:14
картинку я нарисовал, а там в конце весны летом двадцать третьего года, а
17:20
эту картинку я нарисовал в начале весны двадцать пятого года, а это вот
17:25
январь-февраль двадцать пятого. И плотность, на самом деле, та же самая. Всё ещё каждую неделю выходит что-то
17:32
интересненькое, а каждый там месяц выходит какая-то прямо важная новая вех.
17:38
Про некоторые из них мы сегодня поговорим. А что всё это значит? Ну,
17:45
есть разные мнения. Тут я, давайте, у меня про это тоже есть доклады, на которые рад буду дать ссылки. Э сейчас
17:53
заниматься какими-то прогнозами. Не буду пытаться
17:59
ни обсуждать риски искусственного интеллекта, которые, на мой взгляд, есть и очень серьёзные.
18:06
Не буду пытаться давать предсказания о том, когда же будет искусственный интеллект человеческого уровня. Мне кажется, это не очень хорошо
18:12
определённое понятие всё-таки. Ну, с этим все согласны, поэтому надо уточнять, что имеется в виду. Но даже
18:17
если уточнить, э, всё равно, конечно, никаких чётких прогнозов вам никто не даст, хотя люди пытаются.
18:24
Сегодня мы собрались здесь, чтобы поговорить о математике. А
История AI в математике: пруверы и перебор случаев
18:32
математика это область, в которой искусственный интеллект тоже прикладывался очень
18:39
давно, но немножко в других формах. Поэтому здесь я тоже, наверное, начну с небольшого исторического экскурса. И,
18:46
честно скажу, я ожидаю и предполагаю, что многие из присутствующих этот исторический экскурс могли бы рассказать
18:52
гораздо подробнее и лучше, чем я. Но как бы надо на немножко разогнаться к
18:58
текущим результатам. А вообще математика для меня лично
19:04
всегда была таким вот немножко загадочным ээ деянием человеческого духа, так
19:10
сказать, потому что с одной стороны кажется, что математика — это самая
19:17
формальная из всех человеческих деятельностей. Ну, это вообще единственная по-настоящему формальная
19:22
деятельность, да, действительно же есть аксиомы и действительно же кажется, что, ну, вообще говоря, к ним можно было бы
19:29
теоретически что-то свести. И разумеется, люди постоянно пытались,
19:36
да, разумеется, люди, ну, при Вайтхеде, Расселе и при Генцине и Гёделе ещё
19:44
компьютеров не было, но с тех самых пор, как компьютеры появились, так сразу люди начали
19:50
развивать методы автоматического доказательства Тери. И да, конечно, как
19:56
большинство присутствующих знает, в худшем случае всё безнадёжно.
20:01
Тут даже речь не про теорему Гёделя о не полноте, а просто о том, что даже то,
20:08
что можно доказать, всегда, ну, всегда можно найти контрпримеры, которые доказать можно, но
20:14
очень-очень долго и никакой там вселенной не хватит для того, чтобы это доказательство записать. Если у вас
20:20
достаточно сильная система доказательств, то всегда так будет. А если слабая, тогда в ней ничего и не
20:27
докажешь. Вот. А, но это же всё в худшем случае. А нам
20:34
же не нужен худший случай. Нам надо хоть что-нибудь доказать. И в принципе все те
20:40
теоремы, которые доказывают живые люди, они же не представляют собой худший случай. Их ээ часто вполне можно
20:47
формализовать, а, и за вполне конечное время действительно записать это всё. Но
20:53
почему-то никогда ничего не получалось. Вот это для меня действительно загадка. Может быть, кстати, кто-нибудь из
20:59
присутствующих, э, выскажется на этот счёт потом. А не было ни одной теоремы,
21:05
насколько я знаю, кроме пары исключений. Я там одно скажу, а которая бы была бы
21:12
была доказана действительно буквально, а, от аксиом при помощи
21:17
автоматического провера, хотя люди много пытались. И сама область искусственного интеллекта
21:24
отчасти началась с одной из таких попыток. Вот в пятьдесят шестом году, э, два человека, которые были как раз
21:31
ранними, так сказать, гуру искусственного интеллекта, Аллан Ниэлл и Херберт Саймон, они написали первый,
21:38
который действительно был запрограммирован, а, Logic Theorist, и что-то у них получилось. Ну, то есть, э,
21:47
их Logic Theories доказал, ээ, там заметную часть той самой принципе математика. И сами они были
21:54
очень оптимистичны на этот счёт. Вот. Саймон так и говорил. Тут на Рождество Newс и я изобрели мыслящую машину и
22:02
решили, значит, mind body problem. Но а
22:08
почему-то почему-то ничего не получалось. Ну ладно. При, э, значит, в
22:14
пятидесятых годах, конечно, компьютеры были недостаточно мощные. Потом с шестидесятых по
22:19
восьмидесятые в основном развивались символьные вычисления. Вот система максима, которая она уже, конечно,
22:26
историческую только интерес представляет, но она превратилась в Matlab, в Maple, в Mathematica, вот эти
22:33
все системы, о которых мы все знаем. Продолжали также развиваться пруверы,
22:38
начали появляться не только пруверы, которые пытаются искать доказательства, но и там proof assistance, которые
22:45
просто пытаются формализовывать, верифицировать, проверять, да, доказывать какие-то
22:51
отдельные части. Вот Мицар была очень влиятельная
22:56
система. И потом в конце восьмидесятых уже Кок, который сейчас, кажется, как-то переименовали и Холл. И это уже
23:03
более-менее современные проверка. А, ну как-то новых
23:08
теорию почти один, одно будет исключение. А есть целый раздел
23:14
формализованной математики и есть там целый журнал Formalized Mathematics, который до сих пор выходит. И посмотрел
23:21
я на него в 2023 году в журнале Formalized Mathematics решают упражнения
23:29
для студентов. Ну, продвинутое упражнение для продвинутых студентов, там, из книжки ВЦлова Серпенского, но
23:35
как-то это не совсем то, чего ожидалось. Был так называемый Q манифест, то когда люди тоже, значит,
23:42
пытались ээ говорить, что надо формализовывать математику, и тоже как-то это быстро затихло.
23:49
И вот единственный действительно положительный пример, который я знаю — это гипотеза Робинса о булевых алгебрах.
23:56
Но она действительно была доказана прямо прувером. Прямо прувером. Там EQP с
24:02
равенствами в системе с равенством. Вот. Но, но это уж совсем близко к аксиомам,
24:09
да. Гипотеза Робинса — это о том, что вот, э, алгебра, заданная, значит,
24:15
аксиомами, ассоциативностью, коммутативностью и вот этим уравнением Робинса эквивалентно обычному
24:21
определению более алгебры. Ну, как-то, да, наверное, такие
24:26
уж символьные штуки попереписывать действительно компьютер справится лучше,
24:33
но не то, чтобы там были какие-то новые идеи, как я понимаю, в этомстве. Хотя, конечно, я его на самом деле не читал.
24:41
Вот. А всем известен, всем известны примеры, которые были доказаны, ну, как
24:47
бы с помощью компьютера. Тут самое известное — это, конечно, проблема четырёх красок, но это же тоже
24:53
нелогическое доказательство, да? Проблема четырёх красок, да, компьютер помог, но чем он помог? Люди све
25:02
перебору каких-то случаев. Люди написали программу, которая позволяла каждый из
25:08
этих случаев, значит, решить, и люди её запустили на этом списке случаев, и всё
25:15
получилось. То есть, а, таких примеров много. И вот тут ссылка на список
25:20
примеров именно как бы computer assisted proofs. Это, конечно, с плоши рядом происходит, но это не то. Это всё
25:27
всё-таки здесь всю содержательную часть выполняет человек. компьютер выполняет
25:32
ту часть, которую, ну, как бы человек знает, как выполнять, и даже может запрограммировать. Это значит, очень
25:39
хорошо знает, как выполнять, но просто это очень долго. А, ну что же сейчас? Вот у нас
25:47
расцвет глубокого обучения, большие кластеры, мощных, ээ, значит, видеокарт.
25:53
Что же мы сейчас со всеми этими потрясающими возможностями можем сделать
25:59
в этом направлении? А, будем двигаться по порядку.
RL для математики: AlphaTensor, AlphaProof, гипотеза Эндрюса-Кёртиса
26:07
Значит, первое, а что первое направление, первый класс
26:13
методов, которые могут привести и уже начали приводить к чему-то интересному,
26:19
это reinforcement learning, обучение с подкреплением. Давайте я начну с того, а
26:26
что объясню вкратце, что это значит. Естественно, методы я опять же объяснить времени не имею, но суть постараюсь. А
26:35
всё машинное обучение делится на, ну, условно, три
26:41
группы постановок, задач. Есть обучение с учителем. Обучение с учителем это
26:49
когда, а, так, извините. Ага.
26:55
А обучение с учителем — это когда, а у вас есть набор данных, и этот набор
27:03
данных размечен. Ну вот есть фотографии, там есть кошечки и собачки, и мы знаем,
27:09
какой фотографии кошечка, а какой собачка. А, то есть мы в вероятностных терминах,
27:15
в которых обычно и нужно думать о машинном обучении, мы обучаем,
27:20
апропксимируем условное распределение P от Yyy, метка при условии X
27:26
вход. Есть обучение без учителя, когда всё ещё есть датасет и, а, в нём, ну,
27:34
например, много-много фотографий, но нет никаких метод. Мы не пытаемся отделить кошечек от собачек. Мы
27:41
не знаем, что это такое. А мы просто пытаемся понять, что такое настоящие
27:47
фотографии, понять, как же устроено вот это очень сложное многообразие настоящих
27:53
фотографий. И тут я многообразие в математическом смысле употребляю. Там понятно, что это непрерыв непрерывная
28:01
штука, открытое множество. Если у вас есть фотография и вы в ней там пару пикселей на измените, у вас всё ещё
28:07
будет нормальная настоящая фотография. Вот. Но, в общем, как устроено это очень
28:13
сложное многообразие в очень аэ высокой размерности пространстве. Пикселей
28:18
много, а как-то его, может быть, можно параметризовать, например, более
28:24
маленькой размерностью. Это обучение без учителя. А обучение с подкреплением там
28:30
как бы в итоге мы, конечно, тоже что-то хотим оптимизировать, но обучение с
28:36
подкреплением начинается без данных. Датасет для обучения собирается в
28:42
процессе обучения. И смысл состоит в том, что некий агент, ну, в кавычках
28:49
живёт в какой-то окружающей среде. И когда он живёт в окружающей среде, а
28:57
он совершает какие-то действия, окружающая среда на эти действия реагирует и даёт
29:04
ему иногда награду и переводит из состояния в состояние.
29:09
Например, какая-нибудь Альфа Zero обучается играть шахматы. Для неё окружающая среда
29:18
это не только правила шахмата, это ещё и какой-то агент, который играет против
29:23
неё. Ну, скорее всего, конкретно в Альфазиру это будет копия той же самой модели, только не за белых, а за чёрных.
29:30
А, ну неважно. В общем, есть окружающая среда, значит, действия — это ходы,
29:36
состояние — это, ну, грубо говоря, позиции, в которых наш ход. И вот агент
29:42
делает ход, э, окружающая среда делает свой ход, передвигает фигурки, агент
29:48
переходит в новое состояние. Когда партия заканчивается, это пример так называемых эпизодических задач, когда
29:54
есть чёткое начало и чёткий конец. Когда партия заканчивается, нам дают награду:
30:00
выиграл, плюлся один, проиграл ноль, ничью сыграл, одна вторая. Вот и всё. И
30:07
задача агента состоит в том, чтобы научиться как можно лучше играть в шахматы, то есть научиться получать побольше
30:13
награды. А, соответственно, что для этого нужно? Для
30:21
этого нужно для того, чтобы, ну, я не буду говорить, что нужно для самих алгоритмов обучения с подкреплением. Это
30:28
нужно отдельные лекции читать. Но для того, чтобы их вообще запустить, нужно иметь возможность вот как бы реализовать
30:35
такую окружающую среду, которая будет давать награду. И надо понимать, что
30:41
нужно сыграть очень-очень много партий, чтобы, начав с агента, который не знает
30:48
вообще ничего и только вот знает правила игры, а в итоге дойти до агента, который
30:55
действительно очень хорошо играет. То есть здесь а окружающая среда не может быть ээ человеком, который отвечает на
31:03
запрос агента. Э, ну, такие варианты есть в работике, но сечас сейчас нам они
31:08
не интересны. Здесь должна быть окружающая среда какая-то автоматизированноя, а, которая умеет эту
31:15
награду автоматически возвращать, например, результат партии шахматы или,
31:22
например, корректность формального доказательства в математике. Потому что в математике у нас тоже теоретически, по
31:31
крайней мере, доказательства можно формализовать, записать в каком-нибудь там коклин или чём-нибудь ещё и
31:39
попросить его верифицировать. И, а, развитие обучения
31:45
с подкреплением. Ну, на самом деле, опять же, наверняка многие слышали о
31:51
Alpha Go, которая обыграла Лиси доля в 2016. А многие слышали об Alpha Zero,
31:58
которая вот в отличие от Alpha Go, [музыка] латься действительно с нуля, действительно только зная правила игры
32:05
без всякой базы партий. А следующий важный шаг был Mzero. Ну, я сейчас уже
32:10
не буду вдаваться в то, чем это отличается, но в общем, вот Deepmind, который сначала был самостоятельно
32:17
лаборатории, теперь часть Google, а Deepmind знаменит как раз своими
32:24
моделями обучения обучения с подкреплением. Кстати, одна из этих моделей — это
32:31
Альфафолт, который умеет, а, ну, грубо говоря, складывать очень большие
32:37
молекулы, умеет находить, э, трёхмерные структуры молекул белков. А, и как следствие, вот
32:45
прямо сейчас он постепенно революционизирует медицину. Это, конечно, не такой быстрый процесс,
32:51
потому что никакая модель машинного обучения клиническое испытание сделать не может. Но, а, как видите,
32:59
уже Нобелевскую премию по химии Одимань за это получил. И что же математика? Как же,
33:06
значит, вот эти все истории чего же они добились? Было несколько громких, ярких
33:13
успехов. Первый, наверное, хронологический успех был в двадцать втором году, когда модель Alpha Tenzer
33:22
это, по сути, в точности Alpha Z0 Zero, но для другой задачи. Вместо того, чтобы играть шахматы, мы подбираем структуру
33:30
алгоритма умножения матриц. Да, алгоритм умножение матриц, особенно матриц конкретного размера, прямо вот
33:37
фиксированного, а это, ну, последовательность каких-то элементарных операций с какими-то промежуточными
33:43
шагами. И вот хочется как можно быстрее прийти в конечную конфигурацию, когда мы посчитали все элементы.
33:51
А, и опять же, наверное, я не буду вдаваться в детали самого обучения.
33:59
Главное отличие и здесь, и в остальных математических приложениях будет в том, что дерево поиска совсем широкое,
34:06
гораздо шире, чем, э, в любой игре, чем в шахматах, чем даже в Го. Хотя Го как
34:12
раз от шахмат отличалась. Почему она было сложнее? Именно тем, что там разумных возможных ходов гораздо больше.
34:19
Но больше-то больше, но всё-таки типа 100, а не типа тысячи, десятки тысяч,
34:24
как в математических доказательствах. Вот
34:30
поэтому потребовались кое-какие новшества, там есть новые идеи, и в
34:36
итоге Альфатенр действительно создал новые алгоритмы. Действительно нашёл
34:42
алгоритмы, которые улучшают ещё даже работы штрасса. Ну, как вы понимаете, там, э, как сказать, умножение матриц
34:50
можно свести к умножению блоков этих матриц. И поэтому, если у вас есть новый алгоритм, который лучше для конкретного
34:57
небольшого размера, он пропагируется на умножение в общем случае, поэтому это
35:02
важно. И, как ни странно, вот, да, даже штрасса на конца шестидесятых алгоритма удалось немножко кое-где улучшить.
35:11
А следующий яркий пример — это Alpha Geometry. Мы уже так постепенно подходим
35:17
к нашим дням. А альфа Geometry — это задача для решения геометрических задач.
35:23
Ну, причём таких, на самом деле, школьно-олимпиадных геометрических задач, я бы сказал. То есть это
35:29
геометрия не в смысле, а как раздел математики, как науки, это
35:35
геометрия, в смысле школьная геометрия. И там идея такая, что здесь нового по сравнению с
35:43
тем, что было. А здесь есть две части. Одна часть — это машинная, ну, engine,
35:51
как сказать, алгоритм для символьных вычислений, которые умеют там строить логические выводы. А другая часть — это
35:59
языковая модель. К языковым моделям мы перейдём чуть позже. Здесь она используется для того, чтобы, э,
36:05
предлагать новые построения. Ну, геометрическая задача обычно надо догадаться, как что-нибудь куда-нибудь
36:10
ещё провести, там какую-нибудь высоту опустить, аэ, какие-нибудь точки соединить. И в итоге, значит, тогда
36:17
появятся на гра на рисунке все те объекты, которые нужны, чтобы уже прийти
36:23
к ответу. Вот. А вот Альфатеметрия научилась решать геометрию, грубо
36:29
говоря, в том числе для довольно сложных задач, в которых нужно много построений, много шагов, всё это более-менее а было
36:37
решено. А потом появился Alpha Geometry 2. Давайте не буду сейчас в него
36:44
вдаваться. А вот что нам сейчас интересно, это Alpha Prof, который в
36:49
прошлом году тоже появился, тоже от ТиПМД и Alpha Proof. как раз,
36:57
а, соединял языковую модель и поиск
37:02
доказательства уже действительно формального. Поиск доказательства уже как последовательность шагов в
37:12
руссинте, ну, в лин в данном языке лин в данном случае. То есть как это выглядит?
37:18
Есть, ну, проблема на естественном языке. А специальная модель языковая её
37:25
формализует. Это очень нетривиальный шаг. Тут нужно специально дообучать эту модель, чтобы она правильно
37:32
формализовывала. После чего вот то самое обучение с подкреплением в стиле альфа
37:37
обучается искать доказательства. То есть, а первый шаг, языковая модель,
37:43
которая из вот такого текста делает вот такую постановку уже совсем формальную.
37:49
А вторая часть — это модель, которая, ну, для которой вот ходы — это типа следующие возможные шаги
37:58
доказательств. И здесь тоже та же самая проблема. Следующих шагов доказательств вас может быть очень-очень много. Очень
38:05
сложно а их все перебрать. И тут тоже нужны какие-то хитрые трюки. Но, в
38:11
общем, пан справился. А значит, ну ладно, детали
38:17
процесса обучения не буду говорить. И вот была новость в середине прошлого
38:22
года, когда, значит, ну, Альфап не умеет сам по себе решать геометрию. Он вот с построениями у него ничего не работает.
38:29
Поэтому они соединили Alpha Prof и Alpha Geometry. И
38:35
на Международной математической олимпиаде в прошлом году, вот, возможно, вы слышали эту новость, получили, ну,
38:41
почти золото серебро на один балл не добрали до золота. А это замечательный, конечно, результат.
38:50
Но как же, но где же, собственно, новые результаты, да? Где же математика-то?
38:55
Это всё-таки пока олимпиада пока очень сложная, но математика
39:01
школьная. Но с новыми результатами пока не так не так легко.
39:07
Вот была недавняя статья в феврале двадцать пятого года
39:13
вышла, у которой интересная интересная история.
39:19
А люди написали статью под названием: «Почему новые доказательства трудно
39:25
искать через обучение с подкреплением». И в основном, основной текст статьи он о том, что это правда
39:32
как-то трудно. Вот они для примера взяли гипотезу Эндрюкса, которая, ну, касается там
39:42
конечных представлений каких-то групп каса по сути касается переписывания слов
39:48
в каких-то группах. Значит, ээ из из одного представления в другое,
39:55
а из одного набора э- генераторов в другой.
40:00
И кажется, что это тоже какой-то такой вопрос, который очень близок к аксиомам,
40:06
для которого не нужно ничего особо себе представлять. Надо вот переписывать
40:12
буковки до посинения, пока не перепишешь, наконец, в те, что нужно. А,
40:19
но оказалось, что это всё равно очень сложно. И оказалось, что обучением с подкреплением всё равно сложно. Почему?
40:25
Потому что очень много возможных действий, во-первых. А, но возможных
40:31
действий тут ещё не так много, потому что к заданному набору генераторов, ну, не так, ну, есть какой-то конечный набор
40:37
соотношений, которые можно применить. Ээ, и их тут не так много, их скорее на
40:43
уровне шахматы го, но очень длинный горизонт. То есть, если прямо начинать
40:49
от начала и пытаться дойти до конца, то шагов может потребоваться очень много,
40:55
прямо тысячи и десятки тысяч. А, и это трудно для обучения с
41:00
подкреплением. Трудно учиться играть шахматы, если партия длится 12.000
41:05
ходов, а в а награду дают только в конце. Вот это главная проблема. по дороге никак ты не знаешь, а получил ли
41:15
ты многообещающий частичный результат. Нет такого. Вот
41:21
поэтому для L всё трудно и ограничить это тоже как-то трудно. Вот тут слева
41:27
снизу график, ну, это конкретно уже про гипотезу Securitys, не про любую задачу, но график показывает, что там по мере
41:34
переписывания слова должны становиться длиннее. Мы не можем сказать, что вот у нас там генераторы длины пять и давайте
41:41
только длины пять их рассматривать. А нет, иногда им надо стать длиннее, чтобы потом стать обратно короче. От этого,
41:48
конечно, всё ещё усложняется. Но тем не менее, а большая
41:53
часть статьи посвящена тому, как всё плохо. Но а всё-таки новый результат у
41:58
них получился. Они действительно сумели, ну, закрыть там один
42:05
определённый класс потенциальных контрпримеров к этой гипотезе, который давным-давно был выдвинут, и никто не
42:12
мог доказать его, значит, AC тривиальность. Ну вот, а люди доказали,
42:19
по крайней мере, стабильную AC-тривиальность. Я думаю, нет смысла сейчас углубляться в то, что конкретно это значит. Вот. То есть, а, даже, к
42:28
сожалению, даже или к счастью, даже задачи довольно близкие к аксиомам, они,
42:35
да, постепенно постепенно начинают поддаваться вот такому, ну, можно
42:40
сказать, я бы не сказал, что это напор грубой силы. Нет, это не не грубый перебор, это даже не дерево поиска, это
42:47
гораздо более умная вещь. Но а но даже этой умные вещи, даже задачи,
42:54
которые, казалось бы, близки к аксиомам, поддаются с большим трудом. Математические доказательства искать
43:00
трудно вот в таком даже виде, да? А, но это опять умный перебор случаев. Это
43:09
опять то, что ну это опять направление, которое
43:16
ещё там гипотезу Робинсона доказала. А где же хвалённые языковые модели? Что же
43:21
они? Ну давайте про языковые модели. Значит, языковая модель, а
LLM в математике до 2024: ToRA, FunSearch, NuminaMath
43:29
она, как я уже говорил, обучается предсказывать следующий токен в тексте.
43:35
И, как я опять же уже говорил, главное преимущество этой постановки задачи в том, что мы можем, а, получить
43:45
бесплатную разметку. У нас есть, а,
43:51
ээ, любой текст, написанный человеком, всё, что угодно. И вот мы можем отрезать
43:58
от него любой префикс и сказать: «Ну, предсказывай следующее слово». И мы знаем, какое там следующее слово. заново
44:04
размечать не надо. А, соответственно, если мы хотим языковую модель, ну или на
44:10
самом деле любую другую модель обучить решать математические задачи, то нам
44:15
нужен способ порождать много-много данных с правильными
44:20
ответами. И для простой математики, для числительных задач, для каких-то
44:25
школьных примеров, вот для, ну, для упражнений, грубо говоря, это действительно легко сделать. можем брать
44:33
и порождать какие-то синтетические там минизадачки, теоремки практически в любом количестве,
44:40
менять в них числа, менять последованость шагов, там ещё что-то, слова менять, раз уж мы языковую модель
44:46
обучаем. А и мы будем заранее знать, какой ответ правильный. Мы можем верифицировать ответ языковой модели.
44:52
Вот это самое главное свойство. Поэтому это можно использовать для дообучения языковых моделей.
44:59
То же самое в каком-то смысле работает для программирования и с теми же ограничениями. В математике легко, ну,
45:06
нелегко, но можно сделать бесконечный бесконечную трубу, из которой текут простые школьные задачки, но трудно
45:14
сделать бесконечную трубу, из которой текут нетривиальные теоремы с правильными доказательствами, правда же?
45:20
Откуда их постановки будут браться, непонятно. Вот. А, мм, и также для
45:25
программирования легко сделать трубу, из которой текут простые функции. Там
45:31
посчитай энное число Фибоначчи, сортируй список и так далее. И там легко покрыть
45:36
их тестами идеальным образом, так чтобы только самое, только действительно правильное решение прошло все тесты. И
45:43
это тоже можно делать автоматически. Но откуда брать сложные задачи для
45:49
программирования, тоже непонятно. То есть откуда брать бесконечный набор примеров, типа,
45:54
а сделай мне там веб-сервер, который умеет что-то интерактивное с пользователем
46:00
как-то, значит, общаться. В общем, а тем не менее это
46:06
гораздо лучше, чем почти в любой другой области, то есть в большинстве других областей, ну, например, там creative
46:12
writing, да, когда языковые модели начнут писать хорошие романы. А не знаю,
46:18
когда, потому что откуда взять датасет хороших романов? У нас есть датасет вот уже готовых романов, которые уже
46:24
написаны, но мы не можем дообучать, потому что их очень мало. А как если
46:31
взять просто какой-то другой новый порождённый текст, нет способа автоматически оценить, хороший это,
46:37
например, рассказ или плохой. Поэтому там так уже не работает. А вот в математике так до какой-то до какого-то
46:43
момента работает. Поэтому математика и программирование — это важные тестовые примеры для языковых моделей, и на них
46:51
всё время, дообучаются. Есть много датасетов именно по математике и именно по
46:56
программированию. И, а, люди давно этим занимаются. Ну, с какими успехами они
47:03
этим занимаются, что происходит? А, ну, во-первых, ЛМ, конечно, не умеют ничего
47:09
выводить в формальных системах доказательств. А, и первые успехи, вот
47:15
там модель Минер в двадцать втором году, это был GPT3, по-моему, не уверен уже,
47:20
а, дообученный на математических задачах. Ну, и какие-то простенькие школьные задачки он мог иногда решить,
47:27
но с горем пополам и так не очень. Следующий шаг, важный, ну, было
47:34
много шагов, я самое главное хочу выделить. Следующий важный шаг был, когда люди, а, начали дообучать модели,
47:45
а использовать внешние инструменты. Это очень важно. То есть, э, языковые
47:51
модели, разумеется, не умеют считать. Ну, почти так же, как люди. Люди лучше умеют читать, чем языковые модели.
47:58
А потому что языковая модель — это такой это нейросеть, которая вот от
48:05
начала до конца запускается, и следующий токен предсказывает, у неё нет никакой возможности там внутри себя какой-то
48:12
цикл запустить, да? Вот у нас с вами есть возможность в голове цикл запустить, а у языковой модели нету. Это
48:19
как если бы там нам с вами дали 300 мскунд, чтобы подумать. Вот за 300
48:25
мсекунд наш мозг, в принципе, один проход делается от от одного края до другого. И там распознать лицо знакомое
48:32
мы можем за 300 мскунд, но подумать мы не можем за 300 мскунд. Также примерно и
48:38
здесь. То есть, а нет никакого места в языковой модели, где можно было бы запустить
48:45
алгоритм. Давайте дадим ей это место. Давайте дадим ей возможность написать вход алгоритма, запустить его, скажем,
48:54
на Питоне и воспользоваться результатом. Вот это называется tool integrated
48:59
reasoning. Это важное расширение современных языковых моделей. Ну, все
49:05
вы, наверное, знаете, что в какой-то момент языковые модели научились искать в интернете. А вот поиск — это тоже
49:11
такой тул, да, модель придумывает, что хочет поискать, а потом как-то обрабатывает результаты
49:19
поиска. А следующее интересный тоже шаг произошёл
49:25
от того же самого ДПмайнда, а в конце двадцать третьего года, и он касался так
49:32
называемой Capset Pro. А, и ну давайте я, наверное, не буду
49:38
тратить время на то, чтобы объяснять, что это такое. Опять же, это частная довольно задача. Хотя вот Терен Става в
49:44
какой-то момент назвал её своим любимым открытым вопросом. А, но в общем, грубо
49:52
говоря, как в игре Set, а, где есть несколько атрибутов, и вы должны
49:58
искать ээ наборы, у которых все атрибуты или все одинаковые, или все разные. И
50:04
вот, ээ, сколько можно выложить карточек в игре сет так, чтобы ни одного набора
50:10
не получилось. И как это масштабируется с числом
50:15
атрибутов? Да, в базовом сете это цвет, число и форма. А значит, что если мы
50:23
будем добавлять ещё и ещё атрибутов, тогда сколько мы сможем карточек выложить, грубо говоря. Так, и это
50:30
интересный там комбинаторный вопрос. А, и удалось
50:35
получить для него новые оценки. Но тут интересно не сами оценки, интересно, как это получилось.
50:41
А вот такое необычное использование языковых моделей. Здесь языковая модель
50:47
не пыталась что-то доказать сама, а она писала программы, которые устраивали
50:53
какой-то умный перебор. И потом эти программы что-то делали, получались
50:59
результаты. Значит, результаты запуска этих программ подавались обратно языковой модели. Она смотрела, что как
51:06
вышло, пыталась их улучшить. И вот таким оперативным процессом в итоге пришли к
51:12
программе, которая достаточно быстро смогла то, что нужно перебрать и какие-то там нужные контрпримеры
51:19
найти. Вот. Вот тоже интересная история. А если говорить, а о чистых
51:27
языковых моделях, то, в общем, до сих пор это выглядит примерно так. Вот это я
51:34
взял, значит, пост о том, как выиграли первый Progress Price в так
51:42
называемом математической олимпиаде для искусственного интеллекта AIO. Вот. И
51:48
там обычные олимпиадные задачки, причём по меркам олимпиадных задачек для людей, они довольно
51:54
простые, а гораздо проще, чем настоящая международная математическая олимпиада.
52:00
Но тогда они были сложными для языковых моделей. И, собственно, как это
52:07
делается? Ну, сначала мы берём языковую модель, которая была предобучена просто
52:13
ээ читать, писать тексты. Потом мы немножко дообучаем её на математическом
52:18
датасете, вот задачик на естественном языке. Потом мы отдельно её дообучаем
52:24
писать программки, писать программки на Питоне, писать программки там символьными вычислениями, с библиотекой
52:30
SIMPй. Ну, как-то так. А и потом ещё вот
52:36
это важный момент, сейчас он послужит нам трамплином для следующей части.
52:41
Потом ещё можно, а, подобучать
52:47
её размышлять. А вот об этом давайте сейчас не буду. Буквально следующий
52:52
раздел посвящён этому целикому. И в результате получилось у них довольно маленькая языковая модель, всего 7 млрд
53:00
параметров. Ну это сейчас даже не вызывает улыбку. Хотя, конечно, 3 года назад сказать, что 7 млрд параметров —
53:06
это маленькая языковая модель, было бы совершенно невозможно. Вот всё прогресс очень быстрый.
53:12
И да, она умеет решать задачки, но, конечно, она даже математическую
53:17
олимпиаду не выиграет. И, конечно, тем более она не докажет новую теорему. Это
53:23
просто крайне маловероятно. И вот я писал пост как раз
53:30
большой, э, ну, главу фактически о том, а как ээ искусственный интеллект
53:36
помогает математике. Я её писал в начале двадцать четвёртого года.
53:43
И, ну вот тогда это выглядело примерно так, что можно
53:48
попытаться, а, использовать машинное обучение для того, чтобы генерировать
53:55
гипотезы. Это, кстати, мы, я не обсудил сейчас, но тоже была очень интересная работа Deepmind, в которой они
54:01
использовали просто обычное такое классическое машинное обучение для того, чтобы пытаться найти какие-то паттерны
54:09
там, не знаю, зависимости между значениями разных инвариантов, например,
54:14
которые, может быть, указывают на какие-то связи и результаты, которые потом можно доказать. То есть они сами
54:20
ничего не доказывают, но они типа ищут, где копать. И действительно, они накопали какие-то новые варианты
54:26
узлов. Ну, честно, в этом я совсем не разбираюсь, не буду пытаться пересказывать. Вот. А значит, потом а
54:35
можно пытаться а писать код, который будет помогать делать какие-то
54:40
эксперименты, а можно пытаться автоматизировать перебор случаев, а потом можно попытаться записать
54:47
доказательство формальное и его верифицировать и через просин. Но это всё, конечно, довольно далеко до
54:55
той картинки, где мы кидаем формулировку теоремы и языковая модель пишет
55:02
доказательство. Что изменилось? Стали ли мы за год ближе к этой
Рассуждающие модели: от CoT к o1 и R1
55:08
картинке? Ну, ответ такой: пока ещё мы не там, но гораздо ближе действительно
55:14
стали. И главный для этого инструмент, главная
55:20
новизна, которая произошла в искусственном интеллекте за последние полгода, это так называемые рассуждающие
55:26
модели Reasoning Models. Вот меня попросили о них рассказать поподробнее. Давайте расскажу тоже без супердеталей,
55:33
но надеюсь, что я смогу, так сказать, протянуть, а логику
55:40
происходящего и показать, где там что возникает. Смотрите.
55:46
А это, кстати, всю дорогу применялось именно к математическим задачкам. Просто эти задачки становились начинались
55:53
совсем простых и становились постепенно сложнее. А ещё давным-давно, ещё в
55:58
двадцать втором году, когда по земле ходили динозавры, люди заметили, что языковым
56:05
моделям полезно давать на вход а полное рассуждение, которое ведёт к ответу. То
56:13
есть в те времена далёкие люди не просто спрашивали у языковой модели: «Реши
56:19
задачку», а люди говорили: «Вот смотри, есть три задачки, вот четвёртая похожая.
56:25
Реши четвёртую примерно такую же, как эти три, в том же направлении». А это называется fal
56:32
prompting, когда мы как бы внутри запроса даём несколько, ну, типа
56:37
обучающих примеров. Конечно, никто не дообучается, на самом деле, но они попадают в контекст.
56:42
И оказалось, что гораздо лучше давать не просто примеры с ответами, а примеры с решениями. Тогда, конечно, модель тоже
56:49
будет писать решения. Ну, естественно, вот она делает так, как в примерах. А, но не в этом фишка. А фишка в том, что
56:56
ответ в итоге будет гораздо чаще правильный. То есть сам факт того, что модель выписывает полное решение,
57:03
помогает улучшить качество ответа. И более
57:09
того, быстро было замечено, что для этого даже Shot промтинг не нужен. Для
57:15
этого даже не обязательно давать много там примеров с решениями. Это же будет трудно делать каждый раз. Можно просто
57:23
сказать модели какую-нибудь магическую фразу. Ну нет ничего магического в этой конкретной фразе. Она просто
57:29
завирусилась тогда. А в принципе как-то ей сказать, что подумай-ка ты шаг за
57:35
шагом выпиши всё доказательство. Не обязательно даже примеры давать. Модель будет выписывать всё доказательство шаг
57:42
за шагом. И опять же, в этом ничего детельного нет, но в результате качество конечных ответов улучшается. Вот. А, ну
57:51
и, конечно, люди дальше развили большую науку о том, как вот это эти примеры
57:57
получили название Chain of Thought. И люди развили большую науку о том, как лучше делать такие цепочки рассуждений.
58:05
То есть, а можно посамплировать в несколько цепочек и устроить голосование, например. Можно попробовать
58:14
внедрить прямо управляющие части, контроллеры, которые будут строить
58:20
дерево, и решать, что вот это там рассуждение, оно перспективное, давайте
58:26
предверим его дальше. А это, наверное, бесперспективное. Давайте его не преодолевать. Будем вот над тем
58:32
работать. Значит, потом, если вы научились, ну, давайте я просто общую
58:38
картинку покажу. А, да, если, значит,
58:43
сначала вы запускаете просто одну цепочку рассуждений, потом несколько выбираете из них лучшего или голосуете,
58:51
потом вы начинаете как-то их, ну, бренчинг делать, да, то есть разбивать их на части, генерировать
58:57
несколько и выбирать на каждом промежуточном шаге. Потом, если вы обучаетесь ещё и объединять какие-то
59:04
рассуждения в одно, то уже дерево превращается в граф. Потом там появлялся даже так называемый там of thought. В
59:12
общем, была большая наука, где-то года два она вот развивалась, да, вот of, то
59:18
есть есть граф, а ещё потом давайте по этому графу как-то походим интересным
59:23
последовательности. Но всё изменилось в октябре прошлого года, а когда появилось
59:30
семейство модели О1, оно очень небыстро появилось. Э-э, ну, то есть, как оно
59:36
быстро появилось в том смысле, что вы могли сами попробовать по один превю, но очень небыстро стали известны детали.
59:43
Они, на самом деле, честно говоря, до сих пор неизвестны. Как устроено О1, потом О3, О4, мы не знаем. На самом деле
59:50
мы знаем много про их возможности. Мы, конечно, имеем независимые тесты и так
59:55
далее, но вот про то, как обучалось, Open AI говорил такую абстрактную фразу,
1:00:02
типа языковая модель О1 была обучена обучением с подкреплением, чтобы
1:00:08
реализовать сложные рассуждения. Что это значит? А это значит, что мы рассматриваем вот
1:00:16
эти рассуждения как последовательность, как
1:00:21
цепочку каких-то ходов, опять же, как как будто мы играем в шахматы. А каждый
1:00:27
ход — это, ну вот следующий, ну не знаю, токен или там мысль или что, но в общем, следующий участок этого
1:00:34
рассуждения. Э и наша цель- довести рассуждение до правильного ответа. И мы
1:00:41
обучаемся на задачах, конечно, с известными правильными ответами. Они дают нам награду в конце. Если ответ
1:00:46
правильный, значит, всё хорошо. Заметьте, что не всегда так на самом деле, да, бывает, что рассуждение
1:00:53
неправильное, а ответ всё равно правильный. В математике так бывает довольно часто. А, но это отдельная
1:00:59
проблема. Вот. И мы доходим, э, значит, до конца, а там сверяемся. Ну и,
1:01:07
соответственно, мы хотим обучиться делать цепочки рассуждений, которые всё,
1:01:13
э, лучше и лучше работают. Вот, скорее всего, как-то так.
1:01:19
У людей были разные гипотезы о том, как это на самом деле устроено более детально. А, например, считалось, что
1:01:28
практически неизбежно это обучение используя так называемые process reward models. Ну вот тут я могу быстро
1:01:34
объяснить, что это такое. как бы это вот как раз о том, что могут быть рассуждения неправильные и о том,
1:01:41
что если у вас ответ неправильный, то значит где-то вы допустили ошибку. И в
1:01:48
принципе, если ваше рассуждение достаточно формальное, то мы можем прямо найти конкретный шаг, который был
1:01:54
ошибочным. Просто автоматическим верификатором найти конкретный шаг, который был
1:01:59
неверен, а остальные, соответственно, верные. Ну или там много неверных. ну, в общем, как-то внешней моделью
1:02:05
раскласифицировать их на правильные и неправильные шаги. И это очень помогает,
1:02:11
по крайней мере, сам Open Stat Let’s Verify Step by Step, где вот показывал, что так такой более детальный сигнал для
1:02:19
обучения, где вы не просто в конце выдаёте выиграл, проиграл, а ещё можете подсветить, что
1:02:25
вот этот ход был ошибкой. Шахмато так не получится, а а вот здесь так получается, в принципе.
1:02:31
И это тоже помогает. А значит, кроме того, люди думали, что
1:02:38
здесь должен помогать вот time test
1:02:44
time thinking, типа поиска, значит, Monte Carl Research
1:02:51
MCTS, который использовал, например, Alpha Zero во время уже применения самой модели. То есть Alpha Zero долго-долго
1:02:58
обучается хорошо оценивать позицию, но потом он не просто играет, оценивая позицию, а он в процессе игры строит
1:03:04
тоже какое-то дерево поиска. Не будем сейчас опять же вдаваться каким алгоритмам, но строит дерево поиска, где
1:03:10
в листьях уже подставляет оценки позиции и выбирает первый ход в зависимости от этих листьев. А вот это тоже считалось,
1:03:19
что надо search на этой картинке. И многие люди пытались реплицировать,
1:03:25
конечно, ну, было как всегда в науке, да, когда появляется proof of concept, люди понимают: «А так можно было». И
1:03:33
начинают пытаться сделать то же самое. И по дороге, конечно, немножко улучшить желательно. Вот. А я люблю показывать
1:03:41
эту цепочку статей, она очень характерная. Вот, ээ, там как одна из AI
1:03:46
лабораторий Шанхая, не суть важно, какая именно, э, сразу там через пару недель
1:03:52
после выхода Open AI О1 preview опубликовала такую, а, статью,
1:03:58
где типа анонсировало, что вот мы идём, значит, повторять О1, O1 Journey. И у
1:04:05
них был план, у них был классный, интересный план со многими разными
1:04:10
алгоритмами, которые хочется попробовать. А у них были какие-то предварительные результаты, но это была
1:04:15
такая постановочная статья, типа вот мы это попробуем, то попробуем, всё попробуем. Прошёл месяц или два, и в
1:04:23
ноябре они написали следующую статью, в которой смысл был такой: «Ну, мы что-то
1:04:29
попробовали, как-то у нас то не очень, всё не очень, это немножко даёт, но как-то явно
1:04:35
недостаточно. А вот дистилляция работает». Что такое дистилляция? А как
1:04:40
только у вас появляется сильная модель, а модель, которая, например, как О1
1:04:47
умеет порождать хорошие последовательности рассуждений, да, вы
1:04:52
можете просто взять эту модель, тот самый О1, а набрать из неё выборку
1:04:59
любого размера. Это просто, ну, стоит каких-то денег, запустить модель там 500.000 раз, получить 500.000
1:05:04
последовательности рассуждений и потом вот эту выборку использовать для того, чтобы
1:05:11
просто дообучить другую модель самым обычным методом файтюнинг, самым обычным
1:05:16
дообучением прямо с учителем. Просто обучить, рассуждать как О1, потому что
1:05:22
пример уже есть. То есть это отличие между тем, чтобы, не знаю, научиться
1:05:28
лучше всех играть шахматы, зная только правила, и там научиться предсказывать,
1:05:34
какой ход сделал Багари Каспаров на основе его партии. Второе, гораздо проще. А,
1:05:43
соответственно, вот они попытались сделать такую дистилляцию. Они, а, значит, у них
1:05:51
многое получилось. Дисцилляция — это метод, который действительно очень хорошо работает. Просто он вряд ли
1:05:59
способен дать что-то новое. Вы можете как бы при помощи дистилляции, вы можете взять, например, маленькую модель и
1:06:05
сделать её результаты почти такие же, как у большой, не сильно хуже за счёт дистилляции с результатов большой
1:06:12
модели. Но вы не можете сделать лучше, чем у большой модели. Вы не можете взять модель, которая на фронтире, и сделать
1:06:18
её ещё лучше, да. Вот. Тем не менее, ну вот. А следующая их статья уже в январе
1:06:23
этого года уже вообще, видите, картинки становятся всё проще. И она уже такая,
1:06:29
что, ну, вот у нас есть дистиллированная высуждающая модель, давайте её применим куда-нибудь, ну, давайте там диагнозы
1:06:34
ставить в медицине. Короче, как-то не сдалось в них репликации. И таких
1:06:40
примеров было много. А вот успешный пример — это, конечно, псик. Про него вы тоже наверняка слышали. Я не буду
1:06:47
вдаваться в детали, что сделал псик до своей рассуждающей модели. Но что важно
1:06:54
для нас и, ну, вообще какой важный вывод из истории про DPS Car1, про именно рассуждающую их модель? Важный результат
1:07:01
в том, что DPS R1 не использовал ни reward Models, ни
1:07:08
какие-то деревья поиска, вообще ничего. Он просто делал чистое обучение с подкреплением. Ну, они хорошо его
1:07:15
организовали, они как бы всё сделали правильно, они потратили много
1:07:20
учретельных ресурсов на это, и всё работает. Вот у них R1 это буквально чистое обучение с
1:07:27
подкреплением. И здесь, ну, числа там результатов, наверное, ничего особо вам не скажут. Хотя это как раз
1:07:33
математический датасет, это AI, это, значит, математические задачки. Ну,
1:07:39
неважно. А, а вот это характерный график справа. Он показывает, что по мере обучения
1:07:47
Дипсик всё лучше и лучше обучался использовать длинные рассуждения. То есть его средняя длина рассуждения
1:07:53
росла. И, ну, она росла не просто так, у него не было цель сделать рассуждение длиннее, у него была цель лучше отвечать
1:07:59
на вопросы. Значит, ему было нужны эти рассуждения. Ну, в обучаинии с
1:08:05
подкреплением у него тоже было новшество. Давайте про это не будем. Про то, как из R1 настоящий R1 появился,
1:08:11
тоже не будем. И про результаты тоже не будем. Это нам сейчас не очень принципиально. Вот. Но в общем в итоге,
1:08:21
а рассуждающие модели действительно научились
1:08:27
реплицировать. Псик просто сделал первым сделал это по-настоящему успешно, но
1:08:32
сказать по правде он, ну, успел вовремя. То есть, ээ, честно скажу, псик — это
1:08:38
немножко слишком перехайпленный пример. А, да, они большие молодцы. У них,
1:08:43
правда, есть новые идеи. Вот этот и алгоритм GRPO, и, э, структура самой их
1:08:49
языковой модели содержит новые идеи. Там много интересного, но это не какой-то
1:08:54
суперпров. И в принципе очевидно, что все ведущие
1:08:59
лаборатории, такие как Anтропик, такие как Google, они тоже и такие как КН, они
1:09:06
тоже выпускали сразу же выпустили рассуждающие модели 37 Gemin 2.0. Сейчас, кстати,
1:09:14
Gemin 2 с5 — это, наверное, самая лучшая модель для рассуждения, которая существует. Вот. То
1:09:21
есть оказалось, что всё это не так сложно. И сейчас все языковые модели
1:09:27
ведущие, они, конечно, рассуждающие. Если вы зайдёте в Open там, э, ну, в любого поставщика языковых моделей, там,
1:09:34
конечно, будут рассуждения. Ну, хорошо. Вот мы обсудили рассуждающие модели. Надеюсь, что смог
Что там на фронтире: MATH, FrontierMATH, HLE, Deep Research и обзоры
1:09:41
вам рассказать в целом, какая постановка задачи и что это значит. Ну, так и что,
1:09:47
какие результаты? В чём, а куда мы движемся? как какая какой прогресс, где
1:09:54
мы сейчас, что на фронтире. Ну, смотрите, я, естественно, выбираю математические примеры здесь. А есть
1:10:02
датасеты, которые уже насыщаются. Ну, насыщаются, то есть модели уже выбивают на них очень высокие результаты, и нет
1:10:08
смысла там от 98% идти к 99. Это уже лишено смысла. Один такой датасет — это
1:10:16
вот классический датасет Math, а, в котором, ну, вот такие школьные задачки.
1:10:21
Тут нет ничего умного, особенно там уравнение квадратного два комплексно в
1:10:27
корне. Значит, найдите их произведение. Вот. И а у него есть подножество,
1:10:34
называется level 5. Самое сложное подножество. Они там делятся на четыре, по-моему, двух, нет, на пять. От одного
1:10:41
до пяти, на пять уровней. Вот это всё ещё школьные задачки. У них, опять же, нет ничего интересного. Они очень далеки
1:10:47
от ээ даже олимпиад, не говоря о м новых теоремах, но типа 3 года назад их никто
1:10:55
особо не решал. Вот GPT2 давало там 3-4% правильных ответов на таких задачах,
1:11:02
а Gemini там 1.5 Pro решал их уже лучше,
1:11:08
а рассуждающие модели, в общем, насытили этот датасет. То есть модели пока не
1:11:15
были рассуждающими. А, хотя нет, тут, наверное, все рассуждающие, да, прошу прощения, тут на этой картинке нет
1:11:21
нерассуждающих моделей. Но, в общем, после появления последнего набора
1:11:26
моделей от Open AI O3 и O4 Mini, э, ну, в общем, этот датасет уже нерелевантен.
1:11:32
Тут 98% и, ну, делать из 98-99, это
1:11:38
неинтересно. Что совсем другое дело. И вот тут, значит, мы движемся уже больше
1:11:45
к списку примеров и очень интересных, на самом деле, примеров. Надеюсь, что, а,
1:11:50
меня ещё слушают. Вот. А значит, что очень интересно, совсем
1:11:57
другого уровня датасет — это так называемый датасет Frontier Math. Вот Frontier Math — это уже датасет, где
1:12:05
я как бы вроде как математик по образованию, но большую часть задачек из
1:12:11
этого датасета я просто не могу понять. Те, которые я могу понять, ну, мне надо
1:12:16
долго вчитываться, чтобы понять. Вот это пример относительно простой. А, и там
1:12:24
задачи, там задачи с решениями. То есть это задачи, которые профессиональные
1:12:29
математики специально для этого датасета подготовили. Но это задача прямо с
1:12:34
непростыми решениями. То есть, да, там есть требование, чтобы ответ был короткий. Ну вот какое-то число, как
1:12:41
правило, число или короткая формула, типа вычислите там P от 19 в этом примере. А, но прийти к этому числу
1:12:48
прямо нелегко. И ответ такой, что не угадаешь. То есть там, значит, решение
1:12:55
это две страницы плотного математического текста, который в итоге приходит к формуле, в которую надо всё
1:13:01
подставить и получить это какое-то большое число. Вот. И когда Frontier M появился
1:13:09
в конце двадцать четвёртого года, никто ничего на нём не решал. Вот все за все
1:13:15
модели, в том числе О1, кстати, который тогда был доступен О1 Mini. А все все
1:13:22
модели, которые запускались в момент выпуска датасета, они вот, ну, решали 2% задач
1:13:31
максимум, да. Сейчас вот эту картинку я брал в феврале двадцать пятого года. О1
1:13:38
полноценные и О3 мини решали около 10% задач такого уже уровня,
1:13:46
да? И в этот момент вот тогда же, значит, когда я в марте делал этот доклад, здесь сейчас начнутся интересные
1:13:53
истории. Значит, в марте двадцать пятого года, когда я сделал делал очередной доклад на этот счёт, а появилась новость
1:13:59
от OpenI о том, что О3 полноценная, не менее, а вот полноценная модель O3 уже
1:14:05
решает аж четверть задач на фронте RMS, но это был бы огромный шаг вперёд. А и я
1:14:11
тут говорился ещё тогда в марте, что здесь как-то не до конца ясно, потому что была какая-то прямо а контроверси на
1:14:18
этот счёт. То есть вроде как этот датасет делали по заказу Open AI и Open
1:14:24
AI имел какой-то доступ к каким-то частям, но вроде всё-таки не к тестовому набору. В общем, дело было какое-то
1:14:30
мутное. Ну вот сейчас мы вс, значит, уже официально все всё проверили. И да, вот
1:14:38
на последнем графике О3 не 25% решает, О3 решает всего лишь 1718.
1:14:44
И и не О, О3 решает 12%, а 1718 решает
1:14:49
О4 мини. Ну то есть да, прогресс не такой невероятный, как анонсировал ОPI
1:14:55
поначалу, но как-то прогресс с 2% до 18 тоже выглядит довольно мощно,
1:15:02
согласитесь. А и, ну вот это совсем недавняя новость. 19 апреля этот график
1:15:08
появился. В целом, наверное, этому графику уже верить можно. от независимых
1:15:14
тестировщиков. Вот. А есть отрицательные результаты. И тут тоже будет интересные
1:15:20
сейчас лстори, простите за современное выражение. А в 2025 году Петров сотовари
1:15:28
написали, ээ, значит, статью под названием Proof for Bluff.
1:15:34
Они просто проверили, как языковые модели справся американской олимпиадой, но это
1:15:41
не Аму, а US, да, с которая вот как раз проходила в этот момент. И важно, да,
1:15:49
то, что здесь написано, никак не противоречит тому, что я рассказывал про АльфаПУФ, который, э, получил там почти
1:15:56
золотую медаль серебряную. А это просто другой подход. Здесь нет никаких
1:16:02
формальных пруверов. никаких. Значит, альфапрофан думал 3 дня над этими задачами, искал доказательства кое-какие
1:16:08
нашёл. Здесь никакого альфа-деометра, никаких никакого альфа-пруфа, ничего такого. Чистая языковая модель с
1:16:15
рассуждениями. То есть она может долго думать, но долго — это опять же минуты. И дальше просто мы смотрим на её решение
1:16:23
и проверяем его, как проверяли бы решение человека на олимпиаде. И как-то никто ничего не
1:16:30
сделал. Результаты почти нулевые. максимум тампсек1 сделал на два балла из
1:16:36
42, то есть одну задачку решил, ну, даже не наполовину, а там на полтора балла из
1:16:42
семи, по-моему, там было. Вот. А, ну
1:16:48
подождите, эта табличка из версии статьи Proof of BL, которая вышла 27 марта из
1:16:55
первой версии на архиве 9 апреля. С тех пор, конечно, прошло много времени. И
1:17:00
через 2 недели, 9 апреля, они обновили статью на архиве. Почему обновили?
1:17:06
Потому что вышло G 2 по Pro. И Gin 2,5 Pro уже на той же Олимпиаде решила одну
1:17:14
задачу совсем хорошо, 6 с5 баллов из семи и одну задачу наполовину, ну, типа
1:17:19
на 3, с по из семи. Остальные также не решила, как остальные. То есть, да, результаты, конечно, не очень
1:17:26
впечатляющие. Пока языковые модели сами по себе без обвязок, спруверов,
1:17:32
геометрии и тому подобного, а не выигрывают олимпиады даже близко. Но
1:17:39
прогресс есть, и как-то куда-то мы движемся, да, он прогресс не от 0ля до
1:17:45
2%, что могло бы быть случайностью, а вот уже как-то что-то решается.
1:17:51
А ещё одна интересная тоже недавняя работа, которая, ну, в каком-то смысле
1:17:57
отрицательный результат, но скорее может быть результат о том, как сделать больше
1:18:02
положительных. А ставит под сомнение работа вообще помогает ли ваш это ваше
1:18:08
обучение с подкреплением? То есть, а, ну, грубо говоря, результат в том,
1:18:14
что после до обучения, вот обучение с подкреплением, а, да, действительно,
1:18:19
если вы просто попросите модель написать ээ решение, то на каком-нибудь там
1:18:25
относительно сложном датасете, а, модель, которая не
1:18:31
а-э использовала обучение с подкреплением, она сильно проиграет
1:18:36
моделям, которые были дообучены. Но если вы начнёте просто ту же самую модель
1:18:43
смплировать много раз, то есть там 256 раз, запустите её на одной и той же
1:18:49
задачке и выберете, а оттуда, что получится хорошего, то внезапно она
1:18:56
начнёт даже выигрывать против дообученных моделей. То есть как бы результат здесь в том, что обучение с
1:19:02
подкреплением, оно, конечно, делает поиск гораздо более направленным, более хорошо направленным. но и делает поиск
1:19:09
беднее. То есть, может быть, есть какое какая-то золотая середина, которая чуть больше брутфорса и чуть меньше чуть
1:19:17
больше случайности, чуть меньше направленности. Не знаю, это тоже очень свежий результат, довольно
1:19:22
интересный. Какие ещё есть дасеты на фронтире? Есть Humanities Last Exam.
1:19:28
Очень сложный датасет, тоже на котором языковые модели ничего особенно не могли
1:19:33
продемонстрировать. Там есть математическая часть, есть много не математических частей. Давайте в это я
1:19:39
не буду углубляться. Просто хочу сказать, что когда он только появился,
1:19:44
все справлялись с ним очень-очень плохо. Там 3-4% было у всех этих моделей.
1:19:51
Потом, когда появились рассуждающие модели О1, R1, стало там
1:19:56
8%. Когда появилось семейство О3, дошло до 1015.
1:20:04
Но тоже есть прогресс. И внезапно вот на этом датасете, ну, он такой как бы
1:20:14
многозадачный, разнообразный, далеко не только про математику и не только про доказательства. Вот на нём внезапно
1:20:20
лучше всех работает вот эта загадочная строчка Open ID Presearch. Это, собственно, мой пере, э-э, позволяет мне
1:20:27
об этом поговорить, потому что это как раз, наверное, очень практически важная штука для всех нас, как действующих, э,
1:20:35
учёных. Что такое deep resarch? Ну, deep resarch — это, на самом деле, модель типа О3.
1:20:41
А, но модель типа О3, которая может быть как-то дообучена, тут никто не знает наверняка, но в общем, который
1:20:48
разрешено, во-первых, искать в интернете, а, во-вторых, э, которая как
1:20:54
бы делает это целенаправленно на заданную тему долго, ну, минуты, может
1:21:01
там до получаса это делать. То есть ты ей даёшь задание. А вот я просто примеры
1:21:08
своей практики, там, не знаю, читал лекцию про скрытые марковские модели. Ну, как работают скрытые марковские
1:21:13
модели, я, конечно, сам знаю, но я же не слежу за всем, что происходит на свете,
1:21:20
да, поэтому спрашиваю depresearch. Ну, а как скрытые марковские модели сейчас используются? Дай мне вот несколько
1:21:27
статей из, э, последних пары лет, а, типа вообще они релевантны ещё или нет,
1:21:32
где они применяются. А, overview, то есть, да, что интересно, кстати, другие лматы
1:21:38
редко умеют. Он задаёт уточняющие вопросы, а потом уходит думать. И вот он думал в данном случае 7 минут довольно
1:21:45
быстро для research. И, да, выдал такой обзорчик на 12 страниц, если Word
1:21:52
скопировать. Я просто проверил для эксперимента. А, 12 страниц,
1:21:57
э, 14 ссылок на свежие статьи, ну, статьи разного качества, конечно, но
1:22:04
проверять, конечно, за ним надо. Он может и гаволюцинировать, и делать далеко идущие выводы из каких-то не
1:22:11
очень надёжных источников, естественно. Но это прямо новый уровень, это прямо
1:22:17
штука, которая действительно, вот честно скажу, мне помогает в жизни часто и сильно рекомендую пользоваться.
1:22:24
Но только важно, что надо проверять, конечно. А и когда смотришь на результат присч,
1:22:32
кажется, ну что, то есть уже можно обзоры писать автоматически, кажется, обзоры уже не требуют участия человека.
1:22:38
Ну почти про это люди, конечно, много думали, пробовали. Вот была работа
1:22:44
Survey там год назад, он уже был неплох, а недавно вышел так называемый Survey X.
1:22:52
Тут очень сложная картинка. с очень большим количеством всяких moving parts, как говорится. Но тут что вот про эти
1:23:00
все м штуки важно понимать, что они все
1:23:07
относятся к так называемомублинг. Анхоблинг — это
1:23:14
мм новые результаты, которые призваны не улучшать модели. А модель здесь всегда
1:23:21
одна и та же примерно используется базовая, но её можно подменить, когда новая выйдет. Но, в
1:23:26
принципе, в этом графике нет нигде улучшения самой модели, но а из неё её
1:23:34
возможности надо ещё извлечь, да? То есть вот примерно как я вам рассказывал
1:23:39
проч, которая из сырой языковой модели извлекает полезного помощника, который
1:23:45
готов отвечать на ваши вопросы. Также и дальше. из полезного помощника, который отвечает на вопросы.
1:23:52
Ещё надо всё-таки извлечь систему, которая может end to end от начала до конца написать обзор на заданную тему.
1:24:00
Но никакой никакого никаких новых там алгоритмов, в смысле алгоритмов
1:24:06
обучения, никаких новых математических результатов этой картинки нет. Это просто несколько разных языковых, ну,
1:24:13
несколько одинаковых, с разными запросами языковых моделей, которые как-то пообщались друг с другом. Там
1:24:20
одна из них сходила, поискала статьи, другая их почитала, третья, значит, по
1:24:26
поанализировала графики с этих статей и так далее, и так далее. Вот. Четвёртая написала текст. Скорее всего, это всё
1:24:33
одна и та же модель, просто с разными запросами. А, и вот такого рода, это
1:24:38
называется спffoldдинг, да? такого рода как бы обвязка вокруг базовой модели, она часто может
1:24:45
существенно э сделать скачок вперёд в в важных
1:24:51
практических приложениях. Она часто может реально раскрыть возможности
1:24:57
языковой модели, которые там вроде как есть, но вот простым одним запросом их не извлечёшь.
1:25:03
И да, Survey X он ещё тогда на базе GPT4O в феврале подбирался к
1:25:08
человеческому уровню. Ну что значит подбирался? Значит, люди читали эти обзоры и оценивали по ряду критериев. Ну
1:25:14
как тут ещё проверишь? И сравнивались с человеческими обзорами. Вот он пока ещё
1:25:20
похуже человеческих, но модели-то улучшаются. Просто эту систему даже
1:25:25
менять не надо. Просто базовую модель вместо GPC4O вставить там по три. И глядишь, уже получше будет.
1:25:32
Вот. И тоже можно прочитать её примеры. Там есть очень странные баги. В каких-то
1:25:38
моментах просто там абзац начат и не дописан на полусловию. Любая языковая
1:25:43
модель, конечно же, могла бы это исправить, если бы ещё один проход сделала, но почему-то не сделала. Но это неважно. В любом случае по покрытию, по
1:25:51
качеству анализа в целом вполне нормально читается. А, ну хорошо. То есть мы
1:25:58
знаем, что языковые модели умеют читать и суммаризировать. Ну, это мы давно знали. Ну, как давно, уже год как знали,
1:26:04
наверное. Что насчёт всё-таки Original Research? Я всё говорил, что нет, пока теорема не доказана, пока ничего не
Когда original research: Google Co-Scientist, AI Scientist-v2, шкала креативности
1:26:11
получается. Ну, может, всё-таки хоть что-то получается, хоть где-то. Есть ли хоть какие-то новые результаты, которые
1:26:18
действительно получены искусственным интеллектом? А, и да, и нет. Ну, скорее
1:26:26
да, но пока результаты частичные. Сейчас расскажу. Последняя, это последний мой
1:26:32
раздел на сегодня. А, ну, во-первых, а как там проверы, да? А, есть большое
1:26:39
направление, которое уже нет у меня, э, сегодня, видимо, времени и сил
1:26:45
обозревать, но в целом есть большое направление, э, которое посвящено тому,
1:26:50
чтобы как всё-таки научить ЛМ порождать проверяемые доказательства. Может быть,
1:26:55
сами доказательства, может быть, там идеи шагов доказательства. и код, который потом их как-то поперебирает и
1:27:03
выберет нужный. Ну, в общем, в любом в любом абсолютно виде есть миллион разных
1:27:08
методов, а, и сотни статей на этот счёт. Всё время
1:27:14
люди как-то пытаются это улучшать. Но, если честно, вот
1:27:19
тут, э, есть такой эффект, который называется горький урок глубокого
1:27:26
обучения. The Bit Lesson. Это фраза Ричарда Саттона, одного из как раз основателей обучения с
1:27:32
подкреплением. А, но, а, возможно, он прав. Он это
1:27:39
говорил ещё до расцвета языковых моделей, ну, там в начале расцвета de
1:27:45
плернинга. У него естьс The Bit Lesson, которая проводит такую мысль, что
1:27:50
машинным обучением трудно заниматься, потому что вот ты стараешься, стараешься, ты придумываешь новую модель, в ней много интересного, новый
1:27:57
алгоритм, может там, не знаю, вариационное приближение какое-нибудь сам просчитал руками. А и она работает
1:28:05
лучше, чем предыдущая, и ты радостно, значит, её публикуешь. Но через год
1:28:10
компьютеры становятся мощнее. Люди берут старую модель, которая в которой нет ничего настолько
1:28:18
же умного. Ну, например, нейросеть. А, и механически делают её больше, обучают на
1:28:24
датасете побольше, и она побивает твою умную модель. А твоя умная модель так не масштабируется хорошо. Она слишком там
1:28:31
сложная для этого, не знаю. Вот, в общем, а есть такое есть такой
1:28:37
эффект. И с языковыми моделями он, конечно, виден. То есть есть огромная
1:28:43
масса статей, которые люди писали, что-то улучшали, делали что-то лучше, а
1:28:50
потом выходил новый там О3 или R1 или Gin 2 с по истановилось ненужно. Просто
1:28:57
теперь из коробки всё работает ещё лучше. Поэтому, может быть, с этим, с
1:29:02
формализацией тоже в какой-то момент из коробки начнёт работать лучше. Вот тут я воздержусь от
1:29:09
прогнозов. Но что уже из коробки начинает работать в плане новых
1:29:14
результатов? Постепенно начинает, а, начинают появляться системы. Это тоже из
1:29:20
разряда анхоблинг, то есть тоже по сути
1:29:25
э обвязки для языковых моделей, которые просто умело запускают их много раз. А
1:29:34
обвязки, которые генерируют новые идеи, оценивают их, проверяют. А вот,
1:29:40
например, недавняя новость Google CS Scientist. В середине февраля вышла
1:29:45
мультиагентная система. Ну, мультиагентная, в смысле, там несколько ЛМ тоже агентов, которые друг с другом
1:29:50
разговаривают. А, и если посмотреть на структуры, ну, тут просто, да, пять
1:29:55
агентов или шесть, один генерирует идеи, другой читает литературу, третий там
1:30:01
оценивает, фильтрует эти идеи. Ну, в общем, тут ничего суперумного в этой структуре нету.
1:30:07
Но такая штука, во-первых, может довольно долго между
1:30:13
собой общаться, продолжая производить новые идеи. Вот это важно, чтобы, ну,
1:30:19
любые две лмки можно посадить друг с другом общаться, и они будут это делать бесконечно долго. Но ничего нового из
1:30:24
этого интересного не выйдет. А тут всё-таки люди смогли организовать так, чтобы выходило что-то новое. И
1:30:31
действительно кажется, пока я, значит, могу про один пример яркий рассказать,
1:30:38
кажется, что это начинает всерьёз работать. И вот яркий пример. Это,
1:30:45
значит, он не в области математики, правда, это Хасепеннадес, учёный медик, микробиолог из Imperial
1:30:52
College London, который провёл такой тест с Googleко scienтистом. У него была
1:30:59
научная группа, ну, и есть, которая занимается прямо важным медицинским вопросом. Ну, я не
1:31:05
специалист, я боюсь соврать, не буду объяснять подробно, но смысл про механизм резистентности к антибиотикам,
1:31:11
то есть как, э, м, значит, бактерии могут стать резистентными ко многим
1:31:17
антибиотикам сразу. А, и у них был новый результат.
1:31:22
То есть он как бы для теста задал сайнсту вопрос, на который его научная
1:31:29
группа уже получила ответ, но ещё нигде не опубликовала. Вот они типа были в процессе написания
1:31:37
статьи. И Google Scientist ушёл думать на двое суток. Это что-то новенькое для
1:31:43
языковых моделей. Так долго раньше они не думали. А, на двое суток ушёл, потом
1:31:50
вернулся, выдал список из нескольких идей. Ну, понятно, что языковая модель не может сама провести исследования по
1:31:56
микробиологии. Там, наверное, какие-то эксперименты есть, какие-то чашки Петри, не знаю. Но а идеи, да, что может быть
1:32:04
интересно исследовать уже проверить экспериментально. А, и под номером один
1:32:09
в этом списке шла та самая идея, которая в итоге у этой научной группы подтвердилась. А под номером там тыре и
1:32:16
п в этом списке шли идеи, которые Пеннадес и его коллеги сошли очень
1:32:22
перспективными. Сказали, что это нам голову не приходило, но теперь мы проверим. А, конечно, ну, это далеко не
1:32:31
полный цикл. В такой науке, я думаю, полный цикл будет ещё не скоро, не в ближайшие год.
1:32:37
Но а а тем не менее вот уже есть довольно
1:32:43
положительный пример того, как языковые модели в чистом виде практически, ну, естественно, они читают литературу,
1:32:49
естественно, они всё там обрабатывают, но по сути языковые модели в чистом виде начинают генерировать идеи, полезные для
1:32:56
научного поиска. А, и второй пример примерно такой же,
1:33:02
это система AI Resarcher. Я уже, э, сколько там, 9 месяцев, как про неё
1:33:08
рассказываю. Первая версия ресерчера появилась в августе прошлого года. А это
1:33:14
тоже чистый скафхолдинг, тоже чистый анхоблинг, это просто система из скриптов с хорошими промптами и там
1:33:21
циклами. Но что она делает? Авторы сконцентрировались на области, в
1:33:27
которой языковая модель таки может провести полный цикл. Область называется машинное обучение. Почему может? Потому
1:33:35
что эксперименты здесь — это какие-то программки, которые может написать
1:33:42
языковая модель. Программирует она уже неплохо. А и она, если дать ей такой
1:33:48
тул, она вполне может запустить их. И потом получатся какие-то результаты. Она
1:33:53
может их прочитать и обработать. То есть пока всё происходит внутри компьютера,
1:33:59
ну да, может написать программу для экспериментов, может там подебажить её, если что не так,
1:34:06
может ээ вернуться к ней и провести новые эксперименты. Это всё не так уж
1:34:12
запредельно сложно. И они сделали систему полного цикла от генерации идей.
1:34:20
То есть там на входе буквально промт запрос из разряда. Ну вот подумай на эту
1:34:26
общую тематику там в этом направлении подумай без всяких конкретных идей. И
1:34:32
система сначала думает, генерирует идеи, примерно как scientist, проверяет их на на новизну. Там какой-то цикл
1:34:38
происходит, значит, с переранжированием, оценка этих этих идей. Потом для
1:34:44
выбранных идей строится план экспериментов. Они запускаются. Может быть, это тоже по циклу несколько
1:34:50
раз происходит. Потом результаты, когда экспериментов оказываются
1:34:55
уже содержательными, пишет статью. Вот полный цикл от общего направления до
1:35:03
статьи. И долгое время, полгода в разных докладах я рассказывал, что, ну,
1:35:10
конечно, пока это не то, чтобы novel research, то есть
1:35:15
пока это всё были какие-то статьи, которые выходили из этой системы, были очень инкриментальные, не очень
1:35:21
интересные, ничего гениального в них не было. А, и, но в принципе вот в течение
1:35:27
полугода я говорил на обычно на своих докладах так, что если бы мне прислали
1:35:33
на рецензию такой магистрский диплом, я бы не заподозрил ничего плохого и
1:35:39
поставил бы высокую оценку. То есть там, ну, всё, все эксперименты чётко
1:35:45
проведены. Какое-то улучшение всегда есть, но, скорее всего, это какое-то очень инкрементальное улучшение,
1:35:52
какая-то очень небольшая идея. Идея скорее из разряда: «Вот давайте возьмём там эту идею из этой статьи, добавим эту
1:35:59
идею из этой, и тогда немножко там на полпроцента что-то улучшится». Типичный
1:36:04
диплом, типичная там статья на очень низкого уровня студенческой конференции.
1:36:10
Ну, ничего гениально. А, ну вот, кажется, получилось. Месяц
1:36:17
назад, 12 марта прошла новость от той же команды, которая сдела которыя сделали вторую
1:36:23
версию Scientist. Я честно не проверил перед докладом, простите, но, кажется, пока нету статьи на этот счёт. То есть
1:36:30
пока я не могу вам сказать, отличается ли чем-то сама система. Понятно, что базовая LLM отличается. Понятно, что
1:36:37
теперь они вставили туда современные рассуждающие модели. Вот. И вот эта
1:36:42
система, а, написала три статьи, ну, точнее, наверное, так, она
1:36:49
написала 10 статей, люди из них выбрали три. Вот так будет честно сказать. И три
1:36:55
лучших отправили на настоящий воркшоп при настоящей ведущей реально топовой
1:37:00
конференции по машинному обучению ICLR. Да, это ещё не конференция, это ещё пока воркшоп, но одна из них прошла.
1:37:09
Это был эксперимент, согласованный с программным комитетом. В итоге её,
1:37:14
конечно, ну, то есть рецензенты рецензировали, не зная о том, что
1:37:19
эксперимент проводится, но, конечно, программный комитет знал, в итоге статья не была опубликована сама по себе, но
1:37:26
она получила заведомо проходные оценки. 676 — это точно acпт. Вот. Ну, две другие не прошли,
1:37:34
скорее всего. Там вторая как-то, видимо, скорее нет, а третья точно нет.
1:37:39
А вот такие дела. То есть, а, ну, статью может можно посмотреть, она, ну, тоже не
1:37:47
то чтобы гениальная, ничего там не перевернёт она искусственный интеллект, конечно же, но это вот, наверное, первая
1:37:54
по-настоящему полностью автоматически порождённая статья полного цикла. Ей дали на вход только тему воркшопа.
1:38:02
Workshop был посвящён как бы тому, что deep learning
1:38:07
как в том выражении, да, в теории теория и практика согласуются на практике не
1:38:13
очень. Вот так и здесь где теория и практика deeplearning расходятся. Вот
1:38:19
такой был workркшоп. И имея только вот эту тему, как бы общий скоуп и направления, система сама
1:38:27
написала 10 статей и одна из них прошла. Вот. Очень интересно. Очень
1:38:33
интересно. И, наверное, это мой последний слайд. Вот где мы сейчас и как
1:38:40
быстро мы движемся дальше и где мы. Вот на это, это я для недавнего там своего
1:38:46
тоже поста нарисовал такую картинку, как бы где мы вот научный поиск — это тоже
1:38:52
оптимизационный процесс. И мы можем оптимизационные процессы расположить как бы, ну, условно по
1:38:59
возрастанию, так сказать, креативности, по возрастанию того, а
1:39:05
того скачка, который они делают, да, там, ну, номером один там самым низким
1:39:11
будет просто случайный поиск. Номером два, ну, будет, наверное, градиентный спуск — это локальный поиск, у которого
1:39:18
есть направление и метод первого порядка. А, ну, ну, я поставил номер
1:39:23
три, там 3,2 можно переставить, если хотите. Где-то там же эволюция. Эволюция
1:39:29

это, ну, как бы такой типа тоже направленный поиск, но я его поставил
1:39:34
выше, потому что, э, он ещё и сильно распараллелен, да. Мы сразу сразу много
1:39:39
разных генов мы пробуем э оставляем из них лучшие. Вот. Потом, если совместить
1:39:46
эволюцию, градиентный спуск, получится что-то вроде нейронного поиска архитектур. Это когда, э, модель
1:39:54
автоматически тоже очень направленна, тоже комбинация эволюционного и
1:39:59
градиентного поиска, а, перебирает архитектуры
1:40:04
нейросетей, такой такая метаоптимизация, где, а, значит, на выходе действительно
1:40:10
получаются прекрасные архитектуры, которые там во многих областях становятся стандартом.
1:40:17
А там пятый уровень — это вот что-то типа альфа, которые всё ещё решают очень
1:40:23
конкретную узкую задачу, но уже решают её как бы с нуля и а умеют
1:40:30
[музыка] обучаться до высот, где они в этой узкой
1:40:35
конкретной задаче, естественно, совершенно не замечают человеческий уровень, да. А номер шесть, предположим,
1:40:42
большие языковые модели. Они, конечно, в шахматы играют хуже, чем Альфазер, но зато это такой уже более общий
1:40:49
искусственный интеллект, да, это ээ generalist model, которая может делать
1:40:56
много всего, не всё, но много всего разного. Ну и вот если так в научном поиске, где
1:41:03
тут этотст, где он, как, да, десятый пункт скажу. На самом
1:41:10
далёком, самом самом далёкой части спектра я поставил, ээ, сразу скажу, не
1:41:15
мой выбор, взял из интервью одного теар-физика, который сейчас как раз в депманде работал. Его напрямую спросил
1:41:22
интервьюер, что вот, а какое открытие физики теоретической было самым-самым потрясающим, самым большим скачком? И
1:41:29
вот он подумал и объяснил, что на его взгляд, ну, я, естественно, не могу с ним не согласиться, а это общая теория
1:41:37
относительности, а именно по как бы разнице между тем, с чего Эйнштейн
1:41:46
начинал, с чем он мог работать, что у него было, что он знал, и тем, насколько
1:41:51
далеко он прыгнул исключительно своим собственным научным поиском. Вот. А, ну
1:41:57
вот это пускай будет пока крайне правый часть, крайняя правая часть шкалы. И вот
1:42:03
где мы сейчас с этими всеми косенти системами? Ну, где-то вот на уровне, не
1:42:10
знаю, среднего аспиранта. Чуть похуже, может, среднего, а может получше. Кто знает, какой этот средний аспирант, да.
1:42:16
Но мы движемся, мы движемся. И мне кажется, отдельный интересный вопрос —
1:42:22
это а что на а что будет на этой шкале?
1:42:27
на уровне 15 или 25. Это нам трудно представить, но может быть это не
1:42:34
невозможно. Как знать? Вот такие дела. Спасибо за внимание. Надеюсь, было
1:42:49
интересно. О’кей. А давайте поблагодарим докладчика.
1:43:00
Сергей Игоревич, огромное спасибо. Этогин. Добрый день, Сергейвич. Интересно.
1:43:11
Значит, ну как времени уже довольно много.
1:43:16
Вот. И я смотрю, что количество слушателей уже заметно уменьшилось по
1:43:23
сравнению с топовым ээ числом. Вот. Но я
1:43:29
совершенно согласен. Это замечательный, интересный доклад. Ээ это
1:43:35
самое сейчас Сергей, тогда уберите это самое. Угу. Сейчас, секундочку.
1:43:45
Фуф. Так, я уже потерялся. Я нахожусь вот вот
1:43:51
здесь. Да. И здесь тогда. Так, да. Угу.
1:43:56
О’кей. Так, сейчас. Вот так. Угу. Вот. Ээ большое
1:44:05
спасибо. Спасибо за приглашение. Всегда буду рад. Вряд ли этот доклад полностью изменится
1:44:12
за полгода, но я думаю, за год он будет меняться достаточно, чтобы было смысл послушать ещё раз. Пока пока прогресс
1:44:20
такой. Поглядим, да, но при той скорости прогресса, которая была видна, может
1:44:26
произойти просто очень много, как бы, да.
1:44:31
А, а можно я всё-таки один вопрос задам, потому что я вот недавно как раз стал
1:44:37
использовать все эти модели в помо в аа
1:44:43
в настоящей математике. В смысле, вот сейчас Сергей Юрьевич читает некоторую теорему, которая частично была доказана
1:44:50
вот при а помощи, значит, это это
1:44:56
Сергей, это очень интересный пример. Если ты ты мне про него расскажешь подробнее, то я буду очень благодарен.
1:45:02
Ну, видимо, не сейчас, агда, да. Вот как бы, да, это так. Ну, это, безусловно, с помощью вот я хотел как раз
1:45:09
сакцентировать, что доклад был в основном, ну, вот так вот ориентирован
1:45:14
на, а, как это полные доказательства. Вот тебе как это вход вот соизвольно на
1:45:21
выход доказательства. Я же его использовал не таким способом, а как, ну
1:45:26
вот частично, как это самое, как это Human компьютер
1:45:31
система. Вот. И у меня вопрос был, собственно говоря, а что известно вот как а как как это как компьютер может
1:45:40
именно помогать в доказательстве? Ну вот как вот эти лм модели могут помогать в
1:45:47
доказательстве теорем, если вот какие-то хорошие наработанные практики не не как
1:45:53
полный цикл, да, а именно как помощник. Угу. Да, вопрос понятен. Ну, к
1:46:00
сожалению, боюсь, что я не знаю никаких чётких практик, потому что слишком уж быстро всё меняется. Боюсь, что так. То
1:46:07
есть, а, я пытался, ну, чисто в виде экспериментов, э, я пытался проводить
1:46:14
эксперименты вида, давайте возьмём какую-нибудь статью с архива, которая
1:46:19
только-только вышла, точно не может быть ни на каком, ни в каком обучающей выборке там вчерашнюю. Давайте отрежем
1:46:26
от неё постановки задач и попробуем попросить ЛМ порассуждать, как там эту теорему можно было бы доказать. Вот
1:46:34
такое я пробовал. Ну, мало разумного получилось, но я должен сказать, что я
1:46:39
пробовал полгода назад, а с тех пор могло что-то измениться на этот
1:46:46
счёт. А, и это, конечно, был просто эксперимент из разряда, как LLM умеет
1:46:53
доказательство новых математических утверждений, а не про то, как наиболее эффективно её использовать, когда ты сам
1:46:59
математик и доказываешь эти утверждения. Про это я думаю, если у кого-то есть такая практика, то он пока сам статьи
1:47:06
пишет, а не публикуют эти алгоритмы. Ну я тоже больше занят дальнейшим
1:47:13
развитием вопроса, да.
1:47:18
Окей, спасибо. Давайте ещё раз поблагодарим докладчика. Спасибо вам.
1:47:26
Вот. И спасибо всем слушателям. До новых встреч.

Таймкоды

В этом видео

Похожие записи