СПбМО — 2025.04.22 — AI в математике

Это запись доклада «AI и математика: что модели могут сейчас и куда мы идём» на заседании Санкт-Петербургского математического общества 22 апреля 2025 года.

*Прямая ссылка на видео https://www.youtube.com/watch?v=ygqNjojA3Hk
**Таймкоды сделала нейросеть

Таймкоды

00:00:11 Введение

  • Начало заседания Санкт-Петербургского математического общества.
  • Докладчик — профессор Сергей Николенко из Поми.
  • Тема доклада: как искусственный интеллект справляется с математикой в наше время.

00:00:52 План доклада

  • Амбициозный план доклада.
  • Упоминание о рассуждающих моделях и секретных слайдах.

00:02:04 История искусственного интеллекта

  • Начало ИИ как науки: тест Тьюринга и Дартманский семинар.
  • Эволюция ИИ: оптимизм, «зима ИИ», машинное обучение, революция глубокого обучения.

00:02:39 Тест Тьюринга и языковые модели

  • Успешное прохождение теста Тьюринга языковыми моделями.
  • Необходимость дообучения моделей для сохранения роли. 00:03:18 Нейросети и революция глубокого обучения
  • История нейросетей: от первой модели Маккалока-Питтса до современных архитектур.
  • Технологическая революция в середине 2000-х: большие датасеты и вычислительные мощности.

00:04:45 Развитие нейросетей

  • Применение нейросетей в распознавании речи, изображений и естественном языке.
  • Нобелевская премия Джеффри Хенттона за вклад в обучение нейросетей.

00:06:04 Архитектура трансформеров

  • Появление архитектуры трансформеров в 2017 году.
  • Механизм самовнимания в трансформерах.
  • Развитие языковых моделей на основе трансформеров.

00:07:50 Языковое моделирование

  • Задача языкового моделирования: предсказание следующего слова в тексте.
  • История языковых моделей: от марковских цепей до нейросетей.

00:10:26 Законы масштабирования

  • Законы масштабирования для нейросетевых архитектур.
  • Улучшение качества предсказания при увеличении данных и вычислительного бюджета.

00:11:26 Преимущества языкового моделирования

  • Продуктивность задачи языкового моделирования.
  • Доступность больших объёмов данных для обучения.

00:12:18 Разметка данных для машинного обучения

  • Для многих задач машинного обучения требуется размеченный датасет.
  • Пример: для обучения модели отличать котиков от песиков нужен датасет с пометками «котики» и «песики».
  • Создание размеченного датасета — самый дорогой этап, но его можно использовать для многих моделей.

00:13:16 Языковые модели и их ограничения

  • Языковые модели обучаются на текстах из интернета, которые уже автоматически размечены.
  • После обучения модель может только продолжать текст, но не отвечать на вопросы.

00:14:16 Дообучение языковых моделей

  • Дообучение включает метод обратной связи от людей для оценки полезности ответов модели.
  • Люди выбирают наиболее полезные ответы из предложенных моделью вариантов.
  • На основе этих данных обучается модель вознаграждения, которая затем используется для улучшения языковой модели.

00:16:23 Прогресс в искусственном интеллекте

  • После появления ChatGPT прогресс в искусственном интеллекте значительно ускорился.
  • Новые достижения в области ИИ появляются каждую неделю.

00:18:10 Математика и искусственный интеллект

  • Математика — формальная область, где искусственный интеллект применялся давно.
  • Попытки автоматического доказательства теорем с помощью компьютеров не всегда успешны.

00:20:53 История автоматического доказательства теорем

  • В 1956 году Аллен Ньюэлл и Герберт Саймон создали первый автоматический провер.
  • С 1960-х по 1980-е годы развивались символьные вычисления и проверы, такие как Maxima, Maple, Memetic.
  • Гипотеза Робинса о голевых алгебрах — единственный пример успешного доказательства с помощью провера.

00:25:44 Современные методы машинного обучения

  • Глубокое обучение и мощные видеокарты открывают новые возможности для математических исследований.
  • Обучение с подкреплением — одно из перспективных направлений, которое уже начало приносить результаты.

00:26:02 Обучение с подкреплением

  • Обучение с подкреплением отличается от обучения с учителем и обучения без учителя.
  • В обучении с подкреплением модель учится на опыте, получая вознаграждения или наказания.

00:26:55 Обучение с учителем и без учителя

  • Обучение с учителем: наличие размеченного набора данных, например, фотографий с кошками и собаками. Цель — аппроксимировать условное распределение меток при условии входных данных.
  • Обучение без учителя: набор данных без меток, например, множество фотографий. Задача — понять структуру многообразия настоящих фотографий.

00:27:54 Многообразие и обучение с подкреплением

  • Многообразие фотографий — непрерывное и открытое множество. Изменение нескольких пикселей не меняет сущность фотографии.
  • Обучение с подкреплением начинается без данных, датасет собирается в процессе обучения. Агент взаимодействует с окружающей средой, которая реагирует на его действия и даёт награды.

00:28:53 Пример обучения с подкреплением

  • Пример: агент учится играть в шахматы, взаимодействуя с правилами и другим агентом. Действия агента — ходы, состояния — позиции на доске. После завершения партии агент получает награду: +1 за победу, 0 за поражение, 0.5 за ничью.

00:30:15 Реализация окружающей среды

  • Для обучения с подкреплением нужна автоматизированная окружающая среда, которая автоматически возвращает награды.
  • Необходимо сыграть множество партий для обучения агента.

00:31:09 Развитие обучения с подкреплением

  • Примеры успешных агентов: AlphaGo, AlphaZero.
  • DeepMind и его модель AlphaFold, которая находит трёхмерные структуры молекул белков и революционизирует медицину.

00:33:05 Влияние на математику

  • Вопрос о влиянии обучения с подкреплением на математику остаётся открытым.

00:33:11 Альфа-тензор

  • В 2022 году модель Альфа-тензор улучшила алгоритмы умножения матриц.
  • Алгоритм умножения матриц включает последовательность элементарных операций.
  • Дерево поиска в математических задачах значительно шире, чем в играх, например, в шахматах или го.

00:35:03 Альфа-геометрия

  • Альфа-геометрия решает школьные геометрические задачи.
  • Использует алгоритм для символьных вычислений и языковую модель для предложения новых построений.
  • Успешно решает сложные задачи, требующие множества построений.

00:36:52 Альфа-пруф

  • Соединяет языковую модель и поиск формальных доказательств.
  • Формализует проблемы на естественном языке и ищет доказательства с помощью обучения с подкреплением.
  • На международной математической олимпиаде получил почти золото, но не хватило одного балла.

00:39:20 Сложности поиска доказательств

  • Статья «Почему новые доказательства трудно искать через обучение с подкреплением» показывает сложности поиска доказательств.
  • Пример с гипотезой Эндрюса Кертиса иллюстрирует трудности из-за большого количества возможных действий и длинного горизонта поиска.
  • Несмотря на сложности, удалось доказать тривиальность одного класса потенциальных контрпримеров.

00:43:22 Языковые модели и математика

  • Языковые модели обучаются предсказывать следующий токен в тексте, что позволяет получать бесплатную разметку.
  • Для обучения языковых моделей математике легко создавать синтетические данные с правильными ответами.
  • Математика и программирование — важные тестовые примеры для языковых моделей.

00:47:16 Первые успехи языковых моделей

  • Модель Минера в 2022 году могла решать простые школьные задачи, но с трудом.
  • Следующий шаг включает дальнейшее улучшение моделей и их обучение на математических задачах.

00:47:37 Внешние инструменты для языковых моделей

  • Языковые модели не умеют считать, в отличие от людей.
  • Нейросети не могут запускать циклы внутри себя.
  • Пилон позволяет языковым моделям запускать алгоритмы на Python.

00:49:00 Поиск в интернете

  • Языковые модели научились искать информацию в интернете.
  • Модель придумывает, что хочет поискать, и обрабатывает результаты поиска.

00:49:21 Кепс пролом

  • Задача кепс пролом связана с поиском наборов атрибутов в игре «Сет».
  • Языковая модель пишет программы для перебора вариантов.
  • Результаты программ подаются обратно модели для улучшения.

00:51:24 Математические олимпиады для ИИ

  • Языковые модели решают олимпиадные задачи, но не могут доказать новые теоремы.
  • Модель дообучается на математических датасеях и писать программы на Python.
  • Пример успешной модели: 7 миллиардов параметров.

00:53:25 Машинное обучение в математике

  • Машинное обучение используется для генерации гипотез и поиска паттернов.
  • Автоматизация перебора случаев и запись доказательств.
  • Пока модели не могут писать доказательства теорем.

00:55:15 Рассуждающие модели

  • Рассуждающие модели улучшают качество ответов, предоставляя полное рассуждение.
  • Фью-шот промпинг: предоставление примеров с решениями улучшает качество ответов.
  • Чайна сот: примеры с решениями улучшают качество ответов без фью-шот промпинга.

00:59:52 Обучение с подкреплением

  • Модели обучаются с подкреплением для реализации сложных рассуждений.
  • Рассуждения рассматриваются как последовательность ходов, ведущих к правильному ответу.
  • Цель — довести рассуждения до правильного ответа, получая награду за правильный ответ.

01:00:51 Гипотезы о работе моделей

  • Существуют разные гипотезы о том, как устроены модели.
  • Независимые тесты подтверждают возможности моделей, но детали обучения остаются неизвестными.

01:01:25 Про сворд моделс

  • Про сворд моделс помогают находить ошибки в рассуждениях моделей.
  • Автоматический верификатор может определить конкретный ошибочный шаг.
  • Детальный сигнал для обучения, включающий указание на ошибки, улучшает результаты.

01:02:11 Альфа-зиро и поиск Монте-Карло

  • Альфа-зиро использует поиск Монте-Карло для оценки позиций в игре.
  • Модель строит дерево поиска с оценками позиций в листьях.
  • Выбор первого хода зависит от оценок в листьях дерева поиска.

01:03:18 Попытки репликации

  • Лаборатории пытаются реплицировать успешные модели, используя различные алгоритмы.
  • Пример лаборатории из Шанхая: анонс плана по повторению успехов U-1.
  • Дистилляция позволяет улучшить результаты меньших моделей, но не превосходит лучшие.

01:06:20 Успехи Dipsic

  • Dipsic успешно использует чистое обучение с подкреплением.
  • Модель R-1.0 улучшает способность использовать длинные рассуждения.
  • Dipsic не использует про сворд моделс или деревья поиска.

01:09:11 Современные рассуждающие модели

  • Ведущие лаборатории, такие как Anthropic и Google, выпускают рассуждающие модели.
  • Jemina и 2.5 — одна из лучших моделей для рассуждений.
  • Современные языковые модели включают рассуждения.

01:10:04 Насыщение датасетов

  • Некоторые датасеты, например, MAT, насыщаются, модели достигают высоких результатов.
  • Школьные задачи, такие как решение квадратных уравнений, становятся нерелевантными.
  • Переход к более сложным датасетам, таким как Frontiers.

01:12:01 Frontiers

  • Frontiers — это датасет с сложными математическими задачами.
  • Задачи имеют непростые решения и требуют глубокого понимания.
  • В конце 2024 года модели решали максимум 2% задач на Frontiers.

01:13:47 Прогресс моделей

  • В марте 2025 года U-3 решала четверть задач на Frontiers.
  • Официальные результаты показывают, что U-3 решает 17–18% задач, а Neo-3 — 12%.
  • Progress с 2% до 18% выглядит значительным.

01:15:24 Статья «Пруф-блаф»

  • В 2025 году Петров и его коллеги проверили, как языковые модели справляются с задачами американской олимпиады ASM.
  • Использовался подход без формальных проверов, только языковые модели с рассуждениями.
  • Результаты были почти нулевыми, максимум — 2 балла из 42.

01:16:19 Обновление статьи

  • Через две недели статью обновили из-за выхода модели Jamie и 2.5 Pro.
  • Jamie и 2.5 Pro решила одну задачу на 6.5 баллов из семи и одну наполовину на 3.5 из семи.
  • Остальные задачи остались нерешёнными.

01:18:04 Обучение с подкреплением

  • Обучение с подкреплением делает поиск более направленным, но также делает его беднее.
  • При многократном запуске модели на одной задаче она может начать выигрывать у дообученных моделей.
  • Возможно, существует золотая середина между направленностью и случайностью.

01:18:59 Nitis Last Exam

  • Nitis Last Exam — сложный асет с математической и нематематической частями.
  • Сначала модели справлялись плохо, затем появились рассуждающие модели, и результаты улучшились до 8%.
  • Семейство O3 достигло 10–15%.

01:20:04 Open Depress

  • Open Depress — модель типа O3, которая может искать в интернете и целенаправленно анализировать информацию.
  • Пример использования: запрос о скрытых марковских моделях, модель выдаёт обзор на 12 страниц с 14 ссылками на статьи.
  • Важно проверять качество информации, так как модель может делать выводы из ненадёжных источников.

01:22:30 Анхолинг и скайфолдинг

  • Анхолинг — новые результаты, которые не улучшают модели, а извлекают их возможности.
  • Скайфолдинг — обвязка вокруг базовой модели, которая может существенно улучшить практические приложения.
  • Системы на базе GPT-4 приближались к человеческому уровню, но пока уступают.

01:25:55 Будущее языковых моделей

  • Языковые модели умеют читать и самоизировать, но пока нет новых результатов, полученных искусственным интеллектом.
  • Вопрос о новых результатах остаётся открытым.

01:26:23 Обучение LLM порождать проверяемые доказательства

  • Существует большое направление исследований по обучению LLM порождать проверяемые доказательства.
  • Методы включают генерацию идей шагов доказательства и кода для их выбора.
  • Существует множество методов и статей на эту тему.

01:27:16 Эффект «горького урока глубокого обучения»

  • Ричард Саттон описал эффект, когда новые модели быстро устаревают из-за улучшения вычислительных мощностей.
  • Старые модели, обученные на больших данных, могут превзойти новые, даже если они сложнее.
  • Этот эффект виден и в развитии языковых моделей.

01:29:17 Мультиагентные системы и их применение

  • Мультиагентные системы, такие как Google Co-Search, используют несколько LLM для генерации и оценки идей.
  • Пример успешного применения: микробиолог Хасапинадес использовал Co-Search для генерации идей по механизму резистентности к антибиотикам.
  • Co-Search генерировал идеи, которые подтвердились и были признаны перспективными.

01:32:37 Система Researcher и полный цикл исследований

  • Система Researcher позволяет языковым моделям проводить полный цикл исследований в области машинного обучения.
  • Она генерирует идеи, планирует и проводит эксперименты, обрабатывает результаты и пишет статьи.
  • Первая версия системы генерировала инкрементальные улучшения, но вторая версия, возможно, достигла большего.

01:36:13 Результаты второй версии системы Researcher

  • Вторая версия системы написала десять статей, из которых выбрали три лучших.
  • Три лучшие статьи были отправлены на воркшоп при ведущей конференции по машинному обучению.
  • Пока нет статьи, описывающей изменения в системе, но очевидно, что базовая LLM и современные рассуждающие модели были добавлены.

01:37:04 Эксперимент с автоматически порождёнными статьями

  • Одна из статей, написанных ИИ, прошла рецензирование, получив проходные оценки.
  • Рецензенты не знали о эксперименте, но программный комитет был в курсе.
  • Статья не была опубликована, но получила положительные оценки.

01:38:02 Тема воркшопа и результаты

  • Воркшоп был посвящён различиям между теорией и практикой диплернинга.
  • Система написала десять статей на эту тему, одна из которых прошла рецензирование.

01:38:54 Оптимизационные процессы в научном поиске

  • Оптимизационные процессы ранжируются по возрастанию креативности.
  • Случайный поиск — самый низкий уровень, ингредиентный спуск — локальный поиск с направлением.
  • Эволюция — направленный и параллельный поиск.

01:39:51 Мета-оптимизация и нейронные сети

  • Нейронный поиск архитектур сочетает эволюцию и ингредиентный спуск.
  • Альфа-ЗИРО решает узкие задачи с нуля.
  • Большие языковые модели — более общий ИИ, способный выполнять множество задач.

01:40:43 Сравнение с научными открытиями

  • Общая теория относительности Эйнштейна — пример значительного научного скачка.
  • Текущие системы находятся на уровне среднего аспиранта, но прогресс впечатляет.

01:41:39 Будущее ИИ и научного поиска

  • Вопрос о том, что будет на уровне 15 или 25 по шкале креативности, остаётся открытым.

01:42:50 Благодарность докладчику

  • Докладчик благодарит слушателей и обещает, что доклад изменится за год.

01:44:31 Вопрос о помощи ИИ в математике

  • Обсуждается использование ИИ для помощи в доказательстве теорем.
  • Эксперименты с LLM показали ограниченные результаты, но ситуация может измениться.

01:47:19 Завершение

  • Благодарность докладчику и слушателям.
  • Прощание и ожидание новых встреч.

В этом видео

Введение, таймлайны и революции AI, трансформеры и LLM
0:03
[музыка]
0:11
О’кей. Мы начинаем, э, заседание Санкт-Петербургского
0:17
математического общества. И сегодняшний наш докладчик
0:23
профессор Сергей Николенко из Памя. Пожалуйста, Сергей.
0:30
Да, здравствуйте, уважаемые коллеги. Очень рад, очень рад быть здесь, очень
0:35
рад что-то рассказывать на заседании математического
0:41
общества. И меня пригласили рассказать о том, как там искусственный интеллект
0:47
справляется с математикой в наше время. А у меня план довольно амбициозный.
0:57
Плюс мне поступил отдельный запрос поподробнее рассказать о рассуждающих
1:04
моделях, поэтому то, что я планировал проскочить, я, видимо, тоже расскажу. А, и ещё у меня куча секретных
1:13
слайдов на случай, если кому-то будет интересно, э, узнать какие-то детали, потому что я, честно говоря, времени у
1:21
меня не так много, я не планировал рассказывать детали именно машинного обучения. а скорее переходить к тому,
1:28
что там с математикой, машинным обучением. Вот. Но давайте начнём и
1:34
посмотрим, сколько всё это времени займёт. Значит, во-первых, начну с того, с чего я всегда
1:41
начинаю подобные общие доклады, даже если они в итоге должны прийти к конкретной теме. Э начну с, так сказать,
1:51
краткой истории искусственного интеллекта. И, конечно, обычный доклад по
1:57
искусственному интеллекту до последних там нескольких лет начинался бы с какой-нибудь картинки вроде вот такой,
2:04
да, искусственный интеллект, как наука начался. Ну, одни считают в пятидесятом
2:10
году с тестом тюринга, другие считают в пятьдесят шестом с дартманским семинаром. И потом, значит, сначала было
2:18
ээ много оптимизма, потом оптимизм изменился зимой искусственного интеллекта, потом пришло машинное
2:24
обучение, потому что подтянулись датасеты и вычислительные мощности. И
2:29
вот в 2000 в середине нулевых, в 2005-шеишла революция глубокого
2:35
обучения. И вот мы в ней сейчас все живём. А, кстати, а тестюринга
2:41
наконец-то прошли. Это совсем недавний результат, потому что тесттюринга, ну
2:47
вот в нормальной, так сказать, состязательной постановке трудно пройти языковыми моделями по
2:54
умолчанию, потому что ты её спросишь: «А ты не языковая модель случайная?» А она тебе радостно ответит: «Конечно, я
3:00
языковая модель». Поэтому нужно было как-то чего-то там их дообучить, чтобы они оставались в роли и не выдавали
3:08
себя. Ну, в общем, наконец это упражнение было проделано. уже давно не сомневался никто, что тестюринга будет
3:15
пройдена. И вот, наконец, это случилось. А последняя революция
3:20
deeplearning происходит произошла на основе искусственных нейронных сетей. В
3:26
детали этого я вдаваться точно не буду, но скажу, что нейросети были всегда. То
3:33
есть нейросети появились до того, как искусственный интеллект появился как наука, да? Первая ээ модель
3:39
искусственного нейрона макалапиц сорок третьего года. Она на самом деле до сих пор довольно современная. Мы сейчас тоже
3:46
отдельные элементы нейросетей часто моделируем как линейная комбинация входов и потом какая-то нелинейная
3:53
функция. Но с тех пор очень много воды утекло в плане архитектур, в плане алгоритмов обучения и так далее и тому
3:59
подобное. Но до вот как раз середина
4:05
нулевых везде, кроме очень небольших ограниченных
4:11
областей, глубокие нейронные сети считались, ну, как бы second best way of
4:18
doing just about anything, как сказал Джон Денкер в середине девяностых. А
4:23
считалось, что да, конечно, мы все знаем, что нейросети очень выразительная
4:28
штука. Есть теоремы об универсальной апропсимации, но как их обучишь, что-то
4:34
слишком это сложно и, а, не хватает данных, не хватает мощностей, а то, на
4:40
что хватает, то ещё не работает. И вот в середине нулевых всё сошлось. То есть, ээ, тут я как всегда
4:48
говорю, э, хотя в этой революции, конечно, были и математические,
4:54
ээ, новые идеи, были и какие-то новые архитектуры, новые там алгоритмы
4:59
обучения, но по большому счёту это была чисто технологическая революция. То есть
5:05
датасеты стали, наборы данных стали достаточно большими, сети, как
5:10
следствие, стали достаточно большими. То есть достаточно большие сети, было на чём обучить, и вычислительные мощности
5:18
подтянулись, и их было ещё и чем обучить. Вот. И с тех пор нейросети
5:25
шагают по планете, простите за рифму, и, э, так сказать, область за областью
5:31
покоряют разные аспекты искусственного интеллекта. Сначала это было распознавание речи в конце нулевых,
5:37
потом картинки, распознавания изображений с начала десятых, там с двенадцатого года, а, и так далее.
5:44
Потом, естественный язык и так далее. Кстати, вот, Давича, наверное, вы слышали в прошлом году Нобелевскую
5:51
премию по физике почему-то, но, видимо, больше не почему было, получил Джефри
5:57
Хинтон, один из главных идеологов и вдохновителей обучения искусственных университей.
6:03
А, и потом произошла ещё одна революция, как бы внутри революции deep learning, а
6:10
в 2017, в конце семнадцатого года появилась новая архитектура, архитектура
6:16
трансформера. Вот про него у меня есть секретные слайды, если будет интересно, если останется время в конце. А пока
6:23
просто скажу, что Трансформер — это такая новая архитектура нейронной сети. Что такое архитектура? это, э, структура
6:31
того, ну, граф вычисления, структура того, как, э, из маленьких элементарных
6:37
функций, из узлов получается вот эта гигантская композиция, которая является большой нейросетью. И трансформер
6:45
предложил новый механизм для такой архитектуры, так называемое самовнимание, self attention, который
6:53
оказался очень хорошим, прямо на два порядка лучше в каком-то смысле, чем то,
6:59
что было раньше. И, э, с тех пор всё это начало развиваться ещё быстрее. То есть
7:07
первый трансформер в семнадцатом году был так называемый энкоodдер, декодер архитектурой. То есть он, ээ, изначально
7:14
был создан для задачи машинного перевода, ну, в целом для перевода последовательности. У него была
7:19
последовательность на входе и последовательность на выходе. А, но
7:24
очень быстро люди сообразили, что если эту архитектуру из двух частей разрезать пополам, то и левая часть, и правая по
7:31
отдельности будут очень полезны. Ну, про левую часть, про модели типа Берт я не
7:37
буду рассказывать. А вот правая часть модели типа GPT, которые получились из декодера, трансформера — это как раз те
7:46
самые языковые модели, о которых сейчас все говорят. Что это такое? Ну, опять же,
7:53
про структуру, если вы спросите, то в конце расскажу. А какую задачу она
7:58
решает, эта структура? Что, собственно, происходит в этой модели, на чём она обучается и какую задачу призваны
8:06
решать? Ну, как вы опять же наверняка слышали,
8:12
всё это языковое моделирование. Что такое языковое моделирование? Language modeling это, по сути, очень простая
8:19
задача. И я подчеркну, что это не тип нейросети, это не тип как бы метода
8:25
решения, это именно тип постановки задач. А постановка задачи такая. Ну вот есть у
8:32
нас текст. Давайте предскажем, а какое в нём будет следующее слово. Я упрощаю, ну
8:39
не слово, может быть токен. Не обязательно разделять именно по словам, но в целом давайте для простоты буду
8:44
говорить задача предсказания следующего слова в тексте. И языковые модели тоже были
8:52
всегда. Вот у меня на этом слайде справа аэ картинка из
8:58
второй статьи Андрея Андреевича Маркова про марковские цепи. Ну вот, насколько я смог найти, да, первая статья там была
9:04
чисто математическая, просто вводится постановка и какое и задача. А вот
9:09
вторая статья с первым же приложением так или иначе практики — это как раз языковая модель. Ну, языковая модель на
9:17
уровне отдельных букв, но тем не менее он считал, как там гласные и согласные
9:22
друг после друга встречаются в Евгении Онегине, но и как следствие в русском
9:28
языке. Вот. То есть языковые модели, как постановка задачи были всегда, а
9:34
нейросетевые языковые модели в целом тоже были сразу, как только появлялись
9:40
нейросети. Но всё это как бы не очень работало. Не работало, не работало.
9:45
языковые модели, которые использовались на практике, например, в распознавателях
9:51
речи, где очень важно, потому что вы не можете, даже мы с вами, вот люди, не
9:56
можем чисто по акустике хорошо распознавать речь. Если нам начать э
10:02
давать послушать отдельные фонемки без контекста, то мы на самом деле довольно плохо их будем распознавать. А мы в
10:09
основном так хорошо распознаём речь, именно потому, что мы по контексту понимаем, что там вообще может быть, и
10:16
не так много вариантов, из которых мы выбираем в итоге. Поэтому, а, да, и там, поэтому для этого
10:23
там нужны языковые модели. И они всю дорогу были тоже марковские. Ну, конечно, не так, как в тринадцатом году
10:29
1900, а скорее на нграмах слов. Но вот, а после появления трансформеров
10:37
чисто нейросетевые, языковые модели начали работать всё лучше и лучше. И
10:43
оказалось, про это у меня недавно был отдельный доклад, я его выложу обязательно, сейчас не буду про это, но
10:49
оказалось, что а для нейросетевых архитектур, таких как Трансформер, ну и
10:56
для многих других, выполняются так называемые законы масштабирования. То есть, если мы
11:04
механически делаем модель больше и даём ей больше данных, для
11:09
этого эти данные должны у нас присутствовать, но тем не менее даём ей больше данных, а, соответственно, тратим
11:15
больше вычислительный бюджет на обучение, то в итоге довольно предсказуемо прямо законы со всеми
11:22
константами там можно обучить, и они выполняются в том числе в будущее.
11:27
А довольно предсказуемо можно понять, какое качество вот этого предсказания
11:32
следующего слова мы получим на выходе. И да, извините, я забыл это проговорить. А
11:38
почему это такая хорошая задача с точки зрения как бы понимания всего по двум
11:44
причинам. Во-первых, потому что внутри текста, ну, как бы неявно есть всё, да,
11:50
вот всё о чём угодно можно поговорить на естественном языке, в том числе, например, теорему доказать. К этому мы
11:56
перейдём попозже. Вот. А, но во-вторых и в главных, а, это оказалась очень
12:04
продуктивная задача, потому что для неё довольно долго фактически был было
12:11
неограничено много бесплатных данных. Ведь в чём всегда большое загвозд в
12:17
машинном обучении? В том, что для самых лучших методов данные должны быть всё-таки размечены, хотя бы частично. То
12:24
есть, если вы, аэ, учитесь отличать котиков от пёсиков на фотографиях, то,
12:32
конечно, э вам нужен датасет, в котором какие-то фотографии помечены как
12:38
содержащие котиков, а какие-то фотографии помечены как содержащие пёсиков. И пока у вас нет модели,
12:44
которая это умеет делать, вы это должны сделать вручную, чтобы её обучить. То есть для многих задач, для большинства
12:50
задач машинного обучения самый главный, так сказать,
12:56
шаг — это первый шаг, на котором вам нужно получить размеченный датасет. И вот он самый дорогой, как правило. Ну
13:02
правда, зато если один раз этот датасет сделать, его потом, конечно, можно для многих разных моделей
13:08
использовать. А с языковой моделью этого не нужно. Вот у вас есть текст, написанный человеком. вы скачиваете себе
13:14
весь интернет, и весь интернет полон текстами, написанными людьми. Ну да, там
13:20
нужно немножко их пофильтровать, деплицировать, ещё что-то, но в целом эти тексты уже автоматически размечены.
13:28
Вы знаете, какое слово следующее, и вам не нужно ничего вручную с этими данными
13:33
делать. Можно сразу обучаться. Но а последнее вот общее замечание,
13:40
которое я сделаю здесь, но то, что у вас получится, это ещё не
13:46
очень полезная штука. То есть после того, как вы обучили языковую модель, у вас получается такое такая, ну, это
13:53
называется там сырая модель RAW language model или базовая base lm. А у вас
14:00
получается просто механизм для предсказания токенов. Но это не значит,
14:05
что если вы его вы ему зададите вопрос, то он постарается вам на него ответить.
14:11
Нет, а он продолжит этот текст каким-нибудь образом. Ну, например,
14:16
переведёт тему, ответит вопросом на вопрос, поставит сепарат, скажет: «Всё, начинается следующий чат у меня в
14:23
данных». А, в общем, это ещё не совсем полезный
14:28
инструмент. Это пока просто штука, которая очень хорошо умеет тексты продолжать. И вот, чтобы сделать из неё
14:35
полезный инструмент, используется так называемая дообучение fтюниing. И в
14:42
частности самый главный метод, который вот в своё время и запустил вот эту
14:47
очередную, значит, революцию языковых моделей — это так называемый метод RLHF,
14:52
reinforcement learning from Human Feedback. Здесь опять получается, что
14:58
нужны люди, потому что только люди могут оценить, насколько, по крайней мере, поначалу, насколько полезен тот или иной
15:05
ответ. Но от людей задача уже не писать тексты, а просто выбирать из нескольких вариантов
15:12
самый полезный ответ. На основе этих данных мы обучаем Reward Model, модель
15:18
вознаграждения. И потом с этой моделью вознаграждения уже большая языковая
15:24
модель учатся, ну, как бы её удовлетворять, да, учатся э выдавать
15:29
ответы, которые согласно этой модели наиболее полезны. Здесь есть кое-какие интересные тонкости, в которые я не буду
15:35
углубляться. А, в частности, как видите, поскольку обучать
15:42
её нужно так называемым обучением с подкреплением, я об этом ещё скажу пару слов ниже, а мы не можем обучать её
15:48
напрямую на людях, просто не хватит человеческой разметки на это. Там нужны какие-то миллионы и миллионы шагов. Вот
15:55
поэтому нам приходится прибегать к таким проксимоделям полезности. И в этом,
16:00
конечно, есть некоторый подвох, но сегодня мы не об этом. Сегодня мы о том, что после вот этого до обучения
16:09
получается действительно уже языковая модель, которая хочет отвечать на ваши вопросы. Ну, хочет в кавычках,
16:15
естественно, которая дооучена обучать на ваши вопросы. И вот тут и началось, да, вот когда
16:25
впервые успешно это сделал Open AI с GPT3, а, получился чат GPT, о котором
16:32
все мы слышали, и после этого прогресс начался совершенно невероятно. Я,
16:39
конечно, не буду проговаривать эту картинку полностью, но вот обратите внимание, что на картинках раньше там
16:45
какие-то годы проходили между разными событиями, а теперь проходят недели. Ну,
16:51
конечно, здесь немножко больше детализации, чем на картинке протестюринга, но а действительно
16:57
прогресс в искусственном интеллекте после появления чат GPT ускорился невероятно.
17:03
И самое потрясающее, что это был не просто всплеск, который потом затих и
17:09
вышел на плато и насытился, а вот так оно всё и продолжается. И вот эту
17:14
картинку я нарисовал, а там в конце весны летом двадцать третьего года, а
17:20
эту картинку я нарисовал в начале весны двадцать пятого года, а это вот
17:25
январь-февраль двадцать пятого. И плотность, на самом деле, та же самая. Всё ещё каждую неделю выходит что-то
17:32
интересненькое, а каждый там месяц выходит какая-то прямо важная новая вех.
17:38
Про некоторые из них мы сегодня поговорим. А что всё это значит? Ну,
17:45
есть разные мнения. Тут я, давайте, у меня про это тоже есть доклады, на которые рад буду дать ссылки. Э сейчас
17:53
заниматься какими-то прогнозами. Не буду пытаться
17:59
ни обсуждать риски искусственного интеллекта, которые, на мой взгляд, есть и очень серьёзные.
18:06
Не буду пытаться давать предсказания о том, когда же будет искусственный интеллект человеческого уровня. Мне кажется, это не очень хорошо
18:12
определённое понятие всё-таки. Ну, с этим все согласны, поэтому надо уточнять, что имеется в виду. Но даже
18:17
если уточнить, э, всё равно, конечно, никаких чётких прогнозов вам никто не даст, хотя люди пытаются.
18:24
Сегодня мы собрались здесь, чтобы поговорить о математике. А
История AI в математике: пруверы и перебор случаев
18:32
математика это область, в которой искусственный интеллект тоже прикладывался очень
18:39
давно, но немножко в других формах. Поэтому здесь я тоже, наверное, начну с небольшого исторического экскурса. И,
18:46
честно скажу, я ожидаю и предполагаю, что многие из присутствующих этот исторический экскурс могли бы рассказать
18:52
гораздо подробнее и лучше, чем я. Но как бы надо на немножко разогнаться к
18:58
текущим результатам. А вообще математика для меня лично
19:04
всегда была таким вот немножко загадочным ээ деянием человеческого духа, так
19:10
сказать, потому что с одной стороны кажется, что математика — это самая
19:17
формальная из всех человеческих деятельностей. Ну, это вообще единственная по-настоящему формальная
19:22
деятельность, да, действительно же есть аксиомы и действительно же кажется, что, ну, вообще говоря, к ним можно было бы
19:29
теоретически что-то свести. И разумеется, люди постоянно пытались,
19:36
да, разумеется, люди, ну, при Вайтхеде, Расселе и при Генцине и Гёделе ещё
19:44
компьютеров не было, но с тех самых пор, как компьютеры появились, так сразу люди начали
19:50
развивать методы автоматического доказательства Тери. И да, конечно, как
19:56
большинство присутствующих знает, в худшем случае всё безнадёжно.
20:01
Тут даже речь не про теорему Гёделя о не полноте, а просто о том, что даже то,
20:08
что можно доказать, всегда, ну, всегда можно найти контрпримеры, которые доказать можно, но
20:14
очень-очень долго и никакой там вселенной не хватит для того, чтобы это доказательство записать. Если у вас
20:20
достаточно сильная система доказательств, то всегда так будет. А если слабая, тогда в ней ничего и не
20:27
докажешь. Вот. А, но это же всё в худшем случае. А нам
20:34
же не нужен худший случай. Нам надо хоть что-нибудь доказать. И в принципе все те
20:40
теоремы, которые доказывают живые люди, они же не представляют собой худший случай. Их ээ часто вполне можно
20:47
формализовать, а, и за вполне конечное время действительно записать это всё. Но
20:53
почему-то никогда ничего не получалось. Вот это для меня действительно загадка. Может быть, кстати, кто-нибудь из
20:59
присутствующих, э, выскажется на этот счёт потом. А не было ни одной теоремы,
21:05
насколько я знаю, кроме пары исключений. Я там одно скажу, а которая бы была бы
21:12
была доказана действительно буквально, а, от аксиом при помощи
21:17
автоматического провера, хотя люди много пытались. И сама область искусственного интеллекта
21:24
отчасти началась с одной из таких попыток. Вот в пятьдесят шестом году, э, два человека, которые были как раз
21:31
ранними, так сказать, гуру искусственного интеллекта, Аллан Ниэлл и Херберт Саймон, они написали первый,
21:38
который действительно был запрограммирован, а, Logic Theorist, и что-то у них получилось. Ну, то есть, э,
21:47
их Logic Theories доказал, ээ, там заметную часть той самой принципе математика. И сами они были
21:54
очень оптимистичны на этот счёт. Вот. Саймон так и говорил. Тут на Рождество Newс и я изобрели мыслящую машину и
22:02
решили, значит, mind body problem. Но а
22:08
почему-то почему-то ничего не получалось. Ну ладно. При, э, значит, в
22:14
пятидесятых годах, конечно, компьютеры были недостаточно мощные. Потом с шестидесятых по
22:19
восьмидесятые в основном развивались символьные вычисления. Вот система максима, которая она уже, конечно,
22:26
историческую только интерес представляет, но она превратилась в Matlab, в Maple, в Mathematica, вот эти
22:33
все системы, о которых мы все знаем. Продолжали также развиваться пруверы,
22:38
начали появляться не только пруверы, которые пытаются искать доказательства, но и там proof assistance, которые
22:45
просто пытаются формализовывать, верифицировать, проверять, да, доказывать какие-то
22:51
отдельные части. Вот Мицар была очень влиятельная
22:56
система. И потом в конце восьмидесятых уже Кок, который сейчас, кажется, как-то переименовали и Холл. И это уже
23:03
более-менее современные проверка. А, ну как-то новых
23:08
теорию почти один, одно будет исключение. А есть целый раздел
23:14
формализованной математики и есть там целый журнал Formalized Mathematics, который до сих пор выходит. И посмотрел
23:21
я на него в 2023 году в журнале Formalized Mathematics решают упражнения
23:29
для студентов. Ну, продвинутое упражнение для продвинутых студентов, там, из книжки ВЦлова Серпенского, но
23:35
как-то это не совсем то, чего ожидалось. Был так называемый Q манифест, то когда люди тоже, значит,
23:42
пытались ээ говорить, что надо формализовывать математику, и тоже как-то это быстро затихло.
23:49
И вот единственный действительно положительный пример, который я знаю — это гипотеза Робинса о булевых алгебрах.
23:56
Но она действительно была доказана прямо прувером. Прямо прувером. Там EQP с
24:02
равенствами в системе с равенством. Вот. Но, но это уж совсем близко к аксиомам,
24:09
да. Гипотеза Робинса — это о том, что вот, э, алгебра, заданная, значит,
24:15
аксиомами, ассоциативностью, коммутативностью и вот этим уравнением Робинса эквивалентно обычному
24:21
определению более алгебры. Ну, как-то, да, наверное, такие
24:26
уж символьные штуки попереписывать действительно компьютер справится лучше,
24:33
но не то, чтобы там были какие-то новые идеи, как я понимаю, в этомстве. Хотя, конечно, я его на самом деле не читал.
24:41
Вот. А всем известен, всем известны примеры, которые были доказаны, ну, как
24:47
бы с помощью компьютера. Тут самое известное — это, конечно, проблема четырёх красок, но это же тоже
24:53
нелогическое доказательство, да? Проблема четырёх красок, да, компьютер помог, но чем он помог? Люди све
25:02
перебору каких-то случаев. Люди написали программу, которая позволяла каждый из
25:08
этих случаев, значит, решить, и люди её запустили на этом списке случаев, и всё
25:15
получилось. То есть, а, таких примеров много. И вот тут ссылка на список
25:20
примеров именно как бы computer assisted proofs. Это, конечно, с плоши рядом происходит, но это не то. Это всё
25:27
всё-таки здесь всю содержательную часть выполняет человек. компьютер выполняет
25:32
ту часть, которую, ну, как бы человек знает, как выполнять, и даже может запрограммировать. Это значит, очень
25:39
хорошо знает, как выполнять, но просто это очень долго. А, ну что же сейчас? Вот у нас
25:47
расцвет глубокого обучения, большие кластеры, мощных, ээ, значит, видеокарт.
25:53
Что же мы сейчас со всеми этими потрясающими возможностями можем сделать
25:59
в этом направлении? А, будем двигаться по порядку.
RL для математики: AlphaTensor, AlphaProof, гипотеза Эндрюса-Кёртиса
26:07
Значит, первое, а что первое направление, первый класс
26:13
методов, которые могут привести и уже начали приводить к чему-то интересному,
26:19
это reinforcement learning, обучение с подкреплением. Давайте я начну с того, а
26:26
что объясню вкратце, что это значит. Естественно, методы я опять же объяснить времени не имею, но суть постараюсь. А
26:35
всё машинное обучение делится на, ну, условно, три
26:41
группы постановок, задач. Есть обучение с учителем. Обучение с учителем это
26:49
когда, а, так, извините. Ага.
26:55
А обучение с учителем — это когда, а у вас есть набор данных, и этот набор
27:03
данных размечен. Ну вот есть фотографии, там есть кошечки и собачки, и мы знаем,
27:09
какой фотографии кошечка, а какой собачка. А, то есть мы в вероятностных терминах,
27:15
в которых обычно и нужно думать о машинном обучении, мы обучаем,
27:20
апропксимируем условное распределение P от Yyy, метка при условии X
27:26
вход. Есть обучение без учителя, когда всё ещё есть датасет и, а, в нём, ну,
27:34
например, много-много фотографий, но нет никаких метод. Мы не пытаемся отделить кошечек от собачек. Мы
27:41
не знаем, что это такое. А мы просто пытаемся понять, что такое настоящие
27:47
фотографии, понять, как же устроено вот это очень сложное многообразие настоящих
27:53
фотографий. И тут я многообразие в математическом смысле употребляю. Там понятно, что это непрерыв непрерывная
28:01
штука, открытое множество. Если у вас есть фотография и вы в ней там пару пикселей на измените, у вас всё ещё
28:07
будет нормальная настоящая фотография. Вот. Но, в общем, как устроено это очень
28:13
сложное многообразие в очень аэ высокой размерности пространстве. Пикселей
28:18
много, а как-то его, может быть, можно параметризовать, например, более
28:24
маленькой размерностью. Это обучение без учителя. А обучение с подкреплением там
28:30
как бы в итоге мы, конечно, тоже что-то хотим оптимизировать, но обучение с
28:36
подкреплением начинается без данных. Датасет для обучения собирается в
28:42
процессе обучения. И смысл состоит в том, что некий агент, ну, в кавычках
28:49
живёт в какой-то окружающей среде. И когда он живёт в окружающей среде, а
28:57
он совершает какие-то действия, окружающая среда на эти действия реагирует и даёт
29:04
ему иногда награду и переводит из состояния в состояние.
29:09
Например, какая-нибудь Альфа Zero обучается играть шахматы. Для неё окружающая среда
29:18
это не только правила шахмата, это ещё и какой-то агент, который играет против
29:23
неё. Ну, скорее всего, конкретно в Альфазиру это будет копия той же самой модели, только не за белых, а за чёрных.
29:30
А, ну неважно. В общем, есть окружающая среда, значит, действия — это ходы,
29:36
состояние — это, ну, грубо говоря, позиции, в которых наш ход. И вот агент
29:42
делает ход, э, окружающая среда делает свой ход, передвигает фигурки, агент
29:48
переходит в новое состояние. Когда партия заканчивается, это пример так называемых эпизодических задач, когда
29:54
есть чёткое начало и чёткий конец. Когда партия заканчивается, нам дают награду:
30:00
выиграл, плюлся один, проиграл ноль, ничью сыграл, одна вторая. Вот и всё. И
30:07
задача агента состоит в том, чтобы научиться как можно лучше играть в шахматы, то есть научиться получать побольше
30:13
награды. А, соответственно, что для этого нужно? Для
30:21
этого нужно для того, чтобы, ну, я не буду говорить, что нужно для самих алгоритмов обучения с подкреплением. Это
30:28
нужно отдельные лекции читать. Но для того, чтобы их вообще запустить, нужно иметь возможность вот как бы реализовать
30:35
такую окружающую среду, которая будет давать награду. И надо понимать, что
30:41
нужно сыграть очень-очень много партий, чтобы, начав с агента, который не знает
30:48
вообще ничего и только вот знает правила игры, а в итоге дойти до агента, который
30:55
действительно очень хорошо играет. То есть здесь а окружающая среда не может быть ээ человеком, который отвечает на
31:03
запрос агента. Э, ну, такие варианты есть в работике, но сечас сейчас нам они
31:08
не интересны. Здесь должна быть окружающая среда какая-то автоматизированноя, а, которая умеет эту
31:15
награду автоматически возвращать, например, результат партии шахматы или,
31:22
например, корректность формального доказательства в математике. Потому что в математике у нас тоже теоретически, по
31:31
крайней мере, доказательства можно формализовать, записать в каком-нибудь там коклин или чём-нибудь ещё и
31:39
попросить его верифицировать. И, а, развитие обучения
31:45
с подкреплением. Ну, на самом деле, опять же, наверняка многие слышали о
31:51
Alpha Go, которая обыграла Лиси доля в 2016. А многие слышали об Alpha Zero,
31:58
которая вот в отличие от Alpha Go, [музыка] латься действительно с нуля, действительно только зная правила игры
32:05
без всякой базы партий. А следующий важный шаг был Mzero. Ну, я сейчас уже
32:10
не буду вдаваться в то, чем это отличается, но в общем, вот Deepmind, который сначала был самостоятельно
32:17
лаборатории, теперь часть Google, а Deepmind знаменит как раз своими
32:24
моделями обучения обучения с подкреплением. Кстати, одна из этих моделей — это
32:31
Альфафолт, который умеет, а, ну, грубо говоря, складывать очень большие
32:37
молекулы, умеет находить, э, трёхмерные структуры молекул белков. А, и как следствие, вот
32:45
прямо сейчас он постепенно революционизирует медицину. Это, конечно, не такой быстрый процесс,
32:51
потому что никакая модель машинного обучения клиническое испытание сделать не может. Но, а, как видите,
32:59
уже Нобелевскую премию по химии Одимань за это получил. И что же математика? Как же,
33:06
значит, вот эти все истории чего же они добились? Было несколько громких, ярких
33:13
успехов. Первый, наверное, хронологический успех был в двадцать втором году, когда модель Alpha Tenzer
33:22
это, по сути, в точности Alpha Z0 Zero, но для другой задачи. Вместо того, чтобы играть шахматы, мы подбираем структуру
33:30
алгоритма умножения матриц. Да, алгоритм умножение матриц, особенно матриц конкретного размера, прямо вот
33:37
фиксированного, а это, ну, последовательность каких-то элементарных операций с какими-то промежуточными
33:43
шагами. И вот хочется как можно быстрее прийти в конечную конфигурацию, когда мы посчитали все элементы.
33:51
А, и опять же, наверное, я не буду вдаваться в детали самого обучения.
33:59
Главное отличие и здесь, и в остальных математических приложениях будет в том, что дерево поиска совсем широкое,
34:06
гораздо шире, чем, э, в любой игре, чем в шахматах, чем даже в Го. Хотя Го как
34:12
раз от шахмат отличалась. Почему она было сложнее? Именно тем, что там разумных возможных ходов гораздо больше.
34:19
Но больше-то больше, но всё-таки типа 100, а не типа тысячи, десятки тысяч,
34:24
как в математических доказательствах. Вот
34:30
поэтому потребовались кое-какие новшества, там есть новые идеи, и в
34:36
итоге Альфатенр действительно создал новые алгоритмы. Действительно нашёл
34:42
алгоритмы, которые улучшают ещё даже работы штрасса. Ну, как вы понимаете, там, э, как сказать, умножение матриц
34:50
можно свести к умножению блоков этих матриц. И поэтому, если у вас есть новый алгоритм, который лучше для конкретного
34:57
небольшого размера, он пропагируется на умножение в общем случае, поэтому это
35:02
важно. И, как ни странно, вот, да, даже штрасса на конца шестидесятых алгоритма удалось немножко кое-где улучшить.
35:11
А следующий яркий пример — это Alpha Geometry. Мы уже так постепенно подходим
35:17
к нашим дням. А альфа Geometry — это задача для решения геометрических задач.
35:23
Ну, причём таких, на самом деле, школьно-олимпиадных геометрических задач, я бы сказал. То есть это
35:29
геометрия не в смысле, а как раздел математики, как науки, это
35:35
геометрия, в смысле школьная геометрия. И там идея такая, что здесь нового по сравнению с
35:43
тем, что было. А здесь есть две части. Одна часть — это машинная, ну, engine,
35:51
как сказать, алгоритм для символьных вычислений, которые умеют там строить логические выводы. А другая часть — это
35:59
языковая модель. К языковым моделям мы перейдём чуть позже. Здесь она используется для того, чтобы, э,
36:05
предлагать новые построения. Ну, геометрическая задача обычно надо догадаться, как что-нибудь куда-нибудь
36:10
ещё провести, там какую-нибудь высоту опустить, аэ, какие-нибудь точки соединить. И в итоге, значит, тогда
36:17
появятся на гра на рисунке все те объекты, которые нужны, чтобы уже прийти
36:23
к ответу. Вот. А вот Альфатеметрия научилась решать геометрию, грубо
36:29
говоря, в том числе для довольно сложных задач, в которых нужно много построений, много шагов, всё это более-менее а было
36:37
решено. А потом появился Alpha Geometry 2. Давайте не буду сейчас в него
36:44
вдаваться. А вот что нам сейчас интересно, это Alpha Prof, который в
36:49
прошлом году тоже появился, тоже от ТиПМД и Alpha Proof. как раз,
36:57
а, соединял языковую модель и поиск
37:02
доказательства уже действительно формального. Поиск доказательства уже как последовательность шагов в
37:12
руссинте, ну, в лин в данном языке лин в данном случае. То есть как это выглядит?
37:18
Есть, ну, проблема на естественном языке. А специальная модель языковая её
37:25
формализует. Это очень нетривиальный шаг. Тут нужно специально дообучать эту модель, чтобы она правильно
37:32
формализовывала. После чего вот то самое обучение с подкреплением в стиле альфа
37:37
обучается искать доказательства. То есть, а первый шаг, языковая модель,
37:43
которая из вот такого текста делает вот такую постановку уже совсем формальную.
37:49
А вторая часть — это модель, которая, ну, для которой вот ходы — это типа следующие возможные шаги
37:58
доказательств. И здесь тоже та же самая проблема. Следующих шагов доказательств вас может быть очень-очень много. Очень
38:05
сложно а их все перебрать. И тут тоже нужны какие-то хитрые трюки. Но, в
38:11
общем, пан справился. А значит, ну ладно, детали
38:17
процесса обучения не буду говорить. И вот была новость в середине прошлого
38:22
года, когда, значит, ну, Альфап не умеет сам по себе решать геометрию. Он вот с построениями у него ничего не работает.
38:29
Поэтому они соединили Alpha Prof и Alpha Geometry. И
38:35
на Международной математической олимпиаде в прошлом году, вот, возможно, вы слышали эту новость, получили, ну,
38:41
почти золото серебро на один балл не добрали до золота. А это замечательный, конечно, результат.
38:50
Но как же, но где же, собственно, новые результаты, да? Где же математика-то?
38:55
Это всё-таки пока олимпиада пока очень сложная, но математика
39:01
школьная. Но с новыми результатами пока не так не так легко.
39:07
Вот была недавняя статья в феврале двадцать пятого года
39:13
вышла, у которой интересная интересная история.
39:19
А люди написали статью под названием: «Почему новые доказательства трудно
39:25
искать через обучение с подкреплением». И в основном, основной текст статьи он о том, что это правда
39:32
как-то трудно. Вот они для примера взяли гипотезу Эндрюкса, которая, ну, касается там
39:42
конечных представлений каких-то групп каса по сути касается переписывания слов
39:48
в каких-то группах. Значит, ээ из из одного представления в другое,
39:55
а из одного набора э- генераторов в другой.
40:00
И кажется, что это тоже какой-то такой вопрос, который очень близок к аксиомам,
40:06
для которого не нужно ничего особо себе представлять. Надо вот переписывать
40:12
буковки до посинения, пока не перепишешь, наконец, в те, что нужно. А,
40:19
но оказалось, что это всё равно очень сложно. И оказалось, что обучением с подкреплением всё равно сложно. Почему?
40:25
Потому что очень много возможных действий, во-первых. А, но возможных
40:31
действий тут ещё не так много, потому что к заданному набору генераторов, ну, не так, ну, есть какой-то конечный набор
40:37
соотношений, которые можно применить. Ээ, и их тут не так много, их скорее на
40:43
уровне шахматы го, но очень длинный горизонт. То есть, если прямо начинать
40:49
от начала и пытаться дойти до конца, то шагов может потребоваться очень много,
40:55
прямо тысячи и десятки тысяч. А, и это трудно для обучения с
41:00
подкреплением. Трудно учиться играть шахматы, если партия длится 12.000
41:05
ходов, а в а награду дают только в конце. Вот это главная проблема. по дороге никак ты не знаешь, а получил ли
41:15
ты многообещающий частичный результат. Нет такого. Вот
41:21
поэтому для L всё трудно и ограничить это тоже как-то трудно. Вот тут слева
41:27
снизу график, ну, это конкретно уже про гипотезу Securitys, не про любую задачу, но график показывает, что там по мере
41:34
переписывания слова должны становиться длиннее. Мы не можем сказать, что вот у нас там генераторы длины пять и давайте
41:41
только длины пять их рассматривать. А нет, иногда им надо стать длиннее, чтобы потом стать обратно короче. От этого,
41:48
конечно, всё ещё усложняется. Но тем не менее, а большая
41:53
часть статьи посвящена тому, как всё плохо. Но а всё-таки новый результат у
41:58
них получился. Они действительно сумели, ну, закрыть там один
42:05
определённый класс потенциальных контрпримеров к этой гипотезе, который давным-давно был выдвинут, и никто не
42:12
мог доказать его, значит, AC тривиальность. Ну вот, а люди доказали,
42:19
по крайней мере, стабильную AC-тривиальность. Я думаю, нет смысла сейчас углубляться в то, что конкретно это значит. Вот. То есть, а, даже, к
42:28
сожалению, даже или к счастью, даже задачи довольно близкие к аксиомам, они,
42:35
да, постепенно постепенно начинают поддаваться вот такому, ну, можно
42:40
сказать, я бы не сказал, что это напор грубой силы. Нет, это не не грубый перебор, это даже не дерево поиска, это
42:47
гораздо более умная вещь. Но а но даже этой умные вещи, даже задачи,
42:54
которые, казалось бы, близки к аксиомам, поддаются с большим трудом. Математические доказательства искать
43:00
трудно вот в таком даже виде, да? А, но это опять умный перебор случаев. Это
43:09
опять то, что ну это опять направление, которое
43:16
ещё там гипотезу Робинсона доказала. А где же хвалённые языковые модели? Что же
43:21
они? Ну давайте про языковые модели. Значит, языковая модель, а
LLM в математике до 2024: ToRA, FunSearch, NuminaMath
43:29
она, как я уже говорил, обучается предсказывать следующий токен в тексте.
43:35
И, как я опять же уже говорил, главное преимущество этой постановки задачи в том, что мы можем, а, получить
43:45
бесплатную разметку. У нас есть, а,
43:51
ээ, любой текст, написанный человеком, всё, что угодно. И вот мы можем отрезать
43:58
от него любой префикс и сказать: «Ну, предсказывай следующее слово». И мы знаем, какое там следующее слово. заново
44:04
размечать не надо. А, соответственно, если мы хотим языковую модель, ну или на
44:10
самом деле любую другую модель обучить решать математические задачи, то нам
44:15
нужен способ порождать много-много данных с правильными
44:20
ответами. И для простой математики, для числительных задач, для каких-то
44:25
школьных примеров, вот для, ну, для упражнений, грубо говоря, это действительно легко сделать. можем брать
44:33
и порождать какие-то синтетические там минизадачки, теоремки практически в любом количестве,
44:40
менять в них числа, менять последованость шагов, там ещё что-то, слова менять, раз уж мы языковую модель
44:46
обучаем. А и мы будем заранее знать, какой ответ правильный. Мы можем верифицировать ответ языковой модели.
44:52
Вот это самое главное свойство. Поэтому это можно использовать для дообучения языковых моделей.
44:59
То же самое в каком-то смысле работает для программирования и с теми же ограничениями. В математике легко, ну,
45:06
нелегко, но можно сделать бесконечный бесконечную трубу, из которой текут простые школьные задачки, но трудно
45:14
сделать бесконечную трубу, из которой текут нетривиальные теоремы с правильными доказательствами, правда же?
45:20
Откуда их постановки будут браться, непонятно. Вот. А, мм, и также для
45:25
программирования легко сделать трубу, из которой текут простые функции. Там
45:31
посчитай энное число Фибоначчи, сортируй список и так далее. И там легко покрыть
45:36
их тестами идеальным образом, так чтобы только самое, только действительно правильное решение прошло все тесты. И
45:43
это тоже можно делать автоматически. Но откуда брать сложные задачи для
45:49
программирования, тоже непонятно. То есть откуда брать бесконечный набор примеров, типа,
45:54
а сделай мне там веб-сервер, который умеет что-то интерактивное с пользователем
46:00
как-то, значит, общаться. В общем, а тем не менее это
46:06
гораздо лучше, чем почти в любой другой области, то есть в большинстве других областей, ну, например, там creative
46:12
writing, да, когда языковые модели начнут писать хорошие романы. А не знаю,
46:18
когда, потому что откуда взять датасет хороших романов? У нас есть датасет вот уже готовых романов, которые уже
46:24
написаны, но мы не можем дообучать, потому что их очень мало. А как если
46:31
взять просто какой-то другой новый порождённый текст, нет способа автоматически оценить, хороший это,
46:37
например, рассказ или плохой. Поэтому там так уже не работает. А вот в математике так до какой-то до какого-то
46:43
момента работает. Поэтому математика и программирование — это важные тестовые примеры для языковых моделей, и на них
46:51
всё время, дообучаются. Есть много датасетов именно по математике и именно по
46:56
программированию. И, а, люди давно этим занимаются. Ну, с какими успехами они
47:03
этим занимаются, что происходит? А, ну, во-первых, ЛМ, конечно, не умеют ничего
47:09
выводить в формальных системах доказательств. А, и первые успехи, вот
47:15
там модель Минер в двадцать втором году, это был GPT3, по-моему, не уверен уже,
47:20
а, дообученный на математических задачах. Ну, и какие-то простенькие школьные задачки он мог иногда решить,
47:27
но с горем пополам и так не очень. Следующий шаг, важный, ну, было
47:34
много шагов, я самое главное хочу выделить. Следующий важный шаг был, когда люди, а, начали дообучать модели,
47:45
а использовать внешние инструменты. Это очень важно. То есть, э, языковые
47:51
модели, разумеется, не умеют считать. Ну, почти так же, как люди. Люди лучше умеют читать, чем языковые модели.
47:58
А потому что языковая модель — это такой это нейросеть, которая вот от
48:05
начала до конца запускается, и следующий токен предсказывает, у неё нет никакой возможности там внутри себя какой-то
48:12
цикл запустить, да? Вот у нас с вами есть возможность в голове цикл запустить, а у языковой модели нету. Это
48:19
как если бы там нам с вами дали 300 мскунд, чтобы подумать. Вот за 300
48:25
мсекунд наш мозг, в принципе, один проход делается от от одного края до другого. И там распознать лицо знакомое
48:32
мы можем за 300 мскунд, но подумать мы не можем за 300 мскунд. Также примерно и
48:38
здесь. То есть, а нет никакого места в языковой модели, где можно было бы запустить
48:45
алгоритм. Давайте дадим ей это место. Давайте дадим ей возможность написать вход алгоритма, запустить его, скажем,
48:54
на Питоне и воспользоваться результатом. Вот это называется tool integrated
48:59
reasoning. Это важное расширение современных языковых моделей. Ну, все
49:05
вы, наверное, знаете, что в какой-то момент языковые модели научились искать в интернете. А вот поиск — это тоже
49:11
такой тул, да, модель придумывает, что хочет поискать, а потом как-то обрабатывает результаты
49:19
поиска. А следующее интересный тоже шаг произошёл
49:25
от того же самого ДПмайнда, а в конце двадцать третьего года, и он касался так
49:32
называемой Capset Pro. А, и ну давайте я, наверное, не буду
49:38
тратить время на то, чтобы объяснять, что это такое. Опять же, это частная довольно задача. Хотя вот Терен Става в
49:44
какой-то момент назвал её своим любимым открытым вопросом. А, но в общем, грубо
49:52
говоря, как в игре Set, а, где есть несколько атрибутов, и вы должны
49:58
искать ээ наборы, у которых все атрибуты или все одинаковые, или все разные. И
50:04
вот, ээ, сколько можно выложить карточек в игре сет так, чтобы ни одного набора
50:10
не получилось. И как это масштабируется с числом
50:15
атрибутов? Да, в базовом сете это цвет, число и форма. А значит, что если мы
50:23
будем добавлять ещё и ещё атрибутов, тогда сколько мы сможем карточек выложить, грубо говоря. Так, и это
50:30
интересный там комбинаторный вопрос. А, и удалось
50:35
получить для него новые оценки. Но тут интересно не сами оценки, интересно, как это получилось.
50:41
А вот такое необычное использование языковых моделей. Здесь языковая модель
50:47
не пыталась что-то доказать сама, а она писала программы, которые устраивали
50:53
какой-то умный перебор. И потом эти программы что-то делали, получались
50:59
результаты. Значит, результаты запуска этих программ подавались обратно языковой модели. Она смотрела, что как
51:06
вышло, пыталась их улучшить. И вот таким оперативным процессом в итоге пришли к
51:12
программе, которая достаточно быстро смогла то, что нужно перебрать и какие-то там нужные контрпримеры
51:19
найти. Вот. Вот тоже интересная история. А если говорить, а о чистых
51:27
языковых моделях, то, в общем, до сих пор это выглядит примерно так. Вот это я
51:34
взял, значит, пост о том, как выиграли первый Progress Price в так
51:42
называемом математической олимпиаде для искусственного интеллекта AIO. Вот. И
51:48
там обычные олимпиадные задачки, причём по меркам олимпиадных задачек для людей, они довольно
51:54
простые, а гораздо проще, чем настоящая международная математическая олимпиада.
52:00
Но тогда они были сложными для языковых моделей. И, собственно, как это
52:07
делается? Ну, сначала мы берём языковую модель, которая была предобучена просто
52:13
ээ читать, писать тексты. Потом мы немножко дообучаем её на математическом
52:18
датасете, вот задачик на естественном языке. Потом мы отдельно её дообучаем
52:24
писать программки, писать программки на Питоне, писать программки там символьными вычислениями, с библиотекой
52:30
SIMPй. Ну, как-то так. А и потом ещё вот
52:36
это важный момент, сейчас он послужит нам трамплином для следующей части.
52:41
Потом ещё можно, а, подобучать
52:47
её размышлять. А вот об этом давайте сейчас не буду. Буквально следующий
52:52
раздел посвящён этому целикому. И в результате получилось у них довольно маленькая языковая модель, всего 7 млрд
53:00
параметров. Ну это сейчас даже не вызывает улыбку. Хотя, конечно, 3 года назад сказать, что 7 млрд параметров —
53:06
это маленькая языковая модель, было бы совершенно невозможно. Вот всё прогресс очень быстрый.
53:12
И да, она умеет решать задачки, но, конечно, она даже математическую
53:17
олимпиаду не выиграет. И, конечно, тем более она не докажет новую теорему. Это
53:23
просто крайне маловероятно. И вот я писал пост как раз
53:30
большой, э, ну, главу фактически о том, а как ээ искусственный интеллект
53:36
помогает математике. Я её писал в начале двадцать четвёртого года.
53:43
И, ну вот тогда это выглядело примерно так, что можно
53:48
попытаться, а, использовать машинное обучение для того, чтобы генерировать
53:55
гипотезы. Это, кстати, мы, я не обсудил сейчас, но тоже была очень интересная работа Deepmind, в которой они
54:01
использовали просто обычное такое классическое машинное обучение для того, чтобы пытаться найти какие-то паттерны
54:09
там, не знаю, зависимости между значениями разных инвариантов, например,
54:14
которые, может быть, указывают на какие-то связи и результаты, которые потом можно доказать. То есть они сами
54:20
ничего не доказывают, но они типа ищут, где копать. И действительно, они накопали какие-то новые варианты
54:26
узлов. Ну, честно, в этом я совсем не разбираюсь, не буду пытаться пересказывать. Вот. А значит, потом а
54:35
можно пытаться а писать код, который будет помогать делать какие-то
54:40
эксперименты, а можно пытаться автоматизировать перебор случаев, а потом можно попытаться записать
54:47
доказательство формальное и его верифицировать и через просин. Но это всё, конечно, довольно далеко до
54:55
той картинки, где мы кидаем формулировку теоремы и языковая модель пишет
55:02
доказательство. Что изменилось? Стали ли мы за год ближе к этой
Рассуждающие модели: от CoT к o1 и R1
55:08
картинке? Ну, ответ такой: пока ещё мы не там, но гораздо ближе действительно
55:14
стали. И главный для этого инструмент, главная
55:20
новизна, которая произошла в искусственном интеллекте за последние полгода, это так называемые рассуждающие
55:26
модели Reasoning Models. Вот меня попросили о них рассказать поподробнее. Давайте расскажу тоже без супердеталей,
55:33
но надеюсь, что я смогу, так сказать, протянуть, а логику
55:40
происходящего и показать, где там что возникает. Смотрите.
55:46
А это, кстати, всю дорогу применялось именно к математическим задачкам. Просто эти задачки становились начинались
55:53
совсем простых и становились постепенно сложнее. А ещё давным-давно, ещё в
55:58
двадцать втором году, когда по земле ходили динозавры, люди заметили, что языковым
56:05
моделям полезно давать на вход а полное рассуждение, которое ведёт к ответу. То
56:13
есть в те времена далёкие люди не просто спрашивали у языковой модели: «Реши
56:19
задачку», а люди говорили: «Вот смотри, есть три задачки, вот четвёртая похожая.
56:25
Реши четвёртую примерно такую же, как эти три, в том же направлении». А это называется fal
56:32
prompting, когда мы как бы внутри запроса даём несколько, ну, типа
56:37
обучающих примеров. Конечно, никто не дообучается, на самом деле, но они попадают в контекст.
56:42
И оказалось, что гораздо лучше давать не просто примеры с ответами, а примеры с решениями. Тогда, конечно, модель тоже
56:49
будет писать решения. Ну, естественно, вот она делает так, как в примерах. А, но не в этом фишка. А фишка в том, что
56:56
ответ в итоге будет гораздо чаще правильный. То есть сам факт того, что модель выписывает полное решение,
57:03
помогает улучшить качество ответа. И более
57:09
того, быстро было замечено, что для этого даже Shot промтинг не нужен. Для
57:15
этого даже не обязательно давать много там примеров с решениями. Это же будет трудно делать каждый раз. Можно просто
57:23
сказать модели какую-нибудь магическую фразу. Ну нет ничего магического в этой конкретной фразе. Она просто
57:29
завирусилась тогда. А в принципе как-то ей сказать, что подумай-ка ты шаг за
57:35
шагом выпиши всё доказательство. Не обязательно даже примеры давать. Модель будет выписывать всё доказательство шаг
57:42
за шагом. И опять же, в этом ничего детельного нет, но в результате качество конечных ответов улучшается. Вот. А, ну
57:51
и, конечно, люди дальше развили большую науку о том, как вот это эти примеры
57:57
получили название Chain of Thought. И люди развили большую науку о том, как лучше делать такие цепочки рассуждений.
58:05
То есть, а можно посамплировать в несколько цепочек и устроить голосование, например. Можно попробовать
58:14
внедрить прямо управляющие части, контроллеры, которые будут строить
58:20
дерево, и решать, что вот это там рассуждение, оно перспективное, давайте
58:26
предверим его дальше. А это, наверное, бесперспективное. Давайте его не преодолевать. Будем вот над тем
58:32
работать. Значит, потом, если вы научились, ну, давайте я просто общую
58:38
картинку покажу. А, да, если, значит,
58:43
сначала вы запускаете просто одну цепочку рассуждений, потом несколько выбираете из них лучшего или голосуете,
58:51
потом вы начинаете как-то их, ну, бренчинг делать, да, то есть разбивать их на части, генерировать
58:57
несколько и выбирать на каждом промежуточном шаге. Потом, если вы обучаетесь ещё и объединять какие-то
59:04
рассуждения в одно, то уже дерево превращается в граф. Потом там появлялся даже так называемый там of thought. В
59:12
общем, была большая наука, где-то года два она вот развивалась, да, вот of, то
59:18
есть есть граф, а ещё потом давайте по этому графу как-то походим интересным
59:23
последовательности. Но всё изменилось в октябре прошлого года, а когда появилось
59:30
семейство модели О1, оно очень небыстро появилось. Э-э, ну, то есть, как оно
59:36
быстро появилось в том смысле, что вы могли сами попробовать по один превю, но очень небыстро стали известны детали.
59:43
Они, на самом деле, честно говоря, до сих пор неизвестны. Как устроено О1, потом О3, О4, мы не знаем. На самом деле
59:50
мы знаем много про их возможности. Мы, конечно, имеем независимые тесты и так
59:55
далее, но вот про то, как обучалось, Open AI говорил такую абстрактную фразу,
1:00:02
типа языковая модель О1 была обучена обучением с подкреплением, чтобы
1:00:08
реализовать сложные рассуждения. Что это значит? А это значит, что мы рассматриваем вот
1:00:16
эти рассуждения как последовательность, как
1:00:21
цепочку каких-то ходов, опять же, как как будто мы играем в шахматы. А каждый
1:00:27
ход — это, ну вот следующий, ну не знаю, токен или там мысль или что, но в общем, следующий участок этого
1:00:34
рассуждения. Э и наша цель- довести рассуждение до правильного ответа. И мы
1:00:41
обучаемся на задачах, конечно, с известными правильными ответами. Они дают нам награду в конце. Если ответ
1:00:46
правильный, значит, всё хорошо. Заметьте, что не всегда так на самом деле, да, бывает, что рассуждение
1:00:53
неправильное, а ответ всё равно правильный. В математике так бывает довольно часто. А, но это отдельная
1:00:59
проблема. Вот. И мы доходим, э, значит, до конца, а там сверяемся. Ну и,
1:01:07
соответственно, мы хотим обучиться делать цепочки рассуждений, которые всё,
1:01:13
э, лучше и лучше работают. Вот, скорее всего, как-то так.
1:01:19
У людей были разные гипотезы о том, как это на самом деле устроено более детально. А, например, считалось, что
1:01:28
практически неизбежно это обучение используя так называемые process reward models. Ну вот тут я могу быстро
1:01:34
объяснить, что это такое. как бы это вот как раз о том, что могут быть рассуждения неправильные и о том,
1:01:41
что если у вас ответ неправильный, то значит где-то вы допустили ошибку. И в
1:01:48
принципе, если ваше рассуждение достаточно формальное, то мы можем прямо найти конкретный шаг, который был
1:01:54
ошибочным. Просто автоматическим верификатором найти конкретный шаг, который был
1:01:59
неверен, а остальные, соответственно, верные. Ну или там много неверных. ну, в общем, как-то внешней моделью
1:02:05
раскласифицировать их на правильные и неправильные шаги. И это очень помогает,
1:02:11
по крайней мере, сам Open Stat Let’s Verify Step by Step, где вот показывал, что так такой более детальный сигнал для
1:02:19
обучения, где вы не просто в конце выдаёте выиграл, проиграл, а ещё можете подсветить, что
1:02:25
вот этот ход был ошибкой. Шахмато так не получится, а а вот здесь так получается, в принципе.
1:02:31
И это тоже помогает. А значит, кроме того, люди думали, что
1:02:38
здесь должен помогать вот time test
1:02:44
time thinking, типа поиска, значит, Monte Carl Research
1:02:51
MCTS, который использовал, например, Alpha Zero во время уже применения самой модели. То есть Alpha Zero долго-долго
1:02:58
обучается хорошо оценивать позицию, но потом он не просто играет, оценивая позицию, а он в процессе игры строит
1:03:04
тоже какое-то дерево поиска. Не будем сейчас опять же вдаваться каким алгоритмам, но строит дерево поиска, где
1:03:10
в листьях уже подставляет оценки позиции и выбирает первый ход в зависимости от этих листьев. А вот это тоже считалось,
1:03:19
что надо search на этой картинке. И многие люди пытались реплицировать,
1:03:25
конечно, ну, было как всегда в науке, да, когда появляется proof of concept, люди понимают: «А так можно было». И
1:03:33
начинают пытаться сделать то же самое. И по дороге, конечно, немножко улучшить желательно. Вот. А я люблю показывать
1:03:41
эту цепочку статей, она очень характерная. Вот, ээ, там как одна из AI
1:03:46
лабораторий Шанхая, не суть важно, какая именно, э, сразу там через пару недель
1:03:52
после выхода Open AI О1 preview опубликовала такую, а, статью,
1:03:58
где типа анонсировало, что вот мы идём, значит, повторять О1, O1 Journey. И у
1:04:05
них был план, у них был классный, интересный план со многими разными
1:04:10
алгоритмами, которые хочется попробовать. А у них были какие-то предварительные результаты, но это была
1:04:15
такая постановочная статья, типа вот мы это попробуем, то попробуем, всё попробуем. Прошёл месяц или два, и в
1:04:23
ноябре они написали следующую статью, в которой смысл был такой: «Ну, мы что-то
1:04:29
попробовали, как-то у нас то не очень, всё не очень, это немножко даёт, но как-то явно
1:04:35
недостаточно. А вот дистилляция работает». Что такое дистилляция? А как
1:04:40
только у вас появляется сильная модель, а модель, которая, например, как О1
1:04:47
умеет порождать хорошие последовательности рассуждений, да, вы
1:04:52
можете просто взять эту модель, тот самый О1, а набрать из неё выборку
1:04:59
любого размера. Это просто, ну, стоит каких-то денег, запустить модель там 500.000 раз, получить 500.000
1:05:04
последовательности рассуждений и потом вот эту выборку использовать для того, чтобы
1:05:11
просто дообучить другую модель самым обычным методом файтюнинг, самым обычным
1:05:16
дообучением прямо с учителем. Просто обучить, рассуждать как О1, потому что
1:05:22
пример уже есть. То есть это отличие между тем, чтобы, не знаю, научиться
1:05:28
лучше всех играть шахматы, зная только правила, и там научиться предсказывать,
1:05:34
какой ход сделал Багари Каспаров на основе его партии. Второе, гораздо проще. А,
1:05:43
соответственно, вот они попытались сделать такую дистилляцию. Они, а, значит, у них
1:05:51
многое получилось. Дисцилляция — это метод, который действительно очень хорошо работает. Просто он вряд ли
1:05:59
способен дать что-то новое. Вы можете как бы при помощи дистилляции, вы можете взять, например, маленькую модель и
1:06:05
сделать её результаты почти такие же, как у большой, не сильно хуже за счёт дистилляции с результатов большой
1:06:12
модели. Но вы не можете сделать лучше, чем у большой модели. Вы не можете взять модель, которая на фронтире, и сделать
1:06:18
её ещё лучше, да. Вот. Тем не менее, ну вот. А следующая их статья уже в январе
1:06:23
этого года уже вообще, видите, картинки становятся всё проще. И она уже такая,
1:06:29
что, ну, вот у нас есть дистиллированная высуждающая модель, давайте её применим куда-нибудь, ну, давайте там диагнозы
1:06:34
ставить в медицине. Короче, как-то не сдалось в них репликации. И таких
1:06:40
примеров было много. А вот успешный пример — это, конечно, псик. Про него вы тоже наверняка слышали. Я не буду
1:06:47
вдаваться в детали, что сделал псик до своей рассуждающей модели. Но что важно
1:06:54
для нас и, ну, вообще какой важный вывод из истории про DPS Car1, про именно рассуждающую их модель? Важный результат
1:07:01
в том, что DPS R1 не использовал ни reward Models, ни
1:07:08
какие-то деревья поиска, вообще ничего. Он просто делал чистое обучение с подкреплением. Ну, они хорошо его
1:07:15
организовали, они как бы всё сделали правильно, они потратили много
1:07:20
учретельных ресурсов на это, и всё работает. Вот у них R1 это буквально чистое обучение с
1:07:27
подкреплением. И здесь, ну, числа там результатов, наверное, ничего особо вам не скажут. Хотя это как раз
1:07:33
математический датасет, это AI, это, значит, математические задачки. Ну,
1:07:39
неважно. А, а вот это характерный график справа. Он показывает, что по мере обучения
1:07:47
Дипсик всё лучше и лучше обучался использовать длинные рассуждения. То есть его средняя длина рассуждения
1:07:53
росла. И, ну, она росла не просто так, у него не было цель сделать рассуждение длиннее, у него была цель лучше отвечать
1:07:59
на вопросы. Значит, ему было нужны эти рассуждения. Ну, в обучаинии с
1:08:05
подкреплением у него тоже было новшество. Давайте про это не будем. Про то, как из R1 настоящий R1 появился,
1:08:11
тоже не будем. И про результаты тоже не будем. Это нам сейчас не очень принципиально. Вот. Но в общем в итоге,
1:08:21
а рассуждающие модели действительно научились
1:08:27
реплицировать. Псик просто сделал первым сделал это по-настоящему успешно, но
1:08:32
сказать по правде он, ну, успел вовремя. То есть, ээ, честно скажу, псик — это
1:08:38
немножко слишком перехайпленный пример. А, да, они большие молодцы. У них,
1:08:43
правда, есть новые идеи. Вот этот и алгоритм GRPO, и, э, структура самой их
1:08:49
языковой модели содержит новые идеи. Там много интересного, но это не какой-то
1:08:54
суперпров. И в принципе очевидно, что все ведущие
1:08:59
лаборатории, такие как Anтропик, такие как Google, они тоже и такие как КН, они
1:09:06
тоже выпускали сразу же выпустили рассуждающие модели 37 Gemin 2.0. Сейчас, кстати,
1:09:14
Gemin 2 с5 — это, наверное, самая лучшая модель для рассуждения, которая существует. Вот. То
1:09:21
есть оказалось, что всё это не так сложно. И сейчас все языковые модели
1:09:27
ведущие, они, конечно, рассуждающие. Если вы зайдёте в Open там, э, ну, в любого поставщика языковых моделей, там,
1:09:34
конечно, будут рассуждения. Ну, хорошо. Вот мы обсудили рассуждающие модели. Надеюсь, что смог
Что там на фронтире: MATH, FrontierMATH, HLE, Deep Research и обзоры
1:09:41
вам рассказать в целом, какая постановка задачи и что это значит. Ну, так и что,
1:09:47
какие результаты? В чём, а куда мы движемся? как какая какой прогресс, где
1:09:54
мы сейчас, что на фронтире. Ну, смотрите, я, естественно, выбираю математические примеры здесь. А есть
1:10:02
датасеты, которые уже насыщаются. Ну, насыщаются, то есть модели уже выбивают на них очень высокие результаты, и нет
1:10:08
смысла там от 98% идти к 99. Это уже лишено смысла. Один такой датасет — это
1:10:16
вот классический датасет Math, а, в котором, ну, вот такие школьные задачки.
1:10:21
Тут нет ничего умного, особенно там уравнение квадратного два комплексно в
1:10:27
корне. Значит, найдите их произведение. Вот. И а у него есть подножество,
1:10:34
называется level 5. Самое сложное подножество. Они там делятся на четыре, по-моему, двух, нет, на пять. От одного
1:10:41
до пяти, на пять уровней. Вот это всё ещё школьные задачки. У них, опять же, нет ничего интересного. Они очень далеки
1:10:47
от ээ даже олимпиад, не говоря о м новых теоремах, но типа 3 года назад их никто
1:10:55
особо не решал. Вот GPT2 давало там 3-4% правильных ответов на таких задачах,
1:11:02
а Gemini там 1.5 Pro решал их уже лучше,
1:11:08
а рассуждающие модели, в общем, насытили этот датасет. То есть модели пока не
1:11:15
были рассуждающими. А, хотя нет, тут, наверное, все рассуждающие, да, прошу прощения, тут на этой картинке нет
1:11:21
нерассуждающих моделей. Но, в общем, после появления последнего набора
1:11:26
моделей от Open AI O3 и O4 Mini, э, ну, в общем, этот датасет уже нерелевантен.
1:11:32
Тут 98% и, ну, делать из 98-99, это
1:11:38
неинтересно. Что совсем другое дело. И вот тут, значит, мы движемся уже больше
1:11:45
к списку примеров и очень интересных, на самом деле, примеров. Надеюсь, что, а,
1:11:50
меня ещё слушают. Вот. А значит, что очень интересно, совсем
1:11:57
другого уровня датасет — это так называемый датасет Frontier Math. Вот Frontier Math — это уже датасет, где
1:12:05
я как бы вроде как математик по образованию, но большую часть задачек из
1:12:11
этого датасета я просто не могу понять. Те, которые я могу понять, ну, мне надо
1:12:16
долго вчитываться, чтобы понять. Вот это пример относительно простой. А, и там
1:12:24
задачи, там задачи с решениями. То есть это задачи, которые профессиональные
1:12:29
математики специально для этого датасета подготовили. Но это задача прямо с
1:12:34
непростыми решениями. То есть, да, там есть требование, чтобы ответ был короткий. Ну вот какое-то число, как
1:12:41
правило, число или короткая формула, типа вычислите там P от 19 в этом примере. А, но прийти к этому числу
1:12:48
прямо нелегко. И ответ такой, что не угадаешь. То есть там, значит, решение
1:12:55
это две страницы плотного математического текста, который в итоге приходит к формуле, в которую надо всё
1:13:01
подставить и получить это какое-то большое число. Вот. И когда Frontier M появился
1:13:09
в конце двадцать четвёртого года, никто ничего на нём не решал. Вот все за все
1:13:15
модели, в том числе О1, кстати, который тогда был доступен О1 Mini. А все все
1:13:22
модели, которые запускались в момент выпуска датасета, они вот, ну, решали 2% задач
1:13:31
максимум, да. Сейчас вот эту картинку я брал в феврале двадцать пятого года. О1
1:13:38
полноценные и О3 мини решали около 10% задач такого уже уровня,
1:13:46
да? И в этот момент вот тогда же, значит, когда я в марте делал этот доклад, здесь сейчас начнутся интересные
1:13:53
истории. Значит, в марте двадцать пятого года, когда я сделал делал очередной доклад на этот счёт, а появилась новость
1:13:59
от OpenI о том, что О3 полноценная, не менее, а вот полноценная модель O3 уже
1:14:05
решает аж четверть задач на фронте RMS, но это был бы огромный шаг вперёд. А и я
1:14:11
тут говорился ещё тогда в марте, что здесь как-то не до конца ясно, потому что была какая-то прямо а контроверси на
1:14:18
этот счёт. То есть вроде как этот датасет делали по заказу Open AI и Open
1:14:24
AI имел какой-то доступ к каким-то частям, но вроде всё-таки не к тестовому набору. В общем, дело было какое-то
1:14:30
мутное. Ну вот сейчас мы вс, значит, уже официально все всё проверили. И да, вот
1:14:38
на последнем графике О3 не 25% решает, О3 решает всего лишь 1718.
1:14:44
И и не О, О3 решает 12%, а 1718 решает
1:14:49
О4 мини. Ну то есть да, прогресс не такой невероятный, как анонсировал ОPI
1:14:55
поначалу, но как-то прогресс с 2% до 18 тоже выглядит довольно мощно,
1:15:02
согласитесь. А и, ну вот это совсем недавняя новость. 19 апреля этот график
1:15:08
появился. В целом, наверное, этому графику уже верить можно. от независимых
1:15:14
тестировщиков. Вот. А есть отрицательные результаты. И тут тоже будет интересные
1:15:20
сейчас лстори, простите за современное выражение. А в 2025 году Петров сотовари
1:15:28
написали, ээ, значит, статью под названием Proof for Bluff.
1:15:34
Они просто проверили, как языковые модели справся американской олимпиадой, но это
1:15:41
не Аму, а US, да, с которая вот как раз проходила в этот момент. И важно, да,
1:15:49
то, что здесь написано, никак не противоречит тому, что я рассказывал про АльфаПУФ, который, э, получил там почти
1:15:56
золотую медаль серебряную. А это просто другой подход. Здесь нет никаких
1:16:02
формальных пруверов. никаких. Значит, альфапрофан думал 3 дня над этими задачами, искал доказательства кое-какие
1:16:08
нашёл. Здесь никакого альфа-деометра, никаких никакого альфа-пруфа, ничего такого. Чистая языковая модель с
1:16:15
рассуждениями. То есть она может долго думать, но долго — это опять же минуты. И дальше просто мы смотрим на её решение
1:16:23
и проверяем его, как проверяли бы решение человека на олимпиаде. И как-то никто ничего не
1:16:30
сделал. Результаты почти нулевые. максимум тампсек1 сделал на два балла из
1:16:36
42, то есть одну задачку решил, ну, даже не наполовину, а там на полтора балла из
1:16:42
семи, по-моему, там было. Вот. А, ну
1:16:48
подождите, эта табличка из версии статьи Proof of BL, которая вышла 27 марта из
1:16:55
первой версии на архиве 9 апреля. С тех пор, конечно, прошло много времени. И
1:17:00
через 2 недели, 9 апреля, они обновили статью на архиве. Почему обновили?
1:17:06
Потому что вышло G 2 по Pro. И Gin 2,5 Pro уже на той же Олимпиаде решила одну
1:17:14
задачу совсем хорошо, 6 с5 баллов из семи и одну задачу наполовину, ну, типа
1:17:19
на 3, с по из семи. Остальные также не решила, как остальные. То есть, да, результаты, конечно, не очень
1:17:26
впечатляющие. Пока языковые модели сами по себе без обвязок, спруверов,
1:17:32
геометрии и тому подобного, а не выигрывают олимпиады даже близко. Но
1:17:39
прогресс есть, и как-то куда-то мы движемся, да, он прогресс не от 0ля до
1:17:45
2%, что могло бы быть случайностью, а вот уже как-то что-то решается.
1:17:51
А ещё одна интересная тоже недавняя работа, которая, ну, в каком-то смысле
1:17:57
отрицательный результат, но скорее может быть результат о том, как сделать больше
1:18:02
положительных. А ставит под сомнение работа вообще помогает ли ваш это ваше
1:18:08
обучение с подкреплением? То есть, а, ну, грубо говоря, результат в том,
1:18:14
что после до обучения, вот обучение с подкреплением, а, да, действительно,
1:18:19
если вы просто попросите модель написать ээ решение, то на каком-нибудь там
1:18:25
относительно сложном датасете, а, модель, которая не
1:18:31
а-э использовала обучение с подкреплением, она сильно проиграет
1:18:36
моделям, которые были дообучены. Но если вы начнёте просто ту же самую модель
1:18:43
смплировать много раз, то есть там 256 раз, запустите её на одной и той же
1:18:49
задачке и выберете, а оттуда, что получится хорошего, то внезапно она
1:18:56
начнёт даже выигрывать против дообученных моделей. То есть как бы результат здесь в том, что обучение с
1:19:02
подкреплением, оно, конечно, делает поиск гораздо более направленным, более хорошо направленным. но и делает поиск
1:19:09
беднее. То есть, может быть, есть какое какая-то золотая середина, которая чуть больше брутфорса и чуть меньше чуть
1:19:17
больше случайности, чуть меньше направленности. Не знаю, это тоже очень свежий результат, довольно
1:19:22
интересный. Какие ещё есть дасеты на фронтире? Есть Humanities Last Exam.
1:19:28
Очень сложный датасет, тоже на котором языковые модели ничего особенно не могли
1:19:33
продемонстрировать. Там есть математическая часть, есть много не математических частей. Давайте в это я
1:19:39
не буду углубляться. Просто хочу сказать, что когда он только появился,
1:19:44
все справлялись с ним очень-очень плохо. Там 3-4% было у всех этих моделей.
1:19:51
Потом, когда появились рассуждающие модели О1, R1, стало там
1:19:56
8%. Когда появилось семейство О3, дошло до 1015.
1:20:04
Но тоже есть прогресс. И внезапно вот на этом датасете, ну, он такой как бы
1:20:14
многозадачный, разнообразный, далеко не только про математику и не только про доказательства. Вот на нём внезапно
1:20:20
лучше всех работает вот эта загадочная строчка Open ID Presearch. Это, собственно, мой пере, э-э, позволяет мне
1:20:27
об этом поговорить, потому что это как раз, наверное, очень практически важная штука для всех нас, как действующих, э,
1:20:35
учёных. Что такое deep resarch? Ну, deep resarch — это, на самом деле, модель типа О3.
1:20:41
А, но модель типа О3, которая может быть как-то дообучена, тут никто не знает наверняка, но в общем, который
1:20:48
разрешено, во-первых, искать в интернете, а, во-вторых, э, которая как
1:20:54
бы делает это целенаправленно на заданную тему долго, ну, минуты, может
1:21:01
там до получаса это делать. То есть ты ей даёшь задание. А вот я просто примеры
1:21:08
своей практики, там, не знаю, читал лекцию про скрытые марковские модели. Ну, как работают скрытые марковские
1:21:13
модели, я, конечно, сам знаю, но я же не слежу за всем, что происходит на свете,
1:21:20
да, поэтому спрашиваю depresearch. Ну, а как скрытые марковские модели сейчас используются? Дай мне вот несколько
1:21:27
статей из, э, последних пары лет, а, типа вообще они релевантны ещё или нет,
1:21:32
где они применяются. А, overview, то есть, да, что интересно, кстати, другие лматы
1:21:38
редко умеют. Он задаёт уточняющие вопросы, а потом уходит думать. И вот он думал в данном случае 7 минут довольно
1:21:45
быстро для research. И, да, выдал такой обзорчик на 12 страниц, если Word
1:21:52
скопировать. Я просто проверил для эксперимента. А, 12 страниц,
1:21:57
э, 14 ссылок на свежие статьи, ну, статьи разного качества, конечно, но
1:22:04
проверять, конечно, за ним надо. Он может и гаволюцинировать, и делать далеко идущие выводы из каких-то не
1:22:11
очень надёжных источников, естественно. Но это прямо новый уровень, это прямо
1:22:17
штука, которая действительно, вот честно скажу, мне помогает в жизни часто и сильно рекомендую пользоваться.
1:22:24
Но только важно, что надо проверять, конечно. А и когда смотришь на результат присч,
1:22:32
кажется, ну что, то есть уже можно обзоры писать автоматически, кажется, обзоры уже не требуют участия человека.
1:22:38
Ну почти про это люди, конечно, много думали, пробовали. Вот была работа
1:22:44
Survey там год назад, он уже был неплох, а недавно вышел так называемый Survey X.
1:22:52
Тут очень сложная картинка. с очень большим количеством всяких moving parts, как говорится. Но тут что вот про эти
1:23:00
все м штуки важно понимать, что они все
1:23:07
относятся к так называемомублинг. Анхоблинг — это
1:23:14
мм новые результаты, которые призваны не улучшать модели. А модель здесь всегда
1:23:21
одна и та же примерно используется базовая, но её можно подменить, когда новая выйдет. Но, в
1:23:26
принципе, в этом графике нет нигде улучшения самой модели, но а из неё её
1:23:34
возможности надо ещё извлечь, да? То есть вот примерно как я вам рассказывал
1:23:39
проч, которая из сырой языковой модели извлекает полезного помощника, который
1:23:45
готов отвечать на ваши вопросы. Также и дальше. из полезного помощника, который отвечает на вопросы.
1:23:52
Ещё надо всё-таки извлечь систему, которая может end to end от начала до конца написать обзор на заданную тему.
1:24:00
Но никакой никакого никаких новых там алгоритмов, в смысле алгоритмов
1:24:06
обучения, никаких новых математических результатов этой картинки нет. Это просто несколько разных языковых, ну,
1:24:13
несколько одинаковых, с разными запросами языковых моделей, которые как-то пообщались друг с другом. Там
1:24:20
одна из них сходила, поискала статьи, другая их почитала, третья, значит, по
1:24:26
поанализировала графики с этих статей и так далее, и так далее. Вот. Четвёртая написала текст. Скорее всего, это всё
1:24:33
одна и та же модель, просто с разными запросами. А, и вот такого рода, это
1:24:38
называется спffoldдинг, да? такого рода как бы обвязка вокруг базовой модели, она часто может
1:24:45
существенно э сделать скачок вперёд в в важных
1:24:51
практических приложениях. Она часто может реально раскрыть возможности
1:24:57
языковой модели, которые там вроде как есть, но вот простым одним запросом их не извлечёшь.
1:25:03
И да, Survey X он ещё тогда на базе GPT4O в феврале подбирался к
1:25:08
человеческому уровню. Ну что значит подбирался? Значит, люди читали эти обзоры и оценивали по ряду критериев. Ну
1:25:14
как тут ещё проверишь? И сравнивались с человеческими обзорами. Вот он пока ещё
1:25:20
похуже человеческих, но модели-то улучшаются. Просто эту систему даже
1:25:25
менять не надо. Просто базовую модель вместо GPC4O вставить там по три. И глядишь, уже получше будет.
1:25:32
Вот. И тоже можно прочитать её примеры. Там есть очень странные баги. В каких-то
1:25:38
моментах просто там абзац начат и не дописан на полусловию. Любая языковая
1:25:43
модель, конечно же, могла бы это исправить, если бы ещё один проход сделала, но почему-то не сделала. Но это неважно. В любом случае по покрытию, по
1:25:51
качеству анализа в целом вполне нормально читается. А, ну хорошо. То есть мы
1:25:58
знаем, что языковые модели умеют читать и суммаризировать. Ну, это мы давно знали. Ну, как давно, уже год как знали,
1:26:04
наверное. Что насчёт всё-таки Original Research? Я всё говорил, что нет, пока теорема не доказана, пока ничего не
Когда original research: Google Co-Scientist, AI Scientist-v2, шкала креативности
1:26:11
получается. Ну, может, всё-таки хоть что-то получается, хоть где-то. Есть ли хоть какие-то новые результаты, которые
1:26:18
действительно получены искусственным интеллектом? А, и да, и нет. Ну, скорее
1:26:26
да, но пока результаты частичные. Сейчас расскажу. Последняя, это последний мой
1:26:32
раздел на сегодня. А, ну, во-первых, а как там проверы, да? А, есть большое
1:26:39
направление, которое уже нет у меня, э, сегодня, видимо, времени и сил
1:26:45
обозревать, но в целом есть большое направление, э, которое посвящено тому,
1:26:50
чтобы как всё-таки научить ЛМ порождать проверяемые доказательства. Может быть,
1:26:55
сами доказательства, может быть, там идеи шагов доказательства. и код, который потом их как-то поперебирает и
1:27:03
выберет нужный. Ну, в общем, в любом в любом абсолютно виде есть миллион разных
1:27:08
методов, а, и сотни статей на этот счёт. Всё время
1:27:14
люди как-то пытаются это улучшать. Но, если честно, вот
1:27:19
тут, э, есть такой эффект, который называется горький урок глубокого
1:27:26
обучения. The Bit Lesson. Это фраза Ричарда Саттона, одного из как раз основателей обучения с
1:27:32
подкреплением. А, но, а, возможно, он прав. Он это
1:27:39
говорил ещё до расцвета языковых моделей, ну, там в начале расцвета de
1:27:45
плернинга. У него естьс The Bit Lesson, которая проводит такую мысль, что
1:27:50
машинным обучением трудно заниматься, потому что вот ты стараешься, стараешься, ты придумываешь новую модель, в ней много интересного, новый
1:27:57
алгоритм, может там, не знаю, вариационное приближение какое-нибудь сам просчитал руками. А и она работает
1:28:05
лучше, чем предыдущая, и ты радостно, значит, её публикуешь. Но через год
1:28:10
компьютеры становятся мощнее. Люди берут старую модель, которая в которой нет ничего настолько
1:28:18
же умного. Ну, например, нейросеть. А, и механически делают её больше, обучают на
1:28:24
датасете побольше, и она побивает твою умную модель. А твоя умная модель так не масштабируется хорошо. Она слишком там
1:28:31
сложная для этого, не знаю. Вот, в общем, а есть такое есть такой
1:28:37
эффект. И с языковыми моделями он, конечно, виден. То есть есть огромная
1:28:43
масса статей, которые люди писали, что-то улучшали, делали что-то лучше, а
1:28:50
потом выходил новый там О3 или R1 или Gin 2 с по истановилось ненужно. Просто
1:28:57
теперь из коробки всё работает ещё лучше. Поэтому, может быть, с этим, с
1:29:02
формализацией тоже в какой-то момент из коробки начнёт работать лучше. Вот тут я воздержусь от
1:29:09
прогнозов. Но что уже из коробки начинает работать в плане новых
1:29:14
результатов? Постепенно начинает, а, начинают появляться системы. Это тоже из
1:29:20
разряда анхоблинг, то есть тоже по сути
1:29:25
э обвязки для языковых моделей, которые просто умело запускают их много раз. А
1:29:34
обвязки, которые генерируют новые идеи, оценивают их, проверяют. А вот,
1:29:40
например, недавняя новость Google CS Scientist. В середине февраля вышла
1:29:45
мультиагентная система. Ну, мультиагентная, в смысле, там несколько ЛМ тоже агентов, которые друг с другом
1:29:50
разговаривают. А, и если посмотреть на структуры, ну, тут просто, да, пять
1:29:55
агентов или шесть, один генерирует идеи, другой читает литературу, третий там
1:30:01
оценивает, фильтрует эти идеи. Ну, в общем, тут ничего суперумного в этой структуре нету.
1:30:07
Но такая штука, во-первых, может довольно долго между
1:30:13
собой общаться, продолжая производить новые идеи. Вот это важно, чтобы, ну,
1:30:19
любые две лмки можно посадить друг с другом общаться, и они будут это делать бесконечно долго. Но ничего нового из
1:30:24
этого интересного не выйдет. А тут всё-таки люди смогли организовать так, чтобы выходило что-то новое. И
1:30:31
действительно кажется, пока я, значит, могу про один пример яркий рассказать,
1:30:38
кажется, что это начинает всерьёз работать. И вот яркий пример. Это,
1:30:45
значит, он не в области математики, правда, это Хасепеннадес, учёный медик, микробиолог из Imperial
1:30:52
College London, который провёл такой тест с Googleко scienтистом. У него была
1:30:59
научная группа, ну, и есть, которая занимается прямо важным медицинским вопросом. Ну, я не
1:31:05
специалист, я боюсь соврать, не буду объяснять подробно, но смысл про механизм резистентности к антибиотикам,
1:31:11
то есть как, э, м, значит, бактерии могут стать резистентными ко многим
1:31:17
антибиотикам сразу. А, и у них был новый результат.
1:31:22
То есть он как бы для теста задал сайнсту вопрос, на который его научная
1:31:29
группа уже получила ответ, но ещё нигде не опубликовала. Вот они типа были в процессе написания
1:31:37
статьи. И Google Scientist ушёл думать на двое суток. Это что-то новенькое для
1:31:43
языковых моделей. Так долго раньше они не думали. А, на двое суток ушёл, потом
1:31:50
вернулся, выдал список из нескольких идей. Ну, понятно, что языковая модель не может сама провести исследования по
1:31:56
микробиологии. Там, наверное, какие-то эксперименты есть, какие-то чашки Петри, не знаю. Но а идеи, да, что может быть
1:32:04
интересно исследовать уже проверить экспериментально. А, и под номером один
1:32:09
в этом списке шла та самая идея, которая в итоге у этой научной группы подтвердилась. А под номером там тыре и
1:32:16
п в этом списке шли идеи, которые Пеннадес и его коллеги сошли очень
1:32:22
перспективными. Сказали, что это нам голову не приходило, но теперь мы проверим. А, конечно, ну, это далеко не
1:32:31
полный цикл. В такой науке, я думаю, полный цикл будет ещё не скоро, не в ближайшие год.
1:32:37
Но а а тем не менее вот уже есть довольно
1:32:43
положительный пример того, как языковые модели в чистом виде практически, ну, естественно, они читают литературу,
1:32:49
естественно, они всё там обрабатывают, но по сути языковые модели в чистом виде начинают генерировать идеи, полезные для
1:32:56
научного поиска. А, и второй пример примерно такой же,
1:33:02
это система AI Resarcher. Я уже, э, сколько там, 9 месяцев, как про неё
1:33:08
рассказываю. Первая версия ресерчера появилась в августе прошлого года. А это
1:33:14
тоже чистый скафхолдинг, тоже чистый анхоблинг, это просто система из скриптов с хорошими промптами и там
1:33:21
циклами. Но что она делает? Авторы сконцентрировались на области, в
1:33:27
которой языковая модель таки может провести полный цикл. Область называется машинное обучение. Почему может? Потому
1:33:35
что эксперименты здесь — это какие-то программки, которые может написать
1:33:42
языковая модель. Программирует она уже неплохо. А и она, если дать ей такой
1:33:48
тул, она вполне может запустить их. И потом получатся какие-то результаты. Она
1:33:53
может их прочитать и обработать. То есть пока всё происходит внутри компьютера,
1:33:59
ну да, может написать программу для экспериментов, может там подебажить её, если что не так,
1:34:06
может ээ вернуться к ней и провести новые эксперименты. Это всё не так уж
1:34:12
запредельно сложно. И они сделали систему полного цикла от генерации идей.
1:34:20
То есть там на входе буквально промт запрос из разряда. Ну вот подумай на эту
1:34:26
общую тематику там в этом направлении подумай без всяких конкретных идей. И
1:34:32
система сначала думает, генерирует идеи, примерно как scientist, проверяет их на на новизну. Там какой-то цикл
1:34:38
происходит, значит, с переранжированием, оценка этих этих идей. Потом для
1:34:44
выбранных идей строится план экспериментов. Они запускаются. Может быть, это тоже по циклу несколько
1:34:50
раз происходит. Потом результаты, когда экспериментов оказываются
1:34:55
уже содержательными, пишет статью. Вот полный цикл от общего направления до
1:35:03
статьи. И долгое время, полгода в разных докладах я рассказывал, что, ну,
1:35:10
конечно, пока это не то, чтобы novel research, то есть
1:35:15
пока это всё были какие-то статьи, которые выходили из этой системы, были очень инкриментальные, не очень
1:35:21
интересные, ничего гениального в них не было. А, и, но в принципе вот в течение
1:35:27
полугода я говорил на обычно на своих докладах так, что если бы мне прислали
1:35:33
на рецензию такой магистрский диплом, я бы не заподозрил ничего плохого и
1:35:39
поставил бы высокую оценку. То есть там, ну, всё, все эксперименты чётко
1:35:45
проведены. Какое-то улучшение всегда есть, но, скорее всего, это какое-то очень инкрементальное улучшение,
1:35:52
какая-то очень небольшая идея. Идея скорее из разряда: «Вот давайте возьмём там эту идею из этой статьи, добавим эту
1:35:59
идею из этой, и тогда немножко там на полпроцента что-то улучшится». Типичный
1:36:04
диплом, типичная там статья на очень низкого уровня студенческой конференции.
1:36:10
Ну, ничего гениально. А, ну вот, кажется, получилось. Месяц
1:36:17
назад, 12 марта прошла новость от той же команды, которая сдела которыя сделали вторую
1:36:23
версию Scientist. Я честно не проверил перед докладом, простите, но, кажется, пока нету статьи на этот счёт. То есть
1:36:30
пока я не могу вам сказать, отличается ли чем-то сама система. Понятно, что базовая LLM отличается. Понятно, что
1:36:37
теперь они вставили туда современные рассуждающие модели. Вот. И вот эта
1:36:42
система, а, написала три статьи, ну, точнее, наверное, так, она
1:36:49
написала 10 статей, люди из них выбрали три. Вот так будет честно сказать. И три
1:36:55
лучших отправили на настоящий воркшоп при настоящей ведущей реально топовой
1:37:00
конференции по машинному обучению ICLR. Да, это ещё не конференция, это ещё пока воркшоп, но одна из них прошла.
1:37:09
Это был эксперимент, согласованный с программным комитетом. В итоге её,
1:37:14
конечно, ну, то есть рецензенты рецензировали, не зная о том, что
1:37:19
эксперимент проводится, но, конечно, программный комитет знал, в итоге статья не была опубликована сама по себе, но
1:37:26
она получила заведомо проходные оценки. 676 — это точно acпт. Вот. Ну, две другие не прошли,
1:37:34
скорее всего. Там вторая как-то, видимо, скорее нет, а третья точно нет.
1:37:39
А вот такие дела. То есть, а, ну, статью может можно посмотреть, она, ну, тоже не
1:37:47
то чтобы гениальная, ничего там не перевернёт она искусственный интеллект, конечно же, но это вот, наверное, первая
1:37:54
по-настоящему полностью автоматически порождённая статья полного цикла. Ей дали на вход только тему воркшопа.
1:38:02
Workshop был посвящён как бы тому, что deep learning
1:38:07
как в том выражении, да, в теории теория и практика согласуются на практике не
1:38:13
очень. Вот так и здесь где теория и практика deeplearning расходятся. Вот
1:38:19
такой был workркшоп. И имея только вот эту тему, как бы общий скоуп и направления, система сама
1:38:27
написала 10 статей и одна из них прошла. Вот. Очень интересно. Очень
1:38:33
интересно. И, наверное, это мой последний слайд. Вот где мы сейчас и как
1:38:40
быстро мы движемся дальше и где мы. Вот на это, это я для недавнего там своего
1:38:46
тоже поста нарисовал такую картинку, как бы где мы вот научный поиск — это тоже
1:38:52
оптимизационный процесс. И мы можем оптимизационные процессы расположить как бы, ну, условно по
1:38:59
возрастанию, так сказать, креативности, по возрастанию того, а
1:39:05
того скачка, который они делают, да, там, ну, номером один там самым низким
1:39:11
будет просто случайный поиск. Номером два, ну, будет, наверное, градиентный спуск — это локальный поиск, у которого
1:39:18
есть направление и метод первого порядка. А, ну, ну, я поставил номер
1:39:23
три, там 3,2 можно переставить, если хотите. Где-то там же эволюция. Эволюция
1:39:29

это, ну, как бы такой типа тоже направленный поиск, но я его поставил
1:39:34
выше, потому что, э, он ещё и сильно распараллелен, да. Мы сразу сразу много
1:39:39
разных генов мы пробуем э оставляем из них лучшие. Вот. Потом, если совместить
1:39:46
эволюцию, градиентный спуск, получится что-то вроде нейронного поиска архитектур. Это когда, э, модель
1:39:54
автоматически тоже очень направленна, тоже комбинация эволюционного и
1:39:59
градиентного поиска, а, перебирает архитектуры
1:40:04
нейросетей, такой такая метаоптимизация, где, а, значит, на выходе действительно
1:40:10
получаются прекрасные архитектуры, которые там во многих областях становятся стандартом.
1:40:17
А там пятый уровень — это вот что-то типа альфа, которые всё ещё решают очень
1:40:23
конкретную узкую задачу, но уже решают её как бы с нуля и а умеют
1:40:30
[музыка] обучаться до высот, где они в этой узкой
1:40:35
конкретной задаче, естественно, совершенно не замечают человеческий уровень, да. А номер шесть, предположим,
1:40:42
большие языковые модели. Они, конечно, в шахматы играют хуже, чем Альфазер, но зато это такой уже более общий
1:40:49
искусственный интеллект, да, это ээ generalist model, которая может делать
1:40:56
много всего, не всё, но много всего разного. Ну и вот если так в научном поиске, где
1:41:03
тут этотст, где он, как, да, десятый пункт скажу. На самом
1:41:10
далёком, самом самом далёкой части спектра я поставил, ээ, сразу скажу, не
1:41:15
мой выбор, взял из интервью одного теар-физика, который сейчас как раз в депманде работал. Его напрямую спросил
1:41:22
интервьюер, что вот, а какое открытие физики теоретической было самым-самым потрясающим, самым большим скачком? И
1:41:29
вот он подумал и объяснил, что на его взгляд, ну, я, естественно, не могу с ним не согласиться, а это общая теория
1:41:37
относительности, а именно по как бы разнице между тем, с чего Эйнштейн
1:41:46
начинал, с чем он мог работать, что у него было, что он знал, и тем, насколько
1:41:51
далеко он прыгнул исключительно своим собственным научным поиском. Вот. А, ну
1:41:57
вот это пускай будет пока крайне правый часть, крайняя правая часть шкалы. И вот
1:42:03
где мы сейчас с этими всеми косенти системами? Ну, где-то вот на уровне, не
1:42:10
знаю, среднего аспиранта. Чуть похуже, может, среднего, а может получше. Кто знает, какой этот средний аспирант, да.
1:42:16
Но мы движемся, мы движемся. И мне кажется, отдельный интересный вопрос —
1:42:22
это а что на а что будет на этой шкале?
1:42:27
на уровне 15 или 25. Это нам трудно представить, но может быть это не
1:42:34
невозможно. Как знать? Вот такие дела. Спасибо за внимание. Надеюсь, было
1:42:49
интересно. О’кей. А давайте поблагодарим докладчика.
1:43:00
Сергей Игоревич, огромное спасибо. Этогин. Добрый день, Сергейвич. Интересно.
1:43:11
Значит, ну как времени уже довольно много.
1:43:16
Вот. И я смотрю, что количество слушателей уже заметно уменьшилось по
1:43:23
сравнению с топовым ээ числом. Вот. Но я
1:43:29
совершенно согласен. Это замечательный, интересный доклад. Ээ это
1:43:35
самое сейчас Сергей, тогда уберите это самое. Угу. Сейчас, секундочку.
1:43:45
Фуф. Так, я уже потерялся. Я нахожусь вот вот
1:43:51
здесь. Да. И здесь тогда. Так, да. Угу.
1:43:56
О’кей. Так, сейчас. Вот так. Угу. Вот. Ээ большое
1:44:05
спасибо. Спасибо за приглашение. Всегда буду рад. Вряд ли этот доклад полностью изменится
1:44:12
за полгода, но я думаю, за год он будет меняться достаточно, чтобы было смысл послушать ещё раз. Пока пока прогресс
1:44:20
такой. Поглядим, да, но при той скорости прогресса, которая была видна, может
1:44:26
произойти просто очень много, как бы, да.
1:44:31
А, а можно я всё-таки один вопрос задам, потому что я вот недавно как раз стал
1:44:37
использовать все эти модели в помо в аа
1:44:43
в настоящей математике. В смысле, вот сейчас Сергей Юрьевич читает некоторую теорему, которая частично была доказана
1:44:50
вот при а помощи, значит, это это
1:44:56
Сергей, это очень интересный пример. Если ты ты мне про него расскажешь подробнее, то я буду очень благодарен.
1:45:02
Ну, видимо, не сейчас, агда, да. Вот как бы, да, это так. Ну, это, безусловно, с помощью вот я хотел как раз
1:45:09
сакцентировать, что доклад был в основном, ну, вот так вот ориентирован
1:45:14
на, а, как это полные доказательства. Вот тебе как это вход вот соизвольно на
1:45:21
выход доказательства. Я же его использовал не таким способом, а как, ну
1:45:26
вот частично, как это самое, как это Human компьютер
1:45:31
система. Вот. И у меня вопрос был, собственно говоря, а что известно вот как а как как это как компьютер может
1:45:40
именно помогать в доказательстве? Ну вот как вот эти лм модели могут помогать в
1:45:47
доказательстве теорем, если вот какие-то хорошие наработанные практики не не как
1:45:53
полный цикл, да, а именно как помощник. Угу. Да, вопрос понятен. Ну, к
1:46:00
сожалению, боюсь, что я не знаю никаких чётких практик, потому что слишком уж быстро всё меняется. Боюсь, что так. То
1:46:07
есть, а, я пытался, ну, чисто в виде экспериментов, э, я пытался проводить
1:46:14
эксперименты вида, давайте возьмём какую-нибудь статью с архива, которая
1:46:19
только-только вышла, точно не может быть ни на каком, ни в каком обучающей выборке там вчерашнюю. Давайте отрежем
1:46:26
от неё постановки задач и попробуем попросить ЛМ порассуждать, как там эту теорему можно было бы доказать. Вот
1:46:34
такое я пробовал. Ну, мало разумного получилось, но я должен сказать, что я
1:46:39
пробовал полгода назад, а с тех пор могло что-то измениться на этот
1:46:46
счёт. А, и это, конечно, был просто эксперимент из разряда, как LLM умеет
1:46:53
доказательство новых математических утверждений, а не про то, как наиболее эффективно её использовать, когда ты сам
1:46:59
математик и доказываешь эти утверждения. Про это я думаю, если у кого-то есть такая практика, то он пока сам статьи
1:47:06
пишет, а не публикуют эти алгоритмы. Ну я тоже больше занят дальнейшим
1:47:13
развитием вопроса, да.
1:47:18
Окей, спасибо. Давайте ещё раз поблагодарим докладчика. Спасибо вам.
1:47:26
Вот. И спасибо всем слушателям. До новых встреч.

Поделиться: