Сергей Марков: ИИ и машинное обучение. Итоги 2024 года

Оценили: 37

Ключевые работы в области искусственного интеллекта и машинного обучения в 2024 году. Прогресс за минувший год с позиции цифр и фактов, разбор распространённых заблуждений и громких заявлений. О прогрессе в области генерации текстов, изображений, видео, речи, музыки и песен, программного кода, трёхмерных объектов, новых молекул и материалов, о задачах распознавания сгенерированного контента, инструктивного редактирования контента, переноса речи, машинного перевода, о мультиагентности и интерактивном ИИ, альтернативных трансформерам архитектурах, а также о других направлениях исследований. Новые нейросетевые модели и оборудование 2024 года, применение ИИ и машинного обучения в бизнесе, медицине и науке, практичном AGI, а также о всём том, чего мы ждём от искусственного интеллекта и машинного обучения в 2025 году.

*Meta (соцсети Facebook и Instagram) признана экстремистской и ее деятельность запрещена в РФ

Прямая ссылка на видео https://www.youtube.com/watch?v=WWS4GnLJkaE

Пересказ видео

Введение

Автор вспоминает, как нашёл картинку, ставшую обложкой его лекций по искусственному интеллекту.
Он отмечает, что в следующем году будет десятилетие его популяризаторской деятельности.

О себе

Автор не учёный, а научный администратор, руководящий командами по созданию моделей машинного обучения.
У него низкий индекс Хирша, но он имеет 20-летний опыт в области машинного обучения.

Определение искусственного интеллекта

Искусственный интеллект — это область науки и технологии, занимающаяся автоматизацией интеллектуальных задач.
Термин появился в 1956 году на Дартмутской конференции.
Обывательское восприятие ИИ часто меняется с решением интеллектуальных задач.

История и развитие ИИ

В 1950-е годы энтузиазм в области ИИ был высок, но многие задачи не удалось решить.
В последние полтора десятилетия многие сложные задачи были решены благодаря развитию технологий.

Машинное обучение

Машинное обучение — это подмножество методов ИИ, позволяющее формировать поведение системы через обучение.
Первые системы машинного обучения появились в 1940-е годы.
Большинство сложных систем сегодня создаются с использованием машинного обучения.

Нейронные сети

Нейронные сети — это класс математических моделей машинного обучения, основанный на коннекционизме.
Современные нейронные сети слабо похожи на биологические нейронные сети.

Импульсные нейронные сети

Отдельный класс нейронных сетей, моделирующих биологические сети
Используются для решения задач нейрофизиологии
В прикладных областях чаще используются модели, слабо похожие на биологические сети

Искусственный интеллект и интеллектуальные задачи

Понятие искусственного интеллекта широкое, включает примитивные и сложные задачи
Сложные задачи требуют современных технологий и методов

Прикладной искусственный интеллект

Системы, решающие одну или небольшое подмножество интеллектуальных задач
Примеры: Deep Blue, играющий только в шахматы
До недавнего времени все системы ИИ были прикладными

Общий искусственный интеллект

Системы, способные решать широкий круг интеллектуальных задач, как человек
Термин появился в 1997 году в работе Марка Губруда
В конце 90-х и начале 2000-х годов системы ИИ были далеки от универсальности

Цель развития ИИ

Расширение возможностей человека
Создание инструментов для преодоления биологических ограничений
Дуглас Ингельбарт заложил концептуальную основу человеко-компьютерных интерфейсов

Мультимодальная информация и интерфейсы

В окошках содержится мультимодальная информация: изображения и тексты.
Операции с текстом, такие как выделение, копирование и вставка, были придуманы Дугласом Энгельбартом.
Энгельбарт заложил основу современных интерфейсов взаимодействия человека и машины.

Роль Фредерика Фредкина

Фредкин, недавно ушедший, был знаменитым специалистом в области информатики.
Он писал о партнёрстве с интеллектуальными системами для развития науки и искусства.

Барьеры человеческого разума

Скорость: мозг человека не всегда достаточно быстр для принятия решений.
Надёжность: люди являются ненадёжным звеном в технологических процессах.
Параллелизм: люди плохо справляются с параллельным решением задач.
Коммуникативные ограничения: сенсорная кора мозга ограничена пропускной способностью.
Физическая хрупкость: люди живут в узком диапазоне условий.
Сложность систем: человек не может понять сложные системы без упрощений.
Ограниченность памяти: письменность расширила возможности памяти.
Экспертные навыки и знания: люди не могут быть экспертами во всём.
Мотивация: не все задачи нравятся решать.
Масштабирование: быстрое масштабирование с людьми невозможно.

Переосмысление истории человечества

В XIX веке история человечества связывалась с технологическими укладами.
В XXI веке топ компаний по капитализации связаны с информационными технологиями.
История человечества можно переизобрести, учитывая революционные изменения в обработке информации.
Устная речь, письменность и книгопечатание были важными революциями в обработке информации.

Влияние интернета на доступность информации

Интернет значительно увеличил доступность информации.
Электронная копия дешевле бумажной.
Оцифрованная информация доступна онлайн, что упрощает её поиск.

Революция генеративного искусственного интеллекта

Генеративный ИИ меняет информационный метаболизм общества.
Инструменты, такие как чат GPT, создают тексты по запросу.
ИИ систематизирует и индивидуализирует информацию, сокращая время на её обработку.

Проблемы определения AGI

AGI — это универсальный искусственный интеллект, способный решать любые интеллектуальные задачи.
Определение AGI вызывает вопросы из-за его неполноты и неопределённости.
Критерии успешности выполнения задач и ресурсные ограничения нечёткие.

Маркетинговые аспекты AGI

Заявление о создании AGI может увеличить капитализацию компаний.
Давление со стороны пиара и маркетинга приводит к созданию собственных определений AGI крупными лабораториями.
Это вызывает путаницу и недоверие к заявлениям о создании AGI.

Определение AGI

AGI будет считаться достигнутым, когда система сможет генерировать прибыль не менее 100 млрд долларов.
Это капиталистическое определение, а не основанное на свойствах системы.
Автор предлагает добавить к AGI другую букву, чтобы избежать путаницы.

Будущее машинного обучения

Технологии машинного обучения будут развиваться, что приведёт к решению различных задач с помощью больших моделей.
Бенефициарами этой истории будут те, кто владеет этими технологиями.

Мультимодальность в больших языковых моделях

Мультимодальность — один из важнейших трендов развития больших языковых моделей.
Модальность — это способ восприятия данных, такой как текст, изображения, аудио, видео.
В машинном обучении модальность может включать кодовую модальность и другие представления данных.

Сложности мультимодальных моделей

Создание полностью мультимодальных моделей сложно из-за инженерных и алгоритмических ограничений.
Блок внимания в трансформерных моделях имеет квадратичную вычислительную сложность, что усложняет работу с мультимодальными данными.
Добавление мультимодальных данных удлиняет контекст модели и снижает её эффективность.

Примеры мультимодальных моделей

За последние годы создано много моделей, объединяющих несколько модальностей.
Примеры таких моделей: Audio Palm, Speed GPT, Квиндио Селман 2023 года.
В 2024 году список таких моделей удвоился, включая GPT4 омни, Buba GPT, КН 2 Aудио, Lora GPT, Visper GPT.

Работа с аудио и текстом

Модели описывают аудиофайлы словами и отвечают на вопросы.
Примеры включают чат, куда отправляются аудиофайлы и задаются вопросы.

Работа с картинками и текстом

Модели распознают текст на картинках, включая рукописный.
Примеры включают Gigachat Vision, который решает сложные задачи с изображениями.

Генерация видео

Современные модели генерируют видео по текстовому описанию и стартовым кадрам.
Примеры включают Кандинский 4.0, который входит в топ-10 генераторов видео.

Генерация музыки и пения

Модели генерируют музыку и пение по текстовому описанию.
Примеры включают проект Simformer X, который позволяет создавать каверы.

Генерация 3D объектов

Модели создают полноценные 3D объекты по текстовому описанию.
Примеры включают черепикнутую генерацию 3D объектов.

Переизобретение текстового редактора

Чат не всегда удобен для редактирования длинных текстов.
Примеры включают проект Gigaredactor, который позволяет выполнять генеративные операции с текстом.

Инструктивная модификация изображений

Современные системы перегенерируют картинку с уточнённым описанием, что не всегда удобно.
Примеры включают проект Мальвина, который позволяет вносить точечные изменения в изображения.

Переход к интерактивному искусственному интеллекту

Переход от генеративного к интерактивному искусственному интеллекту.
Примеры включают новые технологии, которые позволяют взаимодействовать с моделями в реальном времени.

Эволюция искусственного интеллекта

В прошлом большинство моделей были дискриминативными, решающими задачи классификации и регрессии.
С появлением трансформеров начался бум генеративного ИИ, создающего новые данные.

Будущее интерактивного ИИ

Интерактивные системы ИИ решают задачи в цепочке действий, взаимодействуя с внешними инструментами и людьми.
Прототипы таких систем активно обсуждаются и создаются.

Агенты в интерактивном ИИ

Агенты являются строительными блоками интерактивного ИИ.
Генеративные модели могут стать агентами с помощью дополнительных обвязок.

Свойства агентов

Возможность генерировать управляющие команды для внешних систем.
Использование инструментов для решения сложных задач.
Моделирование рассуждений и действий.
Наличие долгосрочной памяти.
Фрейминг для настройки поведения модели.

Переход к фундаментальным агентам

Фундаментальные агенты могут быть предобучены на агентных датасетах и легко дообучены для конкретных задач.

Моделирование рассуждений

Человеческий интеллект можно рассматривать как сообщество подсистем, выполняющих разные задачи.
Медленное мышление требует последовательности рассуждений, что также важно моделировать.

Методы фрейминга

Промпт-инженерия для изменения поведения модели.
Retrieval augmented generation для извлечения релевантной информации из баз знаний.
Дообучение моделей для улучшения их производительности.

Процесс генерации и улучшения текста

Модель генерирует текст, затем действует как критик, давая замечания.
Затем модель действует как редактор, улучшая текст на основе замечаний.
Этот процесс называется рефлексией и позволяет получать более качественные тексты.

Расширение шаблонов

Шаблоны могут быть сложными, включая несколько текстов и роли оценщика.
Можно использовать внешние инструменты для повышения качества.
Подход называется скафолдингом, что означает создание каркаса вокруг модели.

Модели мира в мозге и ИИ

Мозг использует можичок для моделирования мира и прогнозирования реакций.
В машинном обучении модели мира используются для систем с обучением с подкреплением.
Пример: AlphaGo Go, использующая две нейронные сети для генерации ходов и оценки позиций.

Модели мира и языковые модели

Большие языковые модели также являются моделями мира, способными строить правдоподобные цепочки событий.
Модели мира языковых моделей не всегда точны, но могут быть полезны для моделирования поведения агентов.
Модели мира могут быть улучшены со временем и использоваться для решения интеллектуальных задач в реальном мире.

Обучение моделей через цепочки рассуждений

Модели могут автоматически улучшать свои способности к рассуждению.
Используются наборы задач с известными ответами для генерации цепочек рассуждений.
Правильные рассуждения поощряются, неправильные — корректируются.
Это позволяет значительно улучшить способности моделей в математике и логике.

Развитие железа для ИИ

NVIDIA представила новую архитектуру BlackWell для топовых GPU.
Архитектура оптимизирована для работы с большими трансформерными моделями.
AMD представила суперкомпьютер Эль-Капитан на чипах MI 300А, занявший первое место в LINPACK.
Intel активно исследует нейроморфные архитектуры для решения проблемы бутылочного горлышка фон Неймана.

Нейроморфные вычисления

Нейроморфные системы обрабатывают и хранят данные в нейронах, что устраняет необходимость передачи данных между памятью и ядрами.
Intel лидирует в этом направлении с устройством Loihi 2.
Нейроморфные вычисления могут серьёзно изменить ландшафт вычислений.

Альтернативные физические модели для вычислений

Исследуются фотонные вычислительные устройства, in-memory computations, квантовые машины и другие технологии.
Переход от классической электроники к новым физическим моделям требует решения технологических проблем, таких как создание трёхмерных схем и борьба с дефектами.

Нейроморфные схемы и компания Реброс

Улучшение современной электроники требует смены парадигмы.
Компания Реброс создаёт чипы по нейроморфному принципу.

Книга «Охота на электровец»

Автор дописал книгу за прошедший год.
Книга содержит 450 000 слов, 3,4 млн знаков и 3 200 ссылок.
Электронная версия книги доступна бесплатно на сайте автора.

Прогнозы и их реализация

Точность прогнозов автора составляет около 50%.
Появилась звуковая модальность GPT4O и синхронный перевод аудио в аудио.
Не сбылись прогнозы о новой версии Zero, MMLU Zero Shot больше 91% и картиночной рег в аналогах чат GPT.

Прогнозы на 2025 год

Модели будут писать стихи на уровне лучших поэтов.
Синтез речи голосом, описанным словами.
Качественная генерация векторных изображений.
Внедрение text to CAD систем.
В датасетах для обучения больших моделей больше 50% будет занимать синтетика и оверсмплинг.

Альтернативы для масштабирования датасетов

Халявный способ масштабирования будет исчерпываться.
Можно использовать повторные проходы по данным, модификацию целевой функции и синтетику.

Перспективные модели

Модели пространства состояний и комбинированные модели перспективны.
Модель Jumba, наследница мамбы, появилась в этом году.
В следующем году модели пространства состояний должны войти в топ-пять бенчмарков.

Ограничения современных моделей

Большие языковые модели на основе трансформерных архитектур имеют ограничения в работе с длинным контекстом.
Модели не всегда понимают внутреннюю структуру токенов, что затрудняет решение некоторых задач, таких как сочинение стихов.

Фундаментальные возможности ИИ

Человеческий мозг и искусственные нейронные сети описываются формализмами и не относятся к разным классам сложности.
В далёком будущем машины должны быть способны решать любые задачи, которые может решать мозг.

Социальные и этические аспекты

Некоторые задачи люди хотят решать сами, а не с помощью машин.
Произведения искусства и другие творческие задачи часто остаются за людьми из-за их эмоциональной и культурной ценности.

Улучшение результатов моделей

Обвешивание моделей фреймворками (скафхолдинг) может улучшить результаты.
Дисциплина для оптимального подбора фреймов пока находится в стадии развития, но это популярное направление среди энтузиастов.

Система Samfram

Samfram позиционируется как модель, способная оперировать точным вычислительным языком.
Подробности о её внутреннем устройстве и преимуществах пока не раскрыты.

Стивен Вольфрем и символьный искусственный интеллект

Стивен Вольфрем — энтузиаст формального искусственного интеллекта.
Символьные движки строят цепочки рассуждений в формальном языке.
Вольфремский движок похож на шахматные движки 80-90-х годов.

Критика индуктивного Байеса

Статья Bitter Lesson показывает, что устранение индуктивного Байеса улучшает системы.
Автор лекции удалил свои эвристики из шахматного движка, что улучшило его.
Нейронные сети предлагают более точные и статистически подкреплённые решения.

Сравнение с LLM

LLM, такие как GPT, лучше решают задачи символьного рассуждения.
Пример с Иваном Оселецом показывает, как GPT и GPT-3 решают математические задачи.
LLM можно использовать для генерации траекторий рассуждений, которые затем проверяются символьным движком.

Вольфрем и OpenAI

Вольфрем адекватно воспринимает ситуацию и сотрудничает с OpenAI.
GPT4 научился использовать вольфрамовский движок.

Достижения в фундаментальной науке

Вышла Alpha Fold 3, улучшившая работу Alpha Fold 2.
Альфафолд стал широко использоваться в биохимических лабораториях.
В математике было несколько работ по упрощению доказательств теорем.

Нобелевская премия за машинное обучение

В 2024 году Нобелевскую премию вручили за машинное обучение.
Это признание научного сообщества важности методов машинного обучения.

Благодарность и контакты

Автор лекции помог многим авторам с иллюстрациями.
Автор приглашает слушателей обращаться к нему с вопросами через контакты и канал в Telegram.

Расшифровка видео

0:02
[музыка]
0:09
Я смотрел на эту картинку, пока тут стоял, и вспомнил, что я её нашёл в далёком 2016 году. И с тех пор она стала
0:18
обложкой моих очень многих лекций по искусственному интеллекту и, в общем, по стению обстоятельств. Моя первая научно
0:25
популярная лекция состоялась здесь же, в стенах научки. Вот. Так что в следующем году можно будет отпраздновать
0:31
десятилетия моей популяризаторской деятельности. Вот. Ээ несколько слов о
0:37
себе, ээ прежде чем начинать ээ погружаться в то, что произошло в этом году в области машинного обучения
0:44
искусственного интеллекта. Такой традиционный дисклеймер. Я не учёный, я
0:49
научный администратор, я руковожу командами исследовательскими, которые занимаются созданием моделей машинного
0:55
обучения. у меня какой-то, ну, довольно стыдноватый хирш в районе шестёрки. Вот.
1:01
И, ээ, в общем-то, я скажем так, не являюсь академическим исследователем в этой области. Вот. Но, э, в силу того,
1:08
что больше 20 лет я занимаюсь практикой в области создания систем машинного
1:14
обучения, ну, что-то я имею сказать на эту тему. Вот. Э, ну, и, пожалуй, с
1:20
этого мы начнём. Опять же, как заведено у бородатых мужиков с древности, с античных времён,
1:28
прежде чем о чём-то говорить, нужно договориться об определениях. В противном случае мы с вами можем
1:33
погрузиться во всякие, э, недопонимания и несколько терминов,
1:39
которые являются рамочными для сегодняшней лекции. Но первый термин — это искусственный интеллект, один из
1:44
терминов, который вынесен в название лекции. Что мы понимаем под искусственным интеллектом? Под
1:50
искусственным интеллектом понимается область науки и технологии, которая занимается автоматизацией решения интеллектуальных задач. То есть, если
1:57
есть какая-то задача, которую люди решают при помощи своего человеческого интеллекта, а мы создаём систему,
2:03
предназначенную для того, чтобы человеку помочь решать такую интеллектуальную задачу или даже полностью подменить
2:08
человека в решении такой задачи, то мы, собственно, занимаемся практикой в области искусственного интеллекта. А,
2:15
ну, сам по себе термин появился в далёком 1956 году. стал достоянием
2:21
общественности в ходе знаменитой дартмудской конференции. Ну, собственно говоря, в материалах подготовки
2:26
дартмудской конференции впервые этот термин и был озвучен. Э-э, значит, э,
2:32
собственно говоря, э до этого использовались схожие термины, да,
2:37
скажем, Алан Тюринг употреблял термин машинный интеллект. Вот. Э, ну, по сути
2:44
дела, если мы посмотрим материалы дартмундской конференции, э если мы посмотрим в работы Джона Макарти, эээ,
2:51
того времени, времён дартнского семинара или позже, то мы видим, что с самого начала речь шла именно об области науки
2:58
и технологии, которая, э, будет использовать достижения в области информационных технологий для
3:04
автоматизации решения интеллектуальных задач. А, но с понятием искусственный интеллект с ним связан такой довольно
3:11
интересный эффект. ээ связанный с обывательским восприятием этого понятия.
3:17
Э дело в том, что э люди очень часто
3:22
подвержены такому эффекту, который получил название эффекта Макордек в честь помелы Макордек, известная
3:28
исследовательнице в области машинного интеллекта. Дело в том, что как только какая-то интеллектуальная задача
3:34
решается при помощи технологических методов, люди склонны переставать считать эту задачу интеллектуальной. Ну,
3:42
то есть, скажем, если бы вы в пятидесятые годы спросили человека на улице, а будет ли настоящим
3:48
искусственным интеллектом машина, которая обыграет чемпиона мира в шахматы, то, конечно, 100% людей
3:54
примерно сказал бы вам да, потому что шахматы — это эталонная интеллектуальная задача, а и машина, которая способна
4:01
играть в такую интеллектуальную игру, безусловно, будет машиной интеллектуальной. Вот. Но в девяносто седьмом году после того, как Каспаров
4:08
потерпел поражение одиплу, э, очень многие люди стали говорить: «Ну ваша машина на самом деле глупая, никакого
4:15
интеллекта там нету. Она просто очень быстрая, она перебирает сотни миллионов позиций в секунду. Человек так не
4:21
может». И вот это просто такой вот очень-очень быстрый дурак. Вот. Значит,
4:26
ну вот есть такая мудрая восточная игра Го. Вот там сложность поискового
4:31
пространства очень большая. Никогда переборные методы вам не помогут. решать её эффективно. Вот вначале покажите нам
4:39
машину, которая обыграет сильнейшего игрока в год. Тогда мы с вами и поговорим. Вот. Ну, когда Лисидоль
4:46
проиграл свой знаменитый матч Альфаго, э, естественно, многие люди стали говорить: «Ну, подумаешь,
4:53
что же это за интеллект?» Это у вас просто умножение матриц. Ну, вот какая-то там какие-то свёрточные сети.
4:58
Вот это всё чепуха. Вот вы нам покажите машину, которая сможет рисовать картины, сочинять музыку. писать стихи. Вот
5:06
тогда, может быть, мы и признаем за вами какие-то реальные достижения в области автоматизации решения интеллектуальных
5:12
задач. Ну, в общем, это всё конечно, мм, наверное, отчасти обусловлено тем, что
5:19
сам по себе термин искусственный интеллект, он, э, ну, несёт в себе некото та некоторую такую претензию,
5:25
некоторый оттенок романтизма. Ну, примерно так. Если бы мы всю
5:30
двигателистику называли бы искусственной силой, да, вот, ну, в некотором смысле это ведь верно, да, это действительно
5:37
искусственная сила, да, но вот искусственный интеллект — это вот область, которая создаёт инструменты,
5:43
которые предназначены расширять возможности человеческого интеллекта. А,
5:49
но, конечно, термин появился романтические времена, и через год после
5:54
дартмадского семинара на орбиту Земли полетел первый искусственный спутник. И многие тогда верили, что пройдёт
6:01
десятилетие и мы уже будем строить базу на Луне. А ещё через пару десятилетий будем осваивать во всю солнечную
6:07
систему, а к концу столетия уж наверняка полетим к звёздам. Но, как мы знаем,
6:12
этого не произошло. Точно так же, как и энтузиазм в области искусственного интеллекта, который возник в пятидесятые
6:18
годы. Эн, в общем, тоже во многом оказался неоправдан. Многие интеллектуальные задачи э в то время не
6:26
удалось решить при помощи тех методов и тех устройств, которые которыми обладало
6:32
человечество в середине XX века. А, ну, в общем-то, здесь, как говорится,
6:40
курочка по зёрнышку клюёт, да, и многие из тех задач, которые тогда оказались
6:46
чрезвычайно сложными для технологий искусственного интеллекта, они оказались решены в последние полтора десятилетия.
6:54
Мы сегодня об этом тоже немножко поговорим. Вот второй термин, э, — это термин машинное обучение. И что же мы
7:01
понимаем под машинным обучением? под машинным обучением мы понимаем некоторое подмножество методов искусственного
7:07
интеллекта. Ээ, и это подмножество, ну, оно определяется примерно таким образом,
7:12
да? То есть это методы, которые позволяют неявно программировать поведение системы при помощи наборов
7:18
каких-либо правил, а, а, которые позволяют нам формировать поведение системы в ходе автоматического процесса
7:26
с примением инструментов математической статистики теории оптимизации. Ну, то есть, проще говоря, вы не в явном
7:34
виде задаёте поведение системы — в виде набора какого-то понятного набора
7:40
правил, а вы используете обучающую среду или какие-то обучающие наборы данных или
7:46
другие процедуры, задействующие методы теории оптимизации, которые позволяют вам создать систему, которая
7:54
будет успешно решать вашу задачу. Хотя, в общем-то, э вы можете даже и не понимать, почему эта система, э, решает
8:01
эту задачу, какими внутренними принципами она руководствуется. Но тем не менее, э, такого рода подходы, э, они
8:09
стали зарождаться ещё в далёкие сороковые годы XX века. Первые машины, которые можно было условно отнести к
8:17
области примитивных систем машинного обучения, они создавались именно тогда. Ну, скажем, гомеостат росса Эшби. Это
8:25
система, разработанная во второй половине сороковых годов. Ну и на начало пятидесятых годов приходится
8:31
довольно большое уже количество систем, которые, в общем, по всем критериям следует относить систему машинного
8:37
обучения. Словом, машинное обучение — это довольно такая заслуженная отрасль искусственного интеллекта. Вот. И
8:44
сегодня большинство сложных систем для решения сложных интеллектуальных задач, безусловно, создаётся при помощи методов
8:51
машинного обучения. Но это не значит, что все, весь искусственный интеллект равен машинному обучению, да? Ну вот, в
8:58
частности, ээ хочу напомнить, что система Deep Blue, в общем-то, не
9:03
использовала методов машинного обучения, тем не менее могла вполне эффективно играть в шахматы
9:10
на сверхчеловеческом уровне. Ну и третие, третий термин нейронные
9:17
сети, которые тоже довольно часто употребляется сейчас, в том числе в
9:22
ненаучной среде. Ну, нейронные сети — это класс математических моделей машинного обучения. А на самом деле
9:30
достаточно широкий класс. Эти модели относятся к так называемым коннекционистским моделям, где, по сути
9:38
дела система создаётся из большого количества простых элементов. Вот. То
9:43
есть под коннекционизмом понимается такое направление в э технологиях и в
9:49
теории алгоритмов, когда э модель состоит из множества достаточно простых
9:54
элементов, которые описываются, поведение каждого из которых описывается при помощи сравнительно простого набора
10:01
правил. Конечно, нейронные сети возникли под впечатлением от биологических нейронных
10:07
сетей. Вот. Но современные, э, нейронные сети, которые
10:12
используются для решения большинства прикладных задач, они довольно слабо похожи на биологические нейронные сети.
10:20
Ну, в общем, точно так же, как, не знаю, наши самолёты не машут крыльями, хотя
10:26
наши аппараты тяжелее воздуха, безусловно, были созданы под впечатлением от каких-то природных объектов, тяжелее
10:33
воздуха, способных летать. Вот. Ну, и вот с нейронными сетями ситуация примерно такая же. Исключения
10:38
составляют, э, отдельный класс нейронных сетей, которые называются импульсные нейронные сети.
10:45
Ну, опять же, некоторые разновидности импульсных нейронных сетей специально используются для решения задач из
10:51
области нейрофизиологии. То есть, если специально ставится задача симуляции работы биологической нейронной сети, то
10:57
есть класс нейронных сетей, который, э, способен моделировать работу
11:02
биологической сети. Но ещё раз подчеркну, в большинстве случаев сегодня прикладном в прикладных областях
11:09
используются нейросетевые модели, которые очень слабо похожи на биологические сети.
11:14
А ещё важное важное определение связано с тем,
11:21
что, ну, в общем, как вы понимаете, понятие искусственного интеллекта очень широкое. Вот. И, ну, в общем-то,
11:29
некоторые интеллектуальные задачи являются примитивными с точки зрения существующих технологий. Ну, скажем,
11:36
задача сложения чисел, она, в общем, тоже в некотором смысле интеллектуальная, потому что мы, ээ,
11:43
решаем её при помощи своего человеческого интеллекта. Другое дело, что с точки зрения технологии эта задача
11:49
тривиальная и решённая э давным-давно. Э то есть первые механические устройства
11:54
для счёта появились в незапамятные времена. А, но понятно, что обычно, рассуждая о
12:02
текущем положении дела области искусственного интеллекта, мы прежде всего интересуемся сложными задачами, то
12:08
есть такими задачами, которые либо были решены относительно недавно, либо ещё пока что не решены при помощи
12:14
технологических методов. Вот. И, ээ, в силу того, что
12:20
сложности и разнообразия интеллектуальных задач достаточно широко, а внутри методов искусственного
12:27
интеллекта, внутри систем искусственного интеллекта можно выделить два таких важных полюса. Ну, первый полюс — это
12:34
полюс — это полюс. Полюс, это прикладные
12:39
системы искусственного интеллекта. Э-э, ну, часто используются термины слабый, э-э, узкий, прикладной искусственный
12:47
интеллект. Э-э, о чём здесь идёт речь? Это системы, которые предназначены для,
12:52
а, решения, как обычно, какой-то одной интеллектуальной задачи или эээ ну вот
12:58
какого-то очень небольшого подмножества интеллектуальных задач. По сути дела, до недавнего времени, э, 100% систем
13:05
искусственного интеллекта относились именно к этому классу. Ну, программа Deepбue и, соответственно,
13:12
компьютер deep Blue может играть только в шахматы. Он не может распознавать котиков на картинках, он не может играть
13:18
в покер. Более того, он не может играть в шахматы на доске 9х9. Всё, что он
13:24
может делать — это играть в стандартные шахматы на доске 8х8. И благодаря вот этой очень жёсткой специализации может
13:31
достигать сверхчеловеческих результатов. А, ну, скажем, в живой природе есть
13:38
организмы, которые обладают гораздо более примитивной нервной системой, чем человеческая нервная система. Но в
13:45
решении отдельных интеллектуальных задач они способны человека превзойти. Например, пчела в улье найдёт
13:51
оптимальный маршрут быстрее и лучше, чем это сделаете вы. Хотя её нервная система состоит всего лишь-навсего из нескольких
13:57
сотен тысяч нейронов, а ваш мозг состоит из примерно 86 млрд нейронов.
14:03
Ну и, в общем-то, до недавнего времени, да, в общем-то, практически до сегодняшнего дня все успехи в области
14:09
искусственного интеллекта, они были подобны ну вот достижениям. Помните, был такой мультик про И басня,
14:16
соответственно, про э скорняка и купца, да, который просил выкроить больших семь
14:22
шапок из одной овцы. Вот. И на самом деле, конечно, ээ все достижения области
14:30
искусственного интеллекта, они вот похожи на вот эти вот шапочки, выкраные из овцы. Почему так? Потому что на самом
14:38
деле парадоксальным образом те люди, которые рассуждали в девяносто седьмом году о том, что значит Блу — это такой
14:47
железный монстр, который гораздо быстрее человека и производительнее человека,
14:52
они на самом деле абсолютно не правы, потому что человеческий мозг — это чрезйно мощная ээ электрохимическая
14:59
вычислительная машина. Э, как я уже говорил, он состоит из примерно 86 млрд
15:05
нейронов. В пике своего развития может насчитывать до триллиона синапсов, то есть
15:11
точек соединения между нейронами. Ну и каждый синапс, как бы это ещё не просто
15:16
точка контакта, да, это довольно хитрое электромеханическое устройство, которое способно трансформировать проходящий
15:23
через него сигнал. Ну и по современным представлениям, представлениям современной нейрофизиологии, для
15:29
моделирования одного синапса нам нужны тысячи бинарных элементов. Ну и скорее
15:34
даже не тысячи, а сотни тысяч. А, конечно, ээ в силу того, что
15:39
человеческий мозг система электрохимическая, у неё действительно есть определённые ограничения по
15:45
скорости работы. Дело в том, что для того, чтобы электрический сигнал, э,
15:51
прошёл через, ээ, синоптическую мембрану, нам нужно протолкнуть ион
15:56
через ионный канал. Ну а проталкивание происходит за счёт разницы потенциалов,
16:02
понятное дело. Вот. Но есть одна проблема. Если разница потенциалов
16:07
достигает 1,27 В, вода начинает разлагаться на водород и кислород. Ну и,
16:13
соответственно, мозг просто-напросто взорвётся, что, в общем, продуктивного мышлению не очень способствует. Вот
16:20
поэтому скорость передачи сигналов между нейронами, она действительно не очень велика по сравнению со скоростью
16:26
передачи сигналов в современной электронной схеме. Но размер этой схемы
16:32
колоссальный, да. И если мы всё-таки посчитаем, какое примерно количество
16:38
бинарных операций мозг в состоянии выполнять в единицу времени, окажется, что, э, ну, он обладает очень большой
16:46
такой бруттовычислительной мощностью, которая пока что не доступна для современных электронных устройств, но и
16:52
тем более не была доступна для электронных устройств с конца девяностых годов. Другое дело, что мы с вами не
16:59
осознаём большую часть процессов, которые происходят внутри мозга, да? Мы смотрим на фотографию и мгновенно
17:06
понимаем, нарисован на ней котик или котика там нету. Вот что при этом происходит внутри нашего мозга, да?
17:12
Какие каскады активации нейронов задействуются при этом, да? Какие спатьотемпоральные карты активации
17:18
нейронов соответствуют понятию котик в нашем мозге? Мы это всё не осознаём. наше сознание — это очень небольшая
17:25
такая саморефлективная часть психики. Вот. И тем не менее мозг, ну вот в таком автоматическом, фоновом режиме выполняет
17:32
огромное количество действий, которые позволяют ему эффективно решать очень сложные
17:37
интеллектуальные задачи, которые пока что не ээ подвластны машинам.
17:44
А, и вот для того, чтобы указать как бы на другую
17:50
крайность, на другой полюс э интеллектуальных систем был введён
17:56
термин общий или универсальный искусственный интеллект. И речь идёт о системах, которые способны решать
18:03
неопределённо широкий круг интеллектуальных задач. Ну, по сути дела, способны решать любые
18:08
интеллектуальные задачи, которые подвластны человеку. И сам этот термин, он появился в 1997
18:16
году в работе Марка Губруда. Мы немножко её сегодня тоже вспомним по ходу
18:22
рассказа. И, в общем-то, существовал он, конечно, исключительно как некий такой
18:28
гипотетический другой конец э во всём множестве интеллектуальных систем. И в
18:34
общем, понятное дело, что в конце девяностых годов, да и в начале дх000чных, э все системы искусственного
18:41
интеллекта, которые создавались, они, конечно, были безнадёжно далеки от той универсальности, которую представлял
18:49
человеческий мозг. А, но тем не менее вот этот термин появился, он стал, ну, в каком-то мере таким указующим маяком,
18:56
что ли, показывающим нам направление потенциального развития технологий. Э,
19:02
то есть действительно, э-э, уже в те годы, да и раньше, люди мечтали о
19:07
создании, э-э, универсальных интеллектуальных систем, которые, э, могли бы решать широкий спектр
19:14
интеллектуальных задач. Ну и опять же, если говорить о задачах,
19:19
которые перед этой областью ставились уже тогда, во второй половине XX века,
19:26
то с самого начала цель развития информационных технологий искусственного
19:32
интеллекта э принималось как расширение возможностей человека. Ну, посудите
19:39
сами, для человека это очень естественный способ адаптации. У нас
19:44
нету с вами острых когтей и ээ клыков,
19:49
но мы создаём ножи, вилки, пики и так далее. У нас нету с вами толстой шкуры, густого меха, но мы создаём одежду. Вот.
19:57
Ну а э наш биологический интеллект ээ подвержен ряду ограничений. Вот. И в
20:04
этом смысле нам тоже нужны инструменты, которые бы раздвигали границы возможностей для человечества.
20:10
А, и вот если посмотреть рассуждение исследователей во второй половине XX
20:17
века, э, то можно заметить, что вот этот вот эта миссия развития технологий
20:24
искусственного интеллекта, она была сформулирована достаточно хорошо уже тогда. То есть вот, например, Дуглас
20:29
Ингельбарт. Кто из вас знает, кто такой Дуглас Ингельбарт? Поднимите
20:35
руку. Слышал кто-нибудь? Никто не слышал. А вот есть один человек вот. Ну,
20:40
вообще про Дугласа Энгельбарта обычно пишут, что это изобретатель компьютерной мыши. Вот. Ну, это, конечно, здорово.
20:48
Компьютерная мышь — это классно. Вот. Но на самом деле Доглас Ангельбарт изобрёл
20:53
очень много чего. И Дуглас Ангельбарт по сути дела, заложил концептуальную основу
20:59
всех современных, э, человеко-компьютерных интерфейсов.
21:04
Ещё в начале шестидесятых годов он написал работу, ээ, посвящённую концептуальному
21:10
фреймворку взаимодействия человека и машины и ээ направленного на решение
21:15
сдачи усиления человеческого интеллекта. И вот сегодня, когда мы пользуемся там
21:21
персональным компьютером, у нас есть окошки, в которых открываются разные
21:26
документы. Э в этих окошках, значит, содержится какая-то мультимодальная информация, изображения, тексты. Мы
21:32
можем текст выделять, скопировать из одного окошка в другое, вырезать, вставить и так далее. Вот все вот эти
21:39
операции, они были придуманы именно тогда. И Дуглас Энгельбарт вот заложил основу, по сути дела, современных
21:46
интерфейсов взаимодействия человека и машины. А и ээ второй человек — это
21:52
Фредкин, недавно ушедший от нас, тоже знаменитый специалист в области
21:58
информатики. Вот мне очень нравится его такое романтическое отношение к развитию технологии искусственного интеллекта. Он
22:04
писал, что как партнёры с интеллектуальными системами, которые дополняют и компенсируют наши исправимые
22:10
недостатки и в полной мере используют присущую нам креативность, мы могли бы развивать все области науки и искусства.
22:17
И, имея вычислительные крылья, мы могли бы взлететь навстречу Феникс.
22:26
Ну, о каких барьерах человеческого разума, которые мы хотим раздвинуть, идёт речь? Очень быстро пробежимся по
22:32
этому списку. Он отнюдь не полный, но, мне кажется, даёт представление о том, чего мы хотим от технологии
22:38
искусственного интеллекта. Ну, первая скорость, да, как я уже говорил, в силу
22:44
того, что мозг основан на мокрых вычислениях, да, как иногда шутят,
22:49
используя терминware в отношении биологических нейронных сетей, люди действительно
22:55
иногда недостаточно быстры, и нам нужно принимать очень быстро определённые решения, решать какие-то
23:02
интеллектуальные задачи с огромной скоростью. И здесь нам не обойтись без соответствующих помощников.
23:08
надёжность. Во многих технологических процессах люди являются наиболее ненадёжным звеном. Если кто-то из вас
23:16
давал кому-то деньги в долг, знает, что люди, в общем, не всегда надёжны. Вот,
23:21
значит, ну, иногда нам нужно повысить надёжность каких-то процессов, и это можно сделать путём исключения из них
23:28
человека. Ограниченный параллелизм в обработке информации. Вообще, люди не очень хорошо справляются с параллельным
23:35
решением интеллектуальных задач. Если мы одновременно решаем несколько интеллектуальных задач, то эффективность
23:41
решения каждой из этих задач довольно быстро падает. Коммуникативное ограничения. Ну, собственно, речь идёт о
23:47
пропускной способности сенсорной коры человеческого мозга. К сожалению, мы, например, не можем одновременно на одном
23:53
экране смотреть 10 сериалов. Хотя, наверное, можно было бы получать в 10
23:58
раз больше удовольствия, да. Вот. Но, к сожалению или к счастью, сенсорная кора
24:05
э ограничена. И, соответственно, если нужно опять же за ограниченное время проанализировать огромные потоки
24:12
информации, не всегда э люди способны с этим справиться из-за имеющихся
24:18
ограничений. Барьеры физической хрупкости. Люди вообще довольно хрупкие существа. Мы живём в очень узком
24:24
диапазоне температур, в очень узком диапазоне ускорений. Нам нужна определённая концентрация
24:31
кислорода, ну и так далее, и так далее. Очень много, что нас убивает. Вообще, если мы посмотрим на нашу вселенную, то,
24:37
не знаю, 99, и 9999 и много девяток процентов её мест
24:44
составляют места, в которых мы с вами не можем существовать. Вот. И в этом смысле, если мы претендуем на, э, ну,
24:51
какой-то, значит, выход из колыбели, э, человечества, то, ээ, нам, конечно,
24:57
нужны здесь какие-то инструменты, которые позволят принимать, э, интеллектуальные решения в агрессивных
25:05
средах. Порок сложности анализируемых систем. Ну, как шутят известный
25:11
информатик СССР и Дальга, способность человека понимать какую-то сложную систему, ограниченно одним чилобайтом.
25:18
Вот. Ну вот если система вмеща её сложность помещается в этот челобайт человеческого понимания, то тогда мы
25:25
способны, в общем, ну, как-то без потерь моделировать её поведение в своей голове. Но как только система становится
25:31
сложнее, нам приходится прибегать каким-то упрощением. А, и, в общем, мы
25:36
начинаем допускать какие-то непростительные ошибки. И дело в том, что многие системы, с
25:42
которыми мы в природе сталкиваемся, они действительно явно превосходят этот самый челобайт понимания. Ну, например,
25:49
живые организмы, биологические системы. Если взять карту всех известных нам биохимических
25:56
путей человеческом организме, распечатать её в виде плаката, то этот плакат займёт вот всю эту стену. И всё
26:03
равно самые мелкие надписи на нём будут там вторым, третьим э шрифтом написаны.
26:10
И очевидно, что в голову одного человека, даже совершенно гениального, вся эта информация вместиться не может.
26:16
Вот. Ну а понятно, что люди делают, люди создают человеческие коллективы научные,
26:22
например, для постижения таких сложных систем. Но, э, как бы научные коллективы
26:28
тоже обладают определёнными ограничениями, потому что с ростом размером коллектива растёт быстро
26:34
количество коммуникаций, растёт количество потерь при обработке информации и так далее. А ограниченность
26:40
памяти? Ну, здесь, в общем, всё примерно понятно. Одни из первых инструментов
26:46
расширения возможности человеческого разума были связаны именно с расширением человеческой памяти за счёт
26:51
письменности, например. Ограничены экспертные навыки и знания. Ну, здесь, в общем, всё понятно. Все мы не можем быть
26:58
экспертами во всём. А барьеры мотивации. Не все интеллектуальные задачи мы, вообще-то, с вами хотим решать. Не все
27:06
задачи нам решать нравятся, хотя решать их нужно. Вот. И мы с большой радостью хотели бы
27:12
некоторые задачи передоверить кому-то другому. Ну и последнее, но не наименее значимое, это барьеры масштабирования.
27:21
Ну то есть, скажем, если вам завтра вдруг нужен срочно кол-центр с 10.000 операторов, вы не можете быстро нанять
27:27
10.000 операторов, обучить их, а послезавтра, когда вам этот кул-центр больше не нужен, вы не можете его просто
27:33
так закрыть и уволить всех этих людей. Вот. Но вы можете сделать то же самое с,
27:39
ну, какими-нибудь виртуальными, э, серверами, да, на которых вы запустите
27:44
там автоматизированных операторов, ээ, запустите 10.000 автоматизированных
27:50
операторов, на следующий день потушите эти сервера и всё. А вот, то есть, некоторые процессы, они требуют
27:56
возможности такого быстрого масштабирования и репликации. С людьми это не всегда можно сделать. Так,
28:04
маленькая маленький интерактивчик. Вот три предмета нарисованы здесь. Как вы
28:10
думаете, что их объединяет? Да, это а каменный, бронзовый, железный век,
28:19
да. Вот в начале X века возникла такая
28:24
картина человеческой истории, в которой человечество последовательно проходило
28:29
через такие периоды существования, в ходе которых подчиняла своей воли, э,
28:35
определённые субстанции, да, создавала технологию, основанную на вот этих
28:41
материалах, да, в начале человечество подчинило своей воле камень и создавало каменное орудие.
28:48
Потом наступил бронзовый век, потом железный век. Вот. Ну и, наконец-то, был
28:54
построен столетейный завод во Франкфурте на Майне, который, безусловно, является
29:00
вершиной развития человеческой цивилизации. Ну, понятно, что это ирония. И вообще вот эта картина, она
29:07
гораздо больше говорит не столько об истории человечества, сколько о том обществе, в котором эта картина
29:13
появилась. Вот. Потому что, ну, пока историкам платил папа Римский, в книгах
29:19
по истории всё обычно начиналось с райского сада, где жили Адам и Ева. Э, и
29:25
далее по тексту. Но когда в начале XIX века за дело взялись крупные
29:31
промышленники, третье сословие, да, то возникла вот такая версия истории, где,
29:37
ээ, ну вот самыми главными революционными изменениями в истории человечества была смена э
29:44
технологического уклада. А, но мы с вами живём в XXI веке. Если мы посмотрим, э,
29:51
значит, в топ компаний мировых по капитализации, то мы там не найдём сейчас сталелитейных заводов. Мы найдём
30:00
там, скорее всего, компании, бизнес которых связан с информационными технологиями, так или иначе, э,
30:06
Microsoft, Apple, Google. А, и в этом смысле мы можем, следуя традиции XIX
30:14
века, просто взять и снова переизобрести человеческую историю. Да. Ну почему вот мы решили, что именно вот эти
30:20
революционные изменения были наиболее важными и критичными в истории человечества? Вот смотрите, другой
30:26
вариант истории. В начале человечество использовало для обработки информации
30:32
исключительно устную речь. И мы жили все в эру устной речи.
30:38
Ну вот этот устный век, мы на самом деле уже довольно серьёзно возвысились над
30:43
животным царством, потому что, конечно, система сигналов полноценная такая, которая существует у
30:49
людей, гораздо сложнее любой сигнальной системы у животных. Вот. Но, ээ,
30:55
следующая важная революция — это появление письменности. Ну, теперь вот
31:00
бабушка умерла, а рецептики пирога остались, и можно теперь пирог печь даже
31:06
после её смерти. Вот ещё можно и соседу передать рецептик, да? А сосед ещё
31:11
своему соседу передаст. Вот. И таким образом информация распространяется гораздо более эффективно, да. Вы можете
31:17
написать целое письмо, трактат, отправить его с гонцом за сотни
31:22
километров, да, где люди ээ значит освоят знания, опираясь на вот эту вот
31:29
этот письменный текст. А, и в общем это довольно революционные изменения, и вряд
31:34
ли можно представить себе развитие ремёсел, ээ, торговли городов без
31:41
письменности. Да, мы знаем, что, э, письменность, э, играла очень важную
31:47
роль в становлении технологического уклада. Ну, следующая революция в обработке информации — это книго
31:53
печатания. Книгопечатание в десятки тысяч раз сократило затраты на тиражирование
31:59
информации. То есть копия книги, изготовленная при помощи печатного пресса, стоила примерно
32:06
в 10.000 раз меньше, чем копия, э, созданная монахами-переписчиками. Соответственно,
32:12
это снова радикальным образом увеличило доступность информации, повысила эффективность её передачи между людьми.
32:21
А следующая важная революция — это интернет, да, и в принципе, ээ электронная копия, опять же, во много
32:28
раз дешевле, чем копия бумажная. И ээ сегодня, как вы понимаете, благодаря
32:34
интернету мы имеем гораздо более простой доступ к огромному количеству
32:41
оцифрованной информации. Вам не нужно ехать за какими-нибудь
32:46
бумажными документами в другой город, да, в какую-то библиотеку, чтобы найти
32:52
какой-то текст, да, если этот текст уже выложен в интернете, доступен вам. А в общем, не нужно делать ничего, не нужно
32:58
даже отрывать э нижнюю часть спины от кресла. Вот. Ну, э и, кажется, мы с вами
33:05
находимся внутри следующего важного революционного изменения в информационном метаболизме общества. А
33:12
это изменения, связанные с появлением технологий генеративного искусственного интеллекта. Почему
33:18
это тоже революционные изменения? Ну вот в пике развития, да, мы можем
33:24
представить себе сейчас, э, посмотрев на такие инструменты, как там чат GPT и так
33:31
далее. Ну, в общем, в них мы уже видим контур ближайшего будущего, в котором у нас
33:37
будет инструмент, который по нашему запросу, ну, будет создавать, по сути
33:42
дела, книгу, текст, статью, обобщающую ту информацию, которая содержится в цифровом следе
33:49
человечества. Да, я хочу монографию про гранёный стакан. Да, и машина за меня
33:55
перелопатит огромное количество оцифрованной информации. Все книги, написанные людьми, все статьи, все
34:02
записи на форумах, в социальных сетях, соберёт всю, э, информацию, посвящённую гранённым стаканам, систематизирует её,
34:09
приведёт её к форме, которая нужна мне, э, ещё и, э, сделает этот текст
34:15
подходящим именно для меня, опираясь на свои знания о моих
34:20
предпочтениях. Вот. И по сути дела, на создание новой книги, нового
34:27
индивидуализированного и, э, так, э, специализированного текста будут уходить
34:34
секунды или минуты вместо, ну, там довольно длительного периода времени,
34:40
которое бы на такую же операцию потратили бы люди, которым пришлось перешерстить огромное количество
34:46
документов вручную выполнить всю эту суммаризацию, систематизацию и так далее, да.
34:52
И, ну, по сути дела, такие сервисы доступные в недавнем времени были только
34:59
сильным мира сего, у которых были референты, которые могли вручную собирать, систематизировать информацию,
35:06
но и то их возможности были весьма ограничены, да. То есть, в общем-то, мы
35:11
с вами вступаем в общество, в котором, опять же, обработка информации будет
35:16
происходить новым революционным способом.
35:24
Ну, ээ, упомянули, упомянул я сегодня термин AGI. И я думаю, что многие из вас, ээ, в
35:34
прессе замечают множество рассуждений на тему того, а когда же мы создадим тот самый
35:41
универсальный или общий искусственный интеллект, то есть систему, которая будет способна решать любые
35:47
интеллектуальные задачи, которые решает человек. А, ну
35:52
вот тут есть некоторый такой важный момент, который нужно не выпускать из
35:59
головы, когда вы читаете очередные громкие заявления на эту тему. А, ну вот
36:06
как определяется AI, да, вот определение Губруда,
36:12
которое было дано им в статье нанотехнологии международная безопасность, оно вот такое вот сложное,
36:19
да, под продвинутым универсальным искусственным интеллектом. Я понимаю систему искусственного интеллект, способны сопернизить человеческим мозгом
36:26
или превосходить его в сложность скорости, которая способна получать общие сведения, манипулировать ими,
36:31
выстраивать рассуждения, которые могут использоваться по сути в любой фазе индустриальных или военных операций, в
36:37
который был бы необходим человеческий интеллект. Но специфика ещё этого определения, она проистекает из тематики
36:44
работы Губруда, да? Потому что это, в общем, ну, такая работа, посвящённая,
36:50
значит, тому, как, значит, вот нанотехнологии повлияют на международную
36:55
безопасность. А, но ээ сегодня в большинстве источников вы найдёте вот такое более простое определение
37:03
универсального искусственного интеллекта, которое на самом деле сложилось в начале дх000чных годов уже.
37:09
Ну вот вот это, по-моему, определение, которое в Википедии есть и которое
37:14
взято на самом деле из, ну, кто знает, то то ли взято из Википедии Джеймсом
37:21
Селигманом, да, то ли наоборот авторы Википедии взяли у
37:27
Селигмана это определение, но тем не менее это вот типичное такое определение из начала дсячных годов. искусственный
37:34
интеллект, способный успешно выполнить любую интеллектуальную задачу, посильную для
37:39
человека. А, но если мы посмотрим на это
37:46
определение более внимательно, у нас и возникнут некоторые вопросы. Почему? Ну,
37:52
а в девяносто седьмом году, когда мы были безнадёжно далеки от создания универсальных систем искусственного
37:58
интеллекта, а было простительно иметь ээ ну такое, скажем, определение, которое
38:04
на самом деле недоопределено, да? А потому что, ну, тогда это были системы
38:10
гипотетические, да? Сегодня же, когда, э, уровень универсальности системы искусственного интеллекта довольно
38:15
быстро растёт, а нам, ну, как-то нужно определить, а создали ли мы тот самый
38:21
HGI или не создали, да? А, и вот как только мы собираемся превратить это определение в конкретную процедуру, в
38:28
конкретный критерий, нам сразу же бросается в глаза вот эта неполнота
38:33
этого определения. Ну, то есть искусственный интеллект, способный успешно выполнить любую интеллектуальную задачу, посильную для человека. для
38:40
какого человека? Люди вообще очень разные, да? И, э-э, значит, набор интеллектуальных задач, которые человек
38:46
может решать от индивида к индивиду, разнится очень сильно. Должны ли мы опираться на, э, среднего человека, да,
38:54
среднестатистического в качестве эталона или, может быть, на уровень экспертов?
39:00
Опять же, кто такие эксперты, да? Каким образом? Мы их как какой-то квартиль определим, да, от всей от всей популяции
39:06
или как? Или, может быть, ну вот есть какая-то задача, которую во всём мире может
39:11
решить только один человек, да? И пока ещё остаётся хоть одна такая задача, которую человек решить может, а машины
39:18
нет, мы не создали. А, ну второе, ээ решить
39:24
интеллектуальные задачи хорошо, но в рамках какого лимита ресурсного, да? То
39:29
есть ээ сколько нам нужно энергии, времени
39:35
для того, чтобы решить задачу? Ну, например, очень легко написать программу, которая будет находить
39:40
сильнейший ход в шахматах путём полного перебора дерева вариантов. Ну, как бы и
39:45
она гарантированно будет вам находить сильнейший ход. Но проблема
39:50
будет заключаться в том, что на поиск этого сильнейшего хода у неё уйдут там
39:56
миллионы, миллиарды лет, да, для того, чтобы перебрать полное дерево вариантов в шахматной игре. Очевидно, что, э, эта
40:05
система способна решить задачу с поиском, э, лучшего хода. Но какой
40:11
ценой? Вот и будем ли мы считать универсальным искусственным интеллектом
40:17
систему, которая, ну, в общем, будет решать любые задачи, которые способен решать человек, но при этом будет
40:23
расходовать на это гораздо больше энергии, времени и так далее.
40:29
Опять же, что значит успешно выполнить любую интеллектуальную задачу? Ну, как
40:36
определяются критерии этой успешности? Вот. Потому что многие интеллектуальные задачи, вообще говоря, не имеют чётких
40:43
критериев успеха. Ну, например, задачи генеративные, творческие. Вот мы
40:48
сочиняем стихотворение, сочиняем, рисуем картину и так далее. Успешно ли машина
40:54
справилась с этой задачей, да? Э, ну, кто знает, да? Может быть, можно решить её лучше. Может быть, есть какие-то
41:00
люди, которые напишут более гениальное произведение, нарисуют более гениальную картину. А важны именно 100% всех задач,
41:08
да? Но есть какое-то количество задач, которые не имеют практической ценности, да? Может быть, ээ всё-таки с
41:16
практической точки зрения нам лучше как-то ограничить э подножество задач,
41:22
которые мы хотим решать, да? И, э, с практической точки зрения нас будут интересовать вот эти задачи, но не будет
41:28
интересовать интересовать какой-то длинный хвост, э, задач, ну, которые носят спекулятивный характер. Ну и в
41:35
конце концов, как устраивать проверку, как должен быть устроен сам протокол такого тестирования, в ходе которого мы
41:42
признаем прохождение системой теста. э ну сколько, какому
41:48
количеству испытаний мы должны её подвергнуть, в течение какого времени должны быть быть какие-то лимиты, должны
41:54
ли быть какие-то ограничения по квалификации судей, которые выносят своё решение и так далее. А и в общем э вот
42:02
эта недоопределённость термина Aжаi, она приводит к э ну к чему, да? Ну, к тому, что,
42:10
э-э, значит, все понимают, что очень здорово заявить
42:17
о том, что мы создали AGI, да, для какого-нибудь Open AI или для Гугла, или
42:23
для Антропика, э, заявление о том, что им первым удалось создать HGI, тут же
42:29
увеличит капитализацию этих компаний, да, вот и будет определять их
42:35
бизнес-успех. Вот. Ээ, поэтому, значит, вот эти проблемы
42:41
определения AGI, они приводят к тому, ну, и как бы давление большое со стороны пиара, маркетинга, они приводят к тому,
42:48
что, э, крупные исследовательские лаборатории сейчас становятся на шаткую дорожку ээ создания собственных
42:56
определений универсального искусственного интеллекта. Вот. И если вы посмотрите публикации за последний
43:01
год, то, э, представители крупных и лабораторий, значит, ну, кто только не
43:07
выступал со своими определениями AI, которые, э, ну, в общем, так или иначе
43:12
представляют собой какое-то доопределение исходного термина. Вот. Ну, а иногда даже, ээ, ну, вот такие
43:20
вещи происходят. Вот. Мы, честно говоря, очень долго смеялись,
43:26
когда узнали о том, что, ээ, Open Microsof в двадцать третьем году
43:32
согласовали конкретное определение искусственного искусственного общего интеллекта AI. Система будет считаться
43:38
достигшей уровня AGI, когда сможет генерировать прибыль не менее 100 млрд долларов. Вот. Ну, то есть такое
43:45
капиталистическое определение, вот не от свойств созданной системы, да, от того экономического
43:52
эффекта, который эта система может оказать. Ну, who knows, да? У меня единственная претензия здесь. Зачем
43:58
называть это HGI? Да, добавьте к этому AI какую-нибудь буковку. Вот. И
44:04
определяйте сколько угодно. Но понятное дело, что так не хочется делать, да? То есть, если это уже, ну, как бы AI с
44:10
какой-то буковкой, то это вроде как бы и не совсем HI, да, и такого громкого PR-эффекта не будет. Но так или иначе, в
44:18
ближайшие годы мы услышим очень много заявлений о том, что AGI создан. Вот. Ну
44:24
и, в общем, нужно будет смотреть очень внимательно, а что именно на самом деле создано, да, какими свойствами на самом
44:31
деле обладают эти, э, системы.
44:36
А, ну и в целом, конечно, значит, мир он как-то вот сейчас
44:44
вырисовывается примерно таким, да. Мм, кажется, что если технологии машинного обучения,
44:51
воплощённые в больших языковых моделях, будут развиваться дальше, да, то нас ждёт вот, ну, какое-то такое вот
44:58
прекрасное будущее, да, где, ээ, значит, самые разные задачи из разных областей
45:04
будут решаться при помощи больших моделей, э, ну, языковых или
45:12
мультимодальных, да. Ну и в общем, понятное дело, кто будет бенефициаром
45:17
этой истории. Так, ну теперь переходим уже
45:24
непосредственно к конкретике, а что произошло за прошедший год в этой
45:29
области. Э, значит, ну вот, ээ, такой тоже не претендующий на
45:35
полноту список важных трендов и событий прошедшего года. А мы сейчас
45:42
потихонечку по этому списку с вами
45:47
пройдём. Так, ну, ээ, мультимодальность, один из важнейших трендов
45:53
развития больших фундаментальных, больших языковых моделей, а это
45:59
мультимодальность. Ну, ээ, что такое мультимодальность, да? Вот, э, ээ, ну,
46:05
для того, чтобы понять, что такое мультимодальность, нужно понять, что такое модальность. Интуитивно вроде бы понятно, да? То есть когда вам говорят
46:11
вот, ну, модальности — это, э, текст, картинки, аудио, видео, да, вот. Но на
46:21
самом деле тут с этим списком есть некоторое горе теоретическое, потому что сам по себе термин модальность, он был,
46:28
э, в общем, позаимствован у как как водится у психологов. Вот вообще много
46:34
много что в область глубокого обучения перекочевало из психологии. Вот. Ну и
46:41
изначально термин, который использовался психологами, он звучал как модальность раздражителя.
46:48
Вот. И он обозначал, э, что какой-то раздражитель относится, воспринимается
46:54
какой-то сенсорной системой человека, да? То есть вот есть зрительный раздражитель, да?
47:00
Значит, он действует на зрительную систему человека, поэтому это зрительная модальность, да? Значит, ну вот есть
47:07
слуховой, да, звуковой раздражитель, ну и так далее, да? То есть список модальностей в психологии, он привязан
47:14
чётко к набору сенсорных систем человека. Вот. Ну, ээ, тут как только мы
47:21
начинаем говорить о текстовой модальности, встаёт вопрос: а где та сенсорная система у человека, которая
47:26
воспринимает текст? Но очевидно, что мы текст с вами воспринимаем через разные
47:32
модальности, да? То есть мы можем этот текст прочитать на бумаге, да, при помощи глаз мы можем текст услышать, да,
47:39
в звуковом канале. Вот. И вообще говоря
47:44
текстовая модальность — это уже очень странно с точки зрения психологии. Вот.
47:50
Но, э, если вы почитаете современные работы по машинному обучению, то вы там
47:55
найдёте не только текстовую модальность, вы там найдёте, например, кодовую модальность, да? То есть оказывается
48:02
программный код — это тоже отдельная модальность. Вот. Ну, и вообще модальностью стали называть, что попало,
48:08
да, и по сути дела разные представления данных, отнесение данных к, э, разным,
48:14
опять же, исполнительным системам. Но в какой-то мере это может быть оправдано, потому что набор сенсорных систем
48:20
машины, в общем, совершенно не обязан быть таким же, как у человека. Вот. Но в
48:25
целом важно понимать, что какого-то чёткого определения модальности вы не
48:31
найдёте в современной науке, хотя этот термин используется очень широко. Вот поэтому нам с вами, видимо, придётся на
48:37
какое-то время смириться с тем, что у нас вот есть просто такой список, да, что у нас вот есть изображения, есть
48:44
звуки, есть видео. Есть, ну, не знаю, банковские транзакции, данные
48:49
каких-то сенсоров, которые мы подключаем к машинам, действия, да, почему нет? Э
48:55
какие-то управляющие команды для исполняющего устройства, но тоже можно назвать определённой модальностью. Вот.
49:03
Ну, так или иначе, это некоторые разные представления данных и некоторая специализация использования этих данных.
49:10
Вот. Но, э, так или иначе, когда мы говорим о том, что большие языковые модели становятся мультимодальными
49:16
большими языковыми моделями, что тоже, кстати, нонсенс, потому что, ну, вообще говоря, языковыми моделями ээ на
49:23
протяжении всей истории статистической лингвистики называли модели, которые способны предсказывать распределение, э,
49:31
ну, вероятности распределения слов. Вот. Но современные языковые модели,
49:37
во-первых, не предсказывают вероятности распределения слов. Они предсказывают вероятность распределения токенов, э,
49:43
которые, в общем, совершенно не обязательно являются словами, могут являться частями слов, могут, э,
49:49
являться словосочетаниями. Вот. Ну, а во-вторых,
49:55
значит, ну, есть модели, которые работают не только,
50:00
очевидно, с естественным языком, а, например, с изображениями, да, их всё ещё по инерции называют большими
50:06
языковыми моделями, хотя, в общем, ну, они языковыми уже являются постольку поскольку. Вот. Ну, ээ, вот появился
50:13
такой очень странный термин мультимодальные языковые, большие языковые модели, да, всё-таки
50:19
мультимодальные или языковые, но вот, к сожалению, тоже специфика
50:24
быстроразвивающейся отрасли, в которой не всё хорошо с точки зрения терминологии. Обычно под
50:30
мультимодальными большими языковыми моделями мы понимаем модели, которые способны моделировать статистические
50:35
распределения в мультимодальных последовательностях данных, да, то есть последовательностях, которые включают в
50:41
себя элементы как текста, так и изображений, так и, возможно, звуков,
50:47
ну, и так далее, и так далее, других модальностей. Вот. Э-э, ну и, конечно, всем хотелось бы вот
50:54
такое, да. Всем бы хотелось, чтобы э наши модели вообще были такими модальными, чтобы мы могли им на вход
51:01
подать вообще любую смесь модальности. Какая разница? И текст, и в него вставленные
51:06
картинки, и вставлены в него звуки, видео, что угодно. Да, и на выходе модель тоже нам может выдавать
51:13
произвольную смесь модальностей. Ну вот как мы с вами привыкли общаться с людьми, например, через мессенджеры, да,
51:21
можем ведь туда отправить что угодно, по сути дела, любой файлик, а и звуковое
51:28
сообщение, и картинку послать, и ссылку на что-нибудь. Вот. Но
51:33
создание таких моделей сопряжено с определёнными сложностями. с определёнными сложностями, главным
51:39
образом связанными с инженерными ограничениями, алгоритмическими ограничениями, э, трансформерных
51:46
моделей, потому что, э, вообще говоря, основой современных
51:51
трансформерных нейросетей является так называемый блок внимания. Вот. И, э,
51:57
сложность, его вычислительная сложность квадратична, да? То есть количество операций, которые нам нужно выполнить
52:04
для вычисления активации на выходе. блока внимания и количество памяти, которое
52:11
нам необходимо задействовать в этой операции, оно растёт как квадратичная
52:17
функция от длины контекста. Вот. И, конечно, когда мы начинаем работать с
52:22
данными разных модальностей, например, с изображениями или со звуком, э ну это
52:27
очень сильно способно удлинить контекст модели, да? То есть, если мы возьмём звуковой файл, да, и каждый, э, ээ,
52:37
элемент времени, там кая частота дискретизации этого звука, 44 кГц, например, да, значит,
52:43
44.000 фрагментиков, э, в секунду. Вот.
52:48
Соответственно, ну, это довольно много, да? То есть 1 секунда у нас будет 44.000
52:53
токенов занимать, если мы на одну частоту будем один токен выделять. А, ну и в общем проблема в том, что добавление
53:00
мультимодальных данных, оно очень сильно будет удлинять контекст модели. Вот. И, соответственно, понижать эффективность
53:06
работы с этими данными, потому что, э, ну, там с како с какой-то длины контекста полное внимание оказывается
53:13
невычислимым, нам придётся его на какое-то разреженное внимание заменять так или иначе. Ну и дальше будет
53:19
деградировать эффективность работы этой модели. Поэтому в целом задача создания
53:24
полностью амнемодальных моделей, она сложная с андирженерной точки зрения. Нужно много всяких изобретать костылей
53:30
для того, чтобы это работало. Вот. Но тем не менее движение в этом направлении оно идёт. И модели, которые объединяют
53:37
несколько модальностей в своей работе, таких моделей за последние годы и за
53:42
последний год, в частности, было создано довольно много. Ну вот, например, если мы посмотрим на модели, способные
53:49
работать одновременно с текстом и с аудиофайлами, ну вот какой-то список, тоже не претендующий на полноту, но
53:56
какие-то крупные проекты в этой области, начиная там с Audio Palm, Speed GPT,
54:04
Квиндио Селмана двадцать третьего года. И вот мы видим, что за
54:09
двадцать четвёртый год список таких моделей, он более чем удвоился. То есть появилась GPT4 омни, которая, кстати
54:17
говоря, объединяет сразу звуковую и картиночную модальность, скажем так.
54:24
Ну и вот какие-то другие проекты, типа там Buba GPT, КН 2 Aудио появился, Lora
54:30
GPT, Visper GPT. Вот работа буквально э декабрьская уже. А, ну вот
54:36
пример работы таких моделей, да? То есть вот чатик, да, мы в него отправляем аудиофайл, э, задаём какие-то вопросы по
54:43
этому аудио, и моделька, ээ, ну, в общем, описывает это аудио словами,
54:50
способна отвечать на разные вопросы в отношении этого аудио и так
54:56
далее. А, ну вот с картинками, с картинками всё ещё веселее, потому что,
55:01
ну, ээ, это ещё более востребованная модальность. Моделей таких очень много.
55:07
Вот опять же тут список какой-то не претендующий на полноту, но вот начиная с
55:13
видите, как бы год назад, по сути дела, ну 2 года назад
55:19
таких моделей, способных работать одновременно с картинками и текстом, ну практически не было, да, в режиме
55:25
инструктивной генерации не было и вовсе, да, первые модели появились в двадцать третьем году. Ромаш, космос, а, космос
55:33

Вот, ээ, опять же, видите, что список там удвоился за прошедший год. А вот
55:40
появились действительно мощные инструменты, способные решать широкий спектр задач
55:47
сразу с текстами и с изображениями. Вот. Ну вот, в частности,
55:52
и наша тоже исследовательская команда выпустила Prodдаction Gigchat Vision -э
55:58
в прошедшем году. Ну вот как раз здесь пример работы Gigachat Vision, да, где
56:03
мы решили, значит, какую-то такую задачку посложнее задать. Вот. Ну и вот видно,
56:09
что моделька, э, справляется э с описанием такого
56:15
изображения. Но надо сказать, что наиболее продвинутые модели, работающие сейчас в картиночной модальности и
56:21
текстовой, способны более-менее эффективно распознавать текст, написанный на картинке, причём в том
56:26
числе и рукописный. А вот и в общем, ну, распознавать какие-то нетривиальные
56:33
образы, изображения, строить какие-то рассуждения в отношении этих
56:38
изображений, что, в общем, конечно, ээ очень полезно. В принципе, ээ, есть
56:46
классные демки, в которых, ээ, значит, показывают, как девушка ремонтирует, ээ,
56:53
двигатель своего автомобиля при помощи такой модельки, да, наводя камеру на
56:58
разные, ээ, значит, части разные части внутреннего механизма
57:05
машины, да, того, что находится под капотом, получая, в общем, вполне себе
57:10
разумные ответы о том, что перед ней, что надо надо сделать для того, чтобы решить ту проблему, которая у неё
57:17
возникла. Вот, в общем, в целом в современных моделях этого класса можно
57:22
распознать, ну, в общем, очень много интересных таких и полезных применений.
57:28
Как насчёт дистан, который вызорвал тес около траптала? Не знаю, не знаком с ним. Да, сейчас.
57:36
Ну, видите, как бы мы во всём виноваты. Вот. Значит, ну, генерация
57:43
видео, опять же, все помнят Уилла Смита, который кушает спагетти, да, все эти
57:49
кринжовые видосы двухлетней давности, полуторалетней давности. Опять же, прогресс в области генерации видео, он
57:57
огромный. Вот, ээ, значит, ну, это вот какие-то там более-менее современные модельки. Так, а почему у меня у меня же
58:05
этот должен же тоже, короче, только один видосик почему-то
58:11
проигрывается. Почему так Норозов не гладит котика? Безобразие. Сейчас назад.
58:21
О, вот включилсь. А вот, ну, то есть вы можете
58:26
генерировать в современных модельках видео и по тексту описанию, используя какие-то
58:32
стартовые кадры. Иногда можете использовать стартовые кадры конечные и, соответственно, интерполировать
58:38
промежуточные кадры между ними, опять же, в соответствии с текстовым описанием. В общем, возможности генеративных видеомоделей, они очень
58:45
серьёзно выросли. Я вот год назад, э, читал здесь лекцию об итогах двадцать
58:50
третьего года. И тогда значит, ну вот всё, что у нас было, это, э, ссора,
58:57
которая, в общем, была, но в то же время не была доступна никому, кроме избранных
59:03
пользователей, да. И, э, значит, в самом конце двадцать третьего года я успел
59:10
захватить модельку LUM. Вот, э, которая, в общем, на тот момент там показывала
59:16
качество почти такое же, как в черепигнутых виде отсоры. Вот. Ну, э, мы
59:21
видим, конечно, за двадцать четвёртый год огромное количество таких новых
59:26
генераторов видео возникло. Ну, и мы тоже тут небольшую лепту свою внесли, выпустив кандинский 4.0, вот, который
59:34
тоже умеет видео генерировать. Ну, может быть, там не самая топовая моделька, но,
59:39
в принципе, э в числе в топ-10
59:44
входит генерация музыки и пения, да, новые технологии, которые с нами тоже
59:50
вот всего полтора года. Ээ вот вдруг кто-то из вас ещё не в курсе, что такое
59:57
можно делать? Можно генерировать музыку и пение. Вот, э, значит ну, последствия
1:00:04
мы уже видим, да. на всех видеоплатформах многочисленные каверы песни Говновоз.
1:00:11
Вот. Ну, я уж не буду, извините, ставить тут, но если кто-то из вас ещё не в курсе, то обязательно
1:00:19
загуглите. Вот. Опять же, значит, ну, конкретно у нас это превратилось в
1:00:25
проект Simформе X, и вы сейчас можете использовать в гигачате генерацию
1:00:32
песен, точно также либо по вашему тексту, либо по тексту, который который для вас сочинит моделька. Вот. Ну и она
1:00:39
же сочинит музыку, и она же испоёт вам. И, в общем, вы можете делать свои каверы
1:00:45
говновозов, вот, и чего угодно.
1:00:51
Так, ну вот даже это есть QR-код, можете им
1:00:57
воспользоваться. Вот. Ну, то есть там такой очень простой ээ этот
1:01:02
самый простой интерфейсик, да, в которой в котором вы либо вводите сами текст, либо просите
1:01:10
модельку его вам сочинить, да, и а дальше, значит,
1:01:16
описываете, в каком жанре вы хотите это всё получить, да, ну и получаете
1:01:23
результат в гигачате, в Telegram-боте там просто можно в менюшку бота зайти и
1:01:28
там есть эта опция.
1:01:37
Так, ну генерация 3D объектов, да, тоже к вопросу о модальностях. Ну это такое
1:01:43
такая история, может быть, немножко более нишевая, чем каверы на говнозы. Вот. Но, э, значит, э, тем не менее, ээ,
1:01:52
довольно полезный инструмент для тех, кому нужны трёхмерные объекты. То есть
1:01:58
речь идёт именно о генерации не видео с облётом объекта, а полноценного 3D меша,
1:02:05
который вы потом можете использовать где угодно, можете использовать в 3D-печати его, можете использовать там в своей
1:02:10
игре какой-нибудь, которой вы разрабатываете, ну, и так далее, да. То есть вы
1:02:16
получаете полноценный, э, 3D э объект. Ну вот тоже каки какие-то
1:02:24
примеры черепикнутой генерации, да? То есть вы по текстовому описанию получаете
1:02:29
вот такой трёхмерный
1:02:36
объект. А, ну тоже вот интересное направление. И я бы сказал, что сейчас
1:02:44
очень многие специалисты по продуктизации больших языковых моделей задались вопросом о том, а всегда ли нам
1:02:51
удобен чат в качестве инструмента генеративного? Потому что,
1:02:56
ну, скажем, когда мы редактируем текст длинный, э ну, наверное, всё-таки удобнее это делать не в формате чата, а
1:03:03
в формате, ну, таком приближённом к текстовому редактору. И, ээ, в некотором
1:03:09
смысле стоит задача о переизобретении э текстового редактора в
1:03:15
эпоху генеративного искусственного интеллекта. Ну, то есть речь идёт о том, что вы, работая над документом, можете
1:03:21
не только, э, значит, какой-то кусочек текста сгенерировать, да, вы можете
1:03:27
выделить произвольный фрагмент текста и произвести над ним какую-то генеративную
1:03:33
операцию, например, э сократить этот текст, да, или, наоборот,
1:03:39
разбавить его, что называется, водой, заменить стиль текста, выполнить проверку
1:03:45
орфографии, ну, и тогда далее и так далее. То есть самые разные м действия
1:03:50
применить к каким-то фрагментам вашего документа. Опять же, э, значит, документ
1:03:57
этот может включать в себя и изображение, и озвучку, например. Вот у
1:04:04
нас этот проект уже третий год продолжается. У нас он носит такое
1:04:09
внутреннее кодовое название Photoshop для текста. Вот. Ну и, в общем, э наши
1:04:15
концептуальные исследования превратились, наконец-то, в рабочий инструмент, который называется гигаредактор. Вот. Но мы здесь не одни,
1:04:23
и Microsoft активно занимается прототипированием таких устройств, целый ряд таких систем и целый ряд стартапов,
1:04:31
э, которые, ну, вот альтернативные чату инструмента работы с документами людям
1:04:37
представляют. Ну, в связи с этим, э-э, одна из важных возможностей моделей, которая пока ещё не покрыта современными
1:04:44
технологиями — это инструктивная модификация изображений. Вот, э, на самом деле люди очень часто просят, ээ,
1:04:51
значит, ну, вот тот же гигачат сгенерировать им картинку, а, но потом их в этой картинке что-то не устраивает,
1:04:58
они хотит хотят там что-то поменять. А, и они говорят: «Ну, там замени там
1:05:03
пуговицы, да, на перламутровые». Но, ээ, на самом деле, что происходит в
1:05:09
современных системах? Современная система вам просто перегенерируют картинку с уточнённым описанием. Вот что
1:05:14
на самом деле не очень хорошо. То есть у вас получается не совсем консистентная
1:05:20
генерация. Иногда вам нужно внести именно какие-то точечные изменения в имеющуюся картинку. А ещё иногда вы
1:05:26
хотите изменить картинку, которая у вас уже есть, да? То есть работать не со сгенерированной картинкой, а, например,
1:05:32
ну, я не знаю, загрузить своё фото, да, и убрать с него там бывшего, вот, или
1:05:37
что-нибудь в этом духе сделать. Вот поэтому отдельное направление — это инструктивная модификация изображений. У
1:05:44
нас этот проект называется Мальвина. Вот. Ну, опять же, ряд исследовательских
1:05:50
э команд, э, занимающихся машинным обучением, сейчас э работает над
1:05:55
создание похожих моделей. Ну вот, в частности, в компании Мета, запрещённой в Российской
1:06:01
Федерации, вот тоже есть похожий
1:06:07
проект. Так, а, ну вот опять же важный
1:06:13
концептуальный излом в развитии технологий, которым мы сейчас находимся,
1:06:19
а это переход от генеративного искусственного интеллекта к интерактивному искусственному
1:06:24
интеллекту. О чём идёт речь вообще? На зареволюции глубокого обучения
1:06:29
большинство моделей, созданных в то время, они относились к категории так называемого дискриминативного
1:06:35
искусственного интеллекта, то есть решали задачи, связанные э с классификацией, ну или регрессией. То
1:06:43
есть распознавали образы на картинках, да, умели там отличить котика от собаки или распознать текст на картинке. Вот.
1:06:51
Э, но по мере того, как системы становились более, э, продвинутыми, да,
1:06:57
по мере того, как мы, э, стали создавать действительно большие нейросети
1:07:03
благодаря трансформерной революции, у нас начался, э, бум генеративного
1:07:08
искусственного интеллекта. И за последние, по сути дела, 7 лет было
1:07:14
создано огромное количество моделей, которые решали не задачи классификации э
1:07:20
чего-либо, а задачи генерации по сути новых смплов данных, то есть либо текстов, либо изображений, музыки, видео
1:07:27
и так далее. А что дальше? А дальше, на самом деле, перед нами лежит целое море
1:07:34
задач, которые, в принципе, не решаются в один присест, да? То есть
1:07:39
ну, например, если мы хотим, э, запланировать наш отпуск, мы вряд ли за
1:07:46
один шаг можем написать детальный, э, список, да. Нам нужно сходить в систему
1:07:53
бронирования, посмотреть доступные э- авиарейсы, посмотреть э доступные отели,
1:08:00
э, составить, ну, там с учётом бюджетных ограничений какой-то план, да, возможно, внести в него коррективы. ээ по
1:08:09
результатам, ну, какого-то ревью этого плана со стороны заказчика. А, то есть речь идёт о
1:08:15
задачах, которые решаются в результате цепочки действий, которые включают в себя работу с внешними инструментами, с
1:08:23
какими-то внешними агентами, с самим заказчиком. А, и, э, это системы,
1:08:29
которые, ну, по сути, в ходе решения интеллектуальной задачи будут взаимодействовать с внешними
1:08:34
инструментами, с другими системами, с самим человеком. Вот. И, ээ, сейчас, в
1:08:40
общем, активно обсуждаются и создаются первые прототипы подобных систем. Мы
1:08:46
сейчас как раз поговорим немножко подробнее о том, э что стоит за, э, вот
1:08:54
этими гипотетическими интерактивными системами искусственного интеллекта. Вообще строительным блоком
1:09:00
интерактивного искусственного интеллекта являются так называемые агенты. Вообще сам по себе термин агент, он, как
1:09:06
говорится, древний. Вот латинский корень намекает нам, что речь идёт о чём-то, что, в
1:09:11
общем, может действовать. Вот. Ну и надо сказать, что ещё в эпоху до -э
1:09:18
фундаментальных моделей, больших языковых моделей, м само понятие агентности и даже мультиагентных систем,
1:09:25
оно в информационных технологиях довольно глубоко было разработано. Вот. Но, э, с появлением такого инструмента,
1:09:32
как генеративные модели, конечно, возникла такая концепция агента в эпохе
1:09:38
эпохи больших языковых моделей, где по сути дела агентом является, э, большая
1:09:45
языковая модель, э, к которой применяются, ну, определённые такие обвязки, позволяющие этой модели, э-
1:09:54
приобрести некоторые способности, которые она -э, значит, в чистом виде не
1:10:00
имеет. О какого рода свойствах идёт речь, да? Что делает
1:10:05
модель агентом? Ну, во-первых, возможность действовать, да? Речь идёт о том, что модель может генерировать
1:10:12
какие-то управляющие команды для внешних систем. Ну, например, это может быть
1:10:19
команда обратиться к поисковой системе или обратиться к калькулятору или обратиться
1:10:26
к какому-то интерфейсу. какого-то публичного сервиса и так
1:10:32
далее, да, или, ну, не знаю, подвинуть роборуку в каком-то направлении, да, то
1:10:37
есть управляющая команда для манипулятора. Значит, соответственно, нам нужно, ну,
1:10:43
по сути дела, дообучать языковой модели генерировать вот такие последовательности команд, которые
1:10:48
программная обвязка этой модели будет интерпретировать и, соответственно, передавать эти мм сигналы в
1:10:54
соответствующие системы. Значит, ну и такой важным подмножеством,
1:11:01
что ли, исполняющих систем являются различные инструменты. Вот. Ну, речь
1:11:06
идёт о, м, значит, каких-то, э, обычно несложных
1:11:13
алгоритмических механизмах, которые могут решать некоторые задачи гораздо эффективнее, чем это может делать сама
1:11:19
модель. Но, скажем, люди тоже не очень хорошо умеют умножать не знаю, пятизначные числа, да? Если нам нужно
1:11:26
это сделать, мы возьмём калькулятор и посчитаем на нём и дальше воспользуемся
1:11:31
этим результатом, да. Поэтому для больших языковых моделей роль инструментов могут выполнять, ну,
1:11:38
например, э интерпретаторы программного кода или какие-то другие символьные
1:11:43
системы вычислений. А дальше, э, возможность
1:11:50
модели генерировать моделировать рассуждение, да. генерировать какие-то цепочки,
1:11:57
графы, деревья, э, рассуждений, э, и действий, да? То есть некоторые задачи
1:12:03
не решаются в один пресест. Очевидно, что, э, там большинство современных языковых моделей — это просто fitфорвард
1:12:10
нейронной сети без рекурентных связей. Мм, соответственно, генерируя следующий,
1:12:16
каждый следующий токен последовательности, сетка выполняет ограниченное количество операций. Просто
1:12:22
у неё ограниченное число слоёв без рекурентных связей, да? Очевидно, что некоторые задачи, они просто по
1:12:29
количеству шагов, необходимых для поиска ответа, они будут этот лимит превышать. И для того, чтобы найти ответ на
1:12:36
какой-то вопрос, э для такой сложной задачи, нам нужно будет генерировать цепочку последовательных рассуждений.
1:12:44
Вот. Но в противном случае мы задачу не решим. Вот. Э, ну, наличие долгосрочной
1:12:49
памяти, да, тоже важный элемент, ээ, делающий агент агентом, да, мы должны от состояния к
1:12:57
состоянию каким-то образом хранить, э, либо цепочку действий, либо удерживать
1:13:03
какие-то отдельные м отдельные антологии. Вот. Ну и фрейминг. Под
1:13:10
фреймингом понимается класс методов, который применяется для того, чтобы настраивать поведение самой модели.
1:13:18
То есть заставить модель вести себя каким-то специфическим образом, воспринять на себя какую-то
1:13:23
специфическую роль, конкретный момент действия. Ну и, в общем, все вот эти свойства, они
1:13:30
на самом деле как бы намекают нам, что мы переходим от фундаментальных моделей
1:13:35
к фундаментальным агентам, да, то есть к моделям, которые смогут могут быть
1:13:40
предобучены на каких-то м агентных датесетах и затем, соответственно,
1:13:46
смогут быть под конкретные агентные задачи легко либо дообучены, либо использованы путём там какого-то
1:13:53
промтинга эффективного или других методов. фрейминга. Ну, про моделирование
1:13:59
рассуждений несколько слов ещё. Вот весьма показательно здесь рассуждение Минского из семидесятых
1:14:08
годов Society of Mindя о человеческом интеллекте, Минский
1:14:15
пишет: «А какой волшебный трюк делает нас разумными? Фишка в том, что никакой хитрости здесь нет. Сила интеллекта
1:14:22
проистекает из нашего огромного разнообразия, а не из какого-то одного принципа, отточенного до совершенства.
1:14:28
То есть Минский предлагает рассматривать человеческий интеллект как вот, а,
1:14:34
значит, некое такое сообщество, э, значит, подсистем, да,
1:14:40
которые способны выполнять разные задачи. А, ну и в целом понятно, что,
1:14:49
ээ, если мы посмотрим на человеческое мышление, да, м таким хотя бы
1:14:54
спекулятивным взглядом, мы обратим внимание, что есть какие-то задачи, которые мы умеем решать в один шаг, в
1:15:01
один присест, да, распознать котика на картинке, да, или понять, э, значит,
1:15:08
не знаю, э, сейчас человек радуется или сердится, да, по взгляду на его лицо или
1:15:15
услышав его голос. Вот. Ну а некоторые задачи они требуют, ээ, ну, в общем,
1:15:20
какого-то длительного процесса мыслительного, э, некоторой последовательности рассуждений. Ну, и
1:15:26
вот Каниман, рассуждая о человеческом мышлении, да, своей книге, она по-русски
1:15:32
называется Думай медленно, решай быстро. Вот почему-то вот так. Но по-английски
1:15:38
она называется thinking fast and slow. То есть речь идёт о том, что у нас вот есть как бы быстрое мышление, есть
1:15:44
мышление медленное. Вот. И под вот этими рассуждениями обычно понимается как раз
1:15:50
медленное человеческое мышление, которое нам бы хотелось каким-то образом тоже
1:15:56
моделировать. Вот. Ну, теперь чуть-чуть поподробнее о всех этих концепциях. Фрейминг, да? То есть как мы можем
1:16:03
настроить поведение модели, мм, изменить его для того, чтобы она эффективно
1:16:10
решала задачи, связанную с какой-то её текущей ролью? А, ну либо при помощи написания промтов. Здесь понятно,
1:16:17
классическая промтнженерия. А путём подмены интерфейсов функций, которые модель
1:16:22
вызывает, при помощи подходов, которые называются retrieval augmented
1:16:28
generation, то есть генерация, подкреплённая поиском. И в данном случае речь идёт о том, чтобы
1:16:35
вручить э модели такой инструмент, как поиск в какой-то базе знаний, да, в
1:16:42
каком-то поисковом индексе, для того, чтобы оттуда извлекать релевантную информацию
1:16:48
фактологическую, например. Ну и разные способы до обучения моделей, да, то есть, э, начиная от самых дешёвых типа
1:16:55
низкоранговой адаптации ЛОРа и её производных и заканчивая полноценным
1:17:01
дообучением модели. А, ну вот что мы можем делать,
1:17:07
да, обладая таким инструментом, как фрейминг? Ну, например, э мы хотим
1:17:15
модель попросить написать текст. Мы можем это сделать в лоб, да? Напиши нам,
1:17:21
ну, не знаю, продающий текст про цветные вантузы. Вот. Но, э, а что, если модель
1:17:27
всё-таки не очень хорошо справляется с этой задачей и нам хотелось бы получить, ну, гораздо более качественные тексты
1:17:33
про цветные вантусы, да, мы можем тогда применить такую хитрость, да, мы вначале при помощи промта попросим модель, э,
1:17:42
действительно сгенерировать текст, но там попросим её ещё принять на себя
1:17:47
роль. гениального писателя. Ну, напишем в промте что-нибудь вроде, э, там
1:17:54
представь себе, что ты гениальный писатель, как Данил Хармс и сам боженька. Напиши там самый лучший в мире
1:18:01
продающий текст про цветные вантузы. Вот. Дальше мы результат генерации
1:18:08
передадим той же самой модели, но уже с другим промтом. И мы скажем модели действуй как критик,
1:18:14
да, как Белинский, Герцен в одном флаконе, напиши свои замечания к вот
1:18:21
этому тексту, которые могли бы помочь его улучшить. Ну и получив, соответственно, эти
1:18:27
замечания, мы снова переформулируем промт для той же самой модели и говорим:
1:18:33
«Действуй как редактор, вот текст, вот замечание, учти по
1:18:38
возможности эти замечания для того, чтобы улучшить исходный текст». И вот
1:18:43
такая цепочка из трёх действий. Она позволит нам, э, на самом деле получать гораздо более качественные тексты, чем
1:18:50
мы могли бы получить за один присест. Ну, это вот самый простой такой
1:18:58
пример, самый простой шаблон, который используется в агентных системах. Он
1:19:03
называется рефлексия, да? То есть когда мы по сути дела как бы критически переосмысливаем то, что мы
1:19:11
создали. Э, но, э, взглянув на этот шаблон, э, вы можете, я думаю, сделать
1:19:18
простой вывод, что, ну, вообще такого рода шаблоны могут быть сколь угодно сложными.
1:19:23
Вот, то есть мы можем, например, попросить модель написать не один текст, а сразу десяток, да, ввести помимо
1:19:31
критика ещё такую роль, как оценщик, да, который отберёт, например, из этих десятков десятка текстов три, например,
1:19:39
самых лучших, а, ну, и так далее, и так далее, да? То есть мы можем выстраивать вот такие вот алгоритмические обвязки
1:19:46
вокруг э большой языковой модели и тем самым, да, включать опять же на
1:19:51
отдельных шагах обращения к каким-то внешним инструментам. Вот. И, э, соответственно,
1:19:58
э для решения каких-то отдельных задач добиваться повышения качества за счёт
1:20:05
вот, э, таких трюков. Ну, а дальше вот этот
1:20:11
вот эту алгоритмическую обвязку, вот эту вот структуру рассуждения, на самом деле тоже можно научить создавать
1:20:19
модель. То есть вы можете ээ в каком-то фреймворке,
1:20:24
связанном с решением сложных интеллектуальных задач, попросить модель вначале сгенерировать вам план решения этой задачи, а потом, соответственно,
1:20:31
каждый элемент этого плана использовать как отдельный вызов для модели. Ну и так
1:20:37
далее. Вообще этот подход называется скафолдинг. Э, значит, ну, собственно, в
1:20:42
силу того, что слово сFoldд означает строительные леса, каркас, ну, и,
1:20:48
собственно говоря, вот обвязку вокруг генеративной модели. А, ну здесь, ээ, на самом деле,
1:20:57
рассуждая о сфхолдинге, можно прийти к ещё более
1:21:02
интересным выводам. А здесь несколько в начале разрозненных
1:21:10
фактов, да, вообще мы уже говорили сегодня, что в человеческом мозге там примерно 8,6 млрд
1:21:17
нейронов. Вообще-то большая часть этих нейронов приходится отнюдь не на кору
1:21:23
мозга, а на мож. Вот, казалось бы, да, вот
1:21:30
можни, ну, какой-то такой раздел мозга, который, ну, вот там за равновесие отвечает, ещё за какие-то такие функции,
1:21:37
но почему так много нейронов, да, и что на самом деле делает мужичок? Довольно
1:21:43
интересное исследование, значит, начало двадцатых годов, когда,
1:21:50
значит, всерьёз нейрофизиологи подошли с применением современных методов к
1:21:56
изучению работы можичка живых организмов. Ну и вот, в частности, вот это исследование в правом нижнем углу,
1:22:02
это на элементах статья двадцать первого года, посвящённая работе с рыбками.
1:22:08
Данио Рерио. Вот эти самые зебраish. аквариумные. И в общем исследователи к
1:22:16
тому времени, по результатам этих экспериментов пришли к выводу, что по сути делачок отвечает за модель мира. То
1:22:24
есть это система, которая позволяет нам прогнозировать
1:22:31
собственно говоря э то, каким образом, э мир будет
1:22:37
откликаться на определённые воздействия. Вот, э, там почитайте эту статью, она довольно интересная, там довольно
1:22:43
остроумный эксперимент, где, э, значит, рыбок с удалённым можичком и рыбок с
1:22:49
присутствующим жирчком помещали в условия среды параметры, которые искусственно меняли, да, и рассматривали
1:22:55
возможность этих рыбок адаптироваться под, по сути дела, изменения физических
1:23:00
свойств, той среды, в которой эти рыбки обитают. А,
1:23:07
и в 2018 году вот Юргин Шмитхубер,
1:23:12
который, как известно, всё открыл раньше других исследователей в области машинного обучения, э, он совместно с
1:23:18
Дэвидом Ха написал вот такую интересную статью под названием «Модели мира». Вот.
1:23:25
И речь идёт здесь, ну, примерно о том же, но только в применении не к живым организмам, а в применении к, э,
1:23:32
системам, которые обучаются при помощи обучения с подкреплением. А вот и в общем
1:23:39
неудивительно, что есть определённые параллели здесь между, а, искусственными нейронными сетями и
1:23:47
биологическими при решении каких-то сходных задач. А, и вот давайте посмотрим теперь ещё на
1:23:54
третью важную работу, на классическое такое применение обучения с подкреплением. Это хорошо нам известны
1:24:00
Альфаго Go, которая играла с Лисидолем. А, ну вот как работает Alphaго Go, если
1:24:06
так очень грубо посмотреть на эту систему? Значит, у неё на самом деле есть две нейронные сетки свёрточные.
1:24:15
В более поздних работах, кстати, в Alpha Gozer Zero уже. И в Alpha Zero это просто стала одна и та же сетка просто с
1:24:21
двумя головами. Вот. Значит, ну вот в AlphaGo — это две отдельные сетки.
1:24:26
Первая из них — это так называемая Policy Network, э, сеть политик. Э она
1:24:32
отвечает за следующую функцию. Получив на вход позицию в эгрего, она генерирует
1:24:37
распределение вероятностей ходов в этой позиции. То есть, по сути дела, пытается предсказать, с какой вероятностью, какой
1:24:44
ход может быть в этой позиции сделан. А, ну и вторая сетка, она называется оценочная сетка Evaluation Network. И
1:24:51
она решает другую задачу, задачу оценки того, насколько хороша позиция. То есть
1:24:58
она пытается оценить эту позицию, ну, с точки зрения вероятности победы первой
1:25:04
стороны, да, и победы, соответственно, второй стороны. А как эти сетки дальше используются?
1:25:12
Используются они следующим оригинальным способом. Используется старый добрый метод
1:25:18
Монтекарло, а конкретно его разновидность, которая называется Монтекарло поиск по дереву. Монтекарло
1:25:24
3ч. Значит, что делает этот метод? Он, опираясь на оценки вот этих двух
1:25:30
нейросетей, рассматривает э траектории в пространстве игры, да? То есть какие-то
1:25:35
последовательности ходов. То есть мы рассматриваем не все возможные ходы, а
1:25:41
мы рассматриваем лишь какой какие-то ветви, да, вот этого дерева. А, но, э,
1:25:48
вероятность рассмотрения вот этой конкретной траектории в игровом пространстве, она определяется
1:25:54
нейронкой. То есть рассматриваются не эчайным образом выбранные траектории, а
1:26:00
траектории, которые выбираются случайным образом, но на основе распределения, которое генерирует нейронка. То есть, по
1:26:06
сути дела, ээ анализируются осмысленные последовательности ходов, да? То есть наиболее вероятные продолжения
1:26:14
в игровом пространстве. А, и дальше как бы дерево, которое
1:26:19
рассматривает программа, по сути дела является объединением вот этих траекторий, э, которые насамплированы
1:26:27
при помощи метода Монтекарла. А, ну а в терминальных узлах дерева, то есть если мы не доводим траекторию до окончания
1:26:34
игры, то при достижении определённой глубины мы оценку э терминального узла
1:26:39
дерева получаем при помощи оценочной нейронной сети. А, но смотрите, да, по сути дела Pocy
1:26:48
Network — это есть не что иное, как некоторая модель мира, э, для игры GO,
1:26:53
потому что policy Network определяет, во-первых, э, ну, те ходы, которые могут
1:26:59
быть сделаны, да, и те ходы, которые являются наиболее разумными. Ну, а Evoluation Network, она позволяет нам,
1:27:06
ну, как-то, в общем, смоделировать вознаграждение, да, то есть оценить, насколько хороша, э, та ситуация,
1:27:14
которая возникла в пространстве возможностей. Но если мы посмотрим на
1:27:20
современные большие языковые модели, мы можем обратить внимание на то, что они в
1:27:25
некотором смысле являются моделями реального мира, потому что они способны строить ну какие-то правдоподобные
1:27:32
цепочки развития событий, ну и способны, опять же, давать некоторые оценки
1:27:37
каким-то ситуациям, возникающим в реальном мире. То есть мы
1:27:43
можем использовать большую языковую модель для моделирования поведения
1:27:50
каких-либо агентов в реальном мире. Просто потому что эти модели кое-что знают про реальный мир. Конечно, э
1:27:57
модели мира больших языковых моделей, э они не всегда хороши и не всегда точны.
1:28:03
Э-э, но на самом деле это может быть не очень страшно, потому что модели мира, которые находятся в наших с вами
1:28:08
головах, тоже э- далеки от идеала, да. Например, до, э, опытов Галилея очень
1:28:15
многие люди считали, что тела, обладающие большей массой, падают на землю с большим ускорением. Вот. Хотя мы
1:28:22
знаем, что это не так. Но интуитивно многим людям казалось, что это именно так. И вообще наши с вами модели мира,
1:28:28
они на самом деле содержат часто множество неточностей и заблуждений, что не мешает нам с вами, в общем, ну,
1:28:34
как-то более-менее успешно адаптироваться. А, но тем не менее, да,
1:28:40
ээ, опять же, модели, даже если они не совершенны сегодня, то завтра они будут более совершенны. И возможности
1:28:49
использования больших языковых моделей как моделей мира открывает нам путь ко к моделированчи многих процессов в
1:28:57
реальном мире к решению интеллектуальных задач э происходящих не в пространстве
1:29:03
настольной игры а в реальном мире и конечно сейчас мой важный фронтир
1:29:10
исследований а на эту тему есть много интересных остроумных работ
1:29:15
о том, как можно, э, соединив методы Монтекарло с
1:29:22
со способностью модели строить с почки рассуждений, по сути дела, ээ, обучать
1:29:28
модели в автоматическом режиме улучшать свои способности, э, рассуждать. А, ну,
1:29:34
о чём здесь идёт речь? Вот, например, это конкретно проект, который, э,
1:29:39
которым мы занимались в этом году. Э, интересно, что вот, по-моему, 4 января
1:29:45
вышла, э, работа, ээ, значит, исследователей из Open AI,
1:29:50
посвящённая очень похожему подходу. В целом, мм, я думаю, что здесь мысли
1:29:55
исследователи сходятся. Ну, вот смотрите, у нас есть какие-то наборы задач, для которых известны ответы. А
1:30:03
это могут быть достаточно сложные задачи из разных областей: математики, физики, химии и так далее. У нас есть
1:30:10
формулировка задачи и есть ответ. Да, при этом мы знаем, что задача достаточно сложна для того, чтобы она могла быть
1:30:17
решена в один присест. А значит, нам нужно решать её при помощи моделирования цепочек рассуждений. А что мы можем
1:30:25
сделать? Мы можем, имея такие пары, э, вопросы, правильный
1:30:32
ответ, а, заставлять модель генерировать цепочки рассуждений. А, и затем, э-э,
1:30:38
если в ходе в результате этой цепочки рассуждений был получен правильный ответ, мы можем модель поощрять за те
1:30:45
рассуждения, которые она делала, да? То есть мы можем сымплировать их с положительным весом при обучении. Ну, а,
1:30:51
соответственно, наоборот, если траектория рассуждений приводит модель к неправильному ответу, это значит, что,
1:30:57
ну, вот где-то в этом списке рассуждений содержится дефекты, неправильное рассуждение, да. Таким образом, мы можем
1:31:03
использовать, ну, такую вот своеобразную самокоррекцию для того, чтобы по сути
1:31:09
без привлечения каких-то дополнительных данных, просто за счёт случайного самплирования траектории рассуждений
1:31:15
довольно серьёзно прокачивает способности моделей рассуждать. Ну и действительно, как бы опыты показывают,
1:31:22
что добавление такого рода механизмов, оно позволяет в ряде бенчмарков достичь
1:31:28
прироста на десятки процентных пунктов. особенно связанных с математикой, с логикой и так
1:31:38
далее. Так, ну, область железа, нужно обязательно затронуть, что происходит в области железа. Здесь, наверное, никаких
1:31:47
особых неожиданностей. Ну, NVIDIA
1:31:53
представила новую архитектуру BlackWell, вот на основе которой, соответственно,
1:31:59
э, значит, самые топовые их GPU появятся. Ну, что интересно, если
1:32:06
посмотреть вообще на направление развития инвидевского железа, видно, что, э, всё больше и большей мере
1:32:14
э они приспосабливают своё устройство под эффективную работу с большими
1:32:20
трансформерными моделями, с квантизованными весами. То есть вы видите, что поддержка э режимов э FP 6 и
1:32:29
FP4 э появляется в новой архитектуре. Вот.
1:32:35
Ну, соответственно, понятно, что растёт объём памяти на чипе. Это очень важный
1:32:43
для работы с большими моделями параметр. Ну, соответственно, увеличивается и
1:32:49
количество тензорных ядер, увеличивается пропускная способность шин, которые
1:32:55
через которую чипы в кластерах могут обмениваться данными вроде
1:33:02
градиентов. Вот, в общем, здесь, если посмотреть,
1:33:07
какими темпами растёт производительность железа тензорного, в
1:33:13
общем, примерно теми же, которые существовали ближайшие 5 лет. Ну вот
1:33:18
интересно, какие есть альтернативы инвидиевскому железу сейчас? Они, в общем-то, есть. То есть два других
1:33:25
крупных игрока пытаются догнать Nvidia в этой гонке. Ну вот, в частности, AMD
1:33:32
сделала ставку на суперкомпьютинг и по сути дела сейчас
1:33:38
целый ряд топовых суперкомпьютеров строится не на оборудовании Nvidia, а на
1:33:43
оборудовании AMD. Вот. Ну вот, в частности, они ээ 18
1:33:49
ноября двадцать четвёртого года представили э суперкомпьютер Эль-капитан. вот, который, собственно
1:33:56
говоря, в высокопроизводительном линпаке занял
1:34:02
первое место, да? То есть у нас произошла смена лидеров в
1:34:07
топ-500. Вот. А и значит, ну вот в основе этого суперкомпьютера тензорные
1:34:15
чипы MI 300А. А значит, ну это вот такой амдшный
1:34:23
ответ. ээ инвидевским топовым чипом. Интересно, что значит
1:34:29
ну для мдшных чипов появились реализации полноценные флштеншены. Вот
1:34:35
по сути дела современные трансформерные модели вы вполне успешно можете инферить
1:34:40
на таких железках. Другое дело, что, конечно, там коммьюнити гораздо меньше, всё равно придётся там серьёзно
1:34:47
покорячиться, чтобы современные модели на такого рода железе запускать. Вот. Но надо сказать, что здесь и остальные
1:34:55
игроки тоже похожие находятся ситуации. И Huawei их атласами, э, вот и
1:35:03
ээ Intel с со своими со своими Gud 3. Вот. Ну вот
1:35:10
в бенчмарках это выглядит очень красиво. То есть вот пожалуйста, там Гауди представленный
1:35:17
в э середине года, э значит, показывал, как он здорово бьёт H1 практически во
1:35:24
всех тестах. Вот. Но другое дело, что H1 — это всё-таки уже предыдущее поколение
1:35:31
железки. Вот. Ээ и в общем, пока что интеловское железо здесь не претендует
1:35:39
на консюмерский рынок. Пока что доступ к этим чипам возможен только через, э,
1:35:45
облачные сервисы, но тем не менее, кто знает, ээ, во всяком случае, крупные
1:35:53
игроки очень хотят догнать Nvidia, хотя бы сократить тот
1:35:58
разрыв, который имеется. Вот. Ну, э, Intel интересна ещё тем, что она ведёт и
1:36:06
продолжает активно исследование в области нейроморфных ээ архитектур. Вот,
1:36:12
по сути дела, одна из проблем современных тензорных машин — это всё-таки э
1:36:20
проблема бутылочного горлышка фонеймона, так называемое. Дело в том, что, ну, для того, чтобы,
1:36:27
э- обсчитывать, ээ, большие модели вроде современных
1:36:33
искусственных нейронных сетей, э, вам нужно передавать довольно большое количество данных между памятью и
1:36:39
вычислительными ядрами. То есть в чём здесь проблема? Проблема в том, что,
1:36:44
значит, в современных фонеймоновских машинах у вас данные хранятся в памяти,
1:36:50
а обработка этих данных происходит в вычислительных ядрах. Да, и вам нужно
1:36:55
данные переслать из памяти в регистры процессоры.
1:37:01
Даже если их очень много, как в случае тензорных машин, всё равно количество регистрови памяти очень сильно меньше,
1:37:08
чем количество э оперативной памяти. Вот.
1:37:13
Дальше после проведённых вычислений вам нужно результаты переслать обратно в память, и узким местом становится шина
1:37:20
для передачи данных из памяти в вычислительное устройство и обратно. человеческий мозг он этой проблемой
1:37:26
лишён в силу того, что в нём обработка и хранение данных, в общем-то, не
1:37:32
разделены, да? То есть, ээ, информация хранится в синоптических весах нейронов,
1:37:37
да, и обработка информации тоже происходит в нейронах. Вот, то есть вам не нужно данные пересылать из какой-то
1:37:43
внешней памяти в нейрон для обработки и пересылать результаты обработки обратно. Вот. Э, поэтому, конечно, э
1:37:51
перспективными кажутся, э, вычислительные системы, которые будут
1:37:56
построены на нефоннеймоновских принципах. Вот. И, ээ, это направление
1:38:02
называется нейроморфная инженерия. А есть очень много стартапов, очень много
1:38:07
исследовательских проектов, связанных с нейроморфными вычислениями. И вот Intel
1:38:15
сейчас лидер в этом направлении. Они, э, их топовое
1:38:21
нейроморфное устройство называется Лои 2. Вот. И, э, на основе вот этих
1:38:27
процессоров Loих 2, они в апреле двадцать четвёртого года собрали очередной свой самый большой,
1:38:36
э, массив этих тензорных этих нейроморхных вычислительных устройств,
1:38:41
называется H point Point. Соответственно, он на смену их предыдущему похойки Спринкс пришёл. Вот.
1:38:48
Ну и в общем, это очень интересный проект,
1:38:54
который значит нам может серьёзно изменить весь ландшафт
1:39:00
вычислений. Это, да? Нет, — это ээ библиотека для работы с тензорными
1:39:08
вычислительными устройствами. Нет, нет. Вот,
1:39:14
значит, акуда — это, да, куда ядра — это тензорные ядры. Вот. Ну на самом деле
1:39:21
таких, ээ, в принципе, сейчас мы находимся на в
1:39:26
такой вот тоже довольно переломный период, когда возможности классической электроники, они во многом исчерпаны.
1:39:33
Вот. И идёт довольно активный поиск альтернативных физических моделей для
1:39:39
вычислений, альтернативных физических субстратов. И в общем идей очень много о
1:39:45
том, чем можно заменить классическую электронику. А это и всевозможные фотонные вычислительные устройства, это
1:39:51
и inmemory computations, то, что называется, то есть аналоговые вычисления внутри массивов памяти.
1:39:58
Это и всевозможные имплементации квантовых машин, а и много разных других
1:40:05
интересных гитик учёные в своих лабораториях придумали и мемористоры
1:40:10
всевозможные, опять же, основанные на разных физических принципах. Вот. Ну, конечно, дистанция между лабораторным
1:40:19
прототипом и зрелой промышленной технологией, она очень большая. Вот нам нужно научиться каким-то образом делать
1:40:25
полноценные трёхмерные схемы. Ну, современные схемы, которые мы собираем из транзисторов, в общем-то,
1:40:32
плоские. Вот. Ну, как понимаете, дополнение добавление ещё одного
1:40:37
измерения серьёзно позволит увеличить размеры схемы. Но, ээ, с технологичей
1:40:43
точки зрения это несёт целый ряд проблем. Нужно каким-то образом интегрировать трёхмерную схему
1:40:49
теплоотвод. -э, нужно, значит, каким-то образом бороться с проблемой дефектов
1:40:54
при, э-э, изготовлении схемы, да, потому что при, э, современных, э-э,
1:40:59
технологиях, там, пятинанометровые, например, э количество дефектов очень велико,
1:41:06
поэтому современные чипы собирают из фрагментов, которые называют чиплетами.
1:41:11
Вот. Ну или существуют разные подходы вроде тех, когда чип делается размером
1:41:18
со всю кремневую подложку, да, а дефекты в цепях
1:41:25
выявляются и по сути запаиваются как обходные контуры.
1:41:30
В некоторых нейроморфных схемах это таким образом делается. Например, есть такая компания Реброс, значит, которая
1:41:37
как раз, э, создаёт чипы по такому принципу. Вот. Ну, в общем,
1:41:43
улучшить современную электронику радикально очень трудно. Вот, то есть нужна смена парадигмы
1:41:50
вычислительной. И, ну, как бы вопрос на много миллиардов долларов. Какая именно
1:41:56
вычислительная схема наиболее перспективна? какие именно физические процессы наиболее подходят на роль
1:42:03
субстрата для будущих вычислительных систем. Так, ну, мой личный результат за
1:42:09
прошедший год я наконец-то дописал свою книгу. Вот она называется «Охота на
1:42:14
электровец». Большая книга искусственного интеллекта. Вот, собственно, я какое-то количество сюда
1:42:20
принёс этих книжек. А 6 лет работы у меня ушло. Э получилось примерно 450.000
1:42:27
слов. 3,4 млн знаков, 3.200 примерно ссылок на
1:42:35
разные источники. Вот. То есть, в общем, рассматривайте мою книгу скорее как такой краткий каталог ссылок к разным
1:42:43
научным исследованиям, потому что очевидно, что всё-таки, несмотря на такой большой размер текста, вместить в
1:42:48
него всё, что происходит в нашей области, очень трудно. Вот. Ну, в общем,
1:42:55
3 кг книжного мяса. Вот опять же
1:43:00
электронная версия находится свободном доступе совершенно бесплатно. Вот поэтому, если вам не нужна бумажная
1:43:08
копия, то спокойно заходите на мой сайт, скачивайте, читайте в любой удобной вам
1:43:14
читалке. Вот. Э так, ну и традиционный раздел с прогнозами, да, смотрим, что
1:43:21
сбылось, что не сбылось. из того, что я напрогнозировал год назад. А вот, ну, в
1:43:28
общем, как-то у меня точность примерно год от года. Я человек рисковый, да,
1:43:33
примерно в районе 50% или чуть больше плавает. Вот. Ну, звуковая модальность
1:43:39
GPT4O появилась, поэтому зачитываем видео в аналоге GPT. Значит, в дмине
1:43:47
можно видео на вход использовать, поэтому тоже. А синхронный перевод аудио в аудио. Есть
1:43:53
модели первые, которые позволяют синхронно переводить. Ну, конечно, там я сжульничал в том плане, что я там не
1:43:59
говорил, какие будут параметры качества этого перевода. Вот. Ну там BL, конечно,
1:44:04
пока такой стыдненький, там в районе 2, но тем не менее это, в принципе, работает
1:44:09
концептуально. Так, теперь три пункта, которые не случились. новая версия там чего-то там Zero, да,
1:44:16
вслед за Мюзиру, способная работать с играми с большим поисковым пространство. Но
1:44:22
вообще deep Mind сейчас немножко не до этого, я так понимаю. Они сейчас переориентируются опять же на улучшение
1:44:29
лмок. Вот. Значит, ну будем надеяться, что всё-таки это направление будет у них
1:44:35
продолжено. MMLU Zero Shot больше 91%. Ну, там 89 с чем-то в итоге, то есть до
1:44:42
91 не дотянули, поэтому, увы. Картиночная рег в аналогах чат GPT, но я
1:44:48
не нашёл сходу. Вроде пока в топовых решениях нету э рега. Ну, то есть в том
1:44:53
смысле, что они не могут вам найти картинку, да, и опираясь на найденную
1:44:59
картинку, что-то там сделать. Аа инструктивное редактированные изображения в аналогах чат GPT.
1:45:06
Есть первые прототипы, но в топовых инструментах пока не внедрено. Вот
1:45:11
поэтому, ну, типа, не знаю, жёлтым покрасил и да, и нет. То есть прототипы есть рабочие, которые можно пощупать, но
1:45:18
в топовых инструментах пока нету этого. А первые фундаментальные модели для видео, три
1:45:25
штучки в двадцать четвёртом году появилось. Ну и лучшие генераторы картинок смогут нарисовать лошадь,
1:45:32
скачущую на астронафте. Вот. А есть такое, да, вот
1:45:37
это Дали 3, вроде бы, значит, я специально добросовестно погуглил, нашёл
1:45:43
ещё пять или шесть вариантов от разных пользователей. Вот. Ну, то есть в
1:45:49
целом я считаю нормально, да, вот зачтено. Гэри Маркус
1:45:56
посрамлён. Вот. А что будет в двадцать пятом году?
1:46:02
Вот. Ну, будем делать, э, ставки. Вот модели будут писать стихи на уроне
1:46:08
лучших поэтов. Синтез речи голосом, описанным словами. Ну то есть вы словами описываете, как голос должен звучать,
1:46:16
да, и таким голосом вам синтезируется текст. А качественная генерация
1:46:22
векторных изображений. Э, вообще вот эта парадигма векторной генерации, она, э,
1:46:28
скорее будет притягивать больше внимания в силу именно того, что это удобная модельная
1:46:34
задача для агентных систем. Аэ, ну вот я надеюсь, что всё-таки история с MZero
1:46:41
будет продолжена. Вот MMLU, ну, 91% оставлять было не спортивно, поэтому
1:46:47
пусть будет 92. Вот картиночную рег в аналогах части. Ну, то есть, по сути, три там не
1:46:53
сбывшихся пункта просто я переношу. Вот текст to CAD системы начнут внедряться,
1:46:58
да, поскольку генерация трёхмерных объектов взлетела. Вот, ээ, большой
1:47:04
запрос со стороны индустрии, да, научиться, э, CД модели генерить. Вот в
1:47:11
датасетах для обучения больших моделей больше 50% э-э от данных будет занимать
1:47:17
синтетика и всевозможный оверсмплинг. Но это отдельный интересный такой момент,
1:47:22
может быть, достойный небольшого пояснения. Э у нас, э, размеры
1:47:27
датасетов, обучения больших языковых моделей растут быстрее, чем растёт текстовая часть интернета. Вот. То есть,
1:47:35
ну, по крайней мере, последние 3 года, 3-4 года- это так. Вот. То есть, э,
1:47:40
размеры там Википедии, Твиттера и вообще там Конкролла растут чуть-чуть сверхлинейно, а размеры датасетов
1:47:47
растут, ну, практически экспоненциально. А значит, что это
1:47:53
значит? Это значит, что халявный способ масштабирования, связанный с
1:47:58
докидыванием просто всё новых текстовых данных, он ну, очевидно, будет исчерпываться, и нужны для этого
1:48:04
альтернативы будут. Вот альтернативы их много. Ну то есть на самом деле это не
1:48:10
страшно. Ну то есть это не значит, что всё прогресс становится в области больших языковых моделей. Нет, мы знаем,
1:48:16
что делать с этим. Просто мы можем трей трейдить как бы компьютер на данные. А
1:48:22
во-первых, по одним и тем же данным можно проходить несколько раз. Ну точно ещё не посчитаны кривые
1:48:28
масштабирования, как быстроя деградация начинается при повторении данных, но по крайней мере есть отдельные работы, где
1:48:34
показано, что, в общем, можно пять раз пройти по текстовому дтесету большому,
1:48:40
если у вас модель не ээ не очень большая и не меморизирует весь датасет. Ну, в
1:48:46
общем, можно можно находить несколько раз. Можно модифицировать
1:48:52
функцию целевую, ну, точнее задачу обучения, то есть не на просто предсказание следующего токена, а
1:48:59
наной. Вот, что тоже позволяет из тех же данных выжать гораздо больше. Ну и можно
1:49:06
что делать? Можно синтетику делать, да, то есть генерировать обучающие данные. А
1:49:11
вот ну мы при обучении людей так делаем. То есть если вы откроете школьный учебник,
1:49:18
да, для там каких-то первых классов, вы там найдёте кучу всяких историй, что там зайчик и белочка пошли в лес, зайчик
1:49:26
нашёл три грибочка, да, белочка пять. Сколько всего грибов нашли зверята. Мы понимаем, что это не э задачи из
1:49:34
реального мира. То есть вот эти персонажи, они очень редко сталкиваются с такими задачами, да, там, ну, и очень
1:49:40
ред, ну, вряд ли как бы нам нужно будет ну, то есть, если, конечно, не злоупотреблять разными
1:49:47
веществами, да, то вам в реальной жизни не понадобится помогать зайчикам и белочкам считать орехи. Вот. И очевидно,
1:49:54
что это всё искусственно созданная история, да, предназначенная только для одного, для того, чтобы мы выучили вот
1:50:00
эту индуктивную операцию сложения, чтобы потом её могли применять вне зависимости от контекста, да, складывать что угодно
1:50:06
с чем угодно, ну, что с чем потребуется. Вот. Поэтому очевидно, что синтетика в
1:50:12
обучении может быть использована, да, особенно для постижения каких-то более сложных индуктивных операций, которые
1:50:18
требуют большего числа примеров, чем ну как бы в in the wild, да, в дикой
1:50:23
природе человеку приходится встретить. Вот. Поэтому все,
1:50:29
конечно, сейчас очень активно это направление копают. синтетика, cricкум. Значит, и всё большее количество
1:50:36
обучающих данных оно создаётся вот таким образом. Вот. Ну и ещё statт
1:50:43
spaceмодели. Я сегодня о них отдельно не говорил, хотя это очень перспективное
1:50:49
направление исследований. Вот единственная, э, сейчас реальная альтернатива трансформерным моделям —
1:50:56
это модели пространства состояний. Вот. или комбинированные модели, которые соединяют себе, э, значит, sta подход с
1:51:04
трансформерами. Например, такая модель, как Jumba появилась в этом году, наследница мамбы. Вот. Ну и на самом
1:51:12
деле много разных других интересных наследников, регурентных архитектур. Но вот самые перспективные из них, кажется
1:51:19
сейчас это модели э пространства состояний. Вот. И я думаю, что мы в
1:51:25
следующем году в топ-пять бджмарков обязательно такие модели должны впервые
1:51:31
увидеть. Потому что концептуально у них есть важное по сравнению с трансформерами преимущество, то, что
1:51:37
они, э, у них линейная сложность от длины контекста. Вот. И это их делает
1:51:43
более гибким инструментом при работе с длинными
1:51:48
последовательностями. Спасибо большое за то, что вы слушали мой рассказ.
1:51:57
Э, э, сейчас готов поотвечать на ваши вопросы. Ну а ссылочки на мой канал и на
1:52:03
сайт с книгой. Они прежде чем, да, прежде чем задавать вопросы, я хотел бы зачитать очень интересный комментарий из
1:52:10
чата от нашего слушателя, слушательницы. Всем добрый вечер.
1:52:16
Счастливо, что в моей жизни появились нейросети. Я полностью незрячая.
1:52:21
Благодаря нейросетям могу рассматривать фотографии друзей, распознавать и получать описание. А ещё почти 30 лет я
1:52:28
пишу стихи и тексты песен, но не могла найти композитора и исполнителя.
1:52:33
Благодаря Суна создала четыре альбома без преувеличения нейросети для меня
1:52:38
настоящее чудо. Ну и, конечно, синтезаторы речи на основе искусственного интеллекта.
1:52:46
Здорово. Ну что, давайте вопросы.
1:52:53
[музыка] Спасибо, Сергей, за интересный
1:52:58
обзор. У меня такой вопрос. Вы думали ли вообще, ну есть ли какие-то задачи,
1:53:05
интеллектуальные задачи, которые машины не
1:53:11
могут и не смогут принципиально решить по какой-то причине? Ну, то есть не
1:53:16
стоит ждать. Можно ваш прогноз, может быть, они не смогут завтрашние новости предсказывать или там, я не знаю, с
1:53:25
животными разговаривать. Да. Да, спасибо за вопрос. Гипотезу Римана доказать. Ну, смотрите, тут есть
1:53:34
как бы несколько аспектов, наверное. Э ну первое — это есть некоторые ограничения специфические тех моделей,
1:53:41
которые мы используем сегодня. То есть вот для больших языковых моделей на
1:53:46
основе трансформерных архитектур есть ряд неудобных задач, скажем так, с которыми они справляются не очень
1:53:52
хорошо. Ну, например, ну вот смотрите, из-за того, что у
1:53:57
модуля внимания квадратична сложность, да, таким моделям трудно работать с
1:54:03
длинным контекстом. Чтобы контекст был покороче, используют такой трюк, как
1:54:08
токинизация, да? То есть мы, э, текст рассматриваем не как последовательность символов, да? Ну, как бы составляем
1:54:14
такой словарь токенов при помощи статистических алгоритмов. Вот. И как бы элементов, с
1:54:21
которым сетка оперирует, является не отдельный символ, да? А какая-то последовательность символов достаточно
1:54:26
длинная зачастую. Вот. Э, и сетка, она как бы в начале обучения не содержит
1:54:32
никаких индуктивных знаний о внутренней структуре токена, да, для неё это просто иероглиф, да, какой-то вот, ну, чиселка,
1:54:40
какое-то число. А, а для решения некоторых задач нужно знать внутреннюю
1:54:45
структуру токена. Ну, просто банально для того, чтобы текст задан наперёд написать, да, вам нужно, ну, типа уметь
1:54:52
внутри токена переставить символов противоположной последовательности. Или, например, если вам нужно стихотворение
1:54:58
написать, а стихотворение — это фонетически организованный текст, и вам тоже для того, чтобы стихотворение
1:55:03
написать, модель должна понимать, что внутри токена лежит. Модель кое-что
1:55:08
выучивает про то, что внутри токена, но в неявном виде. То есть она, исходя из
1:55:14
статистики, да, вот в этом гигантском корпусе каком-то, там есть какое-то количество там стихов, какое-то
1:55:19
количество ситуаций, когда продолжение текста, оно зависит от внутренней структуры токенов в левом контексте.
1:55:26
Но данных там часто не хватает, чтобы для каждого токена хорошо выучить его внутреннюю структуру. Поэтому, например,
1:55:33
сочинением стихов, вот модели общего назначения, ну, типа там лама, взятая из коробки, да, или чат GPT или, э, кто
1:55:41
угодно, да, или гигачат, они будут справляться с этим плохо, да. То есть э
1:55:47
норемся с проблемой длинного контекста, да, то есть и вот эти задачи, которые требуют там знания внутренней структур и
1:55:54
токенов, они неудобные для для тех архитектур, которые мы сейчас используем. Но если мы с вами завтра, не
1:56:01
знаю, все переключимся на какую-нибудь чармамбу, да, то для неё эти задачи не
1:56:08
будут сложными. Для неё более сложными будут другие классы задач. Но в целом,
1:56:14
то есть нету никаких, я бы сказал, фундаментальных ограничений для будущих моделей. Ну
1:56:21
просто почему? Пото по по общим соображениям. Ну вот человеческий мозг — это физический объект, да?
1:56:28
Физико пространство можно описать при помощи, значит, ну, набора формализмов,
1:56:34
да? Искусственная нейронная сеть тоже описывается при помощи там наук, ну,
1:56:40
некоторого набора формализмов. Эти системы, они не относятся принципиально
1:56:46
разным классам сложности. То есть мощность этих машин, она по идее, ну, типа они должны быть равномощны в в
1:56:53
тюринговской, э-э, в тюринговском представлении. А поэтому, э, если говорить о далёком
1:57:01
будущем, да, ну там, грубо говоря, вот если посмотреть там развитие технологии каком-то неопределённом отрезке, у нас
1:57:08
не должно быть каких-то барьеров, да, там не должно быть каких-то задач, которых
1:57:14
ну машины принципиально не смогут их решать, а мозг сможет, да. Вот. Но при
1:57:19
этом у современных архитектур некоторые ограничения есть. И эти ограничения, ну, в общем, не всегда понятно, как
1:57:27
преодолевать. И есть ещё третий аспект, про который тоже надо упомянуть. А некоторые задачи машины решать-то могут,
1:57:35
но мы не хотим решать их при помощи машин, да, ну, по разным причинам. Но
1:57:41
это вот как эти два двое излорца, да, а вы и есть за меня будете, да? То есть
1:57:46
есть какие-то задачи, которые люди хотят оставить себе. Ну и по разным причинам,
1:57:52
да. Почему вот некоторые люди, не знаю, хотят э
1:57:58
чтобы у них были яйца от счастливой курицы, да? Значит, и они идут и
1:58:03
покупают не с там от фабричной курицы яйцо, да, а вот от фермерской, да. Э, и
1:58:10
всегда будет такое пространство, да, в человеческом обществе, когда люди будут говорить: «Ну, я вот, э-э, за organник
1:58:18
арт, да, я могу себе позволить дома на стену повесить картину, которую нарисовал настоящий кожаный, да, а не
1:58:25
вот эти ваши бездушные железки», да? Вот. И, ну, как вы понимаете, да, любое
1:58:31
там произведение искусства — это ещё и нарратив там, связанный с этим произведением и так далее, да? То есть
1:58:38
вся эта проблематика ещё там Вальтер Беньямин в своё время писал, да, в своём, э, произведении искусства в эпоха
1:58:45
его технической воспроизводимости. Вот поэтому здесь ещё помимо, ну, типа барьеров
1:58:52
возможностей неростевых моделей, есть ещё и барьеры нашего желания эти модели
1:58:57
для некоторых задач применять. Вот поэтому, ну, там типа они не будут в этих задачах применяться не потому, что
1:59:03
они не могут, а потому, что мы не хотим. Вот. А, поэтому вот, наверное, такой ответ.
1:59:13
Я, кстати, не верю, что ваш микрофон работает. Алло-алло, работает. Да, тут просто
1:59:19
колонок нету, но люди в трансляции слышат. А, для записи. О, прошу прощения, я забыл про вас. Сергей, а,
1:59:26
три вопроса. Один, э, состоит из двух частей. Первое, правильно ли я понимаю, что, э, сильный, ну, или простой способ
1:59:35
улучшить результат того продукта, который даёт модель, ну, назовём так
1:59:40
пока просто модель, это вот это обвешивание различными фреймвор фреймами
1:59:46
одной и той же модели, чтобы она сталкивалась, грубо говоря, с самой собой же в разных ипостасях. Таким
1:59:51
образом, результаты улучшаются. Верно ли это? Да. Ну вот идея с сфхолдинга, она в
1:59:57
этом. Да. Угу. И второй вопрос уже вытекающий из этого, есть ли какая-то
2:00:03
дисциплина, которая концептуально показывала бы путь вот
2:00:09
какой-то подбору вот этой конструкции фреймов оптимально для твоей задачи? То есть кажется, что это не совсем логика и
2:00:16
не совсем системный анализ. Это что-то такое вот среднее, ну или какая-то комбинация между двумя вещами? Ну я бы
2:00:22
сказал, что это такая новая инкарнация программной инженерии. Вот. Ну, то есть такое
2:00:27
метапрограммирование, да, что ли, если хотите. Но формальная сторона, конечно, пока очень слаба. То есть, скорее здесь
2:00:35
наука находится в состоянии, ну, вот как знаете, в истории искусственного интеллекта в семидесятые годы было две
2:00:43
школы. Значит, одна называлась ниц чистюли, да, а другая скрафис грязнули,
2:00:49
да? Вот грязнули — это вот всё полезно, что в рот полезло, да? Ну, то есть типа
2:00:54
взяли, работает отлично. Если работает прекрасно, нам не обязательно понимать, почему это работает, да, и и вообще
2:01:01
какие принципы математические формальные за этим стоят, да? А онис говорили: «Нет, ну как же, вы должны иметь
2:01:08
обоснование строгое того метода, который вы применяете, потому что, ну, в конце концов, если вы не понимаете, почему
2:01:14
ваша система работает, так вы её и улучшить не сможете». Да. Вот. Поэтому сейчас мы скорее находимся на фазе
2:01:21
соответствующей вот с крафиходом. То есть куча людей во всём мире вот эти агентные фреймворки копает. И вы знаете,
2:01:29
это такая во многом отдушина для программных инженеров, потому что эксперименты в области агентности, они
2:01:36
очень часто не требуют там гигантских вычислительных мощностей. Ну то есть вам только на infence нужны вычислительные
2:01:43
мощности, а вам не надо учить гигантские модели. Вы можете взять там даже маленькую какую-нибудь обученную ламу,
2:01:49
да, там запустить её у себя дома там на какой-нибудь видюхе, да, там хорошей. и вокруг неё писать какие угодно там
2:01:56
алгоритмические обвязки, да, и это и это работает. Ну, то есть поскольку как бы общие теория ещё не созданы, там любая
2:02:03
разумная идея, она даёт как бы буст, да? То есть, если у тебя там, как говорится, идеи есть классные, ты идёшь как бы и в
2:02:10
своём гараже собираешь там систему, которая какие-то задачи решает лучше, чем просто модель из коробки. Поэтому
2:02:17
это суперпопулярное сейчас направление и среди студентов, среди энтузиастов онрса
2:02:23
там и так далее. Но направление довольно хаотичное, то есть оно вот только появилось, да? Я уверен, что в ближайшие
2:02:29
годы будут появляться теоретические работы, которые будут, во-первых, значит, ну, каким-то образом позволять
2:02:36
хотя бы количественно оценивать эффекты вот этого скафхолдинга хорошо, да, а потом, может быть, и автоматизировать
2:02:42
построение вот этих сэффилдов, потому что это напрашивается, очевидно, да, но это надо аккуратно тоже тестировать все
2:02:49
эти подходы. Или ещё один в кучу вопросов, а не
2:02:54
связанный с предыдущим. Есть такая система. И самфрам, он позиционирует её
2:03:02
как какую-то мощную модель, которая умеет не текстами
2:03:07
как будто бы оперировать, а оперировать точным вычислительным языком. Могли бы вы чуть-чуть приоткрыть историю про её
2:03:14
как бы, ну, что там внутри зашито такого, что так сильно дистанцирует её
2:03:19
от текстовых моделей? Слушайте, ну Стивен Вольфрем, он просто очень классный дядька. Он как бы большой
2:03:26
энтузиаст вообще э-э формального искусственного интеллекта,
2:03:31
того, что мы сейчас называем Good Old Fashioned Artificial Intelligence. Ну, по сути
2:03:36
дела все эти символьные движки, они про что? Они про то, что, ну, давайте тоже
2:03:42
строить цепочки рассуждений, да, но в пространстве формального языка. И будем
2:03:48
будем использовать разные там эвристики, чтобы опять же не все варианты анализировать, какие-то более перспективные. То есть, по сути,
2:03:54
вольфремовский движок, он очень похож на шахматные движки там типа восьмидесятых-9вяностых годов, да,
2:04:01
начало двухсячных, в которых заложено много такого людского интеллекта, в которым прямо вот силён такой
2:04:06
индуктивный баяс, что вот мы какие-то придумали еврестики, которые улучшают поиск евристический, да, что у нас там
2:04:13
мы будем рассматривать не что попало там, а будем какие-то более перспективные траектории,
2:04:20
рассуждений рассматривать, да, для решения задач. Но в конечном-то счёте
2:04:25
оказалось, что ну вот есть такая статья нашумевшая,
2:04:32
она называется, можете загуглить, типа Bitter Lesson, я не помню полностью её название, ну, типа Bitter Lesson
2:04:39
paper про индуктивный Bс о том, что вот до сих пор в программной инженерии, чем больше мы ликвидировали индуктивный Bс,
2:04:47
тем лучше становились от этого системы. То есть это вот у меня, когда я занимался активно разработкой шахматного
2:04:53
движка, у меня был какой-то год, когда я занимался только тем, что удалял из
2:04:58
этого движка своё гениальное, и движок от этого становился всё всё сильнее и сильнее, да? То есть я заменял свои
2:05:05
какие-то гениальные открытия на то, что все вокруг используют, да, и от этого становилось только лучше, да, и вот
2:05:13
это вот это вот этот период пережил, по-моему, единственный алгоритм,
2:05:18
придуманный мной, который сейчас используется в Stockfish, который называется Bwin Mark extension, но это
2:05:25
типа там из, не знаю, четырёх десятков эвристик, которые я придумал, да, оказалось, что одна вот пережила, так
2:05:32
сказать, столкновение с реальностью. Вот. И в целом вот все вот эти движки,
2:05:39
созданные, безусловно, очень талантливыми, даже гениальными людьми в эпоху Goodled Fashion Artificial
2:05:45
Intelligence, они, конечно, к сожалению, сейчас сдают, потому что, ну, типа ивристики, которые придумывают нейронки,
2:05:52
они оказываются качественно гораздо более точными, да, и лучше статистически подкреплёнными, чем любая интуиция там,
2:05:59
ну, даже очень хорошего исследователя. И по сути сейчас, когда мы говорим про символьный ризонинг от лэмок, а лмка
2:06:07
делает примерно то же самое, то есть она тоже генерирует последствия там цепочки рассуждений, в том числе и, ну, легко вы
2:06:14
доучиваете её оперировать формальным языком. Вот. И оказывается, что её идеи
2:06:20
по поводу того, как типа решать ту или иную задачу в символьном э пространстве,
2:06:26
они оказываются лучше, чем те, которые, ну, типа ивристики плюс перебор позволяют сделать. И я вот сам как бы
2:06:33
своими глазами видел, как там мы с Иваном Оселецом сидели на каком-то нашем
2:06:39
очередном Сберовском совещании, а он сидел, значит, решал там задачу математическую, сложную. Вот. И он
2:06:45
такой, значит, ну да, давай сейчас, ладно, чат GPT спрошу, посмотрим, что она может, не может. Вот. Но он там
2:06:52
задал, смотрит, ну вот как бы о, ну в принципе как бы разумно рассуждает. Ну тут, конечно, ошибка вот где-то она там
2:06:59
типа облажалась, но в целом как бы идея хорошая. То есть он как бы взял сталро. Я говорю: «Ну ты попробуй гигачат». Он:
2:07:05
«Да ладно, гигачат». Он же там, ну типа он его смотрел там, ну типа 3 месяца до этого. Я говорю: «Ну смотри, за 3 месяца
2:07:12
мы там прокачали, иди попробуй». Он: «Да ладно, ну что, ну, я говорю, давай, давай». Вот. Ну и он, значит, вёл эту
2:07:18
задачу и тоже получил решение тоже, в котором был там была в какой-то момент ошибка, но оно было ничем не хуже, чем
2:07:24
от GPT4. Он такой: «О, ну типа ничего себе, типа за 3 месяца так улучшилось». Я говорю: «Ну вот видишь, как бы
2:07:31
время-то не стоит на месте, ты ещё через 3 месяца зайди, так он тебе её и решит».
2:07:36
Вот. То есть в целом ну а как бы опять же, если задача символьного ризонинга, вот вам нужно
2:07:42
именно прямо сделать решение задачи символьного ризонинга на основе лэмки, э, ну, тоже при помощи сфолдинга вокруг
2:07:50
сделать. Ну, то есть заставь сгенерировать её 10 траекторий, потом подставь, э, результирующую набор
2:07:56
операций в символьный движок, вычисли результат выражения. Если он совпал как бы с, ну с заданным критерием, то, ну
2:08:04
вот как бы может за один раз не решит, за 10 решит. То есть вот. Но Вольфром он при этом, мне
2:08:11
кажется, абсолютно адекватно воспринимает эту ситуацию. То есть у него нету такого, что да я, да, там,
2:08:17
ваши неронки не нужны. Наоборот, он как бы был первым человеком, который пошёл к
2:08:23
Open AI. И один из первых тулов, которым научили пользоваться GPT4 — это был
2:08:29
вольфрамовский движок. То есть они реализовали в виде функций. Это вот ранние там работы на тему тулов для ЛМА.
2:08:37
Как раз Вольфром активно в это включился. Давайте последний просто вопрос. Время
2:08:43
уже перебрали. Последний. Спасибо большое за лекцию. После лекции послушать.
2:08:51
В прошлом году было очень много новостей о достижениях в области фундаментальных
2:08:57
наук. Это перемножение матриц было открыто за 45 лет новое, да, там поиск белков Альфафолд, а, по-моему,
2:09:04
кристаллов 800.000 нашли каких-то потенциальных. Скажите пару слов, что в этом году в области фундаментальной
2:09:11
науки было открыто? Спасибо. Вот. Ну, ээ, вышла Alльpha Fold 3, которая там,
2:09:18
ну, ещё очень серьёзно уточнила работу Alльphaold 2. А, и в этом смысле,
2:09:24
конечно, я бы сказал, что я не не скажу сейчас вот там, что
2:09:30
типа вот конкретно открыли там какую-то там важную очень новую молекулу, но в целом я вижу, как изменилось само
2:09:36
отношение ээ коммьюнити профессионалов из области биохимии к
2:09:42
этой работе, потому что к альфафолду первому относились со скепсисом, да, и
2:09:47
ну типа, ну, о’кей, конечно, хорошо, но никак не поможет нам, Да, когда появился
2:09:53
Альфафold 2 было такое, что, ну, типа о там классно,
2:09:58
смотрите, мы там структуру рецептора ковида смогли, ну,
2:10:04
типа восстановить при помощи Альфафол, то, что на что там у кристаллографов ушло там несколько недель, а мы вот тут
2:10:10
типа из коробки сделали и результат совпал. Но потом был какой-то такой момент тоже всё равно скепсиса, когда
2:10:16
стали говорить: «Ну нет, смотрите, как бы он не всегда там правильно угадывает. Вот мы нашли там кучу исключений. Вот.
2:10:22
Э, но было такое типа типа скорее стадия отрицания, да? То есть типа, ну вы там
2:10:28
претендуете на какие-то результаты, да? О’кей, вы показали отдельные классные результаты, но это же всё равно не
2:10:33
панацея, да? Вот и когдафолт третий вышел, скорее тишина и видно, что все
2:10:39
используют. То есть вот, э-э, любую ты современную биохимическую лабораторию
2:10:44
зайдёшь, там у них есть Альphaфold, есть Розетафол, они всё это считают, они
2:10:50
занимаются селекцией как бы структур при помощи этих моделей. То есть произошло
2:10:56
принятие такое, наверное, да. Вот. Э потом, э, значит, ну, про математику я
2:11:03
не слышал каких-то серьёзных результатов. Ну, точнее, было несколько работ, посвящённых тому, что какие-то
2:11:10
доказательства нескольких теорем, вроде бы нашли какие-то более простые, которые ускользали от
2:11:17
э математиков. Было вроде на эту тему исследование, ну, как какой-то опять же там громких публикаций. Я бы сказал, что
2:11:24
э в двадцать четвёртом году было меньше гораздо громких заявлений на эту тему,
2:11:30
но было гораздо больше реального практического применения этих инструментов. Вот именно. Потому что к
2:11:37
ним перестали относиться как диковинки. Вот. А, ну и важный, кстати, момент. Я
2:11:42
написал в списке, но у меня не было отдельного слайда про Нобелевки. Да, у нас же очень громкое событие этого года,
2:11:49
что ограбили несчастных значит физиков и химиков, да, выдав
2:11:55
Нобелевке за машинное обучение. Вот многое было, на самом деле, сломано копий на эту тему. И, ну, там можно,
2:12:02
может быть, поспорить, да, с этими решениями отчасти. Вот. Но это, конечно,
2:12:08
это демонстрация отношения научного сообщества, потому что за выдачей Нобелевской премии стоит комитет из
2:12:15
учёных. Вот. И то, что они решили, пусть даже такое спорное решение принять, это
2:12:22
было признанием со стороны научного сообщества того, что созданные методы действительно очень много пользы
2:12:29
принесли. Давайте ещё, может быть, один вопрос. Я не вопросик, Сергей. Я хотел с благодарностью к вам обратиться. Вы
2:12:35
помогли очень многим авторам. Моя книга лежала долго на полке, потому что я не могла её
2:12:41
никак проиллюстрировать. Художники все мне ничего не нравилось. И когда я познала Кандинский, вот прямо вот
2:12:47
благодарность вам большая, я её са хотела бы вам вручить. Я её сама проиллюстрировала. Спасибо. Спасибо. Вы
2:12:54
очень помогаете многим авторам, правда. Спасибо. Очень рада, что наша работа полезна для кого-то. Вот. Ну, в общем,
2:13:02
друзья, вы можете смело ко мне подходить э потом, да, э, у вас есть мои контакты,
2:13:09
есть мой канал, напишите мне просто комменты, можете писать мне в личку. Э, вот просто подчёркивание удаляете из и
2:13:17
получите, как моя личка называется, в телеге. Вот, поэтому вы мне можете писать в любой момент вопросы. Я не
2:13:23
обещаю, что я вам отвечу мгновенно, но я стараюсь отвечать всем, кто мне пишет. Спасибо большое вам ещё раз, что вы в
2:13:31
пятничный вечер пришли послушать меня. Вот. И до новых встреч. До свидания.
2:13:43
[музыка]

Пересказ видео

Расшифровка видео

Похожие записи