Ключевые работы в области искусственного интеллекта и машинного обучения в 2024 году. Прогресс за минувший год с позиции цифр и фактов, разбор распространённых заблуждений и громких заявлений. О прогрессе в области генерации текстов, изображений, видео, речи, музыки и песен, программного кода, трёхмерных объектов, новых молекул и материалов, о задачах распознавания сгенерированного контента, инструктивного редактирования контента, переноса речи, машинного перевода, о мультиагентности и интерактивном ИИ, альтернативных трансформерам архитектурах, а также о других направлениях исследований. Новые нейросетевые модели и оборудование 2024 года, применение ИИ и машинного обучения в бизнесе, медицине и науке, практичном AGI, а также о всём том, чего мы ждём от искусственного интеллекта и машинного обучения в 2025 году.
*Meta (соцсети Facebook и Instagram) признана экстремистской и ее деятельность запрещена в РФ
Прямая ссылка на видео https://www.youtube.com/watch?v=WWS4GnLJkaE
Пересказ видео
Введение
- Автор вспоминает, как нашёл картинку, ставшую обложкой его лекций по искусственному интеллекту.
- Он отмечает, что в следующем году будет десятилетие его популяризаторской деятельности.
О себе
- Автор не учёный, а научный администратор, руководящий командами по созданию моделей машинного обучения.
- У него низкий индекс Хирша, но он имеет 20-летний опыт в области машинного обучения.
Определение искусственного интеллекта
- Искусственный интеллект — это область науки и технологии, занимающаяся автоматизацией интеллектуальных задач.
- Термин появился в 1956 году на Дартмутской конференции.
- Обывательское восприятие ИИ часто меняется с решением интеллектуальных задач.
История и развитие ИИ
- В 1950-е годы энтузиазм в области ИИ был высок, но многие задачи не удалось решить.
- В последние полтора десятилетия многие сложные задачи были решены благодаря развитию технологий.
Машинное обучение
- Машинное обучение — это подмножество методов ИИ, позволяющее формировать поведение системы через обучение.
- Первые системы машинного обучения появились в 1940-е годы.
- Большинство сложных систем сегодня создаются с использованием машинного обучения.
Нейронные сети
- Нейронные сети — это класс математических моделей машинного обучения, основанный на коннекционизме.
- Современные нейронные сети слабо похожи на биологические нейронные сети.
Импульсные нейронные сети
- Отдельный класс нейронных сетей, моделирующих биологические сети
- Используются для решения задач нейрофизиологии
- В прикладных областях чаще используются модели, слабо похожие на биологические сети
Искусственный интеллект и интеллектуальные задачи
- Понятие искусственного интеллекта широкое, включает примитивные и сложные задачи
- Сложные задачи требуют современных технологий и методов
Прикладной искусственный интеллект
- Системы, решающие одну или небольшое подмножество интеллектуальных задач
- Примеры: Deep Blue, играющий только в шахматы
- До недавнего времени все системы ИИ были прикладными
Общий искусственный интеллект
- Системы, способные решать широкий круг интеллектуальных задач, как человек
- Термин появился в 1997 году в работе Марка Губруда
- В конце 90-х и начале 2000-х годов системы ИИ были далеки от универсальности
Цель развития ИИ
- Расширение возможностей человека
- Создание инструментов для преодоления биологических ограничений
- Дуглас Ингельбарт заложил концептуальную основу человеко-компьютерных интерфейсов
Мультимодальная информация и интерфейсы
- В окошках содержится мультимодальная информация: изображения и тексты.
- Операции с текстом, такие как выделение, копирование и вставка, были придуманы Дугласом Энгельбартом.
- Энгельбарт заложил основу современных интерфейсов взаимодействия человека и машины.
Роль Фредерика Фредкина
- Фредкин, недавно ушедший, был знаменитым специалистом в области информатики.
- Он писал о партнёрстве с интеллектуальными системами для развития науки и искусства.
Барьеры человеческого разума
- Скорость: мозг человека не всегда достаточно быстр для принятия решений.
- Надёжность: люди являются ненадёжным звеном в технологических процессах.
- Параллелизм: люди плохо справляются с параллельным решением задач.
- Коммуникативные ограничения: сенсорная кора мозга ограничена пропускной способностью.
- Физическая хрупкость: люди живут в узком диапазоне условий.
- Сложность систем: человек не может понять сложные системы без упрощений.
- Ограниченность памяти: письменность расширила возможности памяти.
- Экспертные навыки и знания: люди не могут быть экспертами во всём.
- Мотивация: не все задачи нравятся решать.
- Масштабирование: быстрое масштабирование с людьми невозможно.
Переосмысление истории человечества
- В XIX веке история человечества связывалась с технологическими укладами.
- В XXI веке топ компаний по капитализации связаны с информационными технологиями.
- История человечества можно переизобрести, учитывая революционные изменения в обработке информации.
- Устная речь, письменность и книгопечатание были важными революциями в обработке информации.
Влияние интернета на доступность информации
- Интернет значительно увеличил доступность информации.
- Электронная копия дешевле бумажной.
- Оцифрованная информация доступна онлайн, что упрощает её поиск.
Революция генеративного искусственного интеллекта
- Генеративный ИИ меняет информационный метаболизм общества.
- Инструменты, такие как чат GPT, создают тексты по запросу.
- ИИ систематизирует и индивидуализирует информацию, сокращая время на её обработку.
Проблемы определения AGI
- AGI — это универсальный искусственный интеллект, способный решать любые интеллектуальные задачи.
- Определение AGI вызывает вопросы из-за его неполноты и неопределённости.
- Критерии успешности выполнения задач и ресурсные ограничения нечёткие.
Маркетинговые аспекты AGI
- Заявление о создании AGI может увеличить капитализацию компаний.
- Давление со стороны пиара и маркетинга приводит к созданию собственных определений AGI крупными лабораториями.
- Это вызывает путаницу и недоверие к заявлениям о создании AGI.
Определение AGI
- AGI будет считаться достигнутым, когда система сможет генерировать прибыль не менее 100 млрд долларов.
- Это капиталистическое определение, а не основанное на свойствах системы.
- Автор предлагает добавить к AGI другую букву, чтобы избежать путаницы.
Будущее машинного обучения
- Технологии машинного обучения будут развиваться, что приведёт к решению различных задач с помощью больших моделей.
- Бенефициарами этой истории будут те, кто владеет этими технологиями.
Мультимодальность в больших языковых моделях
- Мультимодальность — один из важнейших трендов развития больших языковых моделей.
- Модальность — это способ восприятия данных, такой как текст, изображения, аудио, видео.
- В машинном обучении модальность может включать кодовую модальность и другие представления данных.
Сложности мультимодальных моделей
- Создание полностью мультимодальных моделей сложно из-за инженерных и алгоритмических ограничений.
- Блок внимания в трансформерных моделях имеет квадратичную вычислительную сложность, что усложняет работу с мультимодальными данными.
- Добавление мультимодальных данных удлиняет контекст модели и снижает её эффективность.
Примеры мультимодальных моделей
- За последние годы создано много моделей, объединяющих несколько модальностей.
- Примеры таких моделей: Audio Palm, Speed GPT, Квиндио Селман 2023 года.
- В 2024 году список таких моделей удвоился, включая GPT4 омни, Buba GPT, КН 2 Aудио, Lora GPT, Visper GPT.
Работа с аудио и текстом
- Модели описывают аудиофайлы словами и отвечают на вопросы.
- Примеры включают чат, куда отправляются аудиофайлы и задаются вопросы.
Работа с картинками и текстом
- Модели распознают текст на картинках, включая рукописный.
- Примеры включают Gigachat Vision, который решает сложные задачи с изображениями.
Генерация видео
- Современные модели генерируют видео по текстовому описанию и стартовым кадрам.
- Примеры включают Кандинский 4.0, который входит в топ-10 генераторов видео.
Генерация музыки и пения
- Модели генерируют музыку и пение по текстовому описанию.
- Примеры включают проект Simformer X, который позволяет создавать каверы.
Генерация 3D объектов
- Модели создают полноценные 3D объекты по текстовому описанию.
- Примеры включают черепикнутую генерацию 3D объектов.
Переизобретение текстового редактора
- Чат не всегда удобен для редактирования длинных текстов.
- Примеры включают проект Gigaredactor, который позволяет выполнять генеративные операции с текстом.
Инструктивная модификация изображений
- Современные системы перегенерируют картинку с уточнённым описанием, что не всегда удобно.
- Примеры включают проект Мальвина, который позволяет вносить точечные изменения в изображения.
Переход к интерактивному искусственному интеллекту
- Переход от генеративного к интерактивному искусственному интеллекту.
- Примеры включают новые технологии, которые позволяют взаимодействовать с моделями в реальном времени.
Эволюция искусственного интеллекта
- В прошлом большинство моделей были дискриминативными, решающими задачи классификации и регрессии.
- С появлением трансформеров начался бум генеративного ИИ, создающего новые данные.
Будущее интерактивного ИИ
- Интерактивные системы ИИ решают задачи в цепочке действий, взаимодействуя с внешними инструментами и людьми.
- Прототипы таких систем активно обсуждаются и создаются.
Агенты в интерактивном ИИ
- Агенты являются строительными блоками интерактивного ИИ.
- Генеративные модели могут стать агентами с помощью дополнительных обвязок.
Свойства агентов
- Возможность генерировать управляющие команды для внешних систем.
- Использование инструментов для решения сложных задач.
- Моделирование рассуждений и действий.
- Наличие долгосрочной памяти.
- Фрейминг для настройки поведения модели.
Переход к фундаментальным агентам
- Фундаментальные агенты могут быть предобучены на агентных датасетах и легко дообучены для конкретных задач.
Моделирование рассуждений
- Человеческий интеллект можно рассматривать как сообщество подсистем, выполняющих разные задачи.
- Медленное мышление требует последовательности рассуждений, что также важно моделировать.
Методы фрейминга
- Промпт-инженерия для изменения поведения модели.
- Retrieval augmented generation для извлечения релевантной информации из баз знаний.
- Дообучение моделей для улучшения их производительности.
Процесс генерации и улучшения текста
- Модель генерирует текст, затем действует как критик, давая замечания.
- Затем модель действует как редактор, улучшая текст на основе замечаний.
- Этот процесс называется рефлексией и позволяет получать более качественные тексты.
Расширение шаблонов
- Шаблоны могут быть сложными, включая несколько текстов и роли оценщика.
- Можно использовать внешние инструменты для повышения качества.
- Подход называется скафолдингом, что означает создание каркаса вокруг модели.
Модели мира в мозге и ИИ
- Мозг использует можичок для моделирования мира и прогнозирования реакций.
- В машинном обучении модели мира используются для систем с обучением с подкреплением.
- Пример: AlphaGo Go, использующая две нейронные сети для генерации ходов и оценки позиций.
Модели мира и языковые модели
- Большие языковые модели также являются моделями мира, способными строить правдоподобные цепочки событий.
- Модели мира языковых моделей не всегда точны, но могут быть полезны для моделирования поведения агентов.
- Модели мира могут быть улучшены со временем и использоваться для решения интеллектуальных задач в реальном мире.
Обучение моделей через цепочки рассуждений
- Модели могут автоматически улучшать свои способности к рассуждению.
- Используются наборы задач с известными ответами для генерации цепочек рассуждений.
- Правильные рассуждения поощряются, неправильные — корректируются.
- Это позволяет значительно улучшить способности моделей в математике и логике.
Развитие железа для ИИ
- NVIDIA представила новую архитектуру BlackWell для топовых GPU.
- Архитектура оптимизирована для работы с большими трансформерными моделями.
- AMD представила суперкомпьютер Эль-Капитан на чипах MI 300А, занявший первое место в LINPACK.
- Intel активно исследует нейроморфные архитектуры для решения проблемы бутылочного горлышка фон Неймана.
Нейроморфные вычисления
- Нейроморфные системы обрабатывают и хранят данные в нейронах, что устраняет необходимость передачи данных между памятью и ядрами.
- Intel лидирует в этом направлении с устройством Loihi 2.
- Нейроморфные вычисления могут серьёзно изменить ландшафт вычислений.
Альтернативные физические модели для вычислений
- Исследуются фотонные вычислительные устройства, in-memory computations, квантовые машины и другие технологии.
- Переход от классической электроники к новым физическим моделям требует решения технологических проблем, таких как создание трёхмерных схем и борьба с дефектами.
Нейроморфные схемы и компания Реброс
- Улучшение современной электроники требует смены парадигмы.
- Компания Реброс создаёт чипы по нейроморфному принципу.
Книга «Охота на электровец»
- Автор дописал книгу за прошедший год.
- Книга содержит 450 000 слов, 3,4 млн знаков и 3 200 ссылок.
- Электронная версия книги доступна бесплатно на сайте автора.
Прогнозы и их реализация
- Точность прогнозов автора составляет около 50%.
- Появилась звуковая модальность GPT4O и синхронный перевод аудио в аудио.
- Не сбылись прогнозы о новой версии Zero, MMLU Zero Shot больше 91% и картиночной рег в аналогах чат GPT.
Прогнозы на 2025 год
- Модели будут писать стихи на уровне лучших поэтов.
- Синтез речи голосом, описанным словами.
- Качественная генерация векторных изображений.
- Внедрение text to CAD систем.
- В датасетах для обучения больших моделей больше 50% будет занимать синтетика и оверсмплинг.
Альтернативы для масштабирования датасетов
- Халявный способ масштабирования будет исчерпываться.
- Можно использовать повторные проходы по данным, модификацию целевой функции и синтетику.
Перспективные модели
- Модели пространства состояний и комбинированные модели перспективны.
- Модель Jumba, наследница мамбы, появилась в этом году.
- В следующем году модели пространства состояний должны войти в топ-пять бенчмарков.
Ограничения современных моделей
- Большие языковые модели на основе трансформерных архитектур имеют ограничения в работе с длинным контекстом.
- Модели не всегда понимают внутреннюю структуру токенов, что затрудняет решение некоторых задач, таких как сочинение стихов.
Фундаментальные возможности ИИ
- Человеческий мозг и искусственные нейронные сети описываются формализмами и не относятся к разным классам сложности.
- В далёком будущем машины должны быть способны решать любые задачи, которые может решать мозг.
Социальные и этические аспекты
- Некоторые задачи люди хотят решать сами, а не с помощью машин.
- Произведения искусства и другие творческие задачи часто остаются за людьми из-за их эмоциональной и культурной ценности.
Улучшение результатов моделей
- Обвешивание моделей фреймворками (скафхолдинг) может улучшить результаты.
- Дисциплина для оптимального подбора фреймов пока находится в стадии развития, но это популярное направление среди энтузиастов.
Система Samfram
- Samfram позиционируется как модель, способная оперировать точным вычислительным языком.
- Подробности о её внутреннем устройстве и преимуществах пока не раскрыты.
Стивен Вольфрем и символьный искусственный интеллект
- Стивен Вольфрем — энтузиаст формального искусственного интеллекта.
- Символьные движки строят цепочки рассуждений в формальном языке.
- Вольфремский движок похож на шахматные движки 80-90-х годов.
Критика индуктивного Байеса
- Статья Bitter Lesson показывает, что устранение индуктивного Байеса улучшает системы.
- Автор лекции удалил свои эвристики из шахматного движка, что улучшило его.
- Нейронные сети предлагают более точные и статистически подкреплённые решения.
Сравнение с LLM
- LLM, такие как GPT, лучше решают задачи символьного рассуждения.
- Пример с Иваном Оселецом показывает, как GPT и GPT-3 решают математические задачи.
- LLM можно использовать для генерации траекторий рассуждений, которые затем проверяются символьным движком.
Вольфрем и OpenAI
- Вольфрем адекватно воспринимает ситуацию и сотрудничает с OpenAI.
- GPT4 научился использовать вольфрамовский движок.
Достижения в фундаментальной науке
- Вышла Alpha Fold 3, улучшившая работу Alpha Fold 2.
- Альфафолд стал широко использоваться в биохимических лабораториях.
- В математике было несколько работ по упрощению доказательств теорем.
Нобелевская премия за машинное обучение
- В 2024 году Нобелевскую премию вручили за машинное обучение.
- Это признание научного сообщества важности методов машинного обучения.
Благодарность и контакты
- Автор лекции помог многим авторам с иллюстрациями.
- Автор приглашает слушателей обращаться к нему с вопросами через контакты и канал в Telegram.
Расшифровка видео
0:02
[музыка]
0:09
Я смотрел на эту картинку, пока тут стоял, и вспомнил, что я её нашёл в далёком 2016 году. И с тех пор она стала
0:18
обложкой моих очень многих лекций по искусственному интеллекту и, в общем, по стению обстоятельств. Моя первая научно
0:25
популярная лекция состоялась здесь же, в стенах научки. Вот. Так что в следующем году можно будет отпраздновать
0:31
десятилетия моей популяризаторской деятельности. Вот. Ээ несколько слов о
0:37
себе, ээ прежде чем начинать ээ погружаться в то, что произошло в этом году в области машинного обучения
0:44
искусственного интеллекта. Такой традиционный дисклеймер. Я не учёный, я
0:49
научный администратор, я руковожу командами исследовательскими, которые занимаются созданием моделей машинного
0:55
обучения. у меня какой-то, ну, довольно стыдноватый хирш в районе шестёрки. Вот.
1:01
И, ээ, в общем-то, я скажем так, не являюсь академическим исследователем в этой области. Вот. Но, э, в силу того,
1:08
что больше 20 лет я занимаюсь практикой в области создания систем машинного
1:14
обучения, ну, что-то я имею сказать на эту тему. Вот. Э, ну, и, пожалуй, с
1:20
этого мы начнём. Опять же, как заведено у бородатых мужиков с древности, с античных времён,
1:28
прежде чем о чём-то говорить, нужно договориться об определениях. В противном случае мы с вами можем
1:33
погрузиться во всякие, э, недопонимания и несколько терминов,
1:39
которые являются рамочными для сегодняшней лекции. Но первый термин — это искусственный интеллект, один из
1:44
терминов, который вынесен в название лекции. Что мы понимаем под искусственным интеллектом? Под
1:50
искусственным интеллектом понимается область науки и технологии, которая занимается автоматизацией решения интеллектуальных задач. То есть, если
1:57
есть какая-то задача, которую люди решают при помощи своего человеческого интеллекта, а мы создаём систему,
2:03
предназначенную для того, чтобы человеку помочь решать такую интеллектуальную задачу или даже полностью подменить
2:08
человека в решении такой задачи, то мы, собственно, занимаемся практикой в области искусственного интеллекта. А,
2:15
ну, сам по себе термин появился в далёком 1956 году. стал достоянием
2:21
общественности в ходе знаменитой дартмудской конференции. Ну, собственно говоря, в материалах подготовки
2:26
дартмудской конференции впервые этот термин и был озвучен. Э-э, значит, э,
2:32
собственно говоря, э до этого использовались схожие термины, да,
2:37
скажем, Алан Тюринг употреблял термин машинный интеллект. Вот. Э, ну, по сути
2:44
дела, если мы посмотрим материалы дартмундской конференции, э если мы посмотрим в работы Джона Макарти, эээ,
2:51
того времени, времён дартнского семинара или позже, то мы видим, что с самого начала речь шла именно об области науки
2:58
и технологии, которая, э, будет использовать достижения в области информационных технологий для
3:04
автоматизации решения интеллектуальных задач. А, но с понятием искусственный интеллект с ним связан такой довольно
3:11
интересный эффект. ээ связанный с обывательским восприятием этого понятия.
3:17
Э дело в том, что э люди очень часто
3:22
подвержены такому эффекту, который получил название эффекта Макордек в честь помелы Макордек, известная
3:28
исследовательнице в области машинного интеллекта. Дело в том, что как только какая-то интеллектуальная задача
3:34
решается при помощи технологических методов, люди склонны переставать считать эту задачу интеллектуальной. Ну,
3:42
то есть, скажем, если бы вы в пятидесятые годы спросили человека на улице, а будет ли настоящим
3:48
искусственным интеллектом машина, которая обыграет чемпиона мира в шахматы, то, конечно, 100% людей
3:54
примерно сказал бы вам да, потому что шахматы — это эталонная интеллектуальная задача, а и машина, которая способна
4:01
играть в такую интеллектуальную игру, безусловно, будет машиной интеллектуальной. Вот. Но в девяносто седьмом году после того, как Каспаров
4:08
потерпел поражение одиплу, э, очень многие люди стали говорить: «Ну ваша машина на самом деле глупая, никакого
4:15
интеллекта там нету. Она просто очень быстрая, она перебирает сотни миллионов позиций в секунду. Человек так не
4:21
может». И вот это просто такой вот очень-очень быстрый дурак. Вот. Значит,
4:26
ну вот есть такая мудрая восточная игра Го. Вот там сложность поискового
4:31
пространства очень большая. Никогда переборные методы вам не помогут. решать её эффективно. Вот вначале покажите нам
4:39
машину, которая обыграет сильнейшего игрока в год. Тогда мы с вами и поговорим. Вот. Ну, когда Лисидоль
4:46
проиграл свой знаменитый матч Альфаго, э, естественно, многие люди стали говорить: «Ну, подумаешь,
4:53
что же это за интеллект?» Это у вас просто умножение матриц. Ну, вот какая-то там какие-то свёрточные сети.
4:58
Вот это всё чепуха. Вот вы нам покажите машину, которая сможет рисовать картины, сочинять музыку. писать стихи. Вот
5:06
тогда, может быть, мы и признаем за вами какие-то реальные достижения в области автоматизации решения интеллектуальных
5:12
задач. Ну, в общем, это всё конечно, мм, наверное, отчасти обусловлено тем, что
5:19
сам по себе термин искусственный интеллект, он, э, ну, несёт в себе некото та некоторую такую претензию,
5:25
некоторый оттенок романтизма. Ну, примерно так. Если бы мы всю
5:30
двигателистику называли бы искусственной силой, да, вот, ну, в некотором смысле это ведь верно, да, это действительно
5:37
искусственная сила, да, но вот искусственный интеллект — это вот область, которая создаёт инструменты,
5:43
которые предназначены расширять возможности человеческого интеллекта. А,
5:49
но, конечно, термин появился романтические времена, и через год после
5:54
дартмадского семинара на орбиту Земли полетел первый искусственный спутник. И многие тогда верили, что пройдёт
6:01
десятилетие и мы уже будем строить базу на Луне. А ещё через пару десятилетий будем осваивать во всю солнечную
6:07
систему, а к концу столетия уж наверняка полетим к звёздам. Но, как мы знаем,
6:12
этого не произошло. Точно так же, как и энтузиазм в области искусственного интеллекта, который возник в пятидесятые
6:18
годы. Эн, в общем, тоже во многом оказался неоправдан. Многие интеллектуальные задачи э в то время не
6:26
удалось решить при помощи тех методов и тех устройств, которые которыми обладало
6:32
человечество в середине XX века. А, ну, в общем-то, здесь, как говорится,
6:40
курочка по зёрнышку клюёт, да, и многие из тех задач, которые тогда оказались
6:46
чрезвычайно сложными для технологий искусственного интеллекта, они оказались решены в последние полтора десятилетия.
6:54
Мы сегодня об этом тоже немножко поговорим. Вот второй термин, э, — это термин машинное обучение. И что же мы
7:01
понимаем под машинным обучением? под машинным обучением мы понимаем некоторое подмножество методов искусственного
7:07
интеллекта. Ээ, и это подмножество, ну, оно определяется примерно таким образом,
7:12
да? То есть это методы, которые позволяют неявно программировать поведение системы при помощи наборов
7:18
каких-либо правил, а, а, которые позволяют нам формировать поведение системы в ходе автоматического процесса
7:26
с примением инструментов математической статистики теории оптимизации. Ну, то есть, проще говоря, вы не в явном
7:34
виде задаёте поведение системы — в виде набора какого-то понятного набора
7:40
правил, а вы используете обучающую среду или какие-то обучающие наборы данных или
7:46
другие процедуры, задействующие методы теории оптимизации, которые позволяют вам создать систему, которая
7:54
будет успешно решать вашу задачу. Хотя, в общем-то, э вы можете даже и не понимать, почему эта система, э, решает
8:01
эту задачу, какими внутренними принципами она руководствуется. Но тем не менее, э, такого рода подходы, э, они
8:09
стали зарождаться ещё в далёкие сороковые годы XX века. Первые машины, которые можно было условно отнести к
8:17
области примитивных систем машинного обучения, они создавались именно тогда. Ну, скажем, гомеостат росса Эшби. Это
8:25
система, разработанная во второй половине сороковых годов. Ну и на начало пятидесятых годов приходится
8:31
довольно большое уже количество систем, которые, в общем, по всем критериям следует относить систему машинного
8:37
обучения. Словом, машинное обучение — это довольно такая заслуженная отрасль искусственного интеллекта. Вот. И
8:44
сегодня большинство сложных систем для решения сложных интеллектуальных задач, безусловно, создаётся при помощи методов
8:51
машинного обучения. Но это не значит, что все, весь искусственный интеллект равен машинному обучению, да? Ну вот, в
8:58
частности, ээ хочу напомнить, что система Deep Blue, в общем-то, не
9:03
использовала методов машинного обучения, тем не менее могла вполне эффективно играть в шахматы
9:10
на сверхчеловеческом уровне. Ну и третие, третий термин нейронные
9:17
сети, которые тоже довольно часто употребляется сейчас, в том числе в
9:22
ненаучной среде. Ну, нейронные сети — это класс математических моделей машинного обучения. А на самом деле
9:30
достаточно широкий класс. Эти модели относятся к так называемым коннекционистским моделям, где, по сути
9:38
дела система создаётся из большого количества простых элементов. Вот. То
9:43
есть под коннекционизмом понимается такое направление в э технологиях и в
9:49
теории алгоритмов, когда э модель состоит из множества достаточно простых
9:54
элементов, которые описываются, поведение каждого из которых описывается при помощи сравнительно простого набора
10:01
правил. Конечно, нейронные сети возникли под впечатлением от биологических нейронных
10:07
сетей. Вот. Но современные, э, нейронные сети, которые
10:12
используются для решения большинства прикладных задач, они довольно слабо похожи на биологические нейронные сети.
10:20
Ну, в общем, точно так же, как, не знаю, наши самолёты не машут крыльями, хотя
10:26
наши аппараты тяжелее воздуха, безусловно, были созданы под впечатлением от каких-то природных объектов, тяжелее
10:33
воздуха, способных летать. Вот. Ну, и вот с нейронными сетями ситуация примерно такая же. Исключения
10:38
составляют, э, отдельный класс нейронных сетей, которые называются импульсные нейронные сети.
10:45
Ну, опять же, некоторые разновидности импульсных нейронных сетей специально используются для решения задач из
10:51
области нейрофизиологии. То есть, если специально ставится задача симуляции работы биологической нейронной сети, то
10:57
есть класс нейронных сетей, который, э, способен моделировать работу
11:02
биологической сети. Но ещё раз подчеркну, в большинстве случаев сегодня прикладном в прикладных областях
11:09
используются нейросетевые модели, которые очень слабо похожи на биологические сети.
11:14
А ещё важное важное определение связано с тем,
11:21
что, ну, в общем, как вы понимаете, понятие искусственного интеллекта очень широкое. Вот. И, ну, в общем-то,
11:29
некоторые интеллектуальные задачи являются примитивными с точки зрения существующих технологий. Ну, скажем,
11:36
задача сложения чисел, она, в общем, тоже в некотором смысле интеллектуальная, потому что мы, ээ,
11:43
решаем её при помощи своего человеческого интеллекта. Другое дело, что с точки зрения технологии эта задача
11:49
тривиальная и решённая э давным-давно. Э то есть первые механические устройства
11:54
для счёта появились в незапамятные времена. А, но понятно, что обычно, рассуждая о
12:02
текущем положении дела области искусственного интеллекта, мы прежде всего интересуемся сложными задачами, то
12:08
есть такими задачами, которые либо были решены относительно недавно, либо ещё пока что не решены при помощи
12:14
технологических методов. Вот. И, ээ, в силу того, что
12:20
сложности и разнообразия интеллектуальных задач достаточно широко, а внутри методов искусственного
12:27
интеллекта, внутри систем искусственного интеллекта можно выделить два таких важных полюса. Ну, первый полюс — это
12:34
полюс — это полюс. Полюс, это прикладные
12:39
системы искусственного интеллекта. Э-э, ну, часто используются термины слабый, э-э, узкий, прикладной искусственный
12:47
интеллект. Э-э, о чём здесь идёт речь? Это системы, которые предназначены для,
12:52
а, решения, как обычно, какой-то одной интеллектуальной задачи или эээ ну вот
12:58
какого-то очень небольшого подмножества интеллектуальных задач. По сути дела, до недавнего времени, э, 100% систем
13:05
искусственного интеллекта относились именно к этому классу. Ну, программа Deepбue и, соответственно,
13:12
компьютер deep Blue может играть только в шахматы. Он не может распознавать котиков на картинках, он не может играть
13:18
в покер. Более того, он не может играть в шахматы на доске 9х9. Всё, что он
13:24
может делать — это играть в стандартные шахматы на доске 8х8. И благодаря вот этой очень жёсткой специализации может
13:31
достигать сверхчеловеческих результатов. А, ну, скажем, в живой природе есть
13:38
организмы, которые обладают гораздо более примитивной нервной системой, чем человеческая нервная система. Но в
13:45
решении отдельных интеллектуальных задач они способны человека превзойти. Например, пчела в улье найдёт
13:51
оптимальный маршрут быстрее и лучше, чем это сделаете вы. Хотя её нервная система состоит всего лишь-навсего из нескольких
13:57
сотен тысяч нейронов, а ваш мозг состоит из примерно 86 млрд нейронов.
14:03
Ну и, в общем-то, до недавнего времени, да, в общем-то, практически до сегодняшнего дня все успехи в области
14:09
искусственного интеллекта, они были подобны ну вот достижениям. Помните, был такой мультик про И басня,
14:16
соответственно, про э скорняка и купца, да, который просил выкроить больших семь
14:22
шапок из одной овцы. Вот. И на самом деле, конечно, ээ все достижения области
14:30
искусственного интеллекта, они вот похожи на вот эти вот шапочки, выкраные из овцы. Почему так? Потому что на самом
14:38
деле парадоксальным образом те люди, которые рассуждали в девяносто седьмом году о том, что значит Блу — это такой
14:47
железный монстр, который гораздо быстрее человека и производительнее человека,
14:52
они на самом деле абсолютно не правы, потому что человеческий мозг — это чрезйно мощная ээ электрохимическая
14:59
вычислительная машина. Э, как я уже говорил, он состоит из примерно 86 млрд
15:05
нейронов. В пике своего развития может насчитывать до триллиона синапсов, то есть
15:11
точек соединения между нейронами. Ну и каждый синапс, как бы это ещё не просто
15:16
точка контакта, да, это довольно хитрое электромеханическое устройство, которое способно трансформировать проходящий
15:23
через него сигнал. Ну и по современным представлениям, представлениям современной нейрофизиологии, для
15:29
моделирования одного синапса нам нужны тысячи бинарных элементов. Ну и скорее
15:34
даже не тысячи, а сотни тысяч. А, конечно, ээ в силу того, что
15:39
человеческий мозг система электрохимическая, у неё действительно есть определённые ограничения по
15:45
скорости работы. Дело в том, что для того, чтобы электрический сигнал, э,
15:51
прошёл через, ээ, синоптическую мембрану, нам нужно протолкнуть ион
15:56
через ионный канал. Ну а проталкивание происходит за счёт разницы потенциалов,
16:02
понятное дело. Вот. Но есть одна проблема. Если разница потенциалов
16:07
достигает 1,27 В, вода начинает разлагаться на водород и кислород. Ну и,
16:13
соответственно, мозг просто-напросто взорвётся, что, в общем, продуктивного мышлению не очень способствует. Вот
16:20
поэтому скорость передачи сигналов между нейронами, она действительно не очень велика по сравнению со скоростью
16:26
передачи сигналов в современной электронной схеме. Но размер этой схемы
16:32
колоссальный, да. И если мы всё-таки посчитаем, какое примерно количество
16:38
бинарных операций мозг в состоянии выполнять в единицу времени, окажется, что, э, ну, он обладает очень большой
16:46
такой бруттовычислительной мощностью, которая пока что не доступна для современных электронных устройств, но и
16:52
тем более не была доступна для электронных устройств с конца девяностых годов. Другое дело, что мы с вами не
16:59
осознаём большую часть процессов, которые происходят внутри мозга, да? Мы смотрим на фотографию и мгновенно
17:06
понимаем, нарисован на ней котик или котика там нету. Вот что при этом происходит внутри нашего мозга, да?
17:12
Какие каскады активации нейронов задействуются при этом, да? Какие спатьотемпоральные карты активации
17:18
нейронов соответствуют понятию котик в нашем мозге? Мы это всё не осознаём. наше сознание — это очень небольшая
17:25
такая саморефлективная часть психики. Вот. И тем не менее мозг, ну вот в таком автоматическом, фоновом режиме выполняет
17:32
огромное количество действий, которые позволяют ему эффективно решать очень сложные
17:37
интеллектуальные задачи, которые пока что не ээ подвластны машинам.
17:44
А, и вот для того, чтобы указать как бы на другую
17:50
крайность, на другой полюс э интеллектуальных систем был введён
17:56
термин общий или универсальный искусственный интеллект. И речь идёт о системах, которые способны решать
18:03
неопределённо широкий круг интеллектуальных задач. Ну, по сути дела, способны решать любые
18:08
интеллектуальные задачи, которые подвластны человеку. И сам этот термин, он появился в 1997
18:16
году в работе Марка Губруда. Мы немножко её сегодня тоже вспомним по ходу
18:22
рассказа. И, в общем-то, существовал он, конечно, исключительно как некий такой
18:28
гипотетический другой конец э во всём множестве интеллектуальных систем. И в
18:34
общем, понятное дело, что в конце девяностых годов, да и в начале дх000чных, э все системы искусственного
18:41
интеллекта, которые создавались, они, конечно, были безнадёжно далеки от той универсальности, которую представлял
18:49
человеческий мозг. А, но тем не менее вот этот термин появился, он стал, ну, в каком-то мере таким указующим маяком,
18:56
что ли, показывающим нам направление потенциального развития технологий. Э,
19:02
то есть действительно, э-э, уже в те годы, да и раньше, люди мечтали о
19:07
создании, э-э, универсальных интеллектуальных систем, которые, э, могли бы решать широкий спектр
19:14
интеллектуальных задач. Ну и опять же, если говорить о задачах,
19:19
которые перед этой областью ставились уже тогда, во второй половине XX века,
19:26
то с самого начала цель развития информационных технологий искусственного
19:32
интеллекта э принималось как расширение возможностей человека. Ну, посудите
19:39
сами, для человека это очень естественный способ адаптации. У нас
19:44
нету с вами острых когтей и ээ клыков,
19:49
но мы создаём ножи, вилки, пики и так далее. У нас нету с вами толстой шкуры, густого меха, но мы создаём одежду. Вот.
19:57
Ну а э наш биологический интеллект ээ подвержен ряду ограничений. Вот. И в
20:04
этом смысле нам тоже нужны инструменты, которые бы раздвигали границы возможностей для человечества.
20:10
А, и вот если посмотреть рассуждение исследователей во второй половине XX
20:17
века, э, то можно заметить, что вот этот вот эта миссия развития технологий
20:24
искусственного интеллекта, она была сформулирована достаточно хорошо уже тогда. То есть вот, например, Дуглас
20:29
Ингельбарт. Кто из вас знает, кто такой Дуглас Ингельбарт? Поднимите
20:35
руку. Слышал кто-нибудь? Никто не слышал. А вот есть один человек вот. Ну,
20:40
вообще про Дугласа Энгельбарта обычно пишут, что это изобретатель компьютерной мыши. Вот. Ну, это, конечно, здорово.
20:48
Компьютерная мышь — это классно. Вот. Но на самом деле Доглас Ангельбарт изобрёл
20:53
очень много чего. И Дуглас Ангельбарт по сути дела, заложил концептуальную основу
20:59
всех современных, э, человеко-компьютерных интерфейсов.
21:04
Ещё в начале шестидесятых годов он написал работу, ээ, посвящённую концептуальному
21:10
фреймворку взаимодействия человека и машины и ээ направленного на решение
21:15
сдачи усиления человеческого интеллекта. И вот сегодня, когда мы пользуемся там
21:21
персональным компьютером, у нас есть окошки, в которых открываются разные
21:26
документы. Э в этих окошках, значит, содержится какая-то мультимодальная информация, изображения, тексты. Мы
21:32
можем текст выделять, скопировать из одного окошка в другое, вырезать, вставить и так далее. Вот все вот эти
21:39
операции, они были придуманы именно тогда. И Дуглас Энгельбарт вот заложил основу, по сути дела, современных
21:46
интерфейсов взаимодействия человека и машины. А и ээ второй человек — это
21:52
Фредкин, недавно ушедший от нас, тоже знаменитый специалист в области
21:58
информатики. Вот мне очень нравится его такое романтическое отношение к развитию технологии искусственного интеллекта. Он
22:04
писал, что как партнёры с интеллектуальными системами, которые дополняют и компенсируют наши исправимые
22:10
недостатки и в полной мере используют присущую нам креативность, мы могли бы развивать все области науки и искусства.
22:17
И, имея вычислительные крылья, мы могли бы взлететь навстречу Феникс.
22:26
Ну, о каких барьерах человеческого разума, которые мы хотим раздвинуть, идёт речь? Очень быстро пробежимся по
22:32
этому списку. Он отнюдь не полный, но, мне кажется, даёт представление о том, чего мы хотим от технологии
22:38
искусственного интеллекта. Ну, первая скорость, да, как я уже говорил, в силу
22:44
того, что мозг основан на мокрых вычислениях, да, как иногда шутят,
22:49
используя терминware в отношении биологических нейронных сетей, люди действительно
22:55
иногда недостаточно быстры, и нам нужно принимать очень быстро определённые решения, решать какие-то
23:02
интеллектуальные задачи с огромной скоростью. И здесь нам не обойтись без соответствующих помощников.
23:08
надёжность. Во многих технологических процессах люди являются наиболее ненадёжным звеном. Если кто-то из вас
23:16
давал кому-то деньги в долг, знает, что люди, в общем, не всегда надёжны. Вот,
23:21
значит, ну, иногда нам нужно повысить надёжность каких-то процессов, и это можно сделать путём исключения из них
23:28
человека. Ограниченный параллелизм в обработке информации. Вообще, люди не очень хорошо справляются с параллельным
23:35
решением интеллектуальных задач. Если мы одновременно решаем несколько интеллектуальных задач, то эффективность
23:41
решения каждой из этих задач довольно быстро падает. Коммуникативное ограничения. Ну, собственно, речь идёт о
23:47
пропускной способности сенсорной коры человеческого мозга. К сожалению, мы, например, не можем одновременно на одном
23:53
экране смотреть 10 сериалов. Хотя, наверное, можно было бы получать в 10
23:58
раз больше удовольствия, да. Вот. Но, к сожалению или к счастью, сенсорная кора
24:05
э ограничена. И, соответственно, если нужно опять же за ограниченное время проанализировать огромные потоки
24:12
информации, не всегда э люди способны с этим справиться из-за имеющихся
24:18
ограничений. Барьеры физической хрупкости. Люди вообще довольно хрупкие существа. Мы живём в очень узком
24:24
диапазоне температур, в очень узком диапазоне ускорений. Нам нужна определённая концентрация
24:31
кислорода, ну и так далее, и так далее. Очень много, что нас убивает. Вообще, если мы посмотрим на нашу вселенную, то,
24:37
не знаю, 99, и 9999 и много девяток процентов её мест
24:44
составляют места, в которых мы с вами не можем существовать. Вот. И в этом смысле, если мы претендуем на, э, ну,
24:51
какой-то, значит, выход из колыбели, э, человечества, то, ээ, нам, конечно,
24:57
нужны здесь какие-то инструменты, которые позволят принимать, э, интеллектуальные решения в агрессивных
25:05
средах. Порок сложности анализируемых систем. Ну, как шутят известный
25:11
информатик СССР и Дальга, способность человека понимать какую-то сложную систему, ограниченно одним чилобайтом.
25:18
Вот. Ну вот если система вмеща её сложность помещается в этот челобайт человеческого понимания, то тогда мы
25:25
способны, в общем, ну, как-то без потерь моделировать её поведение в своей голове. Но как только система становится
25:31
сложнее, нам приходится прибегать каким-то упрощением. А, и, в общем, мы
25:36
начинаем допускать какие-то непростительные ошибки. И дело в том, что многие системы, с
25:42
которыми мы в природе сталкиваемся, они действительно явно превосходят этот самый челобайт понимания. Ну, например,
25:49
живые организмы, биологические системы. Если взять карту всех известных нам биохимических
25:56
путей человеческом организме, распечатать её в виде плаката, то этот плакат займёт вот всю эту стену. И всё
26:03
равно самые мелкие надписи на нём будут там вторым, третьим э шрифтом написаны.
26:10
И очевидно, что в голову одного человека, даже совершенно гениального, вся эта информация вместиться не может.
26:16
Вот. Ну а понятно, что люди делают, люди создают человеческие коллективы научные,
26:22
например, для постижения таких сложных систем. Но, э, как бы научные коллективы
26:28
тоже обладают определёнными ограничениями, потому что с ростом размером коллектива растёт быстро
26:34
количество коммуникаций, растёт количество потерь при обработке информации и так далее. А ограниченность
26:40
памяти? Ну, здесь, в общем, всё примерно понятно. Одни из первых инструментов
26:46
расширения возможности человеческого разума были связаны именно с расширением человеческой памяти за счёт
26:51
письменности, например. Ограничены экспертные навыки и знания. Ну, здесь, в общем, всё понятно. Все мы не можем быть
26:58
экспертами во всём. А барьеры мотивации. Не все интеллектуальные задачи мы, вообще-то, с вами хотим решать. Не все
27:06
задачи нам решать нравятся, хотя решать их нужно. Вот. И мы с большой радостью хотели бы
27:12
некоторые задачи передоверить кому-то другому. Ну и последнее, но не наименее значимое, это барьеры масштабирования.
27:21
Ну то есть, скажем, если вам завтра вдруг нужен срочно кол-центр с 10.000 операторов, вы не можете быстро нанять
27:27
10.000 операторов, обучить их, а послезавтра, когда вам этот кул-центр больше не нужен, вы не можете его просто
27:33
так закрыть и уволить всех этих людей. Вот. Но вы можете сделать то же самое с,
27:39
ну, какими-нибудь виртуальными, э, серверами, да, на которых вы запустите
27:44
там автоматизированных операторов, ээ, запустите 10.000 автоматизированных
27:50
операторов, на следующий день потушите эти сервера и всё. А вот, то есть, некоторые процессы, они требуют
27:56
возможности такого быстрого масштабирования и репликации. С людьми это не всегда можно сделать. Так,
28:04
маленькая маленький интерактивчик. Вот три предмета нарисованы здесь. Как вы
28:10
думаете, что их объединяет? Да, это а каменный, бронзовый, железный век,
28:19
да. Вот в начале X века возникла такая
28:24
картина человеческой истории, в которой человечество последовательно проходило
28:29
через такие периоды существования, в ходе которых подчиняла своей воли, э,
28:35
определённые субстанции, да, создавала технологию, основанную на вот этих
28:41
материалах, да, в начале человечество подчинило своей воле камень и создавало каменное орудие.
28:48
Потом наступил бронзовый век, потом железный век. Вот. Ну и, наконец-то, был
28:54
построен столетейный завод во Франкфурте на Майне, который, безусловно, является
29:00
вершиной развития человеческой цивилизации. Ну, понятно, что это ирония. И вообще вот эта картина, она
29:07
гораздо больше говорит не столько об истории человечества, сколько о том обществе, в котором эта картина
29:13
появилась. Вот. Потому что, ну, пока историкам платил папа Римский, в книгах
29:19
по истории всё обычно начиналось с райского сада, где жили Адам и Ева. Э, и
29:25
далее по тексту. Но когда в начале XIX века за дело взялись крупные
29:31
промышленники, третье сословие, да, то возникла вот такая версия истории, где,
29:37
ээ, ну вот самыми главными революционными изменениями в истории человечества была смена э
29:44
технологического уклада. А, но мы с вами живём в XXI веке. Если мы посмотрим, э,
29:51
значит, в топ компаний мировых по капитализации, то мы там не найдём сейчас сталелитейных заводов. Мы найдём
30:00
там, скорее всего, компании, бизнес которых связан с информационными технологиями, так или иначе, э,
30:06
Microsoft, Apple, Google. А, и в этом смысле мы можем, следуя традиции XIX
30:14
века, просто взять и снова переизобрести человеческую историю. Да. Ну почему вот мы решили, что именно вот эти
30:20
революционные изменения были наиболее важными и критичными в истории человечества? Вот смотрите, другой
30:26
вариант истории. В начале человечество использовало для обработки информации
30:32
исключительно устную речь. И мы жили все в эру устной речи.
30:38
Ну вот этот устный век, мы на самом деле уже довольно серьёзно возвысились над
30:43
животным царством, потому что, конечно, система сигналов полноценная такая, которая существует у
30:49
людей, гораздо сложнее любой сигнальной системы у животных. Вот. Но, ээ,
30:55
следующая важная революция — это появление письменности. Ну, теперь вот
31:00
бабушка умерла, а рецептики пирога остались, и можно теперь пирог печь даже
31:06
после её смерти. Вот ещё можно и соседу передать рецептик, да? А сосед ещё
31:11
своему соседу передаст. Вот. И таким образом информация распространяется гораздо более эффективно, да. Вы можете
31:17
написать целое письмо, трактат, отправить его с гонцом за сотни
31:22
километров, да, где люди ээ значит освоят знания, опираясь на вот эту вот
31:29
этот письменный текст. А, и в общем это довольно революционные изменения, и вряд
31:34
ли можно представить себе развитие ремёсел, ээ, торговли городов без
31:41
письменности. Да, мы знаем, что, э, письменность, э, играла очень важную
31:47
роль в становлении технологического уклада. Ну, следующая революция в обработке информации — это книго
31:53
печатания. Книгопечатание в десятки тысяч раз сократило затраты на тиражирование
31:59
информации. То есть копия книги, изготовленная при помощи печатного пресса, стоила примерно
32:06
в 10.000 раз меньше, чем копия, э, созданная монахами-переписчиками. Соответственно,
32:12
это снова радикальным образом увеличило доступность информации, повысила эффективность её передачи между людьми.
32:21
А следующая важная революция — это интернет, да, и в принципе, ээ электронная копия, опять же, во много
32:28
раз дешевле, чем копия бумажная. И ээ сегодня, как вы понимаете, благодаря
32:34
интернету мы имеем гораздо более простой доступ к огромному количеству
32:41
оцифрованной информации. Вам не нужно ехать за какими-нибудь
32:46
бумажными документами в другой город, да, в какую-то библиотеку, чтобы найти
32:52
какой-то текст, да, если этот текст уже выложен в интернете, доступен вам. А в общем, не нужно делать ничего, не нужно
32:58
даже отрывать э нижнюю часть спины от кресла. Вот. Ну, э и, кажется, мы с вами
33:05
находимся внутри следующего важного революционного изменения в информационном метаболизме общества. А
33:12
это изменения, связанные с появлением технологий генеративного искусственного интеллекта. Почему
33:18
это тоже революционные изменения? Ну вот в пике развития, да, мы можем
33:24
представить себе сейчас, э, посмотрев на такие инструменты, как там чат GPT и так
33:31
далее. Ну, в общем, в них мы уже видим контур ближайшего будущего, в котором у нас
33:37
будет инструмент, который по нашему запросу, ну, будет создавать, по сути
33:42
дела, книгу, текст, статью, обобщающую ту информацию, которая содержится в цифровом следе
33:49
человечества. Да, я хочу монографию про гранёный стакан. Да, и машина за меня
33:55
перелопатит огромное количество оцифрованной информации. Все книги, написанные людьми, все статьи, все
34:02
записи на форумах, в социальных сетях, соберёт всю, э, информацию, посвящённую гранённым стаканам, систематизирует её,
34:09
приведёт её к форме, которая нужна мне, э, ещё и, э, сделает этот текст
34:15
подходящим именно для меня, опираясь на свои знания о моих
34:20
предпочтениях. Вот. И по сути дела, на создание новой книги, нового
34:27
индивидуализированного и, э, так, э, специализированного текста будут уходить
34:34
секунды или минуты вместо, ну, там довольно длительного периода времени,
34:40
которое бы на такую же операцию потратили бы люди, которым пришлось перешерстить огромное количество
34:46
документов вручную выполнить всю эту суммаризацию, систематизацию и так далее, да.
34:52
И, ну, по сути дела, такие сервисы доступные в недавнем времени были только
34:59
сильным мира сего, у которых были референты, которые могли вручную собирать, систематизировать информацию,
35:06
но и то их возможности были весьма ограничены, да. То есть, в общем-то, мы
35:11
с вами вступаем в общество, в котором, опять же, обработка информации будет
35:16
происходить новым революционным способом.
35:24
Ну, ээ, упомянули, упомянул я сегодня термин AGI. И я думаю, что многие из вас, ээ, в
35:34
прессе замечают множество рассуждений на тему того, а когда же мы создадим тот самый
35:41
универсальный или общий искусственный интеллект, то есть систему, которая будет способна решать любые
35:47
интеллектуальные задачи, которые решает человек. А, ну
35:52
вот тут есть некоторый такой важный момент, который нужно не выпускать из
35:59
головы, когда вы читаете очередные громкие заявления на эту тему. А, ну вот
36:06
как определяется AI, да, вот определение Губруда,
36:12
которое было дано им в статье нанотехнологии международная безопасность, оно вот такое вот сложное,
36:19
да, под продвинутым универсальным искусственным интеллектом. Я понимаю систему искусственного интеллект, способны сопернизить человеческим мозгом
36:26
или превосходить его в сложность скорости, которая способна получать общие сведения, манипулировать ими,
36:31
выстраивать рассуждения, которые могут использоваться по сути в любой фазе индустриальных или военных операций, в
36:37
который был бы необходим человеческий интеллект. Но специфика ещё этого определения, она проистекает из тематики
36:44
работы Губруда, да? Потому что это, в общем, ну, такая работа, посвящённая,
36:50
значит, тому, как, значит, вот нанотехнологии повлияют на международную
36:55
безопасность. А, но ээ сегодня в большинстве источников вы найдёте вот такое более простое определение
37:03
универсального искусственного интеллекта, которое на самом деле сложилось в начале дх000чных годов уже.
37:09
Ну вот вот это, по-моему, определение, которое в Википедии есть и которое
37:14
взято на самом деле из, ну, кто знает, то то ли взято из Википедии Джеймсом
37:21
Селигманом, да, то ли наоборот авторы Википедии взяли у
37:27
Селигмана это определение, но тем не менее это вот типичное такое определение из начала дсячных годов. искусственный
37:34
интеллект, способный успешно выполнить любую интеллектуальную задачу, посильную для
37:39
человека. А, но если мы посмотрим на это
37:46
определение более внимательно, у нас и возникнут некоторые вопросы. Почему? Ну,
37:52
а в девяносто седьмом году, когда мы были безнадёжно далеки от создания универсальных систем искусственного
37:58
интеллекта, а было простительно иметь ээ ну такое, скажем, определение, которое
38:04
на самом деле недоопределено, да? А потому что, ну, тогда это были системы
38:10
гипотетические, да? Сегодня же, когда, э, уровень универсальности системы искусственного интеллекта довольно
38:15
быстро растёт, а нам, ну, как-то нужно определить, а создали ли мы тот самый
38:21
HGI или не создали, да? А, и вот как только мы собираемся превратить это определение в конкретную процедуру, в
38:28
конкретный критерий, нам сразу же бросается в глаза вот эта неполнота
38:33
этого определения. Ну, то есть искусственный интеллект, способный успешно выполнить любую интеллектуальную задачу, посильную для человека. для
38:40
какого человека? Люди вообще очень разные, да? И, э-э, значит, набор интеллектуальных задач, которые человек
38:46
может решать от индивида к индивиду, разнится очень сильно. Должны ли мы опираться на, э, среднего человека, да,
38:54
среднестатистического в качестве эталона или, может быть, на уровень экспертов?
39:00
Опять же, кто такие эксперты, да? Каким образом? Мы их как какой-то квартиль определим, да, от всей от всей популяции
39:06
или как? Или, может быть, ну вот есть какая-то задача, которую во всём мире может
39:11
решить только один человек, да? И пока ещё остаётся хоть одна такая задача, которую человек решить может, а машины
39:18
нет, мы не создали. А, ну второе, ээ решить
39:24
интеллектуальные задачи хорошо, но в рамках какого лимита ресурсного, да? То
39:29
есть ээ сколько нам нужно энергии, времени
39:35
для того, чтобы решить задачу? Ну, например, очень легко написать программу, которая будет находить
39:40
сильнейший ход в шахматах путём полного перебора дерева вариантов. Ну, как бы и
39:45
она гарантированно будет вам находить сильнейший ход. Но проблема
39:50
будет заключаться в том, что на поиск этого сильнейшего хода у неё уйдут там
39:56
миллионы, миллиарды лет, да, для того, чтобы перебрать полное дерево вариантов в шахматной игре. Очевидно, что, э, эта
40:05
система способна решить задачу с поиском, э, лучшего хода. Но какой
40:11
ценой? Вот и будем ли мы считать универсальным искусственным интеллектом
40:17
систему, которая, ну, в общем, будет решать любые задачи, которые способен решать человек, но при этом будет
40:23
расходовать на это гораздо больше энергии, времени и так далее.
40:29
Опять же, что значит успешно выполнить любую интеллектуальную задачу? Ну, как
40:36
определяются критерии этой успешности? Вот. Потому что многие интеллектуальные задачи, вообще говоря, не имеют чётких
40:43
критериев успеха. Ну, например, задачи генеративные, творческие. Вот мы
40:48
сочиняем стихотворение, сочиняем, рисуем картину и так далее. Успешно ли машина
40:54
справилась с этой задачей, да? Э, ну, кто знает, да? Может быть, можно решить её лучше. Может быть, есть какие-то
41:00
люди, которые напишут более гениальное произведение, нарисуют более гениальную картину. А важны именно 100% всех задач,
41:08
да? Но есть какое-то количество задач, которые не имеют практической ценности, да? Может быть, ээ всё-таки с
41:16
практической точки зрения нам лучше как-то ограничить э подножество задач,
41:22
которые мы хотим решать, да? И, э, с практической точки зрения нас будут интересовать вот эти задачи, но не будет
41:28
интересовать интересовать какой-то длинный хвост, э, задач, ну, которые носят спекулятивный характер. Ну и в
41:35
конце концов, как устраивать проверку, как должен быть устроен сам протокол такого тестирования, в ходе которого мы
41:42
признаем прохождение системой теста. э ну сколько, какому
41:48
количеству испытаний мы должны её подвергнуть, в течение какого времени должны быть быть какие-то лимиты, должны
41:54
ли быть какие-то ограничения по квалификации судей, которые выносят своё решение и так далее. А и в общем э вот
42:02
эта недоопределённость термина Aжаi, она приводит к э ну к чему, да? Ну, к тому, что,
42:10
э-э, значит, все понимают, что очень здорово заявить
42:17
о том, что мы создали AGI, да, для какого-нибудь Open AI или для Гугла, или
42:23
для Антропика, э, заявление о том, что им первым удалось создать HGI, тут же
42:29
увеличит капитализацию этих компаний, да, вот и будет определять их
42:35
бизнес-успех. Вот. Ээ, поэтому, значит, вот эти проблемы
42:41
определения AGI, они приводят к тому, ну, и как бы давление большое со стороны пиара, маркетинга, они приводят к тому,
42:48
что, э, крупные исследовательские лаборатории сейчас становятся на шаткую дорожку ээ создания собственных
42:56
определений универсального искусственного интеллекта. Вот. И если вы посмотрите публикации за последний
43:01
год, то, э, представители крупных и лабораторий, значит, ну, кто только не
43:07
выступал со своими определениями AI, которые, э, ну, в общем, так или иначе
43:12
представляют собой какое-то доопределение исходного термина. Вот. Ну, а иногда даже, ээ, ну, вот такие
43:20
вещи происходят. Вот. Мы, честно говоря, очень долго смеялись,
43:26
когда узнали о том, что, ээ, Open Microsof в двадцать третьем году
43:32
согласовали конкретное определение искусственного искусственного общего интеллекта AI. Система будет считаться
43:38
достигшей уровня AGI, когда сможет генерировать прибыль не менее 100 млрд долларов. Вот. Ну, то есть такое
43:45
капиталистическое определение, вот не от свойств созданной системы, да, от того экономического
43:52
эффекта, который эта система может оказать. Ну, who knows, да? У меня единственная претензия здесь. Зачем
43:58
называть это HGI? Да, добавьте к этому AI какую-нибудь буковку. Вот. И
44:04
определяйте сколько угодно. Но понятное дело, что так не хочется делать, да? То есть, если это уже, ну, как бы AI с
44:10
какой-то буковкой, то это вроде как бы и не совсем HI, да, и такого громкого PR-эффекта не будет. Но так или иначе, в
44:18
ближайшие годы мы услышим очень много заявлений о том, что AGI создан. Вот. Ну
44:24
и, в общем, нужно будет смотреть очень внимательно, а что именно на самом деле создано, да, какими свойствами на самом
44:31
деле обладают эти, э, системы.
44:36
А, ну и в целом, конечно, значит, мир он как-то вот сейчас
44:44
вырисовывается примерно таким, да. Мм, кажется, что если технологии машинного обучения,
44:51
воплощённые в больших языковых моделях, будут развиваться дальше, да, то нас ждёт вот, ну, какое-то такое вот
44:58
прекрасное будущее, да, где, ээ, значит, самые разные задачи из разных областей
45:04
будут решаться при помощи больших моделей, э, ну, языковых или
45:12
мультимодальных, да. Ну и в общем, понятное дело, кто будет бенефициаром
45:17
этой истории. Так, ну теперь переходим уже
45:24
непосредственно к конкретике, а что произошло за прошедший год в этой
45:29
области. Э, значит, ну вот, ээ, такой тоже не претендующий на
45:35
полноту список важных трендов и событий прошедшего года. А мы сейчас
45:42
потихонечку по этому списку с вами
45:47
пройдём. Так, ну, ээ, мультимодальность, один из важнейших трендов
45:53
развития больших фундаментальных, больших языковых моделей, а это
45:59
мультимодальность. Ну, ээ, что такое мультимодальность, да? Вот, э, ээ, ну,
46:05
для того, чтобы понять, что такое мультимодальность, нужно понять, что такое модальность. Интуитивно вроде бы понятно, да? То есть когда вам говорят
46:11
вот, ну, модальности — это, э, текст, картинки, аудио, видео, да, вот. Но на
46:21
самом деле тут с этим списком есть некоторое горе теоретическое, потому что сам по себе термин модальность, он был,
46:28
э, в общем, позаимствован у как как водится у психологов. Вот вообще много
46:34
много что в область глубокого обучения перекочевало из психологии. Вот. Ну и
46:41
изначально термин, который использовался психологами, он звучал как модальность раздражителя.
46:48
Вот. И он обозначал, э, что какой-то раздражитель относится, воспринимается
46:54
какой-то сенсорной системой человека, да? То есть вот есть зрительный раздражитель, да?
47:00
Значит, он действует на зрительную систему человека, поэтому это зрительная модальность, да? Значит, ну вот есть
47:07
слуховой, да, звуковой раздражитель, ну и так далее, да? То есть список модальностей в психологии, он привязан
47:14
чётко к набору сенсорных систем человека. Вот. Ну, ээ, тут как только мы
47:21
начинаем говорить о текстовой модальности, встаёт вопрос: а где та сенсорная система у человека, которая
47:26
воспринимает текст? Но очевидно, что мы текст с вами воспринимаем через разные
47:32
модальности, да? То есть мы можем этот текст прочитать на бумаге, да, при помощи глаз мы можем текст услышать, да,
47:39
в звуковом канале. Вот. И вообще говоря
47:44
текстовая модальность — это уже очень странно с точки зрения психологии. Вот.
47:50
Но, э, если вы почитаете современные работы по машинному обучению, то вы там
47:55
найдёте не только текстовую модальность, вы там найдёте, например, кодовую модальность, да? То есть оказывается
48:02
программный код — это тоже отдельная модальность. Вот. Ну, и вообще модальностью стали называть, что попало,
48:08
да, и по сути дела разные представления данных, отнесение данных к, э, разным,
48:14
опять же, исполнительным системам. Но в какой-то мере это может быть оправдано, потому что набор сенсорных систем
48:20
машины, в общем, совершенно не обязан быть таким же, как у человека. Вот. Но в
48:25
целом важно понимать, что какого-то чёткого определения модальности вы не
48:31
найдёте в современной науке, хотя этот термин используется очень широко. Вот поэтому нам с вами, видимо, придётся на
48:37
какое-то время смириться с тем, что у нас вот есть просто такой список, да, что у нас вот есть изображения, есть
48:44
звуки, есть видео. Есть, ну, не знаю, банковские транзакции, данные
48:49
каких-то сенсоров, которые мы подключаем к машинам, действия, да, почему нет? Э
48:55
какие-то управляющие команды для исполняющего устройства, но тоже можно назвать определённой модальностью. Вот.
49:03
Ну, так или иначе, это некоторые разные представления данных и некоторая специализация использования этих данных.
49:10
Вот. Но, э, так или иначе, когда мы говорим о том, что большие языковые модели становятся мультимодальными
49:16
большими языковыми моделями, что тоже, кстати, нонсенс, потому что, ну, вообще говоря, языковыми моделями ээ на
49:23
протяжении всей истории статистической лингвистики называли модели, которые способны предсказывать распределение, э,
49:31
ну, вероятности распределения слов. Вот. Но современные языковые модели,
49:37
во-первых, не предсказывают вероятности распределения слов. Они предсказывают вероятность распределения токенов, э,
49:43
которые, в общем, совершенно не обязательно являются словами, могут являться частями слов, могут, э,
49:49
являться словосочетаниями. Вот. Ну, а во-вторых,
49:55
значит, ну, есть модели, которые работают не только,
50:00
очевидно, с естественным языком, а, например, с изображениями, да, их всё ещё по инерции называют большими
50:06
языковыми моделями, хотя, в общем, ну, они языковыми уже являются постольку поскольку. Вот. Ну, ээ, вот появился
50:13
такой очень странный термин мультимодальные языковые, большие языковые модели, да, всё-таки
50:19
мультимодальные или языковые, но вот, к сожалению, тоже специфика
50:24
быстроразвивающейся отрасли, в которой не всё хорошо с точки зрения терминологии. Обычно под
50:30
мультимодальными большими языковыми моделями мы понимаем модели, которые способны моделировать статистические
50:35
распределения в мультимодальных последовательностях данных, да, то есть последовательностях, которые включают в
50:41
себя элементы как текста, так и изображений, так и, возможно, звуков,
50:47
ну, и так далее, и так далее, других модальностей. Вот. Э-э, ну и, конечно, всем хотелось бы вот
50:54
такое, да. Всем бы хотелось, чтобы э наши модели вообще были такими модальными, чтобы мы могли им на вход
51:01
подать вообще любую смесь модальности. Какая разница? И текст, и в него вставленные
51:06
картинки, и вставлены в него звуки, видео, что угодно. Да, и на выходе модель тоже нам может выдавать
51:13
произвольную смесь модальностей. Ну вот как мы с вами привыкли общаться с людьми, например, через мессенджеры, да,
51:21
можем ведь туда отправить что угодно, по сути дела, любой файлик, а и звуковое
51:28
сообщение, и картинку послать, и ссылку на что-нибудь. Вот. Но
51:33
создание таких моделей сопряжено с определёнными сложностями. с определёнными сложностями, главным
51:39
образом связанными с инженерными ограничениями, алгоритмическими ограничениями, э, трансформерных
51:46
моделей, потому что, э, вообще говоря, основой современных
51:51
трансформерных нейросетей является так называемый блок внимания. Вот. И, э,
51:57
сложность, его вычислительная сложность квадратична, да? То есть количество операций, которые нам нужно выполнить
52:04
для вычисления активации на выходе. блока внимания и количество памяти, которое
52:11
нам необходимо задействовать в этой операции, оно растёт как квадратичная
52:17
функция от длины контекста. Вот. И, конечно, когда мы начинаем работать с
52:22
данными разных модальностей, например, с изображениями или со звуком, э ну это
52:27
очень сильно способно удлинить контекст модели, да? То есть, если мы возьмём звуковой файл, да, и каждый, э, ээ,
52:37
элемент времени, там кая частота дискретизации этого звука, 44 кГц, например, да, значит,
52:43
44.000 фрагментиков, э, в секунду. Вот.
52:48
Соответственно, ну, это довольно много, да? То есть 1 секунда у нас будет 44.000
52:53
токенов занимать, если мы на одну частоту будем один токен выделять. А, ну и в общем проблема в том, что добавление
53:00
мультимодальных данных, оно очень сильно будет удлинять контекст модели. Вот. И, соответственно, понижать эффективность
53:06
работы с этими данными, потому что, э, ну, там с како с какой-то длины контекста полное внимание оказывается
53:13
невычислимым, нам придётся его на какое-то разреженное внимание заменять так или иначе. Ну и дальше будет
53:19
деградировать эффективность работы этой модели. Поэтому в целом задача создания
53:24
полностью амнемодальных моделей, она сложная с андирженерной точки зрения. Нужно много всяких изобретать костылей
53:30
для того, чтобы это работало. Вот. Но тем не менее движение в этом направлении оно идёт. И модели, которые объединяют
53:37
несколько модальностей в своей работе, таких моделей за последние годы и за
53:42
последний год, в частности, было создано довольно много. Ну вот, например, если мы посмотрим на модели, способные
53:49
работать одновременно с текстом и с аудиофайлами, ну вот какой-то список, тоже не претендующий на полноту, но
53:56
какие-то крупные проекты в этой области, начиная там с Audio Palm, Speed GPT,
54:04
Квиндио Селмана двадцать третьего года. И вот мы видим, что за
54:09
двадцать четвёртый год список таких моделей, он более чем удвоился. То есть появилась GPT4 омни, которая, кстати
54:17
говоря, объединяет сразу звуковую и картиночную модальность, скажем так.
54:24
Ну и вот какие-то другие проекты, типа там Buba GPT, КН 2 Aудио появился, Lora
54:30
GPT, Visper GPT. Вот работа буквально э декабрьская уже. А, ну вот
54:36
пример работы таких моделей, да? То есть вот чатик, да, мы в него отправляем аудиофайл, э, задаём какие-то вопросы по
54:43
этому аудио, и моделька, ээ, ну, в общем, описывает это аудио словами,
54:50
способна отвечать на разные вопросы в отношении этого аудио и так
54:56
далее. А, ну вот с картинками, с картинками всё ещё веселее, потому что,
55:01
ну, ээ, это ещё более востребованная модальность. Моделей таких очень много.
55:07
Вот опять же тут список какой-то не претендующий на полноту, но вот начиная с
55:13
видите, как бы год назад, по сути дела, ну 2 года назад
55:19
таких моделей, способных работать одновременно с картинками и текстом, ну практически не было, да, в режиме
55:25
инструктивной генерации не было и вовсе, да, первые модели появились в двадцать третьем году. Ромаш, космос, а, космос
55:33
Вот, ээ, опять же, видите, что список там удвоился за прошедший год. А вот
55:40
появились действительно мощные инструменты, способные решать широкий спектр задач
55:47
сразу с текстами и с изображениями. Вот. Ну вот, в частности,
55:52
и наша тоже исследовательская команда выпустила Prodдаction Gigchat Vision -э
55:58
в прошедшем году. Ну вот как раз здесь пример работы Gigachat Vision, да, где
56:03
мы решили, значит, какую-то такую задачку посложнее задать. Вот. Ну и вот видно,
56:09
что моделька, э, справляется э с описанием такого
56:15
изображения. Но надо сказать, что наиболее продвинутые модели, работающие сейчас в картиночной модальности и
56:21
текстовой, способны более-менее эффективно распознавать текст, написанный на картинке, причём в том
56:26
числе и рукописный. А вот и в общем, ну, распознавать какие-то нетривиальные
56:33
образы, изображения, строить какие-то рассуждения в отношении этих
56:38
изображений, что, в общем, конечно, ээ очень полезно. В принципе, ээ, есть
56:46
классные демки, в которых, ээ, значит, показывают, как девушка ремонтирует, ээ,
56:53
двигатель своего автомобиля при помощи такой модельки, да, наводя камеру на
56:58
разные, ээ, значит, части разные части внутреннего механизма
57:05
машины, да, того, что находится под капотом, получая, в общем, вполне себе
57:10
разумные ответы о том, что перед ней, что надо надо сделать для того, чтобы решить ту проблему, которая у неё
57:17
возникла. Вот, в общем, в целом в современных моделях этого класса можно
57:22
распознать, ну, в общем, очень много интересных таких и полезных применений.
57:28
Как насчёт дистан, который вызорвал тес около траптала? Не знаю, не знаком с ним. Да, сейчас.
57:36
Ну, видите, как бы мы во всём виноваты. Вот. Значит, ну, генерация
57:43
видео, опять же, все помнят Уилла Смита, который кушает спагетти, да, все эти
57:49
кринжовые видосы двухлетней давности, полуторалетней давности. Опять же, прогресс в области генерации видео, он
57:57
огромный. Вот, ээ, значит, ну, это вот какие-то там более-менее современные модельки. Так, а почему у меня у меня же
58:05
этот должен же тоже, короче, только один видосик почему-то
58:11
проигрывается. Почему так Норозов не гладит котика? Безобразие. Сейчас назад.
58:21
О, вот включилсь. А вот, ну, то есть вы можете
58:26
генерировать в современных модельках видео и по тексту описанию, используя какие-то
58:32
стартовые кадры. Иногда можете использовать стартовые кадры конечные и, соответственно, интерполировать
58:38
промежуточные кадры между ними, опять же, в соответствии с текстовым описанием. В общем, возможности генеративных видеомоделей, они очень
58:45
серьёзно выросли. Я вот год назад, э, читал здесь лекцию об итогах двадцать
58:50
третьего года. И тогда значит, ну вот всё, что у нас было, это, э, ссора,
58:57
которая, в общем, была, но в то же время не была доступна никому, кроме избранных
59:03
пользователей, да. И, э, значит, в самом конце двадцать третьего года я успел
59:10
захватить модельку LUM. Вот, э, которая, в общем, на тот момент там показывала
59:16
качество почти такое же, как в черепигнутых виде отсоры. Вот. Ну, э, мы
59:21
видим, конечно, за двадцать четвёртый год огромное количество таких новых
59:26
генераторов видео возникло. Ну, и мы тоже тут небольшую лепту свою внесли, выпустив кандинский 4.0, вот, который
59:34
тоже умеет видео генерировать. Ну, может быть, там не самая топовая моделька, но,
59:39
в принципе, э в числе в топ-10
59:44
входит генерация музыки и пения, да, новые технологии, которые с нами тоже
59:50
вот всего полтора года. Ээ вот вдруг кто-то из вас ещё не в курсе, что такое
59:57
можно делать? Можно генерировать музыку и пение. Вот, э, значит ну, последствия
1:00:04
мы уже видим, да. на всех видеоплатформах многочисленные каверы песни Говновоз.
1:00:11
Вот. Ну, я уж не буду, извините, ставить тут, но если кто-то из вас ещё не в курсе, то обязательно
1:00:19
загуглите. Вот. Опять же, значит, ну, конкретно у нас это превратилось в
1:00:25
проект Simформе X, и вы сейчас можете использовать в гигачате генерацию
1:00:32
песен, точно также либо по вашему тексту, либо по тексту, который который для вас сочинит моделька. Вот. Ну и она
1:00:39
же сочинит музыку, и она же испоёт вам. И, в общем, вы можете делать свои каверы
1:00:45
говновозов, вот, и чего угодно.
1:00:51
Так, ну вот даже это есть QR-код, можете им
1:00:57
воспользоваться. Вот. Ну, то есть там такой очень простой ээ этот
1:01:02
самый простой интерфейсик, да, в которой в котором вы либо вводите сами текст, либо просите
1:01:10
модельку его вам сочинить, да, и а дальше, значит,
1:01:16
описываете, в каком жанре вы хотите это всё получить, да, ну и получаете
1:01:23
результат в гигачате, в Telegram-боте там просто можно в менюшку бота зайти и
1:01:28
там есть эта опция.
1:01:37
Так, ну генерация 3D объектов, да, тоже к вопросу о модальностях. Ну это такое
1:01:43
такая история, может быть, немножко более нишевая, чем каверы на говнозы. Вот. Но, э, значит, э, тем не менее, ээ,
1:01:52
довольно полезный инструмент для тех, кому нужны трёхмерные объекты. То есть
1:01:58
речь идёт именно о генерации не видео с облётом объекта, а полноценного 3D меша,
1:02:05
который вы потом можете использовать где угодно, можете использовать в 3D-печати его, можете использовать там в своей
1:02:10
игре какой-нибудь, которой вы разрабатываете, ну, и так далее, да. То есть вы
1:02:16
получаете полноценный, э, 3D э объект. Ну вот тоже каки какие-то
1:02:24
примеры черепикнутой генерации, да? То есть вы по текстовому описанию получаете
1:02:29
вот такой трёхмерный
1:02:36
объект. А, ну тоже вот интересное направление. И я бы сказал, что сейчас
1:02:44
очень многие специалисты по продуктизации больших языковых моделей задались вопросом о том, а всегда ли нам
1:02:51
удобен чат в качестве инструмента генеративного? Потому что,
1:02:56
ну, скажем, когда мы редактируем текст длинный, э ну, наверное, всё-таки удобнее это делать не в формате чата, а
1:03:03
в формате, ну, таком приближённом к текстовому редактору. И, ээ, в некотором
1:03:09
смысле стоит задача о переизобретении э текстового редактора в
1:03:15
эпоху генеративного искусственного интеллекта. Ну, то есть речь идёт о том, что вы, работая над документом, можете
1:03:21
не только, э, значит, какой-то кусочек текста сгенерировать, да, вы можете
1:03:27
выделить произвольный фрагмент текста и произвести над ним какую-то генеративную
1:03:33
операцию, например, э сократить этот текст, да, или, наоборот,
1:03:39
разбавить его, что называется, водой, заменить стиль текста, выполнить проверку
1:03:45
орфографии, ну, и тогда далее и так далее. То есть самые разные м действия
1:03:50
применить к каким-то фрагментам вашего документа. Опять же, э, значит, документ
1:03:57
этот может включать в себя и изображение, и озвучку, например. Вот у
1:04:04
нас этот проект уже третий год продолжается. У нас он носит такое
1:04:09
внутреннее кодовое название Photoshop для текста. Вот. Ну и, в общем, э наши
1:04:15
концептуальные исследования превратились, наконец-то, в рабочий инструмент, который называется гигаредактор. Вот. Но мы здесь не одни,
1:04:23
и Microsoft активно занимается прототипированием таких устройств, целый ряд таких систем и целый ряд стартапов,
1:04:31
э, которые, ну, вот альтернативные чату инструмента работы с документами людям
1:04:37
представляют. Ну, в связи с этим, э-э, одна из важных возможностей моделей, которая пока ещё не покрыта современными
1:04:44
технологиями — это инструктивная модификация изображений. Вот, э, на самом деле люди очень часто просят, ээ,
1:04:51
значит, ну, вот тот же гигачат сгенерировать им картинку, а, но потом их в этой картинке что-то не устраивает,
1:04:58
они хотит хотят там что-то поменять. А, и они говорят: «Ну, там замени там
1:05:03
пуговицы, да, на перламутровые». Но, ээ, на самом деле, что происходит в
1:05:09
современных системах? Современная система вам просто перегенерируют картинку с уточнённым описанием. Вот что
1:05:14
на самом деле не очень хорошо. То есть у вас получается не совсем консистентная
1:05:20
генерация. Иногда вам нужно внести именно какие-то точечные изменения в имеющуюся картинку. А ещё иногда вы
1:05:26
хотите изменить картинку, которая у вас уже есть, да? То есть работать не со сгенерированной картинкой, а, например,
1:05:32
ну, я не знаю, загрузить своё фото, да, и убрать с него там бывшего, вот, или
1:05:37
что-нибудь в этом духе сделать. Вот поэтому отдельное направление — это инструктивная модификация изображений. У
1:05:44
нас этот проект называется Мальвина. Вот. Ну, опять же, ряд исследовательских
1:05:50
э команд, э, занимающихся машинным обучением, сейчас э работает над
1:05:55
создание похожих моделей. Ну вот, в частности, в компании Мета, запрещённой в Российской
1:06:01
Федерации, вот тоже есть похожий
1:06:07
проект. Так, а, ну вот опять же важный
1:06:13
концептуальный излом в развитии технологий, которым мы сейчас находимся,
1:06:19
а это переход от генеративного искусственного интеллекта к интерактивному искусственному
1:06:24
интеллекту. О чём идёт речь вообще? На зареволюции глубокого обучения
1:06:29
большинство моделей, созданных в то время, они относились к категории так называемого дискриминативного
1:06:35
искусственного интеллекта, то есть решали задачи, связанные э с классификацией, ну или регрессией. То
1:06:43
есть распознавали образы на картинках, да, умели там отличить котика от собаки или распознать текст на картинке. Вот.
1:06:51
Э, но по мере того, как системы становились более, э, продвинутыми, да,
1:06:57
по мере того, как мы, э, стали создавать действительно большие нейросети
1:07:03
благодаря трансформерной революции, у нас начался, э, бум генеративного
1:07:08
искусственного интеллекта. И за последние, по сути дела, 7 лет было
1:07:14
создано огромное количество моделей, которые решали не задачи классификации э
1:07:20
чего-либо, а задачи генерации по сути новых смплов данных, то есть либо текстов, либо изображений, музыки, видео
1:07:27
и так далее. А что дальше? А дальше, на самом деле, перед нами лежит целое море
1:07:34
задач, которые, в принципе, не решаются в один присест, да? То есть
1:07:39
ну, например, если мы хотим, э, запланировать наш отпуск, мы вряд ли за
1:07:46
один шаг можем написать детальный, э, список, да. Нам нужно сходить в систему
1:07:53
бронирования, посмотреть доступные э- авиарейсы, посмотреть э доступные отели,
1:08:00
э, составить, ну, там с учётом бюджетных ограничений какой-то план, да, возможно, внести в него коррективы. ээ по
1:08:09
результатам, ну, какого-то ревью этого плана со стороны заказчика. А, то есть речь идёт о
1:08:15
задачах, которые решаются в результате цепочки действий, которые включают в себя работу с внешними инструментами, с
1:08:23
какими-то внешними агентами, с самим заказчиком. А, и, э, это системы,
1:08:29
которые, ну, по сути, в ходе решения интеллектуальной задачи будут взаимодействовать с внешними
1:08:34
инструментами, с другими системами, с самим человеком. Вот. И, ээ, сейчас, в
1:08:40
общем, активно обсуждаются и создаются первые прототипы подобных систем. Мы
1:08:46
сейчас как раз поговорим немножко подробнее о том, э что стоит за, э, вот
1:08:54
этими гипотетическими интерактивными системами искусственного интеллекта. Вообще строительным блоком
1:09:00
интерактивного искусственного интеллекта являются так называемые агенты. Вообще сам по себе термин агент, он, как
1:09:06
говорится, древний. Вот латинский корень намекает нам, что речь идёт о чём-то, что, в
1:09:11
общем, может действовать. Вот. Ну и надо сказать, что ещё в эпоху до -э
1:09:18
фундаментальных моделей, больших языковых моделей, м само понятие агентности и даже мультиагентных систем,
1:09:25
оно в информационных технологиях довольно глубоко было разработано. Вот. Но, э, с появлением такого инструмента,
1:09:32
как генеративные модели, конечно, возникла такая концепция агента в эпохе
1:09:38
эпохи больших языковых моделей, где по сути дела агентом является, э, большая
1:09:45
языковая модель, э, к которой применяются, ну, определённые такие обвязки, позволяющие этой модели, э-
1:09:54
приобрести некоторые способности, которые она -э, значит, в чистом виде не
1:10:00
имеет. О какого рода свойствах идёт речь, да? Что делает
1:10:05
модель агентом? Ну, во-первых, возможность действовать, да? Речь идёт о том, что модель может генерировать
1:10:12
какие-то управляющие команды для внешних систем. Ну, например, это может быть
1:10:19
команда обратиться к поисковой системе или обратиться к калькулятору или обратиться
1:10:26
к какому-то интерфейсу. какого-то публичного сервиса и так
1:10:32
далее, да, или, ну, не знаю, подвинуть роборуку в каком-то направлении, да, то
1:10:37
есть управляющая команда для манипулятора. Значит, соответственно, нам нужно, ну,
1:10:43
по сути дела, дообучать языковой модели генерировать вот такие последовательности команд, которые
1:10:48
программная обвязка этой модели будет интерпретировать и, соответственно, передавать эти мм сигналы в
1:10:54
соответствующие системы. Значит, ну и такой важным подмножеством,
1:11:01
что ли, исполняющих систем являются различные инструменты. Вот. Ну, речь
1:11:06
идёт о, м, значит, каких-то, э, обычно несложных
1:11:13
алгоритмических механизмах, которые могут решать некоторые задачи гораздо эффективнее, чем это может делать сама
1:11:19
модель. Но, скажем, люди тоже не очень хорошо умеют умножать не знаю, пятизначные числа, да? Если нам нужно
1:11:26
это сделать, мы возьмём калькулятор и посчитаем на нём и дальше воспользуемся
1:11:31
этим результатом, да. Поэтому для больших языковых моделей роль инструментов могут выполнять, ну,
1:11:38
например, э интерпретаторы программного кода или какие-то другие символьные
1:11:43
системы вычислений. А дальше, э, возможность
1:11:50
модели генерировать моделировать рассуждение, да. генерировать какие-то цепочки,
1:11:57
графы, деревья, э, рассуждений, э, и действий, да? То есть некоторые задачи
1:12:03
не решаются в один пресест. Очевидно, что, э, там большинство современных языковых моделей — это просто fitфорвард
1:12:10
нейронной сети без рекурентных связей. Мм, соответственно, генерируя следующий,
1:12:16
каждый следующий токен последовательности, сетка выполняет ограниченное количество операций. Просто
1:12:22
у неё ограниченное число слоёв без рекурентных связей, да? Очевидно, что некоторые задачи, они просто по
1:12:29
количеству шагов, необходимых для поиска ответа, они будут этот лимит превышать. И для того, чтобы найти ответ на
1:12:36
какой-то вопрос, э для такой сложной задачи, нам нужно будет генерировать цепочку последовательных рассуждений.
1:12:44
Вот. Но в противном случае мы задачу не решим. Вот. Э, ну, наличие долгосрочной
1:12:49
памяти, да, тоже важный элемент, ээ, делающий агент агентом, да, мы должны от состояния к
1:12:57
состоянию каким-то образом хранить, э, либо цепочку действий, либо удерживать
1:13:03
какие-то отдельные м отдельные антологии. Вот. Ну и фрейминг. Под
1:13:10
фреймингом понимается класс методов, который применяется для того, чтобы настраивать поведение самой модели.
1:13:18
То есть заставить модель вести себя каким-то специфическим образом, воспринять на себя какую-то
1:13:23
специфическую роль, конкретный момент действия. Ну и, в общем, все вот эти свойства, они
1:13:30
на самом деле как бы намекают нам, что мы переходим от фундаментальных моделей
1:13:35
к фундаментальным агентам, да, то есть к моделям, которые смогут могут быть
1:13:40
предобучены на каких-то м агентных датесетах и затем, соответственно,
1:13:46
смогут быть под конкретные агентные задачи легко либо дообучены, либо использованы путём там какого-то
1:13:53
промтинга эффективного или других методов. фрейминга. Ну, про моделирование
1:13:59
рассуждений несколько слов ещё. Вот весьма показательно здесь рассуждение Минского из семидесятых
1:14:08
годов Society of Mindя о человеческом интеллекте, Минский
1:14:15
пишет: «А какой волшебный трюк делает нас разумными? Фишка в том, что никакой хитрости здесь нет. Сила интеллекта
1:14:22
проистекает из нашего огромного разнообразия, а не из какого-то одного принципа, отточенного до совершенства.
1:14:28
То есть Минский предлагает рассматривать человеческий интеллект как вот, а,
1:14:34
значит, некое такое сообщество, э, значит, подсистем, да,
1:14:40
которые способны выполнять разные задачи. А, ну и в целом понятно, что,
1:14:49
ээ, если мы посмотрим на человеческое мышление, да, м таким хотя бы
1:14:54
спекулятивным взглядом, мы обратим внимание, что есть какие-то задачи, которые мы умеем решать в один шаг, в
1:15:01
один присест, да, распознать котика на картинке, да, или понять, э, значит,
1:15:08
не знаю, э, сейчас человек радуется или сердится, да, по взгляду на его лицо или
1:15:15
услышав его голос. Вот. Ну а некоторые задачи они требуют, ээ, ну, в общем,
1:15:20
какого-то длительного процесса мыслительного, э, некоторой последовательности рассуждений. Ну, и
1:15:26
вот Каниман, рассуждая о человеческом мышлении, да, своей книге, она по-русски
1:15:32
называется Думай медленно, решай быстро. Вот почему-то вот так. Но по-английски
1:15:38
она называется thinking fast and slow. То есть речь идёт о том, что у нас вот есть как бы быстрое мышление, есть
1:15:44
мышление медленное. Вот. И под вот этими рассуждениями обычно понимается как раз
1:15:50
медленное человеческое мышление, которое нам бы хотелось каким-то образом тоже
1:15:56
моделировать. Вот. Ну, теперь чуть-чуть поподробнее о всех этих концепциях. Фрейминг, да? То есть как мы можем
1:16:03
настроить поведение модели, мм, изменить его для того, чтобы она эффективно
1:16:10
решала задачи, связанную с какой-то её текущей ролью? А, ну либо при помощи написания промтов. Здесь понятно,
1:16:17
классическая промтнженерия. А путём подмены интерфейсов функций, которые модель
1:16:22
вызывает, при помощи подходов, которые называются retrieval augmented
1:16:28
generation, то есть генерация, подкреплённая поиском. И в данном случае речь идёт о том, чтобы
1:16:35
вручить э модели такой инструмент, как поиск в какой-то базе знаний, да, в
1:16:42
каком-то поисковом индексе, для того, чтобы оттуда извлекать релевантную информацию
1:16:48
фактологическую, например. Ну и разные способы до обучения моделей, да, то есть, э, начиная от самых дешёвых типа
1:16:55
низкоранговой адаптации ЛОРа и её производных и заканчивая полноценным
1:17:01
дообучением модели. А, ну вот что мы можем делать,
1:17:07
да, обладая таким инструментом, как фрейминг? Ну, например, э мы хотим
1:17:15
модель попросить написать текст. Мы можем это сделать в лоб, да? Напиши нам,
1:17:21
ну, не знаю, продающий текст про цветные вантузы. Вот. Но, э, а что, если модель
1:17:27
всё-таки не очень хорошо справляется с этой задачей и нам хотелось бы получить, ну, гораздо более качественные тексты
1:17:33
про цветные вантусы, да, мы можем тогда применить такую хитрость, да, мы вначале при помощи промта попросим модель, э,
1:17:42
действительно сгенерировать текст, но там попросим её ещё принять на себя
1:17:47
роль. гениального писателя. Ну, напишем в промте что-нибудь вроде, э, там
1:17:54
представь себе, что ты гениальный писатель, как Данил Хармс и сам боженька. Напиши там самый лучший в мире
1:18:01
продающий текст про цветные вантузы. Вот. Дальше мы результат генерации
1:18:08
передадим той же самой модели, но уже с другим промтом. И мы скажем модели действуй как критик,
1:18:14
да, как Белинский, Герцен в одном флаконе, напиши свои замечания к вот
1:18:21
этому тексту, которые могли бы помочь его улучшить. Ну и получив, соответственно, эти
1:18:27
замечания, мы снова переформулируем промт для той же самой модели и говорим:
1:18:33
«Действуй как редактор, вот текст, вот замечание, учти по
1:18:38
возможности эти замечания для того, чтобы улучшить исходный текст». И вот
1:18:43
такая цепочка из трёх действий. Она позволит нам, э, на самом деле получать гораздо более качественные тексты, чем
1:18:50
мы могли бы получить за один присест. Ну, это вот самый простой такой
1:18:58
пример, самый простой шаблон, который используется в агентных системах. Он
1:19:03
называется рефлексия, да? То есть когда мы по сути дела как бы критически переосмысливаем то, что мы
1:19:11
создали. Э, но, э, взглянув на этот шаблон, э, вы можете, я думаю, сделать
1:19:18
простой вывод, что, ну, вообще такого рода шаблоны могут быть сколь угодно сложными.
1:19:23
Вот, то есть мы можем, например, попросить модель написать не один текст, а сразу десяток, да, ввести помимо
1:19:31
критика ещё такую роль, как оценщик, да, который отберёт, например, из этих десятков десятка текстов три, например,
1:19:39
самых лучших, а, ну, и так далее, и так далее, да? То есть мы можем выстраивать вот такие вот алгоритмические обвязки
1:19:46
вокруг э большой языковой модели и тем самым, да, включать опять же на
1:19:51
отдельных шагах обращения к каким-то внешним инструментам. Вот. И, э, соответственно,
1:19:58
э для решения каких-то отдельных задач добиваться повышения качества за счёт
1:20:05
вот, э, таких трюков. Ну, а дальше вот этот
1:20:11
вот эту алгоритмическую обвязку, вот эту вот структуру рассуждения, на самом деле тоже можно научить создавать
1:20:19
модель. То есть вы можете ээ в каком-то фреймворке,
1:20:24
связанном с решением сложных интеллектуальных задач, попросить модель вначале сгенерировать вам план решения этой задачи, а потом, соответственно,
1:20:31
каждый элемент этого плана использовать как отдельный вызов для модели. Ну и так
1:20:37
далее. Вообще этот подход называется скафолдинг. Э, значит, ну, собственно, в
1:20:42
силу того, что слово сFoldд означает строительные леса, каркас, ну, и,
1:20:48
собственно говоря, вот обвязку вокруг генеративной модели. А, ну здесь, ээ, на самом деле,
1:20:57
рассуждая о сфхолдинге, можно прийти к ещё более
1:21:02
интересным выводам. А здесь несколько в начале разрозненных
1:21:10
фактов, да, вообще мы уже говорили сегодня, что в человеческом мозге там примерно 8,6 млрд
1:21:17
нейронов. Вообще-то большая часть этих нейронов приходится отнюдь не на кору
1:21:23
мозга, а на мож. Вот, казалось бы, да, вот
1:21:30
можни, ну, какой-то такой раздел мозга, который, ну, вот там за равновесие отвечает, ещё за какие-то такие функции,
1:21:37
но почему так много нейронов, да, и что на самом деле делает мужичок? Довольно
1:21:43
интересное исследование, значит, начало двадцатых годов, когда,
1:21:50
значит, всерьёз нейрофизиологи подошли с применением современных методов к
1:21:56
изучению работы можичка живых организмов. Ну и вот, в частности, вот это исследование в правом нижнем углу,
1:22:02
это на элементах статья двадцать первого года, посвящённая работе с рыбками.
1:22:08
Данио Рерио. Вот эти самые зебраish. аквариумные. И в общем исследователи к
1:22:16
тому времени, по результатам этих экспериментов пришли к выводу, что по сути делачок отвечает за модель мира. То
1:22:24
есть это система, которая позволяет нам прогнозировать
1:22:31
собственно говоря э то, каким образом, э мир будет
1:22:37
откликаться на определённые воздействия. Вот, э, там почитайте эту статью, она довольно интересная, там довольно
1:22:43
остроумный эксперимент, где, э, значит, рыбок с удалённым можичком и рыбок с
1:22:49
присутствующим жирчком помещали в условия среды параметры, которые искусственно меняли, да, и рассматривали
1:22:55
возможность этих рыбок адаптироваться под, по сути дела, изменения физических
1:23:00
свойств, той среды, в которой эти рыбки обитают. А,
1:23:07
и в 2018 году вот Юргин Шмитхубер,
1:23:12
который, как известно, всё открыл раньше других исследователей в области машинного обучения, э, он совместно с
1:23:18
Дэвидом Ха написал вот такую интересную статью под названием «Модели мира». Вот.
1:23:25
И речь идёт здесь, ну, примерно о том же, но только в применении не к живым организмам, а в применении к, э,
1:23:32
системам, которые обучаются при помощи обучения с подкреплением. А вот и в общем
1:23:39
неудивительно, что есть определённые параллели здесь между, а, искусственными нейронными сетями и
1:23:47
биологическими при решении каких-то сходных задач. А, и вот давайте посмотрим теперь ещё на
1:23:54
третью важную работу, на классическое такое применение обучения с подкреплением. Это хорошо нам известны
1:24:00
Альфаго Go, которая играла с Лисидолем. А, ну вот как работает Alphaго Go, если
1:24:06
так очень грубо посмотреть на эту систему? Значит, у неё на самом деле есть две нейронные сетки свёрточные.
1:24:15
В более поздних работах, кстати, в Alpha Gozer Zero уже. И в Alpha Zero это просто стала одна и та же сетка просто с
1:24:21
двумя головами. Вот. Значит, ну вот в AlphaGo — это две отдельные сетки.
1:24:26
Первая из них — это так называемая Policy Network, э, сеть политик. Э она
1:24:32
отвечает за следующую функцию. Получив на вход позицию в эгрего, она генерирует
1:24:37
распределение вероятностей ходов в этой позиции. То есть, по сути дела, пытается предсказать, с какой вероятностью, какой
1:24:44
ход может быть в этой позиции сделан. А, ну и вторая сетка, она называется оценочная сетка Evaluation Network. И
1:24:51
она решает другую задачу, задачу оценки того, насколько хороша позиция. То есть
1:24:58
она пытается оценить эту позицию, ну, с точки зрения вероятности победы первой
1:25:04
стороны, да, и победы, соответственно, второй стороны. А как эти сетки дальше используются?
1:25:12
Используются они следующим оригинальным способом. Используется старый добрый метод
1:25:18
Монтекарло, а конкретно его разновидность, которая называется Монтекарло поиск по дереву. Монтекарло
1:25:24
3ч. Значит, что делает этот метод? Он, опираясь на оценки вот этих двух
1:25:30
нейросетей, рассматривает э траектории в пространстве игры, да? То есть какие-то
1:25:35
последовательности ходов. То есть мы рассматриваем не все возможные ходы, а
1:25:41
мы рассматриваем лишь какой какие-то ветви, да, вот этого дерева. А, но, э,
1:25:48
вероятность рассмотрения вот этой конкретной траектории в игровом пространстве, она определяется
1:25:54
нейронкой. То есть рассматриваются не эчайным образом выбранные траектории, а
1:26:00
траектории, которые выбираются случайным образом, но на основе распределения, которое генерирует нейронка. То есть, по
1:26:06
сути дела, ээ анализируются осмысленные последовательности ходов, да? То есть наиболее вероятные продолжения
1:26:14
в игровом пространстве. А, и дальше как бы дерево, которое
1:26:19
рассматривает программа, по сути дела является объединением вот этих траекторий, э, которые насамплированы
1:26:27
при помощи метода Монтекарла. А, ну а в терминальных узлах дерева, то есть если мы не доводим траекторию до окончания
1:26:34
игры, то при достижении определённой глубины мы оценку э терминального узла
1:26:39
дерева получаем при помощи оценочной нейронной сети. А, но смотрите, да, по сути дела Pocy
1:26:48
Network — это есть не что иное, как некоторая модель мира, э, для игры GO,
1:26:53
потому что policy Network определяет, во-первых, э, ну, те ходы, которые могут
1:26:59
быть сделаны, да, и те ходы, которые являются наиболее разумными. Ну, а Evoluation Network, она позволяет нам,
1:27:06
ну, как-то, в общем, смоделировать вознаграждение, да, то есть оценить, насколько хороша, э, та ситуация,
1:27:14
которая возникла в пространстве возможностей. Но если мы посмотрим на
1:27:20
современные большие языковые модели, мы можем обратить внимание на то, что они в
1:27:25
некотором смысле являются моделями реального мира, потому что они способны строить ну какие-то правдоподобные
1:27:32
цепочки развития событий, ну и способны, опять же, давать некоторые оценки
1:27:37
каким-то ситуациям, возникающим в реальном мире. То есть мы
1:27:43
можем использовать большую языковую модель для моделирования поведения
1:27:50
каких-либо агентов в реальном мире. Просто потому что эти модели кое-что знают про реальный мир. Конечно, э
1:27:57
модели мира больших языковых моделей, э они не всегда хороши и не всегда точны.
1:28:03
Э-э, но на самом деле это может быть не очень страшно, потому что модели мира, которые находятся в наших с вами
1:28:08
головах, тоже э- далеки от идеала, да. Например, до, э, опытов Галилея очень
1:28:15
многие люди считали, что тела, обладающие большей массой, падают на землю с большим ускорением. Вот. Хотя мы
1:28:22
знаем, что это не так. Но интуитивно многим людям казалось, что это именно так. И вообще наши с вами модели мира,
1:28:28
они на самом деле содержат часто множество неточностей и заблуждений, что не мешает нам с вами, в общем, ну,
1:28:34
как-то более-менее успешно адаптироваться. А, но тем не менее, да,
1:28:40
ээ, опять же, модели, даже если они не совершенны сегодня, то завтра они будут более совершенны. И возможности
1:28:49
использования больших языковых моделей как моделей мира открывает нам путь ко к моделированчи многих процессов в
1:28:57
реальном мире к решению интеллектуальных задач э происходящих не в пространстве
1:29:03
настольной игры а в реальном мире и конечно сейчас мой важный фронтир
1:29:10
исследований а на эту тему есть много интересных остроумных работ
1:29:15
о том, как можно, э, соединив методы Монтекарло с
1:29:22
со способностью модели строить с почки рассуждений, по сути дела, ээ, обучать
1:29:28
модели в автоматическом режиме улучшать свои способности, э, рассуждать. А, ну,
1:29:34
о чём здесь идёт речь? Вот, например, это конкретно проект, который, э,
1:29:39
которым мы занимались в этом году. Э, интересно, что вот, по-моему, 4 января
1:29:45
вышла, э, работа, ээ, значит, исследователей из Open AI,
1:29:50
посвящённая очень похожему подходу. В целом, мм, я думаю, что здесь мысли
1:29:55
исследователи сходятся. Ну, вот смотрите, у нас есть какие-то наборы задач, для которых известны ответы. А
1:30:03
это могут быть достаточно сложные задачи из разных областей: математики, физики, химии и так далее. У нас есть
1:30:10
формулировка задачи и есть ответ. Да, при этом мы знаем, что задача достаточно сложна для того, чтобы она могла быть
1:30:17
решена в один присест. А значит, нам нужно решать её при помощи моделирования цепочек рассуждений. А что мы можем
1:30:25
сделать? Мы можем, имея такие пары, э, вопросы, правильный
1:30:32
ответ, а, заставлять модель генерировать цепочки рассуждений. А, и затем, э-э,
1:30:38
если в ходе в результате этой цепочки рассуждений был получен правильный ответ, мы можем модель поощрять за те
1:30:45
рассуждения, которые она делала, да? То есть мы можем сымплировать их с положительным весом при обучении. Ну, а,
1:30:51
соответственно, наоборот, если траектория рассуждений приводит модель к неправильному ответу, это значит, что,
1:30:57
ну, вот где-то в этом списке рассуждений содержится дефекты, неправильное рассуждение, да. Таким образом, мы можем
1:31:03
использовать, ну, такую вот своеобразную самокоррекцию для того, чтобы по сути
1:31:09
без привлечения каких-то дополнительных данных, просто за счёт случайного самплирования траектории рассуждений
1:31:15
довольно серьёзно прокачивает способности моделей рассуждать. Ну и действительно, как бы опыты показывают,
1:31:22
что добавление такого рода механизмов, оно позволяет в ряде бенчмарков достичь
1:31:28
прироста на десятки процентных пунктов. особенно связанных с математикой, с логикой и так
1:31:38
далее. Так, ну, область железа, нужно обязательно затронуть, что происходит в области железа. Здесь, наверное, никаких
1:31:47
особых неожиданностей. Ну, NVIDIA
1:31:53
представила новую архитектуру BlackWell, вот на основе которой, соответственно,
1:31:59
э, значит, самые топовые их GPU появятся. Ну, что интересно, если
1:32:06
посмотреть вообще на направление развития инвидевского железа, видно, что, э, всё больше и большей мере
1:32:14
э они приспосабливают своё устройство под эффективную работу с большими
1:32:20
трансформерными моделями, с квантизованными весами. То есть вы видите, что поддержка э режимов э FP 6 и
1:32:29
FP4 э появляется в новой архитектуре. Вот.
1:32:35
Ну, соответственно, понятно, что растёт объём памяти на чипе. Это очень важный
1:32:43
для работы с большими моделями параметр. Ну, соответственно, увеличивается и
1:32:49
количество тензорных ядер, увеличивается пропускная способность шин, которые
1:32:55
через которую чипы в кластерах могут обмениваться данными вроде
1:33:02
градиентов. Вот, в общем, здесь, если посмотреть,
1:33:07
какими темпами растёт производительность железа тензорного, в
1:33:13
общем, примерно теми же, которые существовали ближайшие 5 лет. Ну вот
1:33:18
интересно, какие есть альтернативы инвидиевскому железу сейчас? Они, в общем-то, есть. То есть два других
1:33:25
крупных игрока пытаются догнать Nvidia в этой гонке. Ну вот, в частности, AMD
1:33:32
сделала ставку на суперкомпьютинг и по сути дела сейчас
1:33:38
целый ряд топовых суперкомпьютеров строится не на оборудовании Nvidia, а на
1:33:43
оборудовании AMD. Вот. Ну вот, в частности, они ээ 18
1:33:49
ноября двадцать четвёртого года представили э суперкомпьютер Эль-капитан. вот, который, собственно
1:33:56
говоря, в высокопроизводительном линпаке занял
1:34:02
первое место, да? То есть у нас произошла смена лидеров в
1:34:07
топ-500. Вот. А и значит, ну вот в основе этого суперкомпьютера тензорные
1:34:15
чипы MI 300А. А значит, ну это вот такой амдшный
1:34:23
ответ. ээ инвидевским топовым чипом. Интересно, что значит
1:34:29
ну для мдшных чипов появились реализации полноценные флштеншены. Вот
1:34:35
по сути дела современные трансформерные модели вы вполне успешно можете инферить
1:34:40
на таких железках. Другое дело, что, конечно, там коммьюнити гораздо меньше, всё равно придётся там серьёзно
1:34:47
покорячиться, чтобы современные модели на такого рода железе запускать. Вот. Но надо сказать, что здесь и остальные
1:34:55
игроки тоже похожие находятся ситуации. И Huawei их атласами, э, вот и
1:35:03
ээ Intel с со своими со своими Gud 3. Вот. Ну вот
1:35:10
в бенчмарках это выглядит очень красиво. То есть вот пожалуйста, там Гауди представленный
1:35:17
в э середине года, э значит, показывал, как он здорово бьёт H1 практически во
1:35:24
всех тестах. Вот. Но другое дело, что H1 — это всё-таки уже предыдущее поколение
1:35:31
железки. Вот. Ээ и в общем, пока что интеловское железо здесь не претендует
1:35:39
на консюмерский рынок. Пока что доступ к этим чипам возможен только через, э,
1:35:45
облачные сервисы, но тем не менее, кто знает, ээ, во всяком случае, крупные
1:35:53
игроки очень хотят догнать Nvidia, хотя бы сократить тот
1:35:58
разрыв, который имеется. Вот. Ну, э, Intel интересна ещё тем, что она ведёт и
1:36:06
продолжает активно исследование в области нейроморфных ээ архитектур. Вот,
1:36:12
по сути дела, одна из проблем современных тензорных машин — это всё-таки э
1:36:20
проблема бутылочного горлышка фонеймона, так называемое. Дело в том, что, ну, для того, чтобы,
1:36:27
э- обсчитывать, ээ, большие модели вроде современных
1:36:33
искусственных нейронных сетей, э, вам нужно передавать довольно большое количество данных между памятью и
1:36:39
вычислительными ядрами. То есть в чём здесь проблема? Проблема в том, что,
1:36:44
значит, в современных фонеймоновских машинах у вас данные хранятся в памяти,
1:36:50
а обработка этих данных происходит в вычислительных ядрах. Да, и вам нужно
1:36:55
данные переслать из памяти в регистры процессоры.
1:37:01
Даже если их очень много, как в случае тензорных машин, всё равно количество регистрови памяти очень сильно меньше,
1:37:08
чем количество э оперативной памяти. Вот.
1:37:13
Дальше после проведённых вычислений вам нужно результаты переслать обратно в память, и узким местом становится шина
1:37:20
для передачи данных из памяти в вычислительное устройство и обратно. человеческий мозг он этой проблемой
1:37:26
лишён в силу того, что в нём обработка и хранение данных, в общем-то, не
1:37:32
разделены, да? То есть, ээ, информация хранится в синоптических весах нейронов,
1:37:37
да, и обработка информации тоже происходит в нейронах. Вот, то есть вам не нужно данные пересылать из какой-то
1:37:43
внешней памяти в нейрон для обработки и пересылать результаты обработки обратно. Вот. Э, поэтому, конечно, э
1:37:51
перспективными кажутся, э, вычислительные системы, которые будут
1:37:56
построены на нефоннеймоновских принципах. Вот. И, ээ, это направление
1:38:02
называется нейроморфная инженерия. А есть очень много стартапов, очень много
1:38:07
исследовательских проектов, связанных с нейроморфными вычислениями. И вот Intel
1:38:15
сейчас лидер в этом направлении. Они, э, их топовое
1:38:21
нейроморфное устройство называется Лои 2. Вот. И, э, на основе вот этих
1:38:27
процессоров Loих 2, они в апреле двадцать четвёртого года собрали очередной свой самый большой,
1:38:36
э, массив этих тензорных этих нейроморхных вычислительных устройств,
1:38:41
называется H point Point. Соответственно, он на смену их предыдущему похойки Спринкс пришёл. Вот.
1:38:48
Ну и в общем, это очень интересный проект,
1:38:54
который значит нам может серьёзно изменить весь ландшафт
1:39:00
вычислений. Это, да? Нет, — это ээ библиотека для работы с тензорными
1:39:08
вычислительными устройствами. Нет, нет. Вот,
1:39:14
значит, акуда — это, да, куда ядра — это тензорные ядры. Вот. Ну на самом деле
1:39:21
таких, ээ, в принципе, сейчас мы находимся на в
1:39:26
такой вот тоже довольно переломный период, когда возможности классической электроники, они во многом исчерпаны.
1:39:33
Вот. И идёт довольно активный поиск альтернативных физических моделей для
1:39:39
вычислений, альтернативных физических субстратов. И в общем идей очень много о
1:39:45
том, чем можно заменить классическую электронику. А это и всевозможные фотонные вычислительные устройства, это
1:39:51
и inmemory computations, то, что называется, то есть аналоговые вычисления внутри массивов памяти.
1:39:58
Это и всевозможные имплементации квантовых машин, а и много разных других
1:40:05
интересных гитик учёные в своих лабораториях придумали и мемористоры
1:40:10
всевозможные, опять же, основанные на разных физических принципах. Вот. Ну, конечно, дистанция между лабораторным
1:40:19
прототипом и зрелой промышленной технологией, она очень большая. Вот нам нужно научиться каким-то образом делать
1:40:25
полноценные трёхмерные схемы. Ну, современные схемы, которые мы собираем из транзисторов, в общем-то,
1:40:32
плоские. Вот. Ну, как понимаете, дополнение добавление ещё одного
1:40:37
измерения серьёзно позволит увеличить размеры схемы. Но, ээ, с технологичей
1:40:43
точки зрения это несёт целый ряд проблем. Нужно каким-то образом интегрировать трёхмерную схему
1:40:49
теплоотвод. -э, нужно, значит, каким-то образом бороться с проблемой дефектов
1:40:54
при, э-э, изготовлении схемы, да, потому что при, э, современных, э-э,
1:40:59
технологиях, там, пятинанометровые, например, э количество дефектов очень велико,
1:41:06
поэтому современные чипы собирают из фрагментов, которые называют чиплетами.
1:41:11
Вот. Ну или существуют разные подходы вроде тех, когда чип делается размером
1:41:18
со всю кремневую подложку, да, а дефекты в цепях
1:41:25
выявляются и по сути запаиваются как обходные контуры.
1:41:30
В некоторых нейроморфных схемах это таким образом делается. Например, есть такая компания Реброс, значит, которая
1:41:37
как раз, э, создаёт чипы по такому принципу. Вот. Ну, в общем,
1:41:43
улучшить современную электронику радикально очень трудно. Вот, то есть нужна смена парадигмы
1:41:50
вычислительной. И, ну, как бы вопрос на много миллиардов долларов. Какая именно
1:41:56
вычислительная схема наиболее перспективна? какие именно физические процессы наиболее подходят на роль
1:42:03
субстрата для будущих вычислительных систем. Так, ну, мой личный результат за
1:42:09
прошедший год я наконец-то дописал свою книгу. Вот она называется «Охота на
1:42:14
электровец». Большая книга искусственного интеллекта. Вот, собственно, я какое-то количество сюда
1:42:20
принёс этих книжек. А 6 лет работы у меня ушло. Э получилось примерно 450.000
1:42:27
слов. 3,4 млн знаков, 3.200 примерно ссылок на
1:42:35
разные источники. Вот. То есть, в общем, рассматривайте мою книгу скорее как такой краткий каталог ссылок к разным
1:42:43
научным исследованиям, потому что очевидно, что всё-таки, несмотря на такой большой размер текста, вместить в
1:42:48
него всё, что происходит в нашей области, очень трудно. Вот. Ну, в общем,
1:42:55
3 кг книжного мяса. Вот опять же
1:43:00
электронная версия находится свободном доступе совершенно бесплатно. Вот поэтому, если вам не нужна бумажная
1:43:08
копия, то спокойно заходите на мой сайт, скачивайте, читайте в любой удобной вам
1:43:14
читалке. Вот. Э так, ну и традиционный раздел с прогнозами, да, смотрим, что
1:43:21
сбылось, что не сбылось. из того, что я напрогнозировал год назад. А вот, ну, в
1:43:28
общем, как-то у меня точность примерно год от года. Я человек рисковый, да,
1:43:33
примерно в районе 50% или чуть больше плавает. Вот. Ну, звуковая модальность
1:43:39
GPT4O появилась, поэтому зачитываем видео в аналоге GPT. Значит, в дмине
1:43:47
можно видео на вход использовать, поэтому тоже. А синхронный перевод аудио в аудио. Есть
1:43:53
модели первые, которые позволяют синхронно переводить. Ну, конечно, там я сжульничал в том плане, что я там не
1:43:59
говорил, какие будут параметры качества этого перевода. Вот. Ну там BL, конечно,
1:44:04
пока такой стыдненький, там в районе 2, но тем не менее это, в принципе, работает
1:44:09
концептуально. Так, теперь три пункта, которые не случились. новая версия там чего-то там Zero, да,
1:44:16
вслед за Мюзиру, способная работать с играми с большим поисковым пространство. Но
1:44:22
вообще deep Mind сейчас немножко не до этого, я так понимаю. Они сейчас переориентируются опять же на улучшение
1:44:29
лмок. Вот. Значит, ну будем надеяться, что всё-таки это направление будет у них
1:44:35
продолжено. MMLU Zero Shot больше 91%. Ну, там 89 с чем-то в итоге, то есть до
1:44:42
91 не дотянули, поэтому, увы. Картиночная рег в аналогах чат GPT, но я
1:44:48
не нашёл сходу. Вроде пока в топовых решениях нету э рега. Ну, то есть в том
1:44:53
смысле, что они не могут вам найти картинку, да, и опираясь на найденную
1:44:59
картинку, что-то там сделать. Аа инструктивное редактированные изображения в аналогах чат GPT.
1:45:06
Есть первые прототипы, но в топовых инструментах пока не внедрено. Вот
1:45:11
поэтому, ну, типа, не знаю, жёлтым покрасил и да, и нет. То есть прототипы есть рабочие, которые можно пощупать, но
1:45:18
в топовых инструментах пока нету этого. А первые фундаментальные модели для видео, три
1:45:25
штучки в двадцать четвёртом году появилось. Ну и лучшие генераторы картинок смогут нарисовать лошадь,
1:45:32
скачущую на астронафте. Вот. А есть такое, да, вот
1:45:37
это Дали 3, вроде бы, значит, я специально добросовестно погуглил, нашёл
1:45:43
ещё пять или шесть вариантов от разных пользователей. Вот. Ну, то есть в
1:45:49
целом я считаю нормально, да, вот зачтено. Гэри Маркус
1:45:56
посрамлён. Вот. А что будет в двадцать пятом году?
1:46:02
Вот. Ну, будем делать, э, ставки. Вот модели будут писать стихи на уроне
1:46:08
лучших поэтов. Синтез речи голосом, описанным словами. Ну то есть вы словами описываете, как голос должен звучать,
1:46:16
да, и таким голосом вам синтезируется текст. А качественная генерация
1:46:22
векторных изображений. Э, вообще вот эта парадигма векторной генерации, она, э,
1:46:28
скорее будет притягивать больше внимания в силу именно того, что это удобная модельная
1:46:34
задача для агентных систем. Аэ, ну вот я надеюсь, что всё-таки история с MZero
1:46:41
будет продолжена. Вот MMLU, ну, 91% оставлять было не спортивно, поэтому
1:46:47
пусть будет 92. Вот картиночную рег в аналогах части. Ну, то есть, по сути, три там не
1:46:53
сбывшихся пункта просто я переношу. Вот текст to CAD системы начнут внедряться,
1:46:58
да, поскольку генерация трёхмерных объектов взлетела. Вот, ээ, большой
1:47:04
запрос со стороны индустрии, да, научиться, э, CД модели генерить. Вот в
1:47:11
датасетах для обучения больших моделей больше 50% э-э от данных будет занимать
1:47:17
синтетика и всевозможный оверсмплинг. Но это отдельный интересный такой момент,
1:47:22
может быть, достойный небольшого пояснения. Э у нас, э, размеры
1:47:27
датасетов, обучения больших языковых моделей растут быстрее, чем растёт текстовая часть интернета. Вот. То есть,
1:47:35
ну, по крайней мере, последние 3 года, 3-4 года- это так. Вот. То есть, э,
1:47:40
размеры там Википедии, Твиттера и вообще там Конкролла растут чуть-чуть сверхлинейно, а размеры датасетов
1:47:47
растут, ну, практически экспоненциально. А значит, что это
1:47:53
значит? Это значит, что халявный способ масштабирования, связанный с
1:47:58
докидыванием просто всё новых текстовых данных, он ну, очевидно, будет исчерпываться, и нужны для этого
1:48:04
альтернативы будут. Вот альтернативы их много. Ну то есть на самом деле это не
1:48:10
страшно. Ну то есть это не значит, что всё прогресс становится в области больших языковых моделей. Нет, мы знаем,
1:48:16
что делать с этим. Просто мы можем трей трейдить как бы компьютер на данные. А
1:48:22
во-первых, по одним и тем же данным можно проходить несколько раз. Ну точно ещё не посчитаны кривые
1:48:28
масштабирования, как быстроя деградация начинается при повторении данных, но по крайней мере есть отдельные работы, где
1:48:34
показано, что, в общем, можно пять раз пройти по текстовому дтесету большому,
1:48:40
если у вас модель не ээ не очень большая и не меморизирует весь датасет. Ну, в
1:48:46
общем, можно можно находить несколько раз. Можно модифицировать
1:48:52
функцию целевую, ну, точнее задачу обучения, то есть не на просто предсказание следующего токена, а
1:48:59
наной. Вот, что тоже позволяет из тех же данных выжать гораздо больше. Ну и можно
1:49:06
что делать? Можно синтетику делать, да, то есть генерировать обучающие данные. А
1:49:11
вот ну мы при обучении людей так делаем. То есть если вы откроете школьный учебник,
1:49:18
да, для там каких-то первых классов, вы там найдёте кучу всяких историй, что там зайчик и белочка пошли в лес, зайчик
1:49:26
нашёл три грибочка, да, белочка пять. Сколько всего грибов нашли зверята. Мы понимаем, что это не э задачи из
1:49:34
реального мира. То есть вот эти персонажи, они очень редко сталкиваются с такими задачами, да, там, ну, и очень
1:49:40
ред, ну, вряд ли как бы нам нужно будет ну, то есть, если, конечно, не злоупотреблять разными
1:49:47
веществами, да, то вам в реальной жизни не понадобится помогать зайчикам и белочкам считать орехи. Вот. И очевидно,
1:49:54
что это всё искусственно созданная история, да, предназначенная только для одного, для того, чтобы мы выучили вот
1:50:00
эту индуктивную операцию сложения, чтобы потом её могли применять вне зависимости от контекста, да, складывать что угодно
1:50:06
с чем угодно, ну, что с чем потребуется. Вот. Поэтому очевидно, что синтетика в
1:50:12
обучении может быть использована, да, особенно для постижения каких-то более сложных индуктивных операций, которые
1:50:18
требуют большего числа примеров, чем ну как бы в in the wild, да, в дикой
1:50:23
природе человеку приходится встретить. Вот. Поэтому все,
1:50:29
конечно, сейчас очень активно это направление копают. синтетика, cricкум. Значит, и всё большее количество
1:50:36
обучающих данных оно создаётся вот таким образом. Вот. Ну и ещё statт
1:50:43
spaceмодели. Я сегодня о них отдельно не говорил, хотя это очень перспективное
1:50:49
направление исследований. Вот единственная, э, сейчас реальная альтернатива трансформерным моделям —
1:50:56
это модели пространства состояний. Вот. или комбинированные модели, которые соединяют себе, э, значит, sta подход с
1:51:04
трансформерами. Например, такая модель, как Jumba появилась в этом году, наследница мамбы. Вот. Ну и на самом
1:51:12
деле много разных других интересных наследников, регурентных архитектур. Но вот самые перспективные из них, кажется
1:51:19
сейчас это модели э пространства состояний. Вот. И я думаю, что мы в
1:51:25
следующем году в топ-пять бджмарков обязательно такие модели должны впервые
1:51:31
увидеть. Потому что концептуально у них есть важное по сравнению с трансформерами преимущество, то, что
1:51:37
они, э, у них линейная сложность от длины контекста. Вот. И это их делает
1:51:43
более гибким инструментом при работе с длинными
1:51:48
последовательностями. Спасибо большое за то, что вы слушали мой рассказ.
1:51:57
Э, э, сейчас готов поотвечать на ваши вопросы. Ну а ссылочки на мой канал и на
1:52:03
сайт с книгой. Они прежде чем, да, прежде чем задавать вопросы, я хотел бы зачитать очень интересный комментарий из
1:52:10
чата от нашего слушателя, слушательницы. Всем добрый вечер.
1:52:16
Счастливо, что в моей жизни появились нейросети. Я полностью незрячая.
1:52:21
Благодаря нейросетям могу рассматривать фотографии друзей, распознавать и получать описание. А ещё почти 30 лет я
1:52:28
пишу стихи и тексты песен, но не могла найти композитора и исполнителя.
1:52:33
Благодаря Суна создала четыре альбома без преувеличения нейросети для меня
1:52:38
настоящее чудо. Ну и, конечно, синтезаторы речи на основе искусственного интеллекта.
1:52:46
Здорово. Ну что, давайте вопросы.
1:52:53
[музыка] Спасибо, Сергей, за интересный
1:52:58
обзор. У меня такой вопрос. Вы думали ли вообще, ну есть ли какие-то задачи,
1:53:05
интеллектуальные задачи, которые машины не
1:53:11
могут и не смогут принципиально решить по какой-то причине? Ну, то есть не
1:53:16
стоит ждать. Можно ваш прогноз, может быть, они не смогут завтрашние новости предсказывать или там, я не знаю, с
1:53:25
животными разговаривать. Да. Да, спасибо за вопрос. Гипотезу Римана доказать. Ну, смотрите, тут есть
1:53:34
как бы несколько аспектов, наверное. Э ну первое — это есть некоторые ограничения специфические тех моделей,
1:53:41
которые мы используем сегодня. То есть вот для больших языковых моделей на
1:53:46
основе трансформерных архитектур есть ряд неудобных задач, скажем так, с которыми они справляются не очень
1:53:52
хорошо. Ну, например, ну вот смотрите, из-за того, что у
1:53:57
модуля внимания квадратична сложность, да, таким моделям трудно работать с
1:54:03
длинным контекстом. Чтобы контекст был покороче, используют такой трюк, как
1:54:08
токинизация, да? То есть мы, э, текст рассматриваем не как последовательность символов, да? Ну, как бы составляем
1:54:14
такой словарь токенов при помощи статистических алгоритмов. Вот. И как бы элементов, с
1:54:21
которым сетка оперирует, является не отдельный символ, да? А какая-то последовательность символов достаточно
1:54:26
длинная зачастую. Вот. Э, и сетка, она как бы в начале обучения не содержит
1:54:32
никаких индуктивных знаний о внутренней структуре токена, да, для неё это просто иероглиф, да, какой-то вот, ну, чиселка,
1:54:40
какое-то число. А, а для решения некоторых задач нужно знать внутреннюю
1:54:45
структуру токена. Ну, просто банально для того, чтобы текст задан наперёд написать, да, вам нужно, ну, типа уметь
1:54:52
внутри токена переставить символов противоположной последовательности. Или, например, если вам нужно стихотворение
1:54:58
написать, а стихотворение — это фонетически организованный текст, и вам тоже для того, чтобы стихотворение
1:55:03
написать, модель должна понимать, что внутри токена лежит. Модель кое-что
1:55:08
выучивает про то, что внутри токена, но в неявном виде. То есть она, исходя из
1:55:14
статистики, да, вот в этом гигантском корпусе каком-то, там есть какое-то количество там стихов, какое-то
1:55:19
количество ситуаций, когда продолжение текста, оно зависит от внутренней структуры токенов в левом контексте.
1:55:26
Но данных там часто не хватает, чтобы для каждого токена хорошо выучить его внутреннюю структуру. Поэтому, например,
1:55:33
сочинением стихов, вот модели общего назначения, ну, типа там лама, взятая из коробки, да, или чат GPT или, э, кто
1:55:41
угодно, да, или гигачат, они будут справляться с этим плохо, да. То есть э
1:55:47
норемся с проблемой длинного контекста, да, то есть и вот эти задачи, которые требуют там знания внутренней структур и
1:55:54
токенов, они неудобные для для тех архитектур, которые мы сейчас используем. Но если мы с вами завтра, не
1:56:01
знаю, все переключимся на какую-нибудь чармамбу, да, то для неё эти задачи не
1:56:08
будут сложными. Для неё более сложными будут другие классы задач. Но в целом,
1:56:14
то есть нету никаких, я бы сказал, фундаментальных ограничений для будущих моделей. Ну
1:56:21
просто почему? Пото по по общим соображениям. Ну вот человеческий мозг — это физический объект, да?
1:56:28
Физико пространство можно описать при помощи, значит, ну, набора формализмов,
1:56:34
да? Искусственная нейронная сеть тоже описывается при помощи там наук, ну,
1:56:40
некоторого набора формализмов. Эти системы, они не относятся принципиально
1:56:46
разным классам сложности. То есть мощность этих машин, она по идее, ну, типа они должны быть равномощны в в
1:56:53
тюринговской, э-э, в тюринговском представлении. А поэтому, э, если говорить о далёком
1:57:01
будущем, да, ну там, грубо говоря, вот если посмотреть там развитие технологии каком-то неопределённом отрезке, у нас
1:57:08
не должно быть каких-то барьеров, да, там не должно быть каких-то задач, которых
1:57:14
ну машины принципиально не смогут их решать, а мозг сможет, да. Вот. Но при
1:57:19
этом у современных архитектур некоторые ограничения есть. И эти ограничения, ну, в общем, не всегда понятно, как
1:57:27
преодолевать. И есть ещё третий аспект, про который тоже надо упомянуть. А некоторые задачи машины решать-то могут,
1:57:35
но мы не хотим решать их при помощи машин, да, ну, по разным причинам. Но
1:57:41
это вот как эти два двое излорца, да, а вы и есть за меня будете, да? То есть
1:57:46
есть какие-то задачи, которые люди хотят оставить себе. Ну и по разным причинам,
1:57:52
да. Почему вот некоторые люди, не знаю, хотят э
1:57:58
чтобы у них были яйца от счастливой курицы, да? Значит, и они идут и
1:58:03
покупают не с там от фабричной курицы яйцо, да, а вот от фермерской, да. Э, и
1:58:10
всегда будет такое пространство, да, в человеческом обществе, когда люди будут говорить: «Ну, я вот, э-э, за organник
1:58:18
арт, да, я могу себе позволить дома на стену повесить картину, которую нарисовал настоящий кожаный, да, а не
1:58:25
вот эти ваши бездушные железки», да? Вот. И, ну, как вы понимаете, да, любое
1:58:31
там произведение искусства — это ещё и нарратив там, связанный с этим произведением и так далее, да? То есть
1:58:38
вся эта проблематика ещё там Вальтер Беньямин в своё время писал, да, в своём, э, произведении искусства в эпоха
1:58:45
его технической воспроизводимости. Вот поэтому здесь ещё помимо, ну, типа барьеров
1:58:52
возможностей неростевых моделей, есть ещё и барьеры нашего желания эти модели
1:58:57
для некоторых задач применять. Вот поэтому, ну, там типа они не будут в этих задачах применяться не потому, что
1:59:03
они не могут, а потому, что мы не хотим. Вот. А, поэтому вот, наверное, такой ответ.
1:59:13
Я, кстати, не верю, что ваш микрофон работает. Алло-алло, работает. Да, тут просто
1:59:19
колонок нету, но люди в трансляции слышат. А, для записи. О, прошу прощения, я забыл про вас. Сергей, а,
1:59:26
три вопроса. Один, э, состоит из двух частей. Первое, правильно ли я понимаю, что, э, сильный, ну, или простой способ
1:59:35
улучшить результат того продукта, который даёт модель, ну, назовём так
1:59:40
пока просто модель, это вот это обвешивание различными фреймвор фреймами
1:59:46
одной и той же модели, чтобы она сталкивалась, грубо говоря, с самой собой же в разных ипостасях. Таким
1:59:51
образом, результаты улучшаются. Верно ли это? Да. Ну вот идея с сфхолдинга, она в
1:59:57
этом. Да. Угу. И второй вопрос уже вытекающий из этого, есть ли какая-то
2:00:03
дисциплина, которая концептуально показывала бы путь вот
2:00:09
какой-то подбору вот этой конструкции фреймов оптимально для твоей задачи? То есть кажется, что это не совсем логика и
2:00:16
не совсем системный анализ. Это что-то такое вот среднее, ну или какая-то комбинация между двумя вещами? Ну я бы
2:00:22
сказал, что это такая новая инкарнация программной инженерии. Вот. Ну, то есть такое
2:00:27
метапрограммирование, да, что ли, если хотите. Но формальная сторона, конечно, пока очень слаба. То есть, скорее здесь
2:00:35
наука находится в состоянии, ну, вот как знаете, в истории искусственного интеллекта в семидесятые годы было две
2:00:43
школы. Значит, одна называлась ниц чистюли, да, а другая скрафис грязнули,
2:00:49
да? Вот грязнули — это вот всё полезно, что в рот полезло, да? Ну, то есть типа
2:00:54
взяли, работает отлично. Если работает прекрасно, нам не обязательно понимать, почему это работает, да, и и вообще
2:01:01
какие принципы математические формальные за этим стоят, да? А онис говорили: «Нет, ну как же, вы должны иметь
2:01:08
обоснование строгое того метода, который вы применяете, потому что, ну, в конце концов, если вы не понимаете, почему
2:01:14
ваша система работает, так вы её и улучшить не сможете». Да. Вот. Поэтому сейчас мы скорее находимся на фазе
2:01:21
соответствующей вот с крафиходом. То есть куча людей во всём мире вот эти агентные фреймворки копает. И вы знаете,
2:01:29
это такая во многом отдушина для программных инженеров, потому что эксперименты в области агентности, они
2:01:36
очень часто не требуют там гигантских вычислительных мощностей. Ну то есть вам только на infence нужны вычислительные
2:01:43
мощности, а вам не надо учить гигантские модели. Вы можете взять там даже маленькую какую-нибудь обученную ламу,
2:01:49
да, там запустить её у себя дома там на какой-нибудь видюхе, да, там хорошей. и вокруг неё писать какие угодно там
2:01:56
алгоритмические обвязки, да, и это и это работает. Ну, то есть поскольку как бы общие теория ещё не созданы, там любая
2:02:03
разумная идея, она даёт как бы буст, да? То есть, если у тебя там, как говорится, идеи есть классные, ты идёшь как бы и в
2:02:10
своём гараже собираешь там систему, которая какие-то задачи решает лучше, чем просто модель из коробки. Поэтому
2:02:17
это суперпопулярное сейчас направление и среди студентов, среди энтузиастов онрса
2:02:23
там и так далее. Но направление довольно хаотичное, то есть оно вот только появилось, да? Я уверен, что в ближайшие
2:02:29
годы будут появляться теоретические работы, которые будут, во-первых, значит, ну, каким-то образом позволять
2:02:36
хотя бы количественно оценивать эффекты вот этого скафхолдинга хорошо, да, а потом, может быть, и автоматизировать
2:02:42
построение вот этих сэффилдов, потому что это напрашивается, очевидно, да, но это надо аккуратно тоже тестировать все
2:02:49
эти подходы. Или ещё один в кучу вопросов, а не
2:02:54
связанный с предыдущим. Есть такая система. И самфрам, он позиционирует её
2:03:02
как какую-то мощную модель, которая умеет не текстами
2:03:07
как будто бы оперировать, а оперировать точным вычислительным языком. Могли бы вы чуть-чуть приоткрыть историю про её
2:03:14
как бы, ну, что там внутри зашито такого, что так сильно дистанцирует её
2:03:19
от текстовых моделей? Слушайте, ну Стивен Вольфрем, он просто очень классный дядька. Он как бы большой
2:03:26
энтузиаст вообще э-э формального искусственного интеллекта,
2:03:31
того, что мы сейчас называем Good Old Fashioned Artificial Intelligence. Ну, по сути
2:03:36
дела все эти символьные движки, они про что? Они про то, что, ну, давайте тоже
2:03:42
строить цепочки рассуждений, да, но в пространстве формального языка. И будем
2:03:48
будем использовать разные там эвристики, чтобы опять же не все варианты анализировать, какие-то более перспективные. То есть, по сути,
2:03:54
вольфремовский движок, он очень похож на шахматные движки там типа восьмидесятых-9вяностых годов, да,
2:04:01
начало двухсячных, в которых заложено много такого людского интеллекта, в которым прямо вот силён такой
2:04:06
индуктивный баяс, что вот мы какие-то придумали еврестики, которые улучшают поиск евристический, да, что у нас там
2:04:13
мы будем рассматривать не что попало там, а будем какие-то более перспективные траектории,
2:04:20
рассуждений рассматривать, да, для решения задач. Но в конечном-то счёте
2:04:25
оказалось, что ну вот есть такая статья нашумевшая,
2:04:32
она называется, можете загуглить, типа Bitter Lesson, я не помню полностью её название, ну, типа Bitter Lesson
2:04:39
paper про индуктивный Bс о том, что вот до сих пор в программной инженерии, чем больше мы ликвидировали индуктивный Bс,
2:04:47
тем лучше становились от этого системы. То есть это вот у меня, когда я занимался активно разработкой шахматного
2:04:53
движка, у меня был какой-то год, когда я занимался только тем, что удалял из
2:04:58
этого движка своё гениальное, и движок от этого становился всё всё сильнее и сильнее, да? То есть я заменял свои
2:05:05
какие-то гениальные открытия на то, что все вокруг используют, да, и от этого становилось только лучше, да, и вот
2:05:13
это вот это вот этот период пережил, по-моему, единственный алгоритм,
2:05:18
придуманный мной, который сейчас используется в Stockfish, который называется Bwin Mark extension, но это
2:05:25
типа там из, не знаю, четырёх десятков эвристик, которые я придумал, да, оказалось, что одна вот пережила, так
2:05:32
сказать, столкновение с реальностью. Вот. И в целом вот все вот эти движки,
2:05:39
созданные, безусловно, очень талантливыми, даже гениальными людьми в эпоху Goodled Fashion Artificial
2:05:45
Intelligence, они, конечно, к сожалению, сейчас сдают, потому что, ну, типа ивристики, которые придумывают нейронки,
2:05:52
они оказываются качественно гораздо более точными, да, и лучше статистически подкреплёнными, чем любая интуиция там,
2:05:59
ну, даже очень хорошего исследователя. И по сути сейчас, когда мы говорим про символьный ризонинг от лэмок, а лмка
2:06:07
делает примерно то же самое, то есть она тоже генерирует последствия там цепочки рассуждений, в том числе и, ну, легко вы
2:06:14
доучиваете её оперировать формальным языком. Вот. И оказывается, что её идеи
2:06:20
по поводу того, как типа решать ту или иную задачу в символьном э пространстве,
2:06:26
они оказываются лучше, чем те, которые, ну, типа ивристики плюс перебор позволяют сделать. И я вот сам как бы
2:06:33
своими глазами видел, как там мы с Иваном Оселецом сидели на каком-то нашем
2:06:39
очередном Сберовском совещании, а он сидел, значит, решал там задачу математическую, сложную. Вот. И он
2:06:45
такой, значит, ну да, давай сейчас, ладно, чат GPT спрошу, посмотрим, что она может, не может. Вот. Но он там
2:06:52
задал, смотрит, ну вот как бы о, ну в принципе как бы разумно рассуждает. Ну тут, конечно, ошибка вот где-то она там
2:06:59
типа облажалась, но в целом как бы идея хорошая. То есть он как бы взял сталро. Я говорю: «Ну ты попробуй гигачат». Он:
2:07:05
«Да ладно, гигачат». Он же там, ну типа он его смотрел там, ну типа 3 месяца до этого. Я говорю: «Ну смотри, за 3 месяца
2:07:12
мы там прокачали, иди попробуй». Он: «Да ладно, ну что, ну, я говорю, давай, давай». Вот. Ну и он, значит, вёл эту
2:07:18
задачу и тоже получил решение тоже, в котором был там была в какой-то момент ошибка, но оно было ничем не хуже, чем
2:07:24
от GPT4. Он такой: «О, ну типа ничего себе, типа за 3 месяца так улучшилось». Я говорю: «Ну вот видишь, как бы
2:07:31
время-то не стоит на месте, ты ещё через 3 месяца зайди, так он тебе её и решит».
2:07:36
Вот. То есть в целом ну а как бы опять же, если задача символьного ризонинга, вот вам нужно
2:07:42
именно прямо сделать решение задачи символьного ризонинга на основе лэмки, э, ну, тоже при помощи сфолдинга вокруг
2:07:50
сделать. Ну, то есть заставь сгенерировать её 10 траекторий, потом подставь, э, результирующую набор
2:07:56
операций в символьный движок, вычисли результат выражения. Если он совпал как бы с, ну с заданным критерием, то, ну
2:08:04
вот как бы может за один раз не решит, за 10 решит. То есть вот. Но Вольфром он при этом, мне
2:08:11
кажется, абсолютно адекватно воспринимает эту ситуацию. То есть у него нету такого, что да я, да, там,
2:08:17
ваши неронки не нужны. Наоборот, он как бы был первым человеком, который пошёл к
2:08:23
Open AI. И один из первых тулов, которым научили пользоваться GPT4 — это был
2:08:29
вольфрамовский движок. То есть они реализовали в виде функций. Это вот ранние там работы на тему тулов для ЛМА.
2:08:37
Как раз Вольфром активно в это включился. Давайте последний просто вопрос. Время
2:08:43
уже перебрали. Последний. Спасибо большое за лекцию. После лекции послушать.
2:08:51
В прошлом году было очень много новостей о достижениях в области фундаментальных
2:08:57
наук. Это перемножение матриц было открыто за 45 лет новое, да, там поиск белков Альфафолд, а, по-моему,
2:09:04
кристаллов 800.000 нашли каких-то потенциальных. Скажите пару слов, что в этом году в области фундаментальной
2:09:11
науки было открыто? Спасибо. Вот. Ну, ээ, вышла Alльpha Fold 3, которая там,
2:09:18
ну, ещё очень серьёзно уточнила работу Alльphaold 2. А, и в этом смысле,
2:09:24
конечно, я бы сказал, что я не не скажу сейчас вот там, что
2:09:30
типа вот конкретно открыли там какую-то там важную очень новую молекулу, но в целом я вижу, как изменилось само
2:09:36
отношение ээ коммьюнити профессионалов из области биохимии к
2:09:42
этой работе, потому что к альфафолду первому относились со скепсисом, да, и
2:09:47
ну типа, ну, о’кей, конечно, хорошо, но никак не поможет нам, Да, когда появился
2:09:53
Альфафold 2 было такое, что, ну, типа о там классно,
2:09:58
смотрите, мы там структуру рецептора ковида смогли, ну,
2:10:04
типа восстановить при помощи Альфафол, то, что на что там у кристаллографов ушло там несколько недель, а мы вот тут
2:10:10
типа из коробки сделали и результат совпал. Но потом был какой-то такой момент тоже всё равно скепсиса, когда
2:10:16
стали говорить: «Ну нет, смотрите, как бы он не всегда там правильно угадывает. Вот мы нашли там кучу исключений. Вот.
2:10:22
Э, но было такое типа типа скорее стадия отрицания, да? То есть типа, ну вы там
2:10:28
претендуете на какие-то результаты, да? О’кей, вы показали отдельные классные результаты, но это же всё равно не
2:10:33
панацея, да? Вот и когдафолт третий вышел, скорее тишина и видно, что все
2:10:39
используют. То есть вот, э-э, любую ты современную биохимическую лабораторию
2:10:44
зайдёшь, там у них есть Альphaфold, есть Розетафол, они всё это считают, они
2:10:50
занимаются селекцией как бы структур при помощи этих моделей. То есть произошло
2:10:56
принятие такое, наверное, да. Вот. Э потом, э, значит, ну, про математику я
2:11:03
не слышал каких-то серьёзных результатов. Ну, точнее, было несколько работ, посвящённых тому, что какие-то
2:11:10
доказательства нескольких теорем, вроде бы нашли какие-то более простые, которые ускользали от
2:11:17
э математиков. Было вроде на эту тему исследование, ну, как какой-то опять же там громких публикаций. Я бы сказал, что
2:11:24
э в двадцать четвёртом году было меньше гораздо громких заявлений на эту тему,
2:11:30
но было гораздо больше реального практического применения этих инструментов. Вот именно. Потому что к
2:11:37
ним перестали относиться как диковинки. Вот. А, ну и важный, кстати, момент. Я
2:11:42
написал в списке, но у меня не было отдельного слайда про Нобелевки. Да, у нас же очень громкое событие этого года,
2:11:49
что ограбили несчастных значит физиков и химиков, да, выдав
2:11:55
Нобелевке за машинное обучение. Вот многое было, на самом деле, сломано копий на эту тему. И, ну, там можно,
2:12:02
может быть, поспорить, да, с этими решениями отчасти. Вот. Но это, конечно,
2:12:08
это демонстрация отношения научного сообщества, потому что за выдачей Нобелевской премии стоит комитет из
2:12:15
учёных. Вот. И то, что они решили, пусть даже такое спорное решение принять, это
2:12:22
было признанием со стороны научного сообщества того, что созданные методы действительно очень много пользы
2:12:29
принесли. Давайте ещё, может быть, один вопрос. Я не вопросик, Сергей. Я хотел с благодарностью к вам обратиться. Вы
2:12:35
помогли очень многим авторам. Моя книга лежала долго на полке, потому что я не могла её
2:12:41
никак проиллюстрировать. Художники все мне ничего не нравилось. И когда я познала Кандинский, вот прямо вот
2:12:47
благодарность вам большая, я её са хотела бы вам вручить. Я её сама проиллюстрировала. Спасибо. Спасибо. Вы
2:12:54
очень помогаете многим авторам, правда. Спасибо. Очень рада, что наша работа полезна для кого-то. Вот. Ну, в общем,
2:13:02
друзья, вы можете смело ко мне подходить э потом, да, э, у вас есть мои контакты,
2:13:09
есть мой канал, напишите мне просто комменты, можете писать мне в личку. Э, вот просто подчёркивание удаляете из и
2:13:17
получите, как моя личка называется, в телеге. Вот, поэтому вы мне можете писать в любой момент вопросы. Я не
2:13:23
обещаю, что я вам отвечу мгновенно, но я стараюсь отвечать всем, кто мне пишет. Спасибо большое вам ещё раз, что вы в
2:13:31
пятничный вечер пришли послушать меня. Вот. И до новых встреч. До свидания.
2:13:43
[музыка]

