Yann LeCun про ограничения всех LLM. Чуда AGI не будет. (35 мин, вместо 3 часов) - Друзья, это IT Блог Развития Разума и Интеллекта Преподавателей Открытой Йоги.

Оценили: 16

*Meta (владеет соцсетями *Instagram и *Facebook) признанна экстремистской организацией и запрещена в РФ
**https://t.me/+0KXjZ6KOBQthZjRi
***https://300.ya.ru/v_eLEGFhp4

🌟 Интервью с Yann LeCun, главным научным сотрудником Meta и лауреатом премии Тьюринга, раскрывает ограничения современных языковых моделей и его видение развития искусственного интеллекта через создание систем, способных понимать физический мир и планировать действия.

Таймкоды

00:00:00 Введение

Ян Ликун — главный научный сотрудник по искусственному интеллекту в Meta, профессор Нью-Йоркского университета, лауреат премии Тьюринга.
Он активно поддерживает открытое развитие ИИ и критикует опасения по поводу угрозы от ИИ.
Ян уверен, что ИИ будет полезным и не выйдет из-под контроля человека.

00:00:56 Ограничения больших языковых моделей

Большие языковые модели LLM не обладают пониманием физического мира, памятью, рассуждениями и планированием.
LLM обучаются на огромных объёмах текста, но этого недостаточно для достижения интеллекта на уровне человека.
Большинство знаний приобретается через взаимодействие с реальным миром, а не через язык.

00:02:48 Парадокс Маравица

Компьютеры хорошо справляются со сложными задачами, такими как шахматы, но плохо — с повседневными делами, например, вождением или домашними заданиями.
LLM не могут быстро осваивать практические навыки, как люди.
Для решения проблемы планируется интеграция визуальных представлений через системы зрения.

00:03:46 Авторегрессионные LLM

LLM предсказывают слова, создавая распределение вероятностей, а не точно предсказывая следующее слово.
Человеческая мысль часто не зависит от языка, в отличие от LLM, которые генерируют слова последовательно без внутреннего планирования.
Язык не обладает достаточной пропускной способностью для создания полных моделей мира.

00:04:49 Проблемы прогнозирования видео

Прогнозирование последовательности видеокадров включает представление о распределении в высокоразмерных пространствах, что трудно реализовать.
Попытки использовать скрытые переменные в нейросетях не дали результатов.
Методы обучения эффективному представлению изображений или видео для задач классификации в основном не увенчались успехом.

00:08:14 Методы дистилляции

Методы дистилляции, включая BioL, JEPA и DINO, включают пропуск изображения через инкодер и применение преобразований для эффективного обучения системы.
JEPA обучает предсказатель выводить полное представление из искажённого изображения.
Dino требует знания специфики изображения для геометрических преобразований.

00:09:35 Применение к видео

Расширение JEPA применяется к видео, где сегменты видеокадров маскируются в последовательности.
Система обучается предсказывать полное видео из частично замаскированной версии.
Этот подход позволяет точно классифицировать действия в видео.

00:10:12 Планирование действий

Внутренняя модель мира позволяет планировать последовательности действий для достижения целей.
Иерархическое планирование необходимо для сложных действий, например, путешествия из Нью-Йорка в Париж.
Модели могут предсказывать результаты и планировать действия для минимизации целевой функции.

00:11:33 Проблемы планирования в ИИ

Иерархическое планирование важно для действий в реальном времени, но ИИ пока плохо справляется с выбором правильных уровней представления.
Языковые модели могут отвечать на отдельные вопросы о планировании, но не способны управлять мелкими физическими действиями или незнакомыми ситуациями.
Большинство планов люди усваивают через опыт, который богаче языка.

00:12:27 Самонаблюдаемое обучение

Метод самонаблюдаемого обучения, как в модели BERT, искажал текст и обучал модель его восстанавливать, что дало значительный прогресс в понимании и переводе множества языков.
Авторегрессивные языковые модели предсказывают слова, опираясь только на предыдущие слова, и их эффективность растёт с увеличением размера и объёма данных.

00:14:25 Ограничения языковых моделей

Языковые модели не имеют общего опыта, который формирует высокоуровневые концепции, и многое из того, что мы понимаем с младенчества, отсутствует в текстах.
Современные системы лишены этого опыта, что ограничивает их возможности.
Проблема «длинного хвоста» заключается в том, что система хорошо работает на обученных примерах, но может давать бессмысленные ответы на незнакомые запросы.

00:15:48 Рассуждения и планирование

Уровень рассуждений у больших языковых моделей пока примитивный, так как вычислительные усилия на один токен остаются постоянными независимо от сложности вопроса.
В будущем диалоговые системы смогут лучше рассуждать и планировать, формируя мысленную модель до озвучивания ответа.

00:16:36 Энергетические модели

Для планирования системам нужно перейти от агрессивного предсказания токенов к методам скрытого вывода переменных, аналогичным вероятностным или графовым моделям.
Энергетическая модель оценивает качество потенциальных ответов через скалярный выход, минимизируя его для нахождения хорошего ответа.

00:17:27 Оптимизация и обучение

Процесс включает планирование ответа через оптимизацию до его превращения в текст.
Обучение системы оценки качества ответов происходит через оптимизацию в дифференцируемой системе.
Контрастные методы требуют много примеров, поэтому используются неконтрастные методы, которые минимизируют объём пространства с низкой энергией.

00:20:33 Предвзятость и разнообразие

ИИ-системы часто отражают общественные предубеждения, присутствующие в обучающих данных.
Полностью беспристрастная система невозможна из-за субъективности восприятия предвзятости.
Свобода слова и разнообразие важны для избежания монополии информации и развития идей.

00:21:22 Будущее ИИ и опенсорс-платформы

Взаимодействие с цифровым миром будет всё больше опосредовано ИИ-системами, например, умные очки смогут подключаться к ИИ, предоставляя информацию о достопримечательностях или переводя речь в реальном времени.
Важно, чтобы такие системы не принадлежали лишь нескольким компаниям, контролирующим всё человеческое знание.
Опенсорс-платформы поддерживают создание ИИ-систем, отражающих разные языки, культуры и взгляды, позволяя разным группам создавать собственные решения.

00:22:55 Бизнес-модели и политическая приемлемость

Бизнес-модели в отрасли могут включать услуги, финансируемые рекламой или прямыми платежами от компаний.
Мета планирует использовать свою огромную базу пользователей и клиентов для создания полезных продуктов и получения прибыли.
Дизайнерам нужно учитывать политическую приемлемость своих систем, чтобы избежать оскорбления пользователей.

00:23:50 Безопасность и ограничения контента

Архитектура может включать защитные механизмы для обеспечения базовой безопасности.
ЛЛМ не способствуют созданию опасного оружия из-за отсутствия экспертных знаний.
Будущие версии моделей, таких как Llama, будут улучшены и получат мультимодальные возможности.

00:24:49 Обучение систем на видео

Организации, включая DeepMind и UC Berkeley, работают над обучением систем на видео.
Ожидаются разработки в моделях для задач планирования и усиленного обучения.
Потенциал для достижения интеллекта, сопоставимого с человеческим, остаётся высоким.

00:25:35 Вычислительные мощности и энергоэффективность

Не хватает вычислительных мощностей для соответствия человеческому мозгу.
Текущий прогресс связан с инновациями в архитектуре, а не в силиконовых технологиях.
Необходимы улучшения в аппаратуре для снижения потребления энергии.

00:26:28 Интеграция систем и интеллект

Интеграция систем может занять десять лет или больше.
Интеллект — это совокупность различных навыков, сравнение между видами сложное.
Системы ИИ будут постепенно имитировать характеристики человеческого интеллекта.

00:27:24 Безопасность ИИ

Совместная работа людей необходима для создания контролируемого и безопасного ИИ.
ИИ не будет стремиться к доминированию, системы будут подчинены людям.
Защитные механизмы обеспечат безопасность человека.

00:28:14 Прогресс и инновации

Прогресс в разработке ИИ будет продолжаться благодаря инновациям в индустрии.
Прорывы будут быстро распространяться, стимулируя инвестиции.
Успех американской технологической индустрии связан с быстрым обменом информацией.

00:29:12 Страх перед новыми технологиями

Люди сопротивляются угрозам для своей культуры, рабочих мест и будущего.
Исторические технологические революции часто сталкивались с критикой СМИ.
Вопрос: примем ли мы изменения или будем им сопротивляться?

00:29:46 Открытые платформы и разнообразие

Открытые платформы способствуют разнообразию в помощниках на базе ИИ.
Сосредоточение власти в собственных системах ИИ может привести к узкому информационному потоку.
Важно решить, доверяем ли мы институтам действовать этично.

00:30:27 Робототехника и ИИ

Современная робототехника зависит от заранее запрограммированных действий.
Для создания полностью автономных роботов необходимы системы, способные обучаться и осознавать свою среду.
Основные трудности включают обучение моделям мира через наблюдение и планирование действий в нефизических контекстах.

00:31:24 Иерархическое планирование

Иерархическое планирование важно для многих наших действий.
ИИ не имеет демонстрации изученного иерархического планирования на различных уровнях представлений.
Двухуровневое иерархическое планирование может быть внедрено, но уровни должны быть заранее определены.

00:32:19 Влияние ИИ на человечество

ИИ может улучшить жизнь, расширив доступ к знаниям.
Влияние ИИ аналогично изобретению печатного пресса, который стал катализатором просвещения и революций.
Вопрос: кого мы защищаем, регулируя ИИ сегодня?

00:32:42 Будущее рабочих мест

Технологические достижения не приведут к массовой безработице, а вызовут изменение профессий.
Будущее рабочих мест непредсказуемо, как и два десятилетия назад.
Вера в доброту людей и поддержку открытого исходного кода.

Расшифровка видео

0:00
Следующий разговор с Ян Ликун третий раз на этом подкасте. Он главный научный сотрудник по искусственному интеллекту в МЕТА, профессор в Нью-й-йоркском
0:06
университете, лауреат премии тюринга и одна из ключевых фигур в истории искусственного интеллекта. Он и Мэт
0:11
активно поддерживают открытое развитие ИИ, выпуская многие свои крупнейшие модели, включая Лама 2 и, возможно, Лама
0:17

Ян также является яростным критиком тех, кто предупреждает о грядущей угрозе и экзистенциальной опасности от HI. Он
0:23
уверен, что AGI будет создано, но он будет полезным. Оно не выйдет из-под контроля человека и не будет доминировать или уничтожать
0:29
человечество. В данный момент на фоне быстрого развития Ии это достаточно спорная позиция. Поэтому было интересно
0:34
наблюдать, как Ян вовлекается в яркие и увлекательные обсуждения в интернете, как и в этом разговоре. Привет, меня зовут Тр. Если тебе всегда интересно
0:40
было неросеть и как это можно применять в бизнесе, каким образом новые функции использовать, какие не использовать, то
0:46
заходи ко мне в Telegram-канал. Я там выставляю мои последние какие-то выводы, какие-то лекции, какие-то лайфхаки,
0:51
ссылочки и так далее. Интеллектуальное поведение включает в
0:58
себя несколько характеристик, таких как понимание физического мира, память, рассуждение и планирование. Эти качества
1:05
важны для умных систем, включая людей и животных. В отличие от этого, большие языковые модели LMS не обладают такими
1:13
способностями или проявляют их на примитивном уровне. Они не понимают физический мир, не имеют постоянной
1:19
памяти, не могут эффективно рассуждать или планировать.Жида Ожидание, что
1:25
станут по-настоящему умными без этих возможностей, ошибочно. Хотя
1:30
авторегрессионные LLMs полезны и поддерживают приложение, им не хватает ключевых компонентов, необходимых для
1:36
достижения интеллекта на уровне человека. Эти модели обучаются на огромных объёмах текста. Обычно около 10
1:44
триллионов токенов, что эквивалентно примерно 20 триллионам байт данных.
1:49
Прочтение такого объёма заняло бы 170.000 лет. при 8ми часах в день, что
1:54
свидетельствует о гигантском накоплении знаний. Однако, по сравнению с сенсорным вводом четырёхлетнего ребёнка,
2:01
составляющим около квадриллиона байт, LLMs представляют собой ограниченные данные, подчёркивая, что большинство
2:09
знаний приобретается через взаимодействие с реальным миром, а не через язык. Философы и когнитивные
2:15
учёные часто спорят о том, нужно ли интеллекту опираться на реальность, и большинство склоняется к тому, что это
2:22
необходимо. Интеллект требует взаимодействия с богатой средой, которую язык не может адекватно представить.
2:29
Многие задачи включают манипуляции с ментальными моделями, не связанными с языком. Специалисты в области
2:36
компьютерного зрения утверждают, что ИИ должен быть воплощён в реальном мире, в
2:41
то время как сторонники НЛП могут не согласиться. Сложности реального мира часто трудно представить в компьютерах.
2:49
Парадокс Моравица подчёркивает, что хотя компьютеры могут превосходно выполнять сложные задачи, такие как шахматы, они с
2:56
трудом справляются с повседневными делами, такими как вождение или простые домашние задания. Несмотря на то, что
3:03
LLMs проходят экзамены, им не хватает способности быстро осваивать практические навыки, как у людей. Чтобы
3:11
решить эту проблему, LLM смогут интегрировать визуальные представления через различные системы зрения,
3:17
преобразуя изображения в списке токенов, совместимые с вводом LLM. Этот гибридный
3:23
подход уже исследуется, но текущие LLMs не обучены работать с полным пониманием
3:29
мира. Их обучение в основном связано с предсказанием пропущенных слов в тексте,
3:34
что ограничивает их способность понимать контекст и интуитивную физику. Таким образом, несмотря на прогресс, методы
3:41
обучения LLMs накладывают ограничения на их возможности. Ll никогда не сможет
3:48
точно предсказать следующее слово. Вместо этого она создаёт распределение вероятностей для всех возможных слов в
3:54
словаре. Она предсказывает токены, чтобы управлять неопределённостью, так как количество слов ограниченных. Система
4:02
выбирает слова с более высокой вероятностью. Это называется авторегрессионным предсказанием. И
4:07
именно поэтому эти модели называются авторегрессионными LLMs. В отличие от
4:13
человеческого общения, где мы планируем, что сказать независимо от языка, LЛМСгенерирует слова последовательно,
4:20
без внутреннего планирования. Человеческая мысль часто не зависит от языка. Например,
4:25
воображение математической концепции не требует использования конкретного языка. Lлms реагирует инстинктивно, извлекая
4:32
ответы на основе накопленных знаний без осознанного планирования. Хотя можно построить модель мира через
4:38
предсказания, маловероятно, что это удастся сделать только через предсказание слов. Язык не обладает
4:45
достаточной пропускной способностью для создания полных моделей мира. Такие модели требуют наблюдения за миром и
4:52
понимания того, как действия влияют на его состояние. Цель состоит в том, чтобы
4:58
предсказать состояние мира после действия без необходимости в подробном описании. Генеративные модели, обученные
5:05
на видео, сталкиваются с аналогичными трудностями, но на более сложном уровне.
5:11
Прогнозирование последовательности видеокадров включает представление распределений в высокоразмерных
5:17
пространствах, что трудно реализовать. Видео содержит больше информации, чем текст. Например, когда камера движется
5:23
по комнате, предсказать все детали невозможно, такие как текстура дивана или картина на стене. Один из подходов к
5:31
решению этой сложности заключается в использовании скрытой переменной в нейросети, которая будет инкапсулировать
5:37
невидимую информацию, необходимую для точных предсказаний пикселей. Однако это
5:43
не дало результатов, несмотря на многочисленные попытки с различными моделями, включая Gans и V. Мы также
5:50
исследовали методы обучения эффективным представлением изображений или видео для задач классификации, но эти попытки в
5:56
основном не увенчались успехом. В частности, системы, предназначенные для предсказания недостающих частей
6:03
изображения или видео из искажённой версии, не дали положительных результатов. Например, можно взять
6:09
изображение, искажённое его, а затем попытаться восстановить исходное,
6:15
надеясь, что система разработает полезные представления для распознавания объектов или сегментации. Однако такой
6:21
подход оказался неэффективным, хотя он работает хорошо для текста. Основная проблема заключается в том, что обучение
6:28
системы восстановлению изображений из искажённых версий не даёт хороших представлений. Такие техники, как
6:35
нойзинговые автоэнкодеры или варианты МАE Max Dotto Encoder не работают в этом
6:41
контексте. Напротив, когда та же архитектура обучается с использованием контролируемого обучения с
6:48
маркированными данными, появляются эффективные представления, что значительно улучшает производительность
6:54
распознавания. Альтернативный подход- совместное внедрение. Вместо восстановления искажённого изображения
7:01
мы пропускаем как полное, так и искажённое изображение через энкодеры и
7:07
обучаем предсказатель, чтобы он вывел полное представление из искажённого.
7:12
Этот метод, называемый Joint Embeding Predictive Architecture JPA, требует
7:17
надёжной стратегии обучения. Для этого используется традиционное контрастивное обучение, при котором пара изображений,
7:25
одно оригинальное и одно искажённое, сравниваются, чтобы обеспечить схожие представления для одинаковых объектов и
7:32
разнообразные для разных объектов. Однако недавно были введены неконтрастивные методы, независящие от
7:38
известных негативных примеров, ориентирующиеся на разные представления одного и того же ввода. Это упрощает
7:45
процесс обучения, устраняя необходимость предсказания всех пикселей ввода. Вместо этого Джепо нацелен на извлечение
7:53
легко предсказуемой информации, что позволяет системе учить абстрактные представления, отфильтровывая
7:59
несущественные детали, как люди описывают явления на разных уровнях абстракции. В языке абстракция позволяет
8:06
напрямую предсказывать слова, в то время как для восприятия изображения требуется больше избыточности для захвата
8:13
структуры. Самостоятельное обучение может столкнуться с трудностями в языке из-за его меньшей избыточности по
8:19
сравнению с сенсорными данными. Хотя объединение языка с изображением может улучшить модели, сначала нужно
8:26
разработать системы, которые действительно понимают мир. В настоящее время мы сосредоточены на таких методах,
8:32
как методы, основанные на дистилляции, включая BIOL и Джепо и Dino. Эти методы
8:38
включают пропуск изображения через энкодер для получения представления. Затем применение преобразований для
8:45
эффективного обучения системы. Процесс включает в себя запуск того же энкодера с некоторыми вариациями и обучение
8:52
предсказателя, который может быть простым или иногда отсутствовать. Этот предсказатель должен предсказать
8:58
представление исходного неиспорченного ввода из искажённого. Обучается только та часть сети, которая получает
9:04
искажённый ввод. Но поскольку они делят веса, изменение одного также меняет другое.
9:11
Для предотвращения срыва системы разработаны различные техники, чтобы она не игнорировала ввод. Два метода,
9:17
которые мы разработали идпа, эффективны в этом плане. В одном из сценариев
9:23
изображение искажается путём изменения его обрезки, размера, ориентации или
9:29
цвета, что снижает его качество. Для Иджипа достаточно маскировать определённые области. Этот метод обучает
9:37
энкоoder и предсказатель оценивать оригинальное представление изображения из искажённой версии. Ипа не требует
9:44
знания специфики изображения, в то время как требует его для таких задач, как
9:50
геометрические преобразования. Недавнее расширение VGпа применяет этот принцип к видео. Здесь
9:58
сегменты видеокадров маскируются в последовательности, обычно из шестнадцати кадров, и система обучается
10:04
предсказывать полное видео из частично замаскированной версии. Этот подход
10:09
позволяет точно классифицировать действия в видео. Предварительные результаты показывают, что представление
10:16
может указывать, является ли видео физически правдоподобным, например, выявлять резкие изменения в
10:22
местоположении объектов. Это может в дальнейшем помочь роботизированным системам. которые могут требовать
10:28
изменённого подхода, где видео либо сдвигается по времени, либо часть его
10:33
маскируется. Например, если известен угол колеса автомобиля, система может
10:39
предсказать последствия, создавая внутреннюю модель мира для планирования. Эта внутренняя модель позволяет
10:44
планировать последовательности действий для достижения целей, в отличие от моделей вроде LLMS, которые не обладают
10:51
такой способностью. С помощью такой модели можно предсказывать результаты и планировать действия для минимизации
10:57
целевой функции, аналогично классическому предиктивному управлению траекторией, применяемому с шестидесятых
11:03
годов. Иерархическое планирование необходимо для сложных действий. Например, путешествие из Нью-Йорка в
11:09
Париж. На высоком уровне моё местоположение можно представить через разложение цели на две подцели. Сначала
11:16
доехать до аэропорта, затем сесть на самолёт до Парижа. Для первой под цели
11:21
целевая функция — расстояние до аэропорта. Поэтому нужно вызвать такси в Нью-Йорке. Чтобы попасть в такси, нужно
11:29
встать со стула, дойти до лифта, спуститься на улицу. Этот процесс требует физической активности, которую
11:36
невозможно заранее спланировать на уровне миллисекунд, так как для этого нужна обширная информация о доступности
11:42
такси и пробках. Иерархическое планирование важно для действий и перепланирования в реальном времени, но
11:49
AI пока плохо справляется с выбором правильных уровней представления. Language models могут отвечать на
11:55
отдельные вопросы о планировании, если обучены на похожих сценариях, но не способны управлять мелкими физическими
12:01
действиями или незнакомыми ситуациями. Большинство планов люди не изобретают заново, а усваивают через опыт, который
12:08
намного богаче языка. Для связывания низкоуровневых действий с абстрактными представлениями нужны системы вроде
12:15
Jepp, которые позволяют поднимать уровень абстракции без восстановления всех деталей. Language models, включая
12:23
авторегрессивные и двунаправленные, используют самонаблюдаемое обучение. Этот метод, как в модели бер, искажал
12:30
текст и обучал модель его восстанавливать, что дало значительный прогресс в понимании и переводе
12:36
множества языков. Авторегрессивный language models предсказывают слова,
12:42
опираясь только на предыдущие слова, и их эффективность растёт с увеличением размера и объёма данных. Хотя эти
12:49
системы впечатляют и умеют многое, важно понимать их ограничения и искать пути их
12:55
преодоления. Это результат более чем 10 лет исследований самонаблюдаемого обучения, которое выявляет внутреннюю
13:02
структуру входных данных без обучения под конкретную задачу. Изучением представлений я занимаюсь почти 40 лет.
13:10
Поначалу мы добивались успеха только через супервизорное обучение. Затем в начале дх000ных вместе с Йошуа Бенджио и
13:18
Джефф Хинтон возродили интерес к ненаблюдаемому обучению. Однако
13:23
супервизорное обучение оказалось эффективным при наличии больших данных и вытеснило ненаблюдаемые методы на время.
13:32
С 2014 года в Фер я целенаправленно возрождал самонаблюдаемое обучение для
13:38
текста, изображений, видео и аудио. Это привело к успехам в многоязычном
13:44
переводе и распознавании речи, например, в системе Wave 2 VS, которая требует
13:49
минимум размеченных данных. Сейчас мы можем в реальном времени переводить речь на сотни языков, используя дискретные
13:56
внутренние представления речи. Несмотря на десятилетние попытки обучить представление изображений через
14:02
предсказание видео, нам не удалось добиться успеха с генеративными моделями. Мы отказались от предсказания
14:09
пикселей в пользу совместного встраивания в пространстве представлений, показав, что генеративные
14:14
модели не обязательно дают качественные реальные представления. Хотя генеративный AI
14:20
популярен, я не советую полагаться только на него для достижения уровня человеческого интеллекта. Language
14:26
models не имеют общего опыта, который формирует высокоуровневые концепции и
14:31
которые мы приобретаем через взаимодействие с реальным миром с раннего детства. Многое из того, что мы
14:37
понимаем с младенчества, отсутствует в текстах. Примерно 16.000 часов бодрствования ребёнка и его сенсорный
14:45
опыт критически важны для формирования базовых понятий вроде гравитации и
14:50
намерений. Современные AI-системы лишены этого опыта. Кроме того, Language Models
14:56
создают токены вероятностно, и с каждым новым токеном вероятность ошибки увеличивается, усугубляя проблему из-за
15:02
проклятия размерности. Чтобы устранить ограничения, можно донастроить систему, заставляя её отвечать на разные вопросы,
15:08
так как многие из них похожи. Так можно покрыть примерно 80% вопросов, собирая
15:14
данные и совершенствуя систему для них. Однако остаётся огромное число запросов,
15:19
неохваченных обучением, что составляет лишь малую часть всех возможных запросов. Система хорошо работает на
15:26
обученных примерах, но может давать бессмысленные ответы на незнакомые, особенно если использовать случайные
15:32
последовательности символов или смешения языков. Эта проблема называется проблемой длинного хвоста и широко
15:39
распространена в социальных сетях. Хотя можно настроить систему для частых запросов. Длинный хвост слишком велик,
15:46
чтобы охватить его полностью. В итоге система ведёт себя как большая таблица поиска, что не идеально. Системы должны
15:53
уметь рассуждать и планировать. Уровень рассуждений у больших языковых моделей LLMS пока примитивный, так как
16:01
вычислительные усилия на один токен остаются постоянными независимо от сложности вопроса. Это отличается от
16:07
человеческого мышления, где мы уделяем больше ресурсов сложным задачам. В будущем диалоговые системы смогут лучше
16:14
рассуждать и планировать. Важнейшим станет умение строить ответ в уме до его озвучивания, формируя мысленную модель,
16:21
помогающую оформить мысли. Современные LLMs этой способностью не обладают. Это
16:28
похоже на разницу между интуитивным мышлением, система один, и осознанным мышлением, система 2. У людей
16:36
инстинктивные задачи и задачи, требующие сознательного планирования, сильно различаются. Чтобы системы могли
16:43
планировать, им нужно перейти от автогрессивного предсказания токенов к методам скрытого вывода переменных,
16:50
аналогичным вероятностным или графовым моделям. В таком подходе запрос — это
16:55
наблюдаемые переменные. А модель оценивает качество потенциальных ответов через скалярный выход. Если ответ
17:02
хороший, значение большое, если плохой, маленькая. Представьте модель, которая
17:08
находит хороший ответ, минимизируя это число. Это энергетическая модель. Вы не
17:14
перебираете строки текста, а работаете в абстрактном пространстве представлений, развивая мысли, стремясь уменьшить
17:22
скалярный выход модели. Это процесс оптимизации для вывода, а не для обучения. Имея абстрактное представление
17:29
мысли, его подают на простой автогрессивный декодер, который превращает его в текст. Процесс включает
17:36
планирование ответа через оптимизацию до его превращения в текст. Сначала запрос
17:41
через энкодер преобразуется в представление, которое при необходимости модифицируется для достижения хорошего
17:47
ответа под управлением функцией стоимости. Обучение системы оценки качества ответов происходит через
17:53
оптимизацию в дифференцируемой системе. Нейронная сеть оценивает совместимость
17:59
входа X, например, изображение или видео, и предложение И ответа, выдавая
18:04
ноль для совместимых пар и положительное число для несовместимых. Систему обучают,
18:10
показывая правильные пары X и, заставляя сеть выдавать ноль на них. Чтобы сеть не
18:16
начала выдавать ноль всегда, применяют контрастный метод, показывают несовместимые пары, заставляя сеть
18:23
увеличивать их энергию. Однако при большом пространстве и контрастные методы требуют много примеров, поэтому
18:30
используют неконтрастные методы, которые минимизируют объём пространства с низкой энергией, повышая энергию вне правильных
18:37
областей. Это эффективнее, так как локальные изменения в пространстве XCI автоматически увеличивают энергию
18:44
вокруг. Функция обработки языка включает текст X и его продолжение И.
18:50
Эффективность зависит от внутренней структуры системы. Если система имеет скрытую переменную Z, которую можно
18:57
настроить для минимизации выходной энергии, то Z представляет собой хорошую мысль, которую можно перевести в UI. Это
19:04
помогает избежать коллапса и поддерживать высокую энергию для незнакомых понятий. В нейронных языковых
19:11
моделях NLMS этот процесс часто происходит неявно. Увеличение вероятности правильного слова
19:18
автоматически снижает вероятность неправильных из-за ограничения общей вероятности. Минимизация кроссентропии
19:25
при обучении повышает вероятность правильных слов и снижает вероятность неправильных. Для обработки визуальных
19:32
данных мы используем архитектуры вроде Odпа с объединённым представлением. Совместимость изображений и их
19:38
искажённых версий оценивается через ошибку предсказания, отражающую энергию системы. Цель: обучить эффективные
19:45
модели мира на основе наблюдений и использовать их для планирования без необходимости в reinforcement learning
19:52
RL. Если только критерии успеха не определены неясно, модель мира корректируется, если обнаруживаются
19:59
неточности в самой модели или в целевой функции. Исследование среды, называемое
20:04
любопытством, позволяет безопасно улучшать модель мира. При обучении конкретным задачам предварительно
20:11
освоенные представления и модели донастраиваются с помощью RL. Human feedback HF помогает повысить качество
20:19
работы системы через разные методы супервизированного обучения. Например,
20:24
можно оценивать несколько ответов модели, строя модель награды, которая предсказывает качество ответа и
20:30
донастраивает систему на лучшие результаты. Хотя сейчас HF в основном используется для дообучения, его
20:37
применение в планировании может быть эффективнее. AI системы часто отражают общественные предубеждения,
20:44
присутствующие в обучающих данных, что вызывает тревогу. Возникает вопрос:
20:49
можно ли создать абсолютно беспристрастный AI? Ответ: категоричное:
20:54
нет. Предвзятость субъективна. Разные люди воспринимают её по-разному. Хотя
21:00
есть неоспоримые факты, большинство мнений можно выразить по-разному. Поэтому полностью беспристрастная
21:06
система невозможна. Решение здесь аналогично под ходу либеральной демократии к СМИ.
21:11
Необходима свобода и разнообразие. Свобода слова критична, чтобы избежать монополии информации, которая
21:18
противоречит демократии и тормозит развитие идей и науки. Наше взаимодействие с цифровым миром
21:25
будет всё больше опосредовано AI-системами. Например, умные очки смогут подключаться к AI, предоставляя
21:32
информацию о достопримечательностях или переводя речь в реальном времени. Однако
21:37
важно, чтобы такие системы не принадлежали лишь нескольким компаниям, контролирующим всё человеческое знание.
21:43
Разнообразие в AI столь же необходимо, как и в прессе. Чтобы создать разнообразных AI-помощников, необходимо,
21:50
чтобы разные группы, индивидуалы, государства и организации могли донастраивать Open Source AI системы.
21:58
Например, французское правительство твёрдо настроено не позволить американским компаниям управлять
22:03
цифровым пространством своих граждан, чтобы защитить демократию и локальные культуры.
22:09
В Индии реализуются проекты, адаптирующие AI к местным языкам, улучшая доступ к важной информации в
22:17
регионах вроде Сенегала. Open source-платформы могут поддерживать создание AI-систем,
22:23
отражающих разные языки, культуры и взгляды. Они позволяют компаниям
22:28
адаптировать системы под конкретные задачи, например, издателям использовать
22:34
собственные базы данных. Будущее AI будет зависеть от таких платформ,
22:39
позволяя разным группам создавать собственные решения и избегать единоличных
22:44
предубеждений. Бизнес-модели в этой отрасли могут включать услуги, финансируемые рекламой или прямыми
22:51
платежами от компаний, нуждающихся в AI-решениях. Например, местная пиццерия
22:57
может использовать AI для общения с клиентами, оплачивая услугу за счёт заказов. При большом числе пользователей
23:04
Open Source модель остаётся выгодной для бизнеса. Такая модель позволяет другим создавать аналогичные решения и
23:10
конкурировать, предлагая донастроенные модели компаниям. Мета планирует использовать свою огромную базу
23:16
пользователей и клиентов для создания полезных продуктов и получения прибыли.
23:22
Открывая свой базовый AI, Мета стимулирует разработку приложений, которые могут приносить пользу её
23:28
пользователям, и при желании приобретать наиболее успешные проекты. Миллионы загрузок и вклад сообщества ускоряют
23:34
развитие. При этом открытое распространение модели не мешает получать доход. Дизайнерам нужно
23:40
учитывать политическую приемлемость своих систем, чтобы избежать оскорбления пользователей, что усложняет создание
23:46
системы, воспринимаемой как беспристрастное. Любое направление может быть воспринято
23:52
как предвзятое различными группами, и существуют ограничения на создаваемый контент, что требует установки защитных
23:59
механизмов для безопасности. Архитектура может включать такие механизмы, обеспечивая базовую безопасность,
24:05
согласованную большинством, при этом позволяя дополнительную настройку для конкретных сообществ. Исследования
24:12
показывают, что наличие модели большого языка LЛМ не способствует созданию опасного оружия, так как для реализации
24:19
в реальном мире требуется экспертное знание, которое ЛМ не может предоставить. Несмотря на доступные
24:25
инструкции, создание оружия остаётся сложным, и ни одна страна не использует биологическое оружие, так как оно
24:31
запрещено международными договорами. Ожидается, что будущие версии моделей, таких как Лама, будут
24:38
улучшены и получат мультимодальные возможности. Сроки совершенствования способностей к
24:43
рассуждению и планированию неизвестны, но прогресс будет отслеживаться через публикации исследований. В настоящее
24:50
время ведётся обучение систем на видео с усилиями в таких организациях, как Deep
24:55
Mind и UC Беркли. Ожидаются обнадёживающие разработки, особенно в
25:01
моделях, обучающих представлением для задач планирования и усиленного обучения.
25:06
Я сотрудничаю с различными людьми по грантам через свою аффилиацию с NYU и Смета, поскольку лаборатория брокколи
25:13
связана с ними. Я очень рад направлению, в котором развивается машинное обучение
25:18
Ии, как и 10 лет назад, когда началась работа Фер. Есть потенциал для
25:23
достижения интеллекта, сопоставимого с человеческим, с системами, которые могут
25:28
понимать, запоминать, планировать и рассуждать. И надеюсь, что мы достигнем
25:33
этого до моей пенсии. Хотя масштабирование важно, этого недостаточно. Нам всё ещё не хватает
25:40
вычислительных мощностей, чтобы соответствовать человеческому мозгу. И на это может потребоваться десятилетие,
25:46
особенно с точки зрения энергоэффективности. Текущий прогресс в основном связан с инновациями в
25:52
архитектуре, а не в силиконовых технологиях, особенно в реализации популярных архитектур, таких как
25:58
трансформеры. Существенные улучшения в аппаратуре необходимы, включая новые принципы и
26:04
технологии производства для снижения потребления энергии. Так как современные графические процессоры потребляют
26:11
гораздо больше энергии, чем человеческий мозг. Появление Ии с общими способностями не произойдёт внезапно.
26:17
Это будет постепенный процесс. Разработка систем, которые учат с помощью видео и могут запоминать всё ещё
26:24
далека, и необходимо создать множество фундаментальных техник. Интеграция таких
26:29
систем может занять 10 лет или больше, особенно в области рассуждений и планирования в различных ситуациях, как
26:37
у человеческого мозга. Интеллект не является линейным и легко измеримым. Это
26:42
совокупность различных навыков. Сравнение интеллекта между видами сложное, так как люди могут быть сильны
26:48
в некоторых областях, а другие виды в других. Интеллект включает набор навыков
26:54
и способность эффективно учить новые. Беспокойство по поводу катастрофических рисков Ии часто основываются на
27:00
ошибочных предположениях. Идея внезапного появления сверхинтеллекта вводит в заблуждение. Мы будем развивать
27:08
системы, которые постепенно имитируют характеристики человеческого интеллекта, начиная с уровней, сопоставимых с
27:14
кошками или попугаями, и постепенно улучшая их способности. Мы внедряем
27:19
защитные механизмы, чтобы обеспечить правильное поведение интеллектуальных систем. Это потребует совместной работы
27:26
многих людей для создания контролируемого и безопасного ИИ, где успешные системы могут нейтрализовать
27:33
любые отклоняющиеся. Страх, что интеллектуальная система непременно будет стремиться к доминированию,
27:39
является заблуждением. В отличие от социальных видов, ИИИ не будет обладать врождённым
27:46
стремлением к доминированию, так как эта черта есть у некоторых животных, но не у других, как, например, у арангутанов.
27:54
Системы Ии будут разработаны так, чтобы быть подчинёнными людям. Хотя в
27:59
настоящее время большие языковые модели LЛM нельзя контролировать и с
28:06
ориентированными целями может включать защитные механизмы, которые приоритетно
28:11
обеспечат безопасность человека. Разработка этих механизмов будет сложной
28:16
и итеративной, как эволюция безопасности турбореактивных двигателей, совершенствовавшихся десятилетиями.
28:23
Лучше спроектированный ИИ будет inherently безопаснее и надёжнее. В будущем взаимодействие с цифровым миром
28:30
будет происходить через вашего EИ ассистента, который будет фильтровать манипулятивные системы EИ спам-фильтры
28:38
для электронной почты. Прогресс в разработке EИИ будет продолжаться
28:43
главным образом благодаря инновациям в индустрии, а не государственным или военным организациям.
28:49
Прорывы будут быстро распространяться, стимулируя инвестиции в разработку Ииз необходимости в подробных сведениях о
28:56
предыдущих успехах. Успех американской технологической индустрии, особенно в Силиконовой долине, связан с быстрым
29:03
обменом информации, когда сотрудники переходят из одной компании в другую. Этот поток знаний помогает региону
29:09
оставаться лидером в инновациях. Однако существует естественный страх перед новыми технологиями и их воздействием на
29:17
общество. Люди инстинктивно сопротивляются угрозам для своей культуры, рабочих мест и
29:23
будущего. Исторические технологические революции часто сталкивались с критикой
29:28
СМИ, которые связывали общественные проблемы с этими изменениями. Например, джаз и комиксы когда-то обвинялись в
29:36
безработице среди молодёжи. Основной вопрос: примем ли мы изменения или будем
29:41
им сопротивляться, и какие угрозы реальные, а какие воображаемые.
29:46
Открытые платформы могут способствовать разнообразию в помощниках на базе ИИ, отражая различные культуры и мнения, что
29:54
важно для сохранения демократии. Сосредоточение власти в собственных системах ИИ представляет большую угрозу,
30:01
чем воображаемые опасности, так как это может привести к узкому информационному потоку, контролируемому несколькими
30:08
компаниями. Мы должны решить, доверяем ли мы институтам действовать этично.
30:14
Несмотря на наличие плохих актёров, их технологии не смогут превзойти хорошие.
30:19
Будущее работотехники, вероятно, будет развиваться в следующем десятилетии, требуя систем, которые понимают мир для
30:25
выполнения сложных задач. Современная работотехника сильно зависит от заранее
30:30
запрограммированных действий и тщательного планирования. Для создания полностью автономных роботов, например,
30:37
уровня пять для вождения, необходимы системы, способные обучаться и осознавать свою среду.
30:44
Прогресс в работотехнике зависит от развития ИИ. Основные трудности включают
30:49
обучение моделей мира через наблюдение и планирование действий в нефизических контекстах, таких как интернет.
30:56
Планирование не ограничивается физическими действиями, оно также включает выполнение задач в диалоговых и
31:03
интеллектуальных системах. Несмотря на некоторые исследования в этой области, она всё ещё недостаточно развита.
31:10
Иерархическое планирование важно для многих наших действий, например, для планирования поездки из Нью-Йорка в
31:16
Париж. Однако ИИ не имеет демонстрации изученного иерархического планирования
31:22
на различных уровнях представлений. Мы можем внедрить двухуровневое иерархическое
31:27
планирование. Например, направить робота из одной комнаты в другую, избегая препятствий. Но эти уровни должны быть
31:34
заранее определены. Мы можем обучить ии учить иерархические представления восприятий, но аналогия
31:41
для планов действий пока не ясна. Икий может повысить человеческий интеллект,
31:46
став умными помощниками, которые могут превзойти нас в различных задачах. Это
31:52
не должно восприниматься как угроза. Скорее, это похоже на управление командой способных людей.
31:58
Интеллектуальные машины могут улучшить нашу жизнь, так же как образование, книги и интернет расширили доступ к
32:04
знаниям. Влияние ИИ на человечество может быть аналогично изобретению печатного пресса,
32:12
который сделал информацию доступной для широкой аудитории, стал катализатором просвещения и
32:18
революции. Однако это также привело к двухсотлетним религиозным конфликтам в Европе, когда возникли разные
32:25
интерпретации Библии. Двухсотлетний запрет на печатный пресс в Османской империи на арабском языке был направлен
32:33
на сохранение религиозного контроля. и обеспечение дохода каллиграфов. Это поднимает вопрос, кого мы защищаем,
32:40
регулируя и сегодня. Эксперты считают, что технологические достижения не приведут к массовой безработице, а
32:46
вызовут постепенное изменение профессий. Будущее рабочих мест непредсказуемо, как
32:52
и было два десятилетия назад, когда разработка мобильных приложений стала востребованной карьерой. Невозможно
32:58
предсказать всё, но вы приводите веские аргументы. Я верю, что люди в своей основе хороши, и если открытый и поможет
33:06
улучшить их интеллект, это усилит их доброту. Многие пессимисты сомневаются в этой доброте, не веря, что люди или
33:13
институты будут поступать правильно. Мы оба верим в человечество, и я благодарен вам за поддержку открытого исходного
33:19
кода, который делает исследования и ИИ доступными. Я ценю ваше яркое выражение
33:24
в интернете и надеюсь, что вы продолжите. Вы один из самых приятных людей, которых я знаю. Спасибо, что вы
33:31
есть. [музыка]
33:42
[музыка]

Таймкоды

Расшифровка видео

Похожие записи