*Meta (владеет соцсетями *Instagram и *Facebook) признанна экстремистской организацией и запрещена в РФ
**https://t.me/+0KXjZ6KOBQthZjRi
***https://300.ya.ru/v_eLEGFhp4
🌟 Интервью с Yann LeCun, главным научным сотрудником Meta и лауреатом премии Тьюринга, раскрывает ограничения современных языковых моделей и его видение развития искусственного интеллекта через создание систем, способных понимать физический мир и планировать действия.
Таймкоды
00:00:00 Введение
- Ян Ликун — главный научный сотрудник по искусственному интеллекту в Meta, профессор Нью-Йоркского университета, лауреат премии Тьюринга.
- Он активно поддерживает открытое развитие ИИ и критикует опасения по поводу угрозы от ИИ.
- Ян уверен, что ИИ будет полезным и не выйдет из-под контроля человека.
00:00:56 Ограничения больших языковых моделей
- Большие языковые модели LLM не обладают пониманием физического мира, памятью, рассуждениями и планированием.
- LLM обучаются на огромных объёмах текста, но этого недостаточно для достижения интеллекта на уровне человека.
- Большинство знаний приобретается через взаимодействие с реальным миром, а не через язык.
00:02:48 Парадокс Маравица
- Компьютеры хорошо справляются со сложными задачами, такими как шахматы, но плохо — с повседневными делами, например, вождением или домашними заданиями.
- LLM не могут быстро осваивать практические навыки, как люди.
- Для решения проблемы планируется интеграция визуальных представлений через системы зрения.
00:03:46 Авторегрессионные LLM
- LLM предсказывают слова, создавая распределение вероятностей, а не точно предсказывая следующее слово.
- Человеческая мысль часто не зависит от языка, в отличие от LLM, которые генерируют слова последовательно без внутреннего планирования.
- Язык не обладает достаточной пропускной способностью для создания полных моделей мира.
00:04:49 Проблемы прогнозирования видео
- Прогнозирование последовательности видеокадров включает представление о распределении в высокоразмерных пространствах, что трудно реализовать.
- Попытки использовать скрытые переменные в нейросетях не дали результатов.
- Методы обучения эффективному представлению изображений или видео для задач классификации в основном не увенчались успехом.
00:08:14 Методы дистилляции
- Методы дистилляции, включая BioL, JEPA и DINO, включают пропуск изображения через инкодер и применение преобразований для эффективного обучения системы.
- JEPA обучает предсказатель выводить полное представление из искажённого изображения.
- Dino требует знания специфики изображения для геометрических преобразований.
00:09:35 Применение к видео
- Расширение JEPA применяется к видео, где сегменты видеокадров маскируются в последовательности.
- Система обучается предсказывать полное видео из частично замаскированной версии.
- Этот подход позволяет точно классифицировать действия в видео.
00:10:12 Планирование действий
- Внутренняя модель мира позволяет планировать последовательности действий для достижения целей.
- Иерархическое планирование необходимо для сложных действий, например, путешествия из Нью-Йорка в Париж.
- Модели могут предсказывать результаты и планировать действия для минимизации целевой функции.
00:11:33 Проблемы планирования в ИИ
- Иерархическое планирование важно для действий в реальном времени, но ИИ пока плохо справляется с выбором правильных уровней представления.
- Языковые модели могут отвечать на отдельные вопросы о планировании, но не способны управлять мелкими физическими действиями или незнакомыми ситуациями.
- Большинство планов люди усваивают через опыт, который богаче языка.
00:12:27 Самонаблюдаемое обучение
- Метод самонаблюдаемого обучения, как в модели BERT, искажал текст и обучал модель его восстанавливать, что дало значительный прогресс в понимании и переводе множества языков.
- Авторегрессивные языковые модели предсказывают слова, опираясь только на предыдущие слова, и их эффективность растёт с увеличением размера и объёма данных.
00:14:25 Ограничения языковых моделей
- Языковые модели не имеют общего опыта, который формирует высокоуровневые концепции, и многое из того, что мы понимаем с младенчества, отсутствует в текстах.
- Современные системы лишены этого опыта, что ограничивает их возможности.
- Проблема «длинного хвоста» заключается в том, что система хорошо работает на обученных примерах, но может давать бессмысленные ответы на незнакомые запросы.
00:15:48 Рассуждения и планирование
- Уровень рассуждений у больших языковых моделей пока примитивный, так как вычислительные усилия на один токен остаются постоянными независимо от сложности вопроса.
- В будущем диалоговые системы смогут лучше рассуждать и планировать, формируя мысленную модель до озвучивания ответа.
00:16:36 Энергетические модели
- Для планирования системам нужно перейти от агрессивного предсказания токенов к методам скрытого вывода переменных, аналогичным вероятностным или графовым моделям.
- Энергетическая модель оценивает качество потенциальных ответов через скалярный выход, минимизируя его для нахождения хорошего ответа.
00:17:27 Оптимизация и обучение
- Процесс включает планирование ответа через оптимизацию до его превращения в текст.
- Обучение системы оценки качества ответов происходит через оптимизацию в дифференцируемой системе.
- Контрастные методы требуют много примеров, поэтому используются неконтрастные методы, которые минимизируют объём пространства с низкой энергией.
00:20:33 Предвзятость и разнообразие
- ИИ-системы часто отражают общественные предубеждения, присутствующие в обучающих данных.
- Полностью беспристрастная система невозможна из-за субъективности восприятия предвзятости.
- Свобода слова и разнообразие важны для избежания монополии информации и развития идей.
00:21:22 Будущее ИИ и опенсорс-платформы
- Взаимодействие с цифровым миром будет всё больше опосредовано ИИ-системами, например, умные очки смогут подключаться к ИИ, предоставляя информацию о достопримечательностях или переводя речь в реальном времени.
- Важно, чтобы такие системы не принадлежали лишь нескольким компаниям, контролирующим всё человеческое знание.
- Опенсорс-платформы поддерживают создание ИИ-систем, отражающих разные языки, культуры и взгляды, позволяя разным группам создавать собственные решения.
00:22:55 Бизнес-модели и политическая приемлемость
- Бизнес-модели в отрасли могут включать услуги, финансируемые рекламой или прямыми платежами от компаний.
- Мета планирует использовать свою огромную базу пользователей и клиентов для создания полезных продуктов и получения прибыли.
- Дизайнерам нужно учитывать политическую приемлемость своих систем, чтобы избежать оскорбления пользователей.
00:23:50 Безопасность и ограничения контента
- Архитектура может включать защитные механизмы для обеспечения базовой безопасности.
- ЛЛМ не способствуют созданию опасного оружия из-за отсутствия экспертных знаний.
- Будущие версии моделей, таких как Llama, будут улучшены и получат мультимодальные возможности.
00:24:49 Обучение систем на видео
- Организации, включая DeepMind и UC Berkeley, работают над обучением систем на видео.
- Ожидаются разработки в моделях для задач планирования и усиленного обучения.
- Потенциал для достижения интеллекта, сопоставимого с человеческим, остаётся высоким.
00:25:35 Вычислительные мощности и энергоэффективность
- Не хватает вычислительных мощностей для соответствия человеческому мозгу.
- Текущий прогресс связан с инновациями в архитектуре, а не в силиконовых технологиях.
- Необходимы улучшения в аппаратуре для снижения потребления энергии.
00:26:28 Интеграция систем и интеллект
- Интеграция систем может занять десять лет или больше.
- Интеллект — это совокупность различных навыков, сравнение между видами сложное.
- Системы ИИ будут постепенно имитировать характеристики человеческого интеллекта.
00:27:24 Безопасность ИИ
- Совместная работа людей необходима для создания контролируемого и безопасного ИИ.
- ИИ не будет стремиться к доминированию, системы будут подчинены людям.
- Защитные механизмы обеспечат безопасность человека.
00:28:14 Прогресс и инновации
- Прогресс в разработке ИИ будет продолжаться благодаря инновациям в индустрии.
- Прорывы будут быстро распространяться, стимулируя инвестиции.
- Успех американской технологической индустрии связан с быстрым обменом информацией.
00:29:12 Страх перед новыми технологиями
- Люди сопротивляются угрозам для своей культуры, рабочих мест и будущего.
- Исторические технологические революции часто сталкивались с критикой СМИ.
- Вопрос: примем ли мы изменения или будем им сопротивляться?
00:29:46 Открытые платформы и разнообразие
- Открытые платформы способствуют разнообразию в помощниках на базе ИИ.
- Сосредоточение власти в собственных системах ИИ может привести к узкому информационному потоку.
- Важно решить, доверяем ли мы институтам действовать этично.
00:30:27 Робототехника и ИИ
- Современная робототехника зависит от заранее запрограммированных действий.
- Для создания полностью автономных роботов необходимы системы, способные обучаться и осознавать свою среду.
- Основные трудности включают обучение моделям мира через наблюдение и планирование действий в нефизических контекстах.
00:31:24 Иерархическое планирование
- Иерархическое планирование важно для многих наших действий.
- ИИ не имеет демонстрации изученного иерархического планирования на различных уровнях представлений.
- Двухуровневое иерархическое планирование может быть внедрено, но уровни должны быть заранее определены.
00:32:19 Влияние ИИ на человечество
- ИИ может улучшить жизнь, расширив доступ к знаниям.
- Влияние ИИ аналогично изобретению печатного пресса, который стал катализатором просвещения и революций.
- Вопрос: кого мы защищаем, регулируя ИИ сегодня?
00:32:42 Будущее рабочих мест
- Технологические достижения не приведут к массовой безработице, а вызовут изменение профессий.
- Будущее рабочих мест непредсказуемо, как и два десятилетия назад.
- Вера в доброту людей и поддержку открытого исходного кода.
Расшифровка видео
0:00
Следующий разговор с Ян Ликун третий раз на этом подкасте. Он главный научный сотрудник по искусственному интеллекту в МЕТА, профессор в Нью-й-йоркском
0:06
университете, лауреат премии тюринга и одна из ключевых фигур в истории искусственного интеллекта. Он и Мэт
0:11
активно поддерживают открытое развитие ИИ, выпуская многие свои крупнейшие модели, включая Лама 2 и, возможно, Лама
0:17
Ян также является яростным критиком тех, кто предупреждает о грядущей угрозе и экзистенциальной опасности от HI. Он
0:23
уверен, что AGI будет создано, но он будет полезным. Оно не выйдет из-под контроля человека и не будет доминировать или уничтожать
0:29
человечество. В данный момент на фоне быстрого развития Ии это достаточно спорная позиция. Поэтому было интересно
0:34
наблюдать, как Ян вовлекается в яркие и увлекательные обсуждения в интернете, как и в этом разговоре. Привет, меня зовут Тр. Если тебе всегда интересно
0:40
было неросеть и как это можно применять в бизнесе, каким образом новые функции использовать, какие не использовать, то
0:46
заходи ко мне в Telegram-канал. Я там выставляю мои последние какие-то выводы, какие-то лекции, какие-то лайфхаки,
0:51
ссылочки и так далее. Интеллектуальное поведение включает в
0:58
себя несколько характеристик, таких как понимание физического мира, память, рассуждение и планирование. Эти качества
1:05
важны для умных систем, включая людей и животных. В отличие от этого, большие языковые модели LMS не обладают такими
1:13
способностями или проявляют их на примитивном уровне. Они не понимают физический мир, не имеют постоянной
1:19
памяти, не могут эффективно рассуждать или планировать.Жида Ожидание, что
1:25
станут по-настоящему умными без этих возможностей, ошибочно. Хотя
1:30
авторегрессионные LLMs полезны и поддерживают приложение, им не хватает ключевых компонентов, необходимых для
1:36
достижения интеллекта на уровне человека. Эти модели обучаются на огромных объёмах текста. Обычно около 10
1:44
триллионов токенов, что эквивалентно примерно 20 триллионам байт данных.
1:49
Прочтение такого объёма заняло бы 170.000 лет. при 8ми часах в день, что
1:54
свидетельствует о гигантском накоплении знаний. Однако, по сравнению с сенсорным вводом четырёхлетнего ребёнка,
2:01
составляющим около квадриллиона байт, LLMs представляют собой ограниченные данные, подчёркивая, что большинство
2:09
знаний приобретается через взаимодействие с реальным миром, а не через язык. Философы и когнитивные
2:15
учёные часто спорят о том, нужно ли интеллекту опираться на реальность, и большинство склоняется к тому, что это
2:22
необходимо. Интеллект требует взаимодействия с богатой средой, которую язык не может адекватно представить.
2:29
Многие задачи включают манипуляции с ментальными моделями, не связанными с языком. Специалисты в области
2:36
компьютерного зрения утверждают, что ИИ должен быть воплощён в реальном мире, в
2:41
то время как сторонники НЛП могут не согласиться. Сложности реального мира часто трудно представить в компьютерах.
2:49
Парадокс Моравица подчёркивает, что хотя компьютеры могут превосходно выполнять сложные задачи, такие как шахматы, они с
2:56
трудом справляются с повседневными делами, такими как вождение или простые домашние задания. Несмотря на то, что
3:03
LLMs проходят экзамены, им не хватает способности быстро осваивать практические навыки, как у людей. Чтобы
3:11
решить эту проблему, LLM смогут интегрировать визуальные представления через различные системы зрения,
3:17
преобразуя изображения в списке токенов, совместимые с вводом LLM. Этот гибридный
3:23
подход уже исследуется, но текущие LLMs не обучены работать с полным пониманием
3:29
мира. Их обучение в основном связано с предсказанием пропущенных слов в тексте,
3:34
что ограничивает их способность понимать контекст и интуитивную физику. Таким образом, несмотря на прогресс, методы
3:41
обучения LLMs накладывают ограничения на их возможности. Ll никогда не сможет
3:48
точно предсказать следующее слово. Вместо этого она создаёт распределение вероятностей для всех возможных слов в
3:54
словаре. Она предсказывает токены, чтобы управлять неопределённостью, так как количество слов ограниченных. Система
4:02
выбирает слова с более высокой вероятностью. Это называется авторегрессионным предсказанием. И
4:07
именно поэтому эти модели называются авторегрессионными LLMs. В отличие от
4:13
человеческого общения, где мы планируем, что сказать независимо от языка, LЛМСгенерирует слова последовательно,
4:20
без внутреннего планирования. Человеческая мысль часто не зависит от языка. Например,
4:25
воображение математической концепции не требует использования конкретного языка. Lлms реагирует инстинктивно, извлекая
4:32
ответы на основе накопленных знаний без осознанного планирования. Хотя можно построить модель мира через
4:38
предсказания, маловероятно, что это удастся сделать только через предсказание слов. Язык не обладает
4:45
достаточной пропускной способностью для создания полных моделей мира. Такие модели требуют наблюдения за миром и
4:52
понимания того, как действия влияют на его состояние. Цель состоит в том, чтобы
4:58
предсказать состояние мира после действия без необходимости в подробном описании. Генеративные модели, обученные
5:05
на видео, сталкиваются с аналогичными трудностями, но на более сложном уровне.
5:11
Прогнозирование последовательности видеокадров включает представление распределений в высокоразмерных
5:17
пространствах, что трудно реализовать. Видео содержит больше информации, чем текст. Например, когда камера движется
5:23
по комнате, предсказать все детали невозможно, такие как текстура дивана или картина на стене. Один из подходов к
5:31
решению этой сложности заключается в использовании скрытой переменной в нейросети, которая будет инкапсулировать
5:37
невидимую информацию, необходимую для точных предсказаний пикселей. Однако это
5:43
не дало результатов, несмотря на многочисленные попытки с различными моделями, включая Gans и V. Мы также
5:50
исследовали методы обучения эффективным представлением изображений или видео для задач классификации, но эти попытки в
5:56
основном не увенчались успехом. В частности, системы, предназначенные для предсказания недостающих частей
6:03
изображения или видео из искажённой версии, не дали положительных результатов. Например, можно взять
6:09
изображение, искажённое его, а затем попытаться восстановить исходное,
6:15
надеясь, что система разработает полезные представления для распознавания объектов или сегментации. Однако такой
6:21
подход оказался неэффективным, хотя он работает хорошо для текста. Основная проблема заключается в том, что обучение
6:28
системы восстановлению изображений из искажённых версий не даёт хороших представлений. Такие техники, как
6:35
нойзинговые автоэнкодеры или варианты МАE Max Dotto Encoder не работают в этом
6:41
контексте. Напротив, когда та же архитектура обучается с использованием контролируемого обучения с
6:48
маркированными данными, появляются эффективные представления, что значительно улучшает производительность
6:54
распознавания. Альтернативный подход- совместное внедрение. Вместо восстановления искажённого изображения
7:01
мы пропускаем как полное, так и искажённое изображение через энкодеры и
7:07
обучаем предсказатель, чтобы он вывел полное представление из искажённого.
7:12
Этот метод, называемый Joint Embeding Predictive Architecture JPA, требует
7:17
надёжной стратегии обучения. Для этого используется традиционное контрастивное обучение, при котором пара изображений,
7:25
одно оригинальное и одно искажённое, сравниваются, чтобы обеспечить схожие представления для одинаковых объектов и
7:32
разнообразные для разных объектов. Однако недавно были введены неконтрастивные методы, независящие от
7:38
известных негативных примеров, ориентирующиеся на разные представления одного и того же ввода. Это упрощает
7:45
процесс обучения, устраняя необходимость предсказания всех пикселей ввода. Вместо этого Джепо нацелен на извлечение
7:53
легко предсказуемой информации, что позволяет системе учить абстрактные представления, отфильтровывая
7:59
несущественные детали, как люди описывают явления на разных уровнях абстракции. В языке абстракция позволяет
8:06
напрямую предсказывать слова, в то время как для восприятия изображения требуется больше избыточности для захвата
8:13
структуры. Самостоятельное обучение может столкнуться с трудностями в языке из-за его меньшей избыточности по
8:19
сравнению с сенсорными данными. Хотя объединение языка с изображением может улучшить модели, сначала нужно
8:26
разработать системы, которые действительно понимают мир. В настоящее время мы сосредоточены на таких методах,
8:32
как методы, основанные на дистилляции, включая BIOL и Джепо и Dino. Эти методы
8:38
включают пропуск изображения через энкодер для получения представления. Затем применение преобразований для
8:45
эффективного обучения системы. Процесс включает в себя запуск того же энкодера с некоторыми вариациями и обучение
8:52
предсказателя, который может быть простым или иногда отсутствовать. Этот предсказатель должен предсказать
8:58
представление исходного неиспорченного ввода из искажённого. Обучается только та часть сети, которая получает
9:04
искажённый ввод. Но поскольку они делят веса, изменение одного также меняет другое.
9:11
Для предотвращения срыва системы разработаны различные техники, чтобы она не игнорировала ввод. Два метода,
9:17
которые мы разработали идпа, эффективны в этом плане. В одном из сценариев
9:23
изображение искажается путём изменения его обрезки, размера, ориентации или
9:29
цвета, что снижает его качество. Для Иджипа достаточно маскировать определённые области. Этот метод обучает
9:37
энкоoder и предсказатель оценивать оригинальное представление изображения из искажённой версии. Ипа не требует
9:44
знания специфики изображения, в то время как требует его для таких задач, как
9:50
геометрические преобразования. Недавнее расширение VGпа применяет этот принцип к видео. Здесь
9:58
сегменты видеокадров маскируются в последовательности, обычно из шестнадцати кадров, и система обучается
10:04
предсказывать полное видео из частично замаскированной версии. Этот подход
10:09
позволяет точно классифицировать действия в видео. Предварительные результаты показывают, что представление
10:16
может указывать, является ли видео физически правдоподобным, например, выявлять резкие изменения в
10:22
местоположении объектов. Это может в дальнейшем помочь роботизированным системам. которые могут требовать
10:28
изменённого подхода, где видео либо сдвигается по времени, либо часть его
10:33
маскируется. Например, если известен угол колеса автомобиля, система может
10:39
предсказать последствия, создавая внутреннюю модель мира для планирования. Эта внутренняя модель позволяет
10:44
планировать последовательности действий для достижения целей, в отличие от моделей вроде LLMS, которые не обладают
10:51
такой способностью. С помощью такой модели можно предсказывать результаты и планировать действия для минимизации
10:57
целевой функции, аналогично классическому предиктивному управлению траекторией, применяемому с шестидесятых
11:03
годов. Иерархическое планирование необходимо для сложных действий. Например, путешествие из Нью-Йорка в
11:09
Париж. На высоком уровне моё местоположение можно представить через разложение цели на две подцели. Сначала
11:16
доехать до аэропорта, затем сесть на самолёт до Парижа. Для первой под цели
11:21
целевая функция — расстояние до аэропорта. Поэтому нужно вызвать такси в Нью-Йорке. Чтобы попасть в такси, нужно
11:29
встать со стула, дойти до лифта, спуститься на улицу. Этот процесс требует физической активности, которую
11:36
невозможно заранее спланировать на уровне миллисекунд, так как для этого нужна обширная информация о доступности
11:42
такси и пробках. Иерархическое планирование важно для действий и перепланирования в реальном времени, но
11:49
AI пока плохо справляется с выбором правильных уровней представления. Language models могут отвечать на
11:55
отдельные вопросы о планировании, если обучены на похожих сценариях, но не способны управлять мелкими физическими
12:01
действиями или незнакомыми ситуациями. Большинство планов люди не изобретают заново, а усваивают через опыт, который
12:08
намного богаче языка. Для связывания низкоуровневых действий с абстрактными представлениями нужны системы вроде
12:15
Jepp, которые позволяют поднимать уровень абстракции без восстановления всех деталей. Language models, включая
12:23
авторегрессивные и двунаправленные, используют самонаблюдаемое обучение. Этот метод, как в модели бер, искажал
12:30
текст и обучал модель его восстанавливать, что дало значительный прогресс в понимании и переводе
12:36
множества языков. Авторегрессивный language models предсказывают слова,
12:42
опираясь только на предыдущие слова, и их эффективность растёт с увеличением размера и объёма данных. Хотя эти
12:49
системы впечатляют и умеют многое, важно понимать их ограничения и искать пути их
12:55
преодоления. Это результат более чем 10 лет исследований самонаблюдаемого обучения, которое выявляет внутреннюю
13:02
структуру входных данных без обучения под конкретную задачу. Изучением представлений я занимаюсь почти 40 лет.
13:10
Поначалу мы добивались успеха только через супервизорное обучение. Затем в начале дх000ных вместе с Йошуа Бенджио и
13:18
Джефф Хинтон возродили интерес к ненаблюдаемому обучению. Однако
13:23
супервизорное обучение оказалось эффективным при наличии больших данных и вытеснило ненаблюдаемые методы на время.
13:32
С 2014 года в Фер я целенаправленно возрождал самонаблюдаемое обучение для
13:38
текста, изображений, видео и аудио. Это привело к успехам в многоязычном
13:44
переводе и распознавании речи, например, в системе Wave 2 VS, которая требует
13:49
минимум размеченных данных. Сейчас мы можем в реальном времени переводить речь на сотни языков, используя дискретные
13:56
внутренние представления речи. Несмотря на десятилетние попытки обучить представление изображений через
14:02
предсказание видео, нам не удалось добиться успеха с генеративными моделями. Мы отказались от предсказания
14:09
пикселей в пользу совместного встраивания в пространстве представлений, показав, что генеративные
14:14
модели не обязательно дают качественные реальные представления. Хотя генеративный AI
14:20
популярен, я не советую полагаться только на него для достижения уровня человеческого интеллекта. Language
14:26
models не имеют общего опыта, который формирует высокоуровневые концепции и
14:31
которые мы приобретаем через взаимодействие с реальным миром с раннего детства. Многое из того, что мы
14:37
понимаем с младенчества, отсутствует в текстах. Примерно 16.000 часов бодрствования ребёнка и его сенсорный
14:45
опыт критически важны для формирования базовых понятий вроде гравитации и
14:50
намерений. Современные AI-системы лишены этого опыта. Кроме того, Language Models
14:56
создают токены вероятностно, и с каждым новым токеном вероятность ошибки увеличивается, усугубляя проблему из-за
15:02
проклятия размерности. Чтобы устранить ограничения, можно донастроить систему, заставляя её отвечать на разные вопросы,
15:08
так как многие из них похожи. Так можно покрыть примерно 80% вопросов, собирая
15:14
данные и совершенствуя систему для них. Однако остаётся огромное число запросов,
15:19
неохваченных обучением, что составляет лишь малую часть всех возможных запросов. Система хорошо работает на
15:26
обученных примерах, но может давать бессмысленные ответы на незнакомые, особенно если использовать случайные
15:32
последовательности символов или смешения языков. Эта проблема называется проблемой длинного хвоста и широко
15:39
распространена в социальных сетях. Хотя можно настроить систему для частых запросов. Длинный хвост слишком велик,
15:46
чтобы охватить его полностью. В итоге система ведёт себя как большая таблица поиска, что не идеально. Системы должны
15:53
уметь рассуждать и планировать. Уровень рассуждений у больших языковых моделей LLMS пока примитивный, так как
16:01
вычислительные усилия на один токен остаются постоянными независимо от сложности вопроса. Это отличается от
16:07
человеческого мышления, где мы уделяем больше ресурсов сложным задачам. В будущем диалоговые системы смогут лучше
16:14
рассуждать и планировать. Важнейшим станет умение строить ответ в уме до его озвучивания, формируя мысленную модель,
16:21
помогающую оформить мысли. Современные LLMs этой способностью не обладают. Это
16:28
похоже на разницу между интуитивным мышлением, система один, и осознанным мышлением, система 2. У людей
16:36
инстинктивные задачи и задачи, требующие сознательного планирования, сильно различаются. Чтобы системы могли
16:43
планировать, им нужно перейти от автогрессивного предсказания токенов к методам скрытого вывода переменных,
16:50
аналогичным вероятностным или графовым моделям. В таком подходе запрос — это
16:55
наблюдаемые переменные. А модель оценивает качество потенциальных ответов через скалярный выход. Если ответ
17:02
хороший, значение большое, если плохой, маленькая. Представьте модель, которая
17:08
находит хороший ответ, минимизируя это число. Это энергетическая модель. Вы не
17:14
перебираете строки текста, а работаете в абстрактном пространстве представлений, развивая мысли, стремясь уменьшить
17:22
скалярный выход модели. Это процесс оптимизации для вывода, а не для обучения. Имея абстрактное представление
17:29
мысли, его подают на простой автогрессивный декодер, который превращает его в текст. Процесс включает
17:36
планирование ответа через оптимизацию до его превращения в текст. Сначала запрос
17:41
через энкодер преобразуется в представление, которое при необходимости модифицируется для достижения хорошего
17:47
ответа под управлением функцией стоимости. Обучение системы оценки качества ответов происходит через
17:53
оптимизацию в дифференцируемой системе. Нейронная сеть оценивает совместимость
17:59
входа X, например, изображение или видео, и предложение И ответа, выдавая
18:04
ноль для совместимых пар и положительное число для несовместимых. Систему обучают,
18:10
показывая правильные пары X и, заставляя сеть выдавать ноль на них. Чтобы сеть не
18:16
начала выдавать ноль всегда, применяют контрастный метод, показывают несовместимые пары, заставляя сеть
18:23
увеличивать их энергию. Однако при большом пространстве и контрастные методы требуют много примеров, поэтому
18:30
используют неконтрастные методы, которые минимизируют объём пространства с низкой энергией, повышая энергию вне правильных
18:37
областей. Это эффективнее, так как локальные изменения в пространстве XCI автоматически увеличивают энергию
18:44
вокруг. Функция обработки языка включает текст X и его продолжение И.
18:50
Эффективность зависит от внутренней структуры системы. Если система имеет скрытую переменную Z, которую можно
18:57
настроить для минимизации выходной энергии, то Z представляет собой хорошую мысль, которую можно перевести в UI. Это
19:04
помогает избежать коллапса и поддерживать высокую энергию для незнакомых понятий. В нейронных языковых
19:11
моделях NLMS этот процесс часто происходит неявно. Увеличение вероятности правильного слова
19:18
автоматически снижает вероятность неправильных из-за ограничения общей вероятности. Минимизация кроссентропии
19:25
при обучении повышает вероятность правильных слов и снижает вероятность неправильных. Для обработки визуальных
19:32
данных мы используем архитектуры вроде Odпа с объединённым представлением. Совместимость изображений и их
19:38
искажённых версий оценивается через ошибку предсказания, отражающую энергию системы. Цель: обучить эффективные
19:45
модели мира на основе наблюдений и использовать их для планирования без необходимости в reinforcement learning
19:52
RL. Если только критерии успеха не определены неясно, модель мира корректируется, если обнаруживаются
19:59
неточности в самой модели или в целевой функции. Исследование среды, называемое
20:04
любопытством, позволяет безопасно улучшать модель мира. При обучении конкретным задачам предварительно
20:11
освоенные представления и модели донастраиваются с помощью RL. Human feedback HF помогает повысить качество
20:19
работы системы через разные методы супервизированного обучения. Например,
20:24
можно оценивать несколько ответов модели, строя модель награды, которая предсказывает качество ответа и
20:30
донастраивает систему на лучшие результаты. Хотя сейчас HF в основном используется для дообучения, его
20:37
применение в планировании может быть эффективнее. AI системы часто отражают общественные предубеждения,
20:44
присутствующие в обучающих данных, что вызывает тревогу. Возникает вопрос:
20:49
можно ли создать абсолютно беспристрастный AI? Ответ: категоричное:
20:54
нет. Предвзятость субъективна. Разные люди воспринимают её по-разному. Хотя
21:00
есть неоспоримые факты, большинство мнений можно выразить по-разному. Поэтому полностью беспристрастная
21:06
система невозможна. Решение здесь аналогично под ходу либеральной демократии к СМИ.
21:11
Необходима свобода и разнообразие. Свобода слова критична, чтобы избежать монополии информации, которая
21:18
противоречит демократии и тормозит развитие идей и науки. Наше взаимодействие с цифровым миром
21:25
будет всё больше опосредовано AI-системами. Например, умные очки смогут подключаться к AI, предоставляя
21:32
информацию о достопримечательностях или переводя речь в реальном времени. Однако
21:37
важно, чтобы такие системы не принадлежали лишь нескольким компаниям, контролирующим всё человеческое знание.
21:43
Разнообразие в AI столь же необходимо, как и в прессе. Чтобы создать разнообразных AI-помощников, необходимо,
21:50
чтобы разные группы, индивидуалы, государства и организации могли донастраивать Open Source AI системы.
21:58
Например, французское правительство твёрдо настроено не позволить американским компаниям управлять
22:03
цифровым пространством своих граждан, чтобы защитить демократию и локальные культуры.
22:09
В Индии реализуются проекты, адаптирующие AI к местным языкам, улучшая доступ к важной информации в
22:17
регионах вроде Сенегала. Open source-платформы могут поддерживать создание AI-систем,
22:23
отражающих разные языки, культуры и взгляды. Они позволяют компаниям
22:28
адаптировать системы под конкретные задачи, например, издателям использовать
22:34
собственные базы данных. Будущее AI будет зависеть от таких платформ,
22:39
позволяя разным группам создавать собственные решения и избегать единоличных
22:44
предубеждений. Бизнес-модели в этой отрасли могут включать услуги, финансируемые рекламой или прямыми
22:51
платежами от компаний, нуждающихся в AI-решениях. Например, местная пиццерия
22:57
может использовать AI для общения с клиентами, оплачивая услугу за счёт заказов. При большом числе пользователей
23:04
Open Source модель остаётся выгодной для бизнеса. Такая модель позволяет другим создавать аналогичные решения и
23:10
конкурировать, предлагая донастроенные модели компаниям. Мета планирует использовать свою огромную базу
23:16
пользователей и клиентов для создания полезных продуктов и получения прибыли.
23:22
Открывая свой базовый AI, Мета стимулирует разработку приложений, которые могут приносить пользу её
23:28
пользователям, и при желании приобретать наиболее успешные проекты. Миллионы загрузок и вклад сообщества ускоряют
23:34
развитие. При этом открытое распространение модели не мешает получать доход. Дизайнерам нужно
23:40
учитывать политическую приемлемость своих систем, чтобы избежать оскорбления пользователей, что усложняет создание
23:46
системы, воспринимаемой как беспристрастное. Любое направление может быть воспринято
23:52
как предвзятое различными группами, и существуют ограничения на создаваемый контент, что требует установки защитных
23:59
механизмов для безопасности. Архитектура может включать такие механизмы, обеспечивая базовую безопасность,
24:05
согласованную большинством, при этом позволяя дополнительную настройку для конкретных сообществ. Исследования
24:12
показывают, что наличие модели большого языка LЛМ не способствует созданию опасного оружия, так как для реализации
24:19
в реальном мире требуется экспертное знание, которое ЛМ не может предоставить. Несмотря на доступные
24:25
инструкции, создание оружия остаётся сложным, и ни одна страна не использует биологическое оружие, так как оно
24:31
запрещено международными договорами. Ожидается, что будущие версии моделей, таких как Лама, будут
24:38
улучшены и получат мультимодальные возможности. Сроки совершенствования способностей к
24:43
рассуждению и планированию неизвестны, но прогресс будет отслеживаться через публикации исследований. В настоящее
24:50
время ведётся обучение систем на видео с усилиями в таких организациях, как Deep
24:55
Mind и UC Беркли. Ожидаются обнадёживающие разработки, особенно в
25:01
моделях, обучающих представлением для задач планирования и усиленного обучения.
25:06
Я сотрудничаю с различными людьми по грантам через свою аффилиацию с NYU и Смета, поскольку лаборатория брокколи
25:13
связана с ними. Я очень рад направлению, в котором развивается машинное обучение
25:18
Ии, как и 10 лет назад, когда началась работа Фер. Есть потенциал для
25:23
достижения интеллекта, сопоставимого с человеческим, с системами, которые могут
25:28
понимать, запоминать, планировать и рассуждать. И надеюсь, что мы достигнем
25:33
этого до моей пенсии. Хотя масштабирование важно, этого недостаточно. Нам всё ещё не хватает
25:40
вычислительных мощностей, чтобы соответствовать человеческому мозгу. И на это может потребоваться десятилетие,
25:46
особенно с точки зрения энергоэффективности. Текущий прогресс в основном связан с инновациями в
25:52
архитектуре, а не в силиконовых технологиях, особенно в реализации популярных архитектур, таких как
25:58
трансформеры. Существенные улучшения в аппаратуре необходимы, включая новые принципы и
26:04
технологии производства для снижения потребления энергии. Так как современные графические процессоры потребляют
26:11
гораздо больше энергии, чем человеческий мозг. Появление Ии с общими способностями не произойдёт внезапно.
26:17
Это будет постепенный процесс. Разработка систем, которые учат с помощью видео и могут запоминать всё ещё
26:24
далека, и необходимо создать множество фундаментальных техник. Интеграция таких
26:29
систем может занять 10 лет или больше, особенно в области рассуждений и планирования в различных ситуациях, как
26:37
у человеческого мозга. Интеллект не является линейным и легко измеримым. Это
26:42
совокупность различных навыков. Сравнение интеллекта между видами сложное, так как люди могут быть сильны
26:48
в некоторых областях, а другие виды в других. Интеллект включает набор навыков
26:54
и способность эффективно учить новые. Беспокойство по поводу катастрофических рисков Ии часто основываются на
27:00
ошибочных предположениях. Идея внезапного появления сверхинтеллекта вводит в заблуждение. Мы будем развивать
27:08
системы, которые постепенно имитируют характеристики человеческого интеллекта, начиная с уровней, сопоставимых с
27:14
кошками или попугаями, и постепенно улучшая их способности. Мы внедряем
27:19
защитные механизмы, чтобы обеспечить правильное поведение интеллектуальных систем. Это потребует совместной работы
27:26
многих людей для создания контролируемого и безопасного ИИ, где успешные системы могут нейтрализовать
27:33
любые отклоняющиеся. Страх, что интеллектуальная система непременно будет стремиться к доминированию,
27:39
является заблуждением. В отличие от социальных видов, ИИИ не будет обладать врождённым
27:46
стремлением к доминированию, так как эта черта есть у некоторых животных, но не у других, как, например, у арангутанов.
27:54
Системы Ии будут разработаны так, чтобы быть подчинёнными людям. Хотя в
27:59
настоящее время большие языковые модели LЛM нельзя контролировать и с
28:06
ориентированными целями может включать защитные механизмы, которые приоритетно
28:11
обеспечат безопасность человека. Разработка этих механизмов будет сложной
28:16
и итеративной, как эволюция безопасности турбореактивных двигателей, совершенствовавшихся десятилетиями.
28:23
Лучше спроектированный ИИ будет inherently безопаснее и надёжнее. В будущем взаимодействие с цифровым миром
28:30
будет происходить через вашего EИ ассистента, который будет фильтровать манипулятивные системы EИ спам-фильтры
28:38
для электронной почты. Прогресс в разработке EИИ будет продолжаться
28:43
главным образом благодаря инновациям в индустрии, а не государственным или военным организациям.
28:49
Прорывы будут быстро распространяться, стимулируя инвестиции в разработку Ииз необходимости в подробных сведениях о
28:56
предыдущих успехах. Успех американской технологической индустрии, особенно в Силиконовой долине, связан с быстрым
29:03
обменом информации, когда сотрудники переходят из одной компании в другую. Этот поток знаний помогает региону
29:09
оставаться лидером в инновациях. Однако существует естественный страх перед новыми технологиями и их воздействием на
29:17
общество. Люди инстинктивно сопротивляются угрозам для своей культуры, рабочих мест и
29:23
будущего. Исторические технологические революции часто сталкивались с критикой
29:28
СМИ, которые связывали общественные проблемы с этими изменениями. Например, джаз и комиксы когда-то обвинялись в
29:36
безработице среди молодёжи. Основной вопрос: примем ли мы изменения или будем
29:41
им сопротивляться, и какие угрозы реальные, а какие воображаемые.
29:46
Открытые платформы могут способствовать разнообразию в помощниках на базе ИИ, отражая различные культуры и мнения, что
29:54
важно для сохранения демократии. Сосредоточение власти в собственных системах ИИ представляет большую угрозу,
30:01
чем воображаемые опасности, так как это может привести к узкому информационному потоку, контролируемому несколькими
30:08
компаниями. Мы должны решить, доверяем ли мы институтам действовать этично.
30:14
Несмотря на наличие плохих актёров, их технологии не смогут превзойти хорошие.
30:19
Будущее работотехники, вероятно, будет развиваться в следующем десятилетии, требуя систем, которые понимают мир для
30:25
выполнения сложных задач. Современная работотехника сильно зависит от заранее
30:30
запрограммированных действий и тщательного планирования. Для создания полностью автономных роботов, например,
30:37
уровня пять для вождения, необходимы системы, способные обучаться и осознавать свою среду.
30:44
Прогресс в работотехнике зависит от развития ИИ. Основные трудности включают
30:49
обучение моделей мира через наблюдение и планирование действий в нефизических контекстах, таких как интернет.
30:56
Планирование не ограничивается физическими действиями, оно также включает выполнение задач в диалоговых и
31:03
интеллектуальных системах. Несмотря на некоторые исследования в этой области, она всё ещё недостаточно развита.
31:10
Иерархическое планирование важно для многих наших действий, например, для планирования поездки из Нью-Йорка в
31:16
Париж. Однако ИИ не имеет демонстрации изученного иерархического планирования
31:22
на различных уровнях представлений. Мы можем внедрить двухуровневое иерархическое
31:27
планирование. Например, направить робота из одной комнаты в другую, избегая препятствий. Но эти уровни должны быть
31:34
заранее определены. Мы можем обучить ии учить иерархические представления восприятий, но аналогия
31:41
для планов действий пока не ясна. Икий может повысить человеческий интеллект,
31:46
став умными помощниками, которые могут превзойти нас в различных задачах. Это
31:52
не должно восприниматься как угроза. Скорее, это похоже на управление командой способных людей.
31:58
Интеллектуальные машины могут улучшить нашу жизнь, так же как образование, книги и интернет расширили доступ к
32:04
знаниям. Влияние ИИ на человечество может быть аналогично изобретению печатного пресса,
32:12
который сделал информацию доступной для широкой аудитории, стал катализатором просвещения и
32:18
революции. Однако это также привело к двухсотлетним религиозным конфликтам в Европе, когда возникли разные
32:25
интерпретации Библии. Двухсотлетний запрет на печатный пресс в Османской империи на арабском языке был направлен
32:33
на сохранение религиозного контроля. и обеспечение дохода каллиграфов. Это поднимает вопрос, кого мы защищаем,
32:40
регулируя и сегодня. Эксперты считают, что технологические достижения не приведут к массовой безработице, а
32:46
вызовут постепенное изменение профессий. Будущее рабочих мест непредсказуемо, как
32:52
и было два десятилетия назад, когда разработка мобильных приложений стала востребованной карьерой. Невозможно
32:58
предсказать всё, но вы приводите веские аргументы. Я верю, что люди в своей основе хороши, и если открытый и поможет
33:06
улучшить их интеллект, это усилит их доброту. Многие пессимисты сомневаются в этой доброте, не веря, что люди или
33:13
институты будут поступать правильно. Мы оба верим в человечество, и я благодарен вам за поддержку открытого исходного
33:19
кода, который делает исследования и ИИ доступными. Я ценю ваше яркое выражение
33:24
в интернете и надеюсь, что вы продолжите. Вы один из самых приятных людей, которых я знаю. Спасибо, что вы
33:31
есть. [музыка]
33:42
[музыка]

