Ян Лекун: Мозг, Биты и Будущее – Откровенный Разговор с Главным Учёным Meta AI

Meta* (признана в РФ экстремистской и запрещена)

🤖💡 Что если самый влиятельный критик AI-думеров и главный научный сотрудник Meta прав, и нам не грозит восстание машин? Янн ЛеКун, легенда искусственного интеллекта и лауреат премии Тьюринга, раскрывает карты о реальных границах современных AI-систем и делится провокационным видением будущего. От критики монополии Кремниевой долины до революционных идей об открытом коде – он объясняет, почему свобода важнее контроля, и как сделать технологии ИИ доступными для всех, а не избранных корпораций. Готовы узнать, почему ваш будущий AI-помощник может оказаться умнее вас, но это будет здорово?

Таймкоды

00:00:00 Опасности проприетарных систем ИИ

  • Концентрация власти через проприетарные системы ИИ представляет большую опасность.
  • Противники считают, что системы ИИ должны быть под замком для безопасности.
  • Передача систем ИИ в руки всех приведет к контролю информации небольшим числом компаний.

00:00:30 Вера в доброту людей

  • Люди по своей сути добры, и ИИ может сделать их умнее.
  • Пессимисты не верят в доброту людей.

00:00:56 Ян Ликун и открытое развитие ИИ

  • Ян Ликун, главный научный сотрудник Meta, выступает за открытое развитие ИИ.
  • Он критикует тех, кто предупреждает о надвигающейся опасности ИИ.
  • Ликун верит, что ИИ будет хорошим и не выйдет из-под контроля человека.

00:02:17 Ограничения больших языковых моделей

  • Большие языковые модели LLM не являются путем к сверхчеловеческому интеллекту.
  • LLM не могут понимать физический мир, запоминать информацию, рассуждать и планировать.
  • Они полезны, но не могут заменить человеческий интеллект.

00:03:50 Объем данных и обучение

  • LLM обучены на огромных объемах текста, но это не так много данных по сравнению с сенсорным восприятием.
  • Человеческий разум получает больше данных быстрее и учится на них.
  • Большая часть знаний приходит через наблюдение и взаимодействие с реальным миром.

00:06:08 Роль языка и реальности

  • Язык уже содержит много информации, но не может полностью заменить физическое восприятие.
  • Интеллект должен основываться на реальности, даже если это не физическая реальность.
  • Большая часть нашего знания происходит из взаимодействия с физическим миром.

00:08:29 Парадокс Марца

  • Парадокс Марца: почему компьютеры легко выполняют сложные задачи, но не могут выполнять простые задачи, такие как вождение машины.
  • Большие языковые модели могут выполнять сложные задачи, но не могут учиться новым навыкам.
  • Для решения этой проблемы нужны новые методы обучения и архитектура рассуждений.

00:10:27 Визуальные системы и языковые модели

  • Визуальные системы могут обрабатывать изображения и видео, но это уловки.
  • Языковые модели с визуальными расширениями не обучены понимать мир и интуитивную физику.
  • Эти системы не могут полностью заменить человеческий интеллект.

00:11:43 Проблемы языковых моделей

  • Языковые модели не могут предсказать следующее слово в тексте.
  • Они обучаются предсказывать слова, заменяя их маркерами.
  • Система выбирает слово из распределения вероятностей, что позволяет ей предсказывать следующее слово.

00:12:32 Автогрессивное предсказание

  • Большие языковые модели предсказывают слова, а не сами слова.
  • Они производят распределение вероятностей по всем возможным словам.
  • Система выбирает слово с высокой вероятностью и добавляет его в предсказание.

00:13:27 Абстрактное мышление

  • Мышление не связано с конкретным языком.
  • Мышление включает абстрактные концепции, такие как математические идеи.
  • Большие языковые модели не планируют ответ, а просто выдают слова.

00:17:00 Модель мира

  • Модель мира должна быть сложной и включать предсказание действий.
  • Генеративные модели обучаются на видео, но не могут предсказать все детали.
  • Видео содержит много деталей, которые сложно предсказать.

00:19:00 Проблемы с предсказанием видео

  • Предсказание видео требует предсказания распределения по всем возможным кадрам.
  • Видео является высокоразмерным и непрерывным, что усложняет задачу.
  • Системы не могут предсказать все детали, такие как текстуры и объекты.

00:20:28 Скрытые переменные

  • Скрытые переменные помогают дополнить систему информацией.
  • Пробовали различные методы, включая нейронные сети и регуляризованные автокодировщики.
  • Эти методы не работают для изображений и видео.

00:22:48 Проблемы с представлениями изображений

  • Трудно сформировать хорошее представление изображения.
  • Обучение системы восстанавливать изображение из поврежденной версии не работает.
  • Существуют техники, такие как динозинговые автоинкодеры, которые могут работать лучше.

00:24:01 Проблемы самообучения и совместное встраивание

  • Самообучение не всегда приводит к хорошим представлениям изображений.
  • Совместное встраивание позволяет предсказывать представления изображений на основе испорченных версий.
  • Это помогает избежать коллапса системы и улучшает предсказание.

00:25:42 Контрастивное обучение и его ограничения

  • Контрастивное обучение использует пары изображений для предотвращения коллапса системы.
  • Методы контрастивного обучения имеют ограничения, но за последние годы появились новые подходы.
  • Новые методы позволяют использовать изображения с разными версиями или ракурсами.

00:28:01 Различия между архитектурами совместного встраивания и большими языковыми моделями

  • Совместное встраивание предсказывает абстрактные представления, а не пиксели.
  • Это упрощает задачу и позволяет системе учиться на более высоком уровне абстракции.
  • Совместное встраивание помогает абстрагировать и предсказывать важные аспекты данных.

00:30:46 Преимущества и ограничения совместного встраивания

  • Совместное встраивание поднимает уровень абстракции, что важно для интеллектуальных систем.
  • В языке уже есть абстрактные представления, что упрощает задачу.
  • Совместное встраивание требует перехода от полного представления к абстрактному для лучшего понимания реальности.

00:33:28 Объединение самонастраивающегося обучения на визуальных и языковых данных

  • Объединение самонастраивающегося обучения возможно, но требует осторожности.
  • Использование языка как костыля для визуальных систем может привести к обману.
  • Важно сначала научиться понимать мир без языка, прежде чем объединять его с языком.

00:35:25 Совместная эмбдинг-прогнозирующая архитектура

  • Архитектура не контрастивная, а методы обучения не генеративные.
  • Используются методы дистилляции, такие как бил, врг и ай-джепа.
  • Обучение предсказателя на основе искаженного ввода.

00:36:22 Методы дистилляции

  • Полный ввод проходит через кодировщик, затем искажается.
  • Обучается предсказатель для предсказания представления искаженного ввода.
  • Предотвращение коллапса системы с помощью различных приемов.

00:37:22 Сценарии использования

  • Искажение изображения: обрезка, изменение размера, размытие.
  • Маскирование частей изображения для обучения предсказателя.
  • Применение к видео: маскирование временной трубки.

00:38:24 Применение к видео

  • Обучение системы для предсказания полного видео из частично замаскированного.
  • Возможность определения физических ограничений реальности в видео.
  • Применение для роботизированных систем.

00:40:46 Планирование действий

  • Использование модели мира для планирования действий.
  • Возможность предсказания состояния мира в будущем.
  • Применение в управлении на основе предсказательной модели.

00:44:14 Иерархическое планирование

  • Необходимость иерархического планирования для сложных действий.
  • Пример с поездкой из Нью-Йорка в Париж.
  • Проблемы с детализацией и контролем мышц на уровне миллисекунд.

00:46:45 Возможности ЛЛМ

  • ЛЛМ могут отвечать на вопросы о пошаговых инструкциях.
  • Ограниченная способность контролировать мышцы с точностью.
  • Возможность планирования только при наличии обучающего набора.

00:48:16 Проблемы и возможности больших языковых моделей

  • Большие языковые модели LLM могут воспроизводить шаблоны, на которых они обучены.
  • LLM могут решать задачи, если их обучить, но не могут объяснить физические действия, такие как спуск по лестнице.
  • Для взаимодействия с физической реальностью и робототехникой нужны LLM, а для более глубокого рассуждения – другие методы.

00:49:43 Планы и обучение

  • Большинство планов, которые люди используют, они не изобретают сами, а обучаются на примерах.
  • LLM могут выполнять задачи, которые люди не могут, например, объяснить, как добраться из Нью-Йорка в Париж.
  • Для выполнения низкоуровневых действий нужны другие методы, такие как GP.

00:50:48 Автоагрессивные LLM

  • Автоагрессивные LLM используют самообучение, что делает их впечатляющими.
  • Самообучение позволяет LLM понимать язык и переводить сотни языков.
  • Ограничение архитектуры сети для предсказания слов на основе предыдущих слов улучшает понимание языка.

00:54:18 Парадокс Марека и самообучение

  • Тест Тьюринга не является точным тестом интеллекта.
  • LLM впечатляют, но не обладают всеми характеристиками человеческого интеллекта.
  • Самообучающееся обучение позволяет LLM захватывать внутреннюю структуру данных без специального обучения.

00:56:22 Успехи самоконтролируемого обучения

  • Самоконтролируемое обучение позволяет LLM понимать многоязычный контент и распознавать речь.
  • Системы, основанные на самоконтролируемом обучении, могут выполнять синхронный перевод и распознавание речи.
  • Генеративные модели не всегда могут научиться хорошим представлениям реального мира.

00:59:42 Рассуждения и здравый смысл

  • Большие языковые модели могут выполнять два типа рассуждений: на основе здравого смысла и высокоуровневое рассуждение.
  • Совместное встраивание и предсказание в пространстве представлений могут быть полезны для навигации в мире.

01:00:35 Проблемы с пониманием политики и языка

  • Политики и мнения в языке сложно представить визуально.
  • Системы, основанные только на языке, могут не понимать сложные сценарии.
  • Высокий уровень понимания языка основан на общем опыте, которого нет у ЛЛМ.

01:01:31 Общий опыт и здравый смысл

  • Высокий уровень языка основан на общем опыте мира.
  • ЛЛМ не имеют этого общего опыта, что затрудняет генерацию языка.
  • Для формирования здравого смысла нужно понимать базовые принципы, такие как гравитация.

01:02:47 Ограничения ЛЛМ

  • ЛЛМ обучаются исключительно на текстах, что ограничивает их понимание.
  • В языке не всегда выражена основная реальность.
  • Сенсорные данные и личный опыт играют ключевую роль в понимании мира.

01:06:03 Галлюцинации и ошибки в ЛЛМ

  • ЛЛМ могут генерировать бессмысленные ответы из-за ошибок в предсказаниях.
  • Вероятность ошибки увеличивается экспоненциально с количеством токенов.
  • Система может быть взломана, если подсказка выходит за пределы обучения.

01:10:28 Проблемы с длинным хвостом запросов

  • Существует длинный хвост запросов, которые система не может охватить.
  • Система становится гигантской таблицей поиска, а не системой, способной рассуждать.
  • Количество вычислений для ответа на вопрос постоянно, что ограничивает возможности системы.

01:12:56 Модель мира и планирование

  • Модель мира низкого уровня используется для построения механизмов, таких как долгосрочная память и рассуждения.
  • Важно иметь ментальную модель, позволяющую планировать ответы до их формулировки.
  • В ближайшие годы появятся системы, способные к планированию и рассуждениям.

01:14:10 Система один и система два

  • Система один выполняет задачи подсознательно, без сознательного планирования.
  • Система два требует целенаправленного планирования и использования внутренней модели мира.
  • Современные ЛЛМ не могут выполнять систему два, но это возможно с новыми моделями.

01:16:17 Модель на основе энергии

  • Модель на основе энергии измеряет, насколько ответ соответствует запросу.
  • Система оптимизирует ответ в пространстве абстрактных представлений.
  • Процесс оптимизации минимизирует целевую функцию, что позволяет системе выдавать хорошие ответы.

01:18:22 Обучение и оптимизация

  • Система обучается на парах запрос-ответ, чтобы минимизировать энергию.
  • Контрастные методы увеличивают энергию для неправильных ответов.
  • Неконтрастные методы используют регуляризаторы для минимизации объема пространства с низкой энергией.

01:24:51 Представление и оптимизация

  • Важно иметь абстрактное представление идей для оптимизации.
  • Внутренняя структура системы должна позволять манипулировать скрытыми переменными для минимизации энергии.
  • Это позволяет системе выдавать хорошие ответы, которые можно перевести в текст.

01:25:55 Обучение систем и предотвращение коллапса

  • Системы могут быть обучены похожим образом, но с предотвращением коллапса.
  • Высокая вероятность одного слова автоматически снижает вероятность других слов.
  • Это косвенно увеличивает вероятность правильных последовательностей слов и уменьшает вероятность неправильных.

01:27:00 Совместное обучение и визуальные данные

  • Совместное обучение используется для визуальных данных.
  • Система предсказывает представление хорошего изображения по испорченному.
  • Высокая энергия указывает на различия между изображениями, что помогает в классификации.

01:28:40 Рекомендации по обучению моделей

  • Отказ от генеративных моделей в пользу совместных архитектур.
  • Отказ от автоагрессивной генерации и вероятностных моделей.
  • Использование моделей на основе энергии и регуляризованных методов.

01:29:18 Обучение с подкреплением и его минимизация

  • Обучение с подкреплением должно быть минимизировано.
  • Использование RL для корректировки модели мира и целевой функции.
  • Обучение с подкреплением эффективно для корректировки модели мира в реальных условиях.

01:31:49 Человеческая обратная связь и её влияние

  • Человеческая обратная связь важна для настройки систем.
  • Использование целевой функции для предсказания качества ответов.
  • Настройка системы через человеческую обратную связь.

01:33:59 Критика Google GEMINI 1.5

  • GEMINI 1.5 вызывает критику за предвзятость и цензуру.
  • Предвзятость систем связана с распределением обучающих данных.
  • Открытый код является ответом на критику.

01:36:44 Будущее взаимодействия с ИИ

  • Будущее взаимодействия с цифровым миром будет опосредовано ИИ.
  • Умные очки и диалоговые системы станут нормой.
  • Важно, чтобы эти системы были разнообразными и не контролировались небольшим числом компаний.

01:39:00 Разнообразие ИИ-помощников

  • Обучение базовой модели ИИ сложно и дорого.
  • Компании могут создавать ИИ-помощники, но только несколько могут сделать это правильно.
  • Системы с открытым исходным кодом позволяют любому использовать и донастраивать их.

01:40:00 Контроль и разнообразие

  • Французское правительство не примет контроль над ИИ-помощниками тремя компаниями.
  • Это угрожает демократии и местной культуре.
  • Примеры проектов, таких как LAMA-2, для поддержки местных языков и культур.

01:41:41 Экосистема и платформы

  • Платформы с открытым исходным кодом позволяют создавать разнообразные ИИ-системы.
  • Примеры использования: издательства и компании для создания систем на основе своих данных.
  • Единственный способ создать индустрию без уникальных предвзятостей — это платформы с открытым исходным кодом.

01:42:50 Бизнес-модели и открытый исходный код

  • Компании, такие как Meta, должны делать минимальные шаги по тонкой настройке после создания основы.
  • Открытый исходный код позволяет другим компаниям конкурировать и улучшать системы.
  • Meta делает ставку на свою пользовательскую базу и возможность получать доход от технологий.

01:46:39 Критика и идеологическая предвзятость

  • Основная критика связана с политической предвзятостью разработчиков.
  • Невозможно создать систему, которая будет беспристрастной для всех.
  • Решение — разнообразие и использование открытого исходного кода для минимизации предвзятости.

01:49:30 Проблемы и решения

  • Марк Андерсон подчеркивает сложности создания беспристрастных систем.
  • Крупные компании осторожны, чтобы не навредить никому и сохранить бизнес.
  • Системы неизбежно будут формировать политические и культурные мнения, что делает их полезными, но может оскорблять некоторых людей.

01:52:23 Открытый код и разнообразие

  • Открытый код способствует разнообразию.
  • Технологии позволяют людям эффективно взаимодействовать.
  • Этические вопросы остаются на усмотрение людей.

01:53:15 Ограничения на системы с открытым исходным кодом

  • Необходимы ограничения на то, что системы могут производить.
  • Архитектура систем должна включать рамки для безопасности и нетоксичности.
  • Тонкая настройка рамок будет соответствовать различным сообществам.

01:54:03 ЛЛМ и биологическое оружие

  • ЛЛМ не помогают разрабатывать биологическое или химическое оружие.
  • Построение оружия требует экспертизы и знаний, которых нет в инструкциях.
  • Международное законодательство запрещает использование биологического оружия.

01:56:35 Будущее ЛЛМ и планирование

  • Будущие версии ЛЛМ будут улучшенными и мультимодальными.
  • Системы смогут планировать и понимать мир.
  • Исследования в этом направлении уже ведутся.

01:58:18 Обучение систем для видео

  • Работа над моделями мира на основе видео.
  • Системы будут учиться на видео и планировать задачи.
  • Сотрудничество с лабораториями, такими как UC Berkeley и Meta.

02:00:41 Вычислительные мощности и энергоэффективность

  • Необходимы значительные вычислительные мощности для обучения систем.
  • Прогресс в аппаратном обеспечении и энергоэффективности.
  • Архитектурные инновации и новые принципы производства.

02:02:47 Потенциальные инновации для создания ИИ

  • Для создания ИИ потребуется снижение потребления энергии.
  • Современные GPU потребляют от полукиловатта до киловатта, а человеческий мозг – около 25 ватт.
  • Для достижения уровня потребления энергии человеческого мозга потребуется значительное снижение.

02:03:40 Постепенный прогресс в ИИ

  • Появление ИИ не будет внезапным событием, а постепенным прогрессом.
  • Системы, способные учиться на видео и иметь большой объем ассоциативной памяти, появятся не сразу.
  • Разработка систем, способных рассуждать и планировать, займет десятилетия.

02:05:29 Оптимизм и реальность в ИИ

  • Оптимизм по поводу ИИ существует с самого начала его развития.
  • Интеллект не измеряется одним числом, как IQ.
  • Интеллект – это совокупность навыков и способность приобретать новые навыки.

02:07:44 Опасения апокалиптиков

  • Апокалиптики опасаются, что ИИ может выйти из-под контроля и уничтожить человечество.
  • Появление суперинтеллекта не будет внезапным событием.
  • Системы будут постепенно становиться умнее, и будут установлены ограничения для правильного поведения.

02:10:27 Контроль и безопасность ИИ

  • ИИ не будет стремиться к доминированию, так как это не запрограммировано в них.
  • Системы будут подчиняться людям и не причинять вреда другим.
  • Проектирование ограничений для безопасного поведения ИИ будет итеративным процессом.

02:14:04 Параллели с ядерным оружием

  • ИИ может быть использован как оружие, контролируя умы людей.
  • Развитие ИИ будет постепенным и итеративным, что позволит реагировать на угрозы.
  • ИИ, разработанный Владимиром Путиным, не будет внезапным событием, а будет результатом постепенного прогресса.

02:15:04 Будущее взаимодействия с ИИ

  • В будущем взаимодействие с цифровым миром будет происходить через ассистента.
  • Ассистент будет фильтровать спам и не позволит мошенникам добраться до пользователя.
  • Системы ИИ будут соревноваться друг с другом, но никто не будет сильно впереди.

02:16:04 Прогресс и контрмеры

  • Прогресс в технологиях сопровождается контрмерами.
  • Ядерное оружие было мощным, но не прорывным событием.
  • Прогресс в ИИ будет непрерывным и быстро распространяться в отрасли.

02:17:52 Быстрое распространение инноваций

  • Новые технологии быстро воспроизводятся и распространяются.
  • Успех технологической индустрии США обусловлен быстрым распространением информации.
  • Силиконовая долина опережает благодаря этому круговороту информации.

02:19:08 Психология пессимизма

  • Люди боятся новых технологий из-за страха за свою культуру и работу.
  • Любые изменения вызывают страх и сопротивление.
  • Важно принимать изменения и оценивать реальные опасности.

02:22:23 Опасности централизованного контроля

  • Люди беспокоятся о централизованном контроле над ИИ.
  • Необходимы платформы с открытым исходным кодом для предотвращения злоупотреблений.
  • Важно разнообразие мнений и культур в ИИ-системах.

02:26:56 Будущее роботов

  • Роботы станут более эффективными сотрудниками благодаря ИИ.
  • Индустрия робототехники ожидает значительного прогресса в ближайшие 10-20 лет.
  • Основная проблема – научить системы понимать мир и планировать действия.

02:29:39 Проблемы автоматизации в домашних условиях

  • Роботы помогают автоматизировать фабричные процессы, но это сложно из-за требований безопасности.
  • В домашних условиях роботы могут выполнять задачи, такие как уборка и приготовление пищи, но это сложно и запутанно.
  • Навигация в пространстве и распознавание объектов требуют значительных улучшений.

02:31:40 Будущее гуманоидных роботов

  • Гуманоидные роботы позволяют людям взаимодействовать с ИИ в физическом пространстве.
  • Это открывает возможности для философского и психологического исследования отношений с роботами.
  • Прогресс в самообучении ИИ из видео за последние два-три года.

02:32:40 Планирование действий в ИИ

  • Обучение мировой модели на основе наблюдений возможно без больших наборов данных.
  • Планирование действий для решения проблем в различных интеллектуальных системах.
  • Иерархическое планирование, где различные уровни представлений должны быть изучены.

02:35:50 Надежда на будущее человечества

  • ИИ может сделать человечество умнее, как если бы у каждого был штат умных ассистентов.
  • ИИ поможет в выполнении задач лучше, чем люди, что сделает человечество более успешным.
  • Интеллект и знания являются наиболее востребованными товарами.

02:38:41 Аналогия с печатным станком

  • Изобретение печатного станка сделало людей умнее, доступ к книгам стал дешевле.
  • Это способствовало просвещению, философии, рационализму и демократии.
  • Печатный станок также вызвал религиозные конфликты, но его влияние на мир в целом было положительным.

02:40:39 Запрет печатного станка в Османской империи

  • Османская империя запретила печатный станок на арабском языке для сохранения контроля над каллиграфами.
  • Каллиграфы были важной корпорацией, управляющей значительной частью империи.
  • Запрет был необходим для защиты их бизнеса.

02:42:10 Аналогия для ИИ и рынок труда

  • Вопрос о последствиях технологической трансформации для рынка труда.
  • Экономисты утверждают, что массовая безработица маловероятна, будет постепенный переход к новым профессиям.
  • Невозможно предсказать, какие профессии будут востребованы через 10-15 лет.

02:43:08 Будущее профессий и метавселенная

  • Большинство профессий будущего могут быть связаны с метавселенной.
  • Люди по своей сути добры, и ИИ может сделать их умнее.
  • Пессимисты становятся таковыми из-за недоверия к людям или институтам.

02:43:55 Поддержка движения открытого кода

  • Благодарность за поддержку движения открытого кода и доступность исследований и ИИ.
  • Признание Яна Ликуна за его вклад и стремление к открытости.
  • Завершение с цитатой Артура Кларка о выходе за пределы возможного.

Таймкоды сделпны в Нейросети YandexGPT https://300.ya.ru/v_GmhXWeFm

В этом видео

Опасность концентрации власти через проприетарные системы ИИ
0:00
я вижу опасность этой концентрации власти через проприетарные системы ии как гораздо большую опасность чем всё
0:07
остальное против этого выступают люди которые считают что по
0:12
соображениям безопасности мы должны держать системы ии под замкам Потому что
0:17
слишком опасно передавать их в руки всех это приведёт к очень плохому будущему в
0:22
котором вся наша информационная диета будет контролироваться небольшим числом компаний обладающих проприетарные
0:30
Я верю что люди по своей сути добры и если и и особенно открытый и и может
0:38
сделать их умнее это просто усиливает доброту в людях поэтому я разделяю это
0:44
чувство хорошо Я думаю что люди по своей сути добры И на самом деле многие
0:49
пессимисты пессимисты потому что не считают людей по своей сути добрыми следующее – это разговор с Яном
0:57
куном а его третий раз на этом подкасте он главный научный сотрудник по ии в
1:03
Мета профессор в nyu лауреат премии тьюринга и одна из ключевых фигур в
1:09
истории искусственного интеллекта он и META II активно выступают за открытое
1:15
развитие ии и действительно открывают многие из своих крупнейших моделей
1:21
включая Лама два и в конечном итоге Лама 3 Кроме того Ян был открытым критиком
1:29
тех людей в сообществе ии которые предупреждают о надвигающейся опасности
1:34
и экзистенциальной угрозе agi он верит что AG будет создано
1:40
Однажды но оно будет хорошим оно не выйдет из-под контроля человека и не
1:47
будет доминировать и Убивать всех людей в этот момент быстрого развития ии это
1:54
оказывается несколько спорной позиций и поэтому было интересно видеть как Ян участвует во многих напряженных и
2:01
увлекательных обсуждениях в интернете как мы делаем в этом самом разговоре это подкаст Лекса реманна
2:09
чтобы поддержать его пожалуйста ознакомьтесь с нашими спонсорами в описании А теперь дорогие друзья Вот Ян
2:16
лику недавно вы сделали несколько сильных заявлений технических заявлений о будущем искусственного интеллекта на
2:24
протяжении вашей карьеры на самом деле но и недавно вы говорили что
2:35
автоагрегат интеллекту это большие языковые модели такие как gpt 4 Lama 2 и
2:41
3 и так далее как они работают И почему они не приведут нас до конца по ряду
2:47
причин первое заключается в том что существует ряд характеристик интеллектуального
2:52
поведения например способность понимать мир понимать физический мир способность запоминать
Знакомство с Яном ЛеКуном: Главный учёный Meta и его взгляд на будущее ИИ
3:01
и извлекать информацию постоянная память способность
3:07
рассуждать и способность планировать это четыре основные характеристики
3:12
интеллектуальных систем или сущностей людей животных ЛМ не могут делать ни одно из
3:19
этих или они могут делать это только в очень примитивном виде и они
3:24
действительно не понимают физический мир да у них нет постоянной памяти они не могут действительно ждать и они
3:30
определённо не могут планировать Итак вы знаете Если вы ожидаете что система станет
3:35
интеллектуальной просто так без Возможности делать эти вещи вы ошибаетесь
3:42
это не значит что гата Риши Кеша не полезны они определённо
3:49
полезные что они не являются Интересно что мы не можем построить целую экосистему приложений вокруг них Конечно
3:56
мы можем Но как путь к человеческому уровню интеллекта
4:02
им не хватает основных компонентов и есть ещё один интересный факт который я
4:08
думаю очень интересен эти ЛМ обучены на огромных объёмах текста по сути на всём
4:14
публично доступном тексте в интернете верно Это обычно порядка десяти в
4:20
тринадцатой степени токенов каждый токен обычно занимает два байта Итак это 2 на10 в т степени байт данных для
4:27
обучения вам или мне понадобилось бы 170.000 лет чтобы просто прочитать это
4:32
по 8 часов в день так что это кажется огромным объёмом знаний которые эти
4:37
системы могут накопить но потом вы понимаете что это
4:43
на самом деле не так много данных если поговорить с детским психологом и они говорят вам что четырёхлетний ребёнок
4:50
был бодрствую в течение 16.000 часов за свою жизнь а объём информации который достиг
4:59
зрительной коры этого ребёнка за 4 года составляет около 10 в пятнадцатой степени
5:05
байт и вы можете вычислить это оценив что зрительный нерв передаёт около 20 Мб
5:10
в секунду примерно Итак 10 в пятнадцатой степени байт для четырёхлетнего ребёнка против
5:16
двух умножить на 10 в тринадцатой степени байт для 170.000 лет
5:21
чтения что это говорит вам так это то что через сенсорное восприятие мы видим
5:27
гораздо больше информации чем через язык и это несмотря на нашу интуицию что
5:33
большая часть того что мы учим И большинство наших знаний приходит через наше наблюдение и взаимодействие с
5:39
реальным миром а не через язык всё что мы учим в первые несколько лет жизни и
5:45
безусловно всё что учат животные не имеет ничего общего с языком поэтому было бы хорошо возможно
5:52
оспорить некоторые интуитивные представления о том что вы говорите Итак Правда в том что в человеческий разум
5:59
ступает в несколько порядков больше данных гораздо быстрее и человеческий разум способен очень быстро учиться на
6:06
этом быстро фильтруя данные кто-то может возразить что ваше сравнение сенсорных
6:12
данных и языка что язык уже очень сжат он уже содержит гораздо больше
6:17
информации чем байты необходимые для его хранения если сравнить это с визуальными
6:22
данными Так что в языке есть много мудрости есть слова и то как мы их Соединяем уже содержит много информа
6:30
Возможно ли что язык сам по себе уже содержит достаточно мудрости и знаний чтобы из
6:36
этого языка построить модель мира и понимание мира понимание физического мира которого
6:43
Как вы говорите не хватает ЛМ это большая дискуссия среди философов
6:49
и когнитивных учёных о том нужно ли чтобы интеллект был основан на
6:54
реальности я явно в лагере тех кто считает что да
7:00
может появиться без некоторой основы в реальности это не обязательно должна быть физическая реальность это может
7:06
быть смоделированы но окружающая среда гораздо богаче чем то что вы можете выразить на языке язык – это очень
7:13
приблизительное представление о или восприятия и наших ментальных моделях верно я имею в виду есть
7:21
много задач которые Мы выполняем манипулируя ментальной моделью текущей
7:26
ситуации и это не имеет ничего общего с всё что физическое механическое и так
7:33
далее когда мы что-то строим когда выполняем задачу модель задачи по захвату чего-то и тогда мы планируем
7:40
наши последовательности действий и мы делаем Это по сути представляя результат
7:46
Исхода последовательности действий которые мы можем представить и это
Почему большие языковые модели не приведут нас к сверхразуму
7:51
требует ментальных моделей которые не имеют большого отношения к языку и я бы
7:56
сказал что большая часть нашего знания исходит из этого взаимодействия с
8:01
физическим миром поэтому многие мои коллеги которые больше интересуются такими вещами как компьютерное зрение
8:08
действительно находятся в лагере который считает что ии должен быть воплощён по
8:13
сути А другие люди приходящие из области обработки естественного языка или возможно с какой-то другой мотивацией не
8:20
обязательно согласны с этим и философы также разделены и сложность
8:27
мира наме действительно Трудно представить Трудно
8:33
представить трудности которые мы принимаем как должное в реальном мире о
8:38
котором мы даже не догадываемся требуется интеллект верно Это старая Парадокс Морев от пионера робототехники
8:44
Ханса Морев который сказал как так получается что с компьютерами кажется легко выполнять высокоуровневые сложные
8:51
задачи такие как игра в шахматы и решения интегралов В то время как то что мы принимаем как должное и делаем каждый
8:58
день Например я не знаю учиться водить машину или знаете брать предмет мы не
9:04
можем сделать с помощью компьютеров и знаете у нас есть большие языковые
9:09
модели которые могут сдать экзамен на адвоката Так что они должны быть умными но затем они не могут научиться водить
9:16
машину за 20 часов как любой семнадцатилетний они не могут научиться
9:21
убирать со стола и загружать посудомоечную машину как любой десятилетний может научиться за один раз
9:28
Почему так знаете что мы упускаем какой тип
9:33
обучения архитектура рассуждений или что-то в этом роде Чего нам не хватает что в основном мешает нам иметь
9:40
автомобили с солнечными батареями пятого уровня и домашних роботов Может ли большая языковая модель
9:47
построить модель мира которая знает как водить машину и как загружать посудомоечную машину но просто не знает
9:54
как работать с визуальными данными в данный момент Так что она может в
9:59
пространстве концепций Итак Да именно над этим работает много людей Краткий
10:06
ответ нет а Более сложный ответ Вы можете использовать всевозможные трюки
10:11
чтобы получить а электронная языковая модель
10:17
чтобы в основном обрабатывать визуальные представление изображений
10:23
видео или аудио классический способ сделать это
10:29
обучить визуальную систему каким-то образом у нас есть способы обучать
10:35
визуальные системы с учителем полу
10:43
супервизора в высокоуровневые представление по сути в список токенов
10:49
которые очень похожи на те токены которые типичная языковая модель принимает в качестве входных данных а
10:56
затем вы просто передаёте этой языковой модели вместе с текстом и вы просто ожидаете что
11:03
языковая модель во время обучения сможет использовать эти представления для помощи в принятии решений Я имею в виду
11:10
что над этими направлениями работали довольно долго и Теперь вы видите эти системы верно я имею в виду есть
11:16
языковые модели с некоторыми визуальными расширениями Но это по сути Уловки в том
11:22
смысле что эти вещи не обучены от начала до конца чтобы действительно понимать
11:27
мир например они не обучены на видео они не понимают интуитив ную физику по крайней мере на данный момент Так что вы
11:35
не думаете что интуитивная физика общее здравое рассуждение о физическом пространстве и физической реальности –
11:41
это что-то особенное для вас Это для вас гигантский скачок который языковые модели просто не могут сделать мы не
11:48
сможем сделать это с теми типами языковых моделей с которыми Мы работаем сегодня И для этого есть несколько
11:54
причин но главная причина заключается в том что языковые модели обучаются Так вы
12:00
берёте кусок текста удаляете некоторые слова в этом тексте маскируется их заменяется их пустыми маркерами и вы
12:07
обучается генетическую нейронную сеть предсказывать отсутствующие слова и если
12:13
вы построите эту нейронную сеть определённым образом Так что она сможет смотреть только на слова находящиеся
12:19
слева от того которое она пытается предсказать то у вас будет система которая по сути пытается предсказать
12:24
следующее слово в тексте верно таким образом вы можете подать ей текст под сказку и вы можете попросить её
12:30
предсказать следующее слово Она никогда не сможет точно предсказать следующее слово и поэтому то что она будет делать
12:37
это производить распределение вероятностей по всем возможным словам в вашем словаре на самом деле она не
12:43
предсказывает слова она предсказывает токены которые представляют собой своего рода подсв единицы и поэтому легко
12:50
справляться с неопределённость в предсказании потому что существует лишь конечное количество возможных слов в
12:56
словаре и вы можете просто вычислить распределение по ним затем система выбирает слово из этого
13:03
распределения конечно вероятность выбрать слова с более высокой вероятностью в этом распределении выше
13:10
таким образом вы выбираете из этого распределения чтобы фактически получить слово а затем вы добавляете это слово
13:17
ввод и это позволяет системе предсказать второе слово верно И как только вы это сделаете вы добавляете его ввод и так
13:24
далее Это называется автогрейд зания поэтому эти большие языковые модели называют
13:39
автогрейд тем как произнести слово Когда вы говорите когда мы с вами говорим вы и
13:45
я двуязычные мы думаем о том что собираемся сказать И это относительно независимо от языка на котором мы
13:52
собираемся это сказать когда мы говорим о не знаю скажем математической
13:58
концепции или чем-то подобным тот вид мышления который мы используем и ответ который мы планируем дать Не связан с
14:05
тем на каком языке мы это увидим на французском русском или английском Омский просто закатил глаза но я понимаю
14:13
Итак вы говорите что есть более высокая абстракция которая предшествует языку Да
14:19
она соотносится с языком верно Это справедливо для многих видов мышления
14:24
которые мы делаем разве не очевидно что мы не то есть вы говорите что Ваше мышление одинаково на французском и
14:30
английском а в общем-то в общем-то или это как как насколько вы гибки Например
14:37
если есть распределение вероятностей Ну это зависит от того о мышлении говорим
14:42
верно если это просто если это создание каламбуров я лучше с этим на французском чем на английском нет но верно верно
14:49
верно Существует ли абстрактное представление каламбуров Как насчёт вашего юмора абстрактно ли это когда вы
14:55
Твити и ваши твиты иногда немного острые существует абстрактное представление в вашем мозгу от Вите прежде чем он станет
15:02
английским существует абстрактное представление о том как представить реакцию читателя на этот
15:08
текст вы начинаете со смеха а затем понимаете как это осуществить Определите
15:14
реакцию которую вы хотите вызвать а затем Найдите способ сказать это так чтобы она вызвала эту реакцию но это
15:20
действительно близко к языку но подумайте о математической концепции или
15:26
о том что вы хотите построить из дерева или что-то в этом роде тот вид мышления
15:31
который вы используете абсолютно не связан с языком Это не значит что у вас обязательно есть внутренний монолог на
Захватывающий спор: может ли ИИ думать без опыта физического мира?
15:37
каком-то конкретном языке вы представляете себе мысленные модели вещи верно если я попрошу вас представить как
15:45
будет выглядеть эта бутылка с водой если я поверну её на 90° это не имеет ничего
15:50
общего с языком Итак очевидно что существует более
15:56
абстрактный уровень представления в котором мы делаем большую часть нашего мышления и планируем что собираемся
16:02
сказать если результатом являются произнесённые слова в отличие от
16:08
результата представляющего собой мышечные действия мы планируем Наш ответ перед
16:14
его произнесения а большие языковые модели этого не делают они просто производят одно слово за другим
16:20
инстинктивно Если хотите это немного похоже на Вы знаете подсознательные
16:26
действия когда вылечены полностью сосредоточены и кто-то
16:32
подходит к вам и задаёт вопрос и вы как бы отвечаете на вопрос У вас нет времени
16:37
подумать над ответом но ответ прост Так что вам не нужно обращать на это внимание вы как бы отвечаете
16:43
автоматически вот что делает большая языковая модель верно она не думает о
16:49
своих данных она их извлекает потому что накопила много знаний Так что может извлекать некоторые вещи но она просто
16:55
будет выдавать один токен за другим не планируя ответ но вы заставляете это
17:01
звучать так будто одно слово за другим генерация одного токена за раз обязательно будет
17:10
упрощённой но если модель мира достаточно сложна то один токен за раз
17:18
то Наиболее вероятная последовательность токенов которую она генерирует будет глубоко значимой хорошо но это
17:25
предполагает что эти системы действительно обладают внутренней моделью Так что это действительно сводится к Я
17:31
думаю основному вопросу Можно ли построить действительно полную модель
17:37
мира не полную Но такую которая имеет глубокое понимание мира Да итак Можно ли
17:45
это построить прежде всего с помощью предсказания и ответ вероятно Да можно
17:51
ли это построить предсказывает Скорее всего нет Потому
17:59
точ зни слабо или низкой пропускной способности Если хотите просто недостаточно информации
18:07
поэтому построение модели мира означает наблюдение за миром и
18:12
понимание Поче мир развивается так как он развивается а дополнительным
18:18
компонентом модели мира является то что может предсказать как мир будет
18:23
развиваться в результате действия которое вы можете предпринять верно Итак
18:29
модель мира действительно представляет собой Вот моя идея о состоянии мира в момент времени T вот действие которое я
18:35
могу предпринять Каково предсказанное состояние мира в момент времени ти плю О
18:41
теперь это состояние мира не Обязательно должно представлять всё о мире оно должно представлять достаточно
18:47
информации которая имеет отношение к планированию действия но не обязательно
18:52
все детали теперь вот в ЧМ проблема вы не сможете сделать это с помою
18:57
генеративных моде Итак генеративная модель обучается на видео и мы пытались сделать это в
19:03
течение 10 лет вы берёте видео показываете системе фрагмент видео а затем просите её предсказать оставшуюся
19:10
часть видео в основном предсказать Что произойдёт один кадр за раз делая то же
19:15
самое что и автогор LM тоже но для видео верно либо один кадр за раз либо группа
19:22
кадров за раз Ну да большая видео модель если хотите
19:29
идея сделать это витает вокруг уже долгое время и фр некоторые из моих
19:35
коллег и я пытались сделать Это около 10 лет и вы не можете действительно сделать
19:42
тот же трюк что и с м потому что знаете ЛМ как я уже сказал Вы не можете точно
19:47
предсказать Какое слово будет следовать за последовательностью слов но вы можете предсказать распределение слов теперь
19:55
Если вы перейдёте к видео Вам нужно будет предсказать распределение по всем возможным кадрам в видео и мы не совсем
20:02
знаем как это сделать правильно мы не знаем как представлять распределение в высоко размерных
20:08
непрерывных пространствах так чтобы это было полезно и в этом заключается основная
20:14
проблема и причина по которой мы можем это сделать заключается в том что мир
20:19
невероятно более сложен и богат информацией чем чем текст текст
20:25
дискретен видео является
20:35
высокоразвитой комнаты и видео будет с камерой которая панорами ет вокруг я не
20:40
могу предсказать всё что будет в комнате когда я панорами система не может предсказать
20:46
Что будет в комнате когда камера панорами ет Может быть она предскажет что это комната где есть свет и стена и
20:53
подобные вещи она не может предсказать Как выглядит картина на стене или Какова текстура дивана
20:59
определённо не текстуру ковра таким образом она не может предсказать все эти детали таким образом один из способов
21:06
справиться с этим над которым мы работаем уже долгое время – это иметь модель которая имеет так называемую
21:12
скрытую переменную и скрытая переменная подаётся в нейронную сеть она должна
21:18
представлять всю информацию о мире которой у вас нет воспринять И что вам
21:23
нужно дополнить систему чтобы предсказание хоро
21:29
пред пикселей включая тонкую текстуру ковра дивана и картины на
21:37
стене это было полным провалом по сути и мы пробовали много вещей а мы пробовали
21:42
просто обычные нейронные сети мы пробовали Ган мы пробовали знаете ли ва
21:48
всевозможные
21:59
или видео которые затем можно было бы использовать в качестве входных данных например для системы классификации
22:07
изображений И это тоже по сути провалилось как и все системы которые пытаются предсказать недостающие части
22:14
изображения или видео из его повреждённой версии Итак я беру изображение или видео повреждают
22:28
и надеюсь что внутри система разработает хорошие представления изображений которые можно использовать для
22:34
распознавания объектов сегментации и так далее Это было по сути полным провалом и
22:41
это действительно хорошо работает Для текста это принцип который используется для ЛМ верно Так где именно заключается
22:48
провал в том что очень трудно сформировать хорошее представление изображения как хорошее встраивание всей
22:55
Важной информации в изображении или это связано с последовательностью изображений которые формируют видео
23:03
Каковы если мы сделаем нарезку всех способов которыми вы потерпели неудачу
23:08
как это будет выглядеть Итак причина по которой это не работает во-первых я
23:13
должен точно сказать вам что не работает потому что есть что-то другое что работает Итак то что не работает – Это
23:20
обучение системы для изучения представлений изображений обучая её восстанавливать
23:27
хорошее изображение из его повреждённой версии вот что не
23:32
работает и у нас есть целый ряд техник для этого которые являются вариантом нойзи авто энкодеров что-то под
23:38
названием мая разработанное некоторыми моими коллегами из Fire Max Dota encoder
23:44
Так что это в основном похоже на LM или подобные вещи где вы обучаема искажая
23:49
текст за исключением того что вы искажается изображени вы удаляете участки из него и обучается гигантскую
23:56
нейронную сеть восстанавливать полученные вами признаки некачественные
24:01
и вы знаете что они некачественные Потому что если вы теперь обучите ту же архитектуру но обучите её с
24:07
использованием размеченный данных с текстовыми описаниями изображений и TD
24:12
вы получите хорошее представления и производительность на задачах распознавания значительно лучше чем если
24:19
вы используете это самообучение так архитектура хорошая архитектура хорошая
24:25
архитектура энкодера хорошая но тот факт что вы обуча систему восстанавливать изображения не приводит к тому чтобы она
24:32
научилась извлекать хорошие общие признаки изображений Когда вы
24:37
обучаемого биовоск Какова альтернатива
24:44
альтернатива совместное встраивание Что такое совместное встраивание какие это
24:49
архитектуры которые вас так волнуют Хорошо теперь вместо того чтобы обучать систему кодировать изображение а затем
24:56
обучать е восстанавливать полно из испорченной версии вы берте полное
25:01
изображение берте испорченную или преобразован версию пропускаете их через кодировщик которые в общем идентичны но
25:08
не обязательно а затем вы обучается предсказатель на основе этих
25:15
кодировщика чтобы предсказать представление полного входа на основе
25:21
представления испорченного хорошо Итак совместное встраивание потому что вы бете и
25:28
испорченную версию или преобразован версию пропускаете их через кодировки вы
25:33
получаете совместное встраивание а затем вы спрашиваете Могу ли я предсказать представление полного на основе
25:39
представления испорченного хорошо и я называю это Дже Что означает архитектура совместного
25:45
встраивания и предсказание Потому что есть совместное встраивание и есть этот предсказатель который предсказывает
25:51
представление хорошего из плохого и большой вопрос в том как обучить что-то подобное и до 5 лет назад
26:00
6 лет назад У нас не было особенно хороших ответов на то Как обучать эти вещи кроме одного называемого
26:07
контрастивная где идея контрастивная заключается в том что вы берёте пару изображений которые
26:15
опять же являются изображением и испорченной версией или каким-то образом
26:20
деградированных
26:28
таким же как это если вы делаете только это система рушится она в основном полностью игнорирует входные данные и
26:34
производит представления которые являются постоянными Таким образом
26:43
контрастивная у меня была статья Об этом в 1993 году вы также показываете пары
26:53
изображений которые Как вы знаете различны а затем вы отталкивание друг от
26:58
друга таким образом вы говорите что представления вещей которые мы знаем одинаковы должны быть одинаковыми или
27:05
похожими но представления вещей которые мы знаем различны должны быть различными и это предотвращает коллапс
27:13
но у этого есть некоторые ограничения за последние 6-7 лет появилось множество
27:18
техник которые могут возродить этот тип метода Некоторые из них от FA некоторые
27:24
от Google и других мест но у этих контрастирующих методов есть
27:30
ограничения Что изменилось за последнее время знаете 3-4
27:35
года Теперь у нас есть
27:56
неконтролируемый есть полдюжины различных методов для этого Итак в чём
28:02
фундаментальное различие между архитектура совместного встраивания и большими языковыми моделями Так может ли
28:10
джапа привести нас к agi Должны ли мы сказать что вам не нравится термин agi и
28:16
Мы вероятно будем спорить я думаю каждый раз когда я с вами разговаривал мы спорили о gvg я понимаю я понимаю но Мы
28:26
вероятно продолжим спорить об этом Это здорово вам нравится Я имею в виду потому что вам нравится французский и я
28:34
имею в виду это Я полагаю друг по-французски Да а Ами означает
28:40
продвинутая машинна интеллект верно но в любом случае может ли джапа привести нас
28:45
к этому к продвинутой машинной интеллекты Ну это первый шаг хорошо Так
28:50
что прежде всего В чём разница с генеративными архитектура такими как ЛМ Итак
28:56
ЛМ или визуальные системы которые обучаются методом реконструкции генерировать входные
29:03
данные верно они генерируют оригинальный ввод который не
29:10
искажённом нужно предсказать все пиксели и в системе тратится огромное
29:15
количество ресурсов чтобы на самом деле предсказать все эти пиксели все детали в
29:21
Джеп вы не пытаетесь предсказать все пиксели Вы только пытаетесь предсказать
29:27
абстрактно вход данных верно и это намного проще во многих отношениях таким
29:34
образом то что система Jetpack пытается сделать во время обучения это извлечь
29:39
как можно больше информации из входных данных но при этом извлекать только ту информацию которую относительно легко
Революционная архитектура JEPA: как научить ИИ понимать мир
29:46
предсказать Итак есть много вещей в мире которые мы не можем предсказать Например если у вас есть автономный автомобиль
29:53
едущий по улице или дороге вокруг дороги могут быть деревя и может быть ветренный
30:00
день так что листья на дереве движутся в
30:06
полуханово
30:11
в основном устраняла все эти детали он скажет Вам что листья движутся но не
30:16
будет сохранять детали того что именно происходит и поэтому Когда вы делаете предсказание в пространстве
30:22
представлений вам не нужно предсказывать каждый отдельный пиксель каждого листа И это не только гораздо проще но
30:31
также позволяет системе по сути учиться и абстрагировать представление о мире
30:38
где то что можно смоделировать и предсказать сохраняется а остальное рассматривается как шум и устраняется
30:45
кодировщика таким образом это поднимает уровень абстракции представления Если вы
30:51
об этом подумаете это то что мы делаем всё время каждый раз когда мы описываем явление мы описываем его на определённом
30:57
уровня абстракции и мы не всегда описываем каждое природное явление с точки зрения квантовой теории поля верно
31:05
Это было бы невозможно верно Таким образом у нас есть несколько уровней абстракции чтобы описать то что
31:11
происходит в мире начиная с квантовой теории поля и заканчивая атомной теорией и молекулами а также химическими
31:18
материалами и знаете вплоть до конкретных объектов в реальном мире и
31:23
подобных вещей поэтому мы не можем моделировать всё только на самом низком
31:29
уровне и именно об этом идея Джеп изучать абстрактное представление в
31:35
само направленном режиме и вы можете делать это иерархически так что я думаю это важный
31:43
компонент интеллектуальной системы А в языке мы можем обойтись без этого потому что язык уже до некоторой степени
31:50
абстрактен и уже устранил много информации которая
31:55
непредсказуема и поэтому а мы можем обойтись без совместного встраивания не
32:01
поднимая уровень абстракции и напрямую предсказываю слова таким образом совместное
32:07
встраивание всё ещё является генеративным у но оно генеративной пространстве абстрактных представлений
32:13
Да и вы говорите что с языком мы были ленивы потому что уже получили абстрактное представление бесплатно а
32:20
теперь нам нужно отдалиться на самом деле подумать о generally intelligent Systems нам нужно
32:28
иметь дело с полным хаосом физической реальности реальности И вам
32:33
действительно нужно сделать этот шаг переходя от полного богатого
32:40
детализированного реальности к абстрактному представлению этой реальности на основе которого вы можете
32:46
затем рассуждать и делать всё такое верно и дело в том что те самонастрой
32:52
алгоритмы которые учатся на предсказании даже в пространстве представлений изучают больше
32:58
если входные данные которые вы им подаете более избыточные чем больше избыточности в данных тем больше они
33:05
способны захватывать некоторую внутреннюю структуру Итак в этом случае
33:10
в структуре перцептивных входов сенсорных входов таких как зрение гораздо больше избыточности чем в тексте
33:18
который не так уж и избыточно это возвращает нас к вопросу который вы задавали несколько минут назад язык
33:25
может представлять больше информации потому что уже сжат вы правы в этом но это также означает что он менее
33:31
избыточно и поэтому самонастрой се обучение не будет работать так же хорошо
33:37
Возможно ли объединить самонастрой обучение на визуальных
33:42
данных и самонастрой се обучение на языковых данных существует огромное
33:48
количество знаний даже если вы принижает степени токенов эти 10 в 1 степени токенов
33:55
представляют собой целое часть того что мы люди
34:01
выяснили как разговоры на редит так и содержание всех книг статей и всего
34:06
Спектра человеческого интеллектуального творчества Так возможно ли объединить
34:12
эти два аспекта Ну в конечном итоге Да но я думаю что если мы сделаем это
34:19
слишком рано мы рискуем быть искушённый обмануть И на самом деле именно это люди сейчас делают с моделью визуального
34:25
языка мы по сути обманываем мы используем язык как Костыль чтобы помочь
34:33
недостаткам наших визуальных систем научиться хорошим представлениям из изображений и видео проблема в том что
34:41
мы можем немного улучшить нашу визуальную языковую систему Я имею в виду наши языковые модели подавая им
34:49
изображение но мы не сможем достичь уровня даже интеллекта или понимания
34:55
мира кошки или собаки имеют языка у них нет языка и они понимают мир
35:01
гораздо лучше чем любая большая языковая модель они могут планировать сложные действия и как бы представлять результат
35:09
множества действий Как нам заставить машины научиться этому прежде чем мы объединим это с языком очевидно что если
35:15
мы объединим это с языком Это будет победителем эм но но перед этим мы
35:21
должны сосредоточиться на том как заставить системы учиться как устроен мир так что такая совместная эмбеддинг
35:28
прогнозирующих по вашему мнению сможет научиться чему-то вроде здравого смысла
35:34
чему-то что использует кошка чтобы предсказать как наилучшим образом
35:40
поразить своего хозяина сбив что-то это надежда на самом деле используемые нами
35:45
методы Не контрастивная а процедуры обучения
35:51
которые мы используем не контрастивная
35:58
и есть ряд методов которые используют этот принцип один из них от
36:04
называется несколько от один называется а другой и не является методом дистилляции
36:13
на самом деле но а и определённо являются и есть ещё один также
36:19
называемый дено который также был разработан иде этих методов заключается
36:24
в том что вво пропускаете его через кодировщик который
36:30
создат представление а затем вы искажает вод или
36:35
трансформирует по сути тот же кодировщик с некоторыми незначительными отличиями а
36:41
затем обучите предсказатель иногда предсказатель очень прост иногда его нет но обучите предсказатель чтобы
36:47
предсказать представление первого не
36:57
вы обучает часть сети которая получает искажённый ввод другую сеть вы не
37:03
обучает одинаковые веса когда вы изменяете первую это также изменяет вторую и с помощью различных приёмов Вы
37:11
можете предотвратить коллапс системы о котором я объяснял ранее когда система в основном игнорирует
37:17
ввод это э работает очень хорошо две техники
37:23
которые мы разработали Дена и айпа действительно хорошо для Это итак О каком типе данных мы
37:31
говорим есть несколько сценариев один из сценариев заключается в том что вы
37:37
берёте изображение и повреждается его изменяя обрезку например немного меняя
37:43
размер возможно меняя ориентацию размывая его меняя цвета делая с ним всевозможные ужасные вещи но основные
37:50
ужасные вещи основные ужасные вещи которые немного ухудшают качество и изменяют кадрирование вы знаете обрезают
37:58
и В некоторых случаях А в случае Ипа вам не нужно делать Ничего из этого вы просто
38:04
маскирует части верно вы просто по сути удаляете некоторые области как большой
38:10
блок а затем пропускаете через кодировщик и обучайте всю систему
38:16
кодировщик и предсказатель чтобы предсказать представление хорошего изображения из представления
38:23
повреждённого Итак это IG ему нужно что это изображение например Потому что
38:30
единственное что ему нужно знать это как делать это маскирование в то время как с deno вам нужно знать что это изображение
38:37
потому что вам нужно делать такие вещи как геометрическая трансформация размытие и подобные вещи которые
38:44
действительно специфичны для изображений более новая версия этого которую мы имеем называется VJ Pass что по сути та
38:51
же идея что и idp за исключением того что она применяется к видео теперь вы берёте целое видео и
39:02
маскирует собой своего рода временную трубку Так что и весь сегмент каждого
39:07
кадра в видео на протяжении всего видео и эта трубка была статически расположена
39:13
на протяжении кадров да Обычно это 16 кадров или что-то в этом роде и мы маскируем одну и ту же область на
39:19
протяжении всех шестнадцати кадров для каждого видео Это очевидно разное а
39:24
затем снова обучите эту систему чтобы предсказать представление полного видео из частично замаскированного видео и это
39:33
работает очень хорошо это первая система которую мы имеем которая обучает э
39:38
Хорошие представления видео Так что когда вы подаёт с учителем он может сказать вам
39:45
какое действие происходит в видео с довольно хорошей точностью Так что это
39:50
первый раз когда мы получаем что-то такого качества Так что это Хороший тест
39:56
есть понимание в этом есть что-то да у нас также есть предварительные
40:01
результаты которые похоже указывают на то что представление позволяет нашей системе определить Возможно ли видео
40:10
физически или совершенно невозможно потому что какой-то объект исчез или
40:15
объект внезапно переместился с одного места на другое или изменил форму или что-то в этом роде Так что она способна
40:23
захватывать некоторые физические ограничения реальности
40:29
а появление и исчезновение объектов Да это действительно Ново хорошо но может
40:36
ли это на самом деле достигнуть такого рода модели мира
40:41
которая понимает достаточно о мире чтобы уметь водить машину возможно я имею в виду что Это
40:48
займёт некоторое время прежде чем мы достигнем этой точки но уже существуют
40:53
системы знаете роботизированные системы основанные на этой
40:59
И для этого вам нужна немного модифицированная версия этого где
41:04
Представьте что у вас есть видео и полное видео и то что вы
41:11
делаете с этим видео это то что вы либо переводите его во времени в будущее Так что вы видите только начало видео но не
41:18
видите его последнюю часть которая есть в оригинале Либо вы просто масе вторую половину видео например и затем вые
41:27
систему ДПА типа которую я описал предсказывать представление полного
41:32
видео из смещённой действия например колесо поворачивается
41:40
на 10 градусов вправо или что-то в этом роде Итак если это видеорегистратор в машине
41:48
и вы знаете угол поворота руля Вы должны быть в состоянии предсказать В какой
41:53
степени произойдет то что вы видите можете предсказать все детали
41:58
объектов которые появляются В поле зрения очевидно но на уровне абстрактного представления вы вероятно
42:05
сможете предсказать Что произойдёт Итак Теперь у вас есть внутренняя модель
42:10
которая говорит Вот моя идея о состоянии мира в момент времени Т вот действие
42:16
которое я предпринимают предсказание состояния мира в момент времени T П 1 T п Дельта t
42:23
t П 2 секунды чтобы это ни было Если у вас есть модель такого типа Вы можете использовать её для планирования Итак
42:31
Теперь вы можете делать то что ЛМ не могут делать а именно планировать что вы
42:36
собираетесь сделать чтобы достичь определённого результата и удовлетворить конкретную цель итак у вас может быть
42:44
несколько целей м верно если вы знаете я могу Я могу
42:50
предсказать что если у меня есть такой объект верно и я открою руку он упадёт
42:55
верно и и м и если я толкнул най силой по столу он будет двигаться если я
43:02
толкнул он вероятно не сдвинется с той же силой Итак А у нас есть эта
43:07
внутренняя модель мира в нашем сознании которая позволяет нам планировать последовательности действий для
43:13
достижения определённой цели берат дбб Представьте
43:21
последовательность действий предскажите каков будет результат этой последовательности действий Измерьте В
43:28
какой степени конечное состояние удовлетворяет определённые цели например перемещение бутылки влево от стола а
43:35
затем спланируйте последовательность действий которая минимизируют эту цель в реальном времени мы не говорим о
43:42
обучении мы говорим о времени вывода Итак это действительно планирование в оптимальном управлении
43:49
это очень классическая вещь Это называется управлением на основе предсказательной модели У вас есть
43:54
модель системы которую вы хотите контролировать которая может предсказать последовательность состояний
44:00
соответствующую последовательности команд вы планируете последовательность
44:05
команд так чтобы Согласно вашей модели мира конечное состояние системы удовлетворяло установленной вами
44:13
цели таким образом траектории ракет планировались с тех пор как появились компьютеры то есть с начала шестидесятых
44:21
годов да для управления на основе предсказательной модели но вы также часто Говорите
“Кот умнее ChatGPT”: почему животные лучше понимают физический мир
44:27
планировании Может ли иерархическое планирование возникнуть из этого каким-то образом что ж нет вам придётся
44:33
создать специфическую архитектуру чтобы обеспечить иерархическое планирование Итак иерархическое планирование
44:40
абсолютно необходимо Если вы хотите планировать сложные действия если я хочу добраться скажем из
44:46
нью-йорка Париж Это пример который я использую всё время и я сижу в своём офисе в ню моя цель которую мне нужно
44:53
минимизировать – это расстояние до Парижа на высоком уровне очень абстрактное представление о моём
45:00
местоположении Мне нужно будет разложить это на две под цели первое добраться до
45:05
аэропорта вторая сесть на самолёт в Париж Хорошо моя по цель теперь
45:10
добраться до аэропорта моя целевая функция это расстояние до
45:16
аэропорта Как мне добраться до аэропорта Ну мне нужно выйти на улицу и поймать
45:22
такси Что можно сделать в нью-йорке хорошо теперь у меня есть ещ од по цель выйти на улицу но это
45:29
означает что нужно дойти до лифта спуститься на лифте и выйти на
45:34
улицу Как мне добраться до лифта Мне нужно встать со своего стула открыть
45:39
дверь в своём офисе подойти к лифту и нажать на кнопку
45:44
как мне встать со своего стула Ну вы можете представить что это сводится к контролю
45:50
мышц на уровне миллисекунд хорошо и очевидно вы
45:56
собираетесь планировать всю свою поездку из нью-йорка в Париж с учётом контроля мышц на уровне
46:02
миллисекунд во-первых это было бы невероятно дорого но это также было бы совершенно невозможно потому что вы не
46:08
знаете всех условий Что произойдёт сколько времени займёт поймать такси или
46:14
добраться до аэропорта с учётом пробок вам нужно точно знать состояние
46:19
всего чтобы иметь возможность планировать это А у вас нет информации поэтому вам нужно делать это
46:25
иерархическое планирование чтобы Вы могли начать действовать а затем как бы пересматривать план по мере продвижения
46:32
и никто э на самом деле не знает как это сделать в ии Никто не знает как обучить
46:38
систему чтобы она могла изучать соответствующие многослойные представления чтобы иерархическое
46:43
планирование работало что-то подобное уже возникает то есть Можете ли вы использовать ЛМ современную ЛМ чтобы
46:51
добраться из нью-йорка в Париж задавая точно такой же набор детализированных вопросов которые Вы только что задали а
46:58
именно Можете ли вы дать мне список из дети шагов которые мне нужно сделать чтобы добраться из нью-йорка в Париж а
47:06
затем для каждого из этих шагов Можете ли вы дать мне список из десяти шагов как мне осуществить Этот шаг а для
47:13
каждого из этих шагов Можете ли вы дать мне список из десяти шагов чтобы сделать
47:18
каждый из них пока вы не начнёте двигать отдельными мышцами может быть нет всё что вы действительно можете сделать
47:25
используя свой разум верно Так что есть много вопросов которые на самом деле подразумеваются
47:31
этим верно Первое ЛМ смогут ответить на некоторые из этих вопросов на определённом уровне
47:38
инструкций при условии что они были обучены на подобных сценариях в своём обучающем наборе они смогут ответить на
47:45
все эти вопросы но некоторые из них могут быть галлюцинациями то есть не фактическими Да верно я имею в виду что
47:53
они вероятно дадут какой-то ответ но они нетте контролировать мышцы с миллисекунд
47:58
точностью Когда вы встаёте со стула верно но до некоторого уровня абстракции Где вы можете описывать вещи словами Они
48:06
могут быть в состоянии дать вам план но только при условии что они были обучены составлять Такие планы Они не смогут
48:12
планировать ситуации с которыми никогда не сталкивались раньше им по сути придётся воспроизводить шаблон на
48:19
котором они были обучены но где например в случае нью-йорка и Парижа это начнёт
48:24
вызывать проблемы с какого у абстракции по вашему мнению это начнётся потому что
48:30
я могу представить почти каждую часть этого ЛМ сможет ответить довольно точно особенно когда речь идёт о нью-йорке и
48:37
Париже крупных городах Так что я имею в виду определённо ЛМ сможет решить эту
48:42
проблему если вы его подстроить под это вы знаете просто и поэтому я не могу сказать что м не может это
48:48
сделать он может это сделать если вы его обучите нет Никаких сомнений до
48:53
определённого уровня где мот быть сформулированы в терминах слов
48:59
но если вы хотите объяснить как спуститься по лестнице или просто встать с вашего стула словами вы не сможете это
49:07
сделать это одна из причин почему вам нужен опыт физического мира который
49:12
имеет гораздо большую пропускную способность чем то что вы можете выразить словами на человеческом языке
49:19
так что всё о чём мы говорили в контексте совместного встраивания Возможно это то что нам нужно для
49:25
взаимодействи с физической реальностью в области робототехники а затем ЛМ
49:31
являются тем что находится сверху Для более глубокого рассуждения о том что
49:37
мне нужно забронировать билет на самолёт и я знаю как зайти на сайты и так
49:42
далее конечно многие планы о которых люди знают относительно высокого уровня
49:49
на самом деле изучены их не изобретают Сами люди у нас
49:57
Конечно есть некоторые способности делать это но большинство планов которые
50:02
люди используют это планы на которых они были обучены например Они видели как
50:08
другие люди используют эти планы или им говорили Как делать вещи верно вы не можете изобрести как например взять
Иерархическое планирование: как ИИ может научиться строить сложные планы
50:14
человека который никогда не слышал о самолётах и спросить его Как добраться из нью-йорка в
50:20
Париж вероятно Они не смогут разобрать Весь план если раньше не видели примеров
50:25
этого условно м смогут это сделать но как связать это с низким уровнем
50:32
действий которые необходимо выполнить с помощью таких вещей как jpa которые в
50:37
основном поднимают уровень абстракции представления не пытаясь восстановить каждую деталь
50:44
ситуации Вот почему нам нужны jpa мне бы хотелось немного задержаться
50:50
на вашем скептицизм один из способов которым Я
50:56
хотел бы проверить этот скептицизм заключается в том что все что Вы говорите имеет большой
51:04
смысл но если я примен всё что вы сказали сегодня и вообще к не знаю 10
51:10
лет назад может быть немного меньше Нет давайте скажем 3 года назад я не смог бы
51:17
предсказать успешный ЛМ Так что вам кажется что
51:26
свою интуицию Потому что если бы я принял вашу мудрость и интуицию за чистую
51:32
монету я бы сказал что авто агрессивные ЛМ работающие с одним токеном за раз не
51:38
могут делать то что они делают Нет есть одна вещь которую
51:56
самообучения на протяжении многих лет так что эти вещи являются невероятно
52:02
впечатляющей демонстрацией того что самообучение действительно работает идея
52:07
которая знаете началась она не началась с с с но это действительно была хорошая
52:13
демонстрация этого Итак идея в том что вы берёте кусок текста
52:19
искажает его а затем преобразуете гигантскую нейронную сеть чтобы
52:25
восстановить недостающие принесла огромное количество преимуществ
52:30
это позволило нам создать системы которые понимают язык
52:35
системы которые могут переводить сотни языков в любые системы которые являются
52:40
многоязычные Так что они не это Единая система которой можно
52:45
обучить понимать сотни языков и переводить в любом направлении а также составлять
52:51
резюме отвечать на вопросы и генерировать текст
52:56
есть Особый случай когда Знаете вы это автогрейдера систему не разрабатывать
53:04
представление текста рассматривая весь текст а только предсказывать слово на основе слов которые были до этого и вы
53:11
делаете Это ограничивая архитектуру сети и на основе этого вы можете построить печально известную регрессионную
53:17
языковую модель Так что много лет назад был сюрприз с тем что называется только
53:22
декодирующее системы этого типа просто пытаются
53:28
производить слова на основе предыдущего и тот факт что когда вы увеличиваете их
53:34
масштаб они как правило начинают Лучше понимать язык Когда вы обучаешься
53:52
к работам связанным с gpt общим предо трансформером вы имеете в виду как gpt
53:59
есть определённое место где вы начинаете осознавать что увеличение масштаба может действительно продолжать приносить нам
54:06
новые преимущества Да я имею в виду что были работы из разных мест Но если вы
54:11
хотите как-то разместить это в хронологии gpt это было бы около gpt2
54:16
Да ну я просто потому что вы это сказали Вы так харизматично и сказали так много
54:22
слов но самообучение Да но опять же таже интуиция которую вы применяете утверждая
54:29
что автоагрегат глубоко понимать мир если мы просто применим ту же интуицию Имеет ли
54:35
смысл для вас что они способны сформировать достаточно представления о мире чтобы быть чёртов ски убедительными
“Забудьте о генеративном ИИ”: неожиданный взгляд на будущее искусственного интеллекта
54:43
по сути проходя оригинальный тест тьюринга с блестящими результатами ну
54:50
нас обманывает их беглость верно мы просто предполагаем что если система бегло манипулирует языком то она
54:56
обладает всеми характеристиками человеческого интеллекта Но это впечатление ложное что бы сказал Алан
55:03
тюринг не понимая ничего просто общаясь с этим Алан тюринг бы решил что тест
55:08
тьюринга Вот это действительно плохой тест хорошо Это то что сообщество и решило много лет назад что Тест тьюринга
55:15
был действительно плохим тестом интеллекта что бы сказал Ханс мораве о
55:21
больших языковых моделях Ханс морак сказал бы что Парадокс морока всё ещё применим
55:27
Я не думаю что вы будете действительно впечатлены Нет конечно ВС были бы впечатлены но вы знаете Это не вопрос
55:34
впечатления или нет Это вопрос о том что могут делать эти системы как бы то ни было они впечатляют они могут делать
55:42
много полезных вещей вокруг них строится целая индустрия они будут развиваться но есть много вещей которые они не могут
55:49
сделать и мы должны Осознать что они не могут сделать а затем понять как мы можем этого достичь и
55:56
Вы знаете я этого не вижу я говорю это основываясь на почти в десятилетнем
56:02
исследовании и идеи
56:07
самообучающиеся более чем на 10 лет назад Но идея
56:24
самообучающиеся меж конференция по обучению представлениям Это вся проблема
56:29
с которой сталкивается глубокое обучение верно и это моя Одержимость уже почти 40 лет таким образом обучение
56:36
представлениям действительно является ключевым моментом долгое время мы могли делать это только с помощью
56:41
контролируемого обучение а затем мы начали работать над тем что раньше называли неконтролируемым обучением и в
56:48
некотором роде возродили идею неконтролируемого обучения в начале 2000 с йоу бео и джеффом хитом затем мы
56:56
обнаружили что контролируемое обучение работает хорошо если собрать достаточно данных Итак вся идея неконтролируемого и
57:03
самоконтроле емо обучения на некоторое время Отошла на второй план а затем Я
57:09
попытался возродить это в большом масштабе начиная с 2014 года когда мы
57:14
начали FA и действительно настаивая на поиске новых методов для самоконтроле
57:20
емо обучения как Для текста Так и для изображений видео и аудио часть этой
57:26
работы была невероятно успешной Я имею в виду причина по которой У нас есть многоязычная система перевода например
57:33
для модерации контента в Мета на Facebook которая многоязычник речью ненависти или чем-то
57:40
другим связано с тем прогрессом который был достигнут с помощью самоконтроле емо обучения для обработки естественного
57:46
языка сочетается с архитектура Трансформеров и так далее Но это большой успех самоконтроле емо обучения У нас
57:53
был успех в распознавании речи система Wave которая также является архитектурой совместного встраивания обученной с
58:00
помощью контрастивная и Эта система также может создавать системы распознавания речи которые являются
58:06
многоязычные в основном с использованием не размеченный данных и нуждаются только в нескольких минутах размеченный данных
58:13
для фактического распознавания речи это удивительно у нас теперь есть системы
58:18
основанные на этих комбинациях идей которые могут выполнять синхронный перевод сотен языков друг на друга речь
58:25
в реч речь в речь включая даже просто увлекательные языки которые не имеют письменных форм они только устные верно
58:33
мы не проходим через текст это происходит напрямую от речи к речи используя внутреннее представление
58:38
своего рода дискретных единиц речи но это называется NLP без текста раньше мы
58:44
так это называли но да это я имею в виду невероятный успех а затем знаете в
58:49
течение де лет Мы пытались применить эту идею к обучению представлениям изображений обучая систему предсказывать
58:56
Изучая интуитив физику обучая систему предсказывать что произойдет в видео и пытались пытались и терпели неудачи с
59:03
генеративными моделями с моделями которые предсказывают пиксели мы не могли заставить их учиться
59:09
хорошим представлениям изображений мы не могли заставить их учиться хорошим представлением видео и мы пробовали
59:16
много раз мы опубликовали много статей по этому поводу Да ну Они вроде как работают но не очень
59:21
хорошо они начали работать мы отказались от идеи предсказания каждого пикселя и в
59:26
основном просто занимались цифровым встраивания и предсказанием в пространстве представлений это работает
59:33
Так что есть достаточно доказательств того что мы не сможем научиться хорошим
59:38
представлениям реального мира используя генеративную модель Так что я говорю людям Все говорят о генеративной ии Если
59:45
вы действительно заинтересованы в ии на уровне человека откажитесь от идеи генеративного
59:51
и хорошо но вы действительно думаете что возможно далеко продвинуться совместным
59:56
встраиваем представления Итак есть рассуждение на основе здравого смысла а затем есть
1:00:03
высокоуровневые рассуждения Мне кажется что это два типа рассуждений которые могут выполнять
1:00:10
большие языковые модели Хорошо не будем использовать слово рассуждение Но то что
1:00:15
могут делать большие языковые модели отличается от здравого смысла который мы
1:00:20
используем для навигации в мире Похоже что нам понадобится оба вы получить с
1:00:26
помощью совместного встраивания которое является подходом типа Дже рассматривая видео Смогли бы вы
1:00:34
научиться Давайте посмотрим как добраться из нью-йорка в
1:00:39
Париж понять состояние политики в мире сегодня верно Это вещи в которых
1:00:47
различные люди генерируют много языка и мнений в области языка Но не представляют Это визуально в какой-либо
1:00:54
чётко сжимаемой форме верно Есть много ситуаций которые вы
1:00:59
знаете могут быть сложными для системы основанной исключительно на языке например вы
1:01:06
вероятно можете научиться читая текст весь доступный текст в мире что я не могу добраться из нью-йорка в Париж
1:01:12
щелчком пальцев это Не сработает верно но вероятно есть более сложные
1:01:19
сценарии такого типа с которыми М возможно никогда не сталкивался
1:01:24
и не сможет определить Возможно это или
1:01:30
нет так что связь от низкого уровня к высокому Дело в том что высокий уровень
1:01:37
который выражает язык основан на общем опыте низкого уровня которого у ЛМ в
1:01:43
настоящее время нет когда мы разговариваем друг с другом Мы знаем что у нас есть общий опыт мира многое из
1:01:50
этого похоже Аум
1:01:55
этого нет но видите это присутствует у вас и у меня есть общий опыт мира в терминах физики того как работает
1:02:02
Гравитация и подобных вещей и это общее знание о мире Мне
1:02:08
кажется присутствует в языке мы не выражаем Это явно Но если у вас есть
1:02:15
огромное количество текста вы получите то что между строк
1:02:21
чтобы чтобы сформировать последовательный мир морали Вам нужно будет понять Как работает Гравитация
1:02:27
даже если у вас нет явного объяснения гравитации Так что хотя в случае
1:02:33
гравитации есть явные объяснения гравитации в Википедии
1:02:38
Но то что мы считаем здравым смыслом Мне кажется чтобы правильно генерировать
1:02:44
язык Вам нужно будет это понять теперь вы могли бы сказать как вы уже сказали что текста недостаточно Извините хорошо
1:02:52
Так Подождите вы так не думаете Нет я согласен с тем что вы только что сказали а именно что для того чтобы иметь
1:02:58
высокий уровень здравого смысла вам нужно иметь низкий уровень здравого смысла на который можно опираться Да но
1:03:05
этого нет и Этого нет в ЛМ ЛМ обучаются исключительно на текстах Так что с
1:03:10
другим утверждением которое вы сделали я бы не согласился что в каждом языке мира подразумевается основная
1:03:17
реальность есть много о основной реальности что не выражено в языке это очевидно для вас Да совершенно Так что
1:03:25
все разговоры которые у нас есть Что ладно есть тёмный веб имея в виду э
1:03:32
любые частные разговоры такие как личные сообщения и подобное что вероятно гораздо больше чем то на чём обучаются
1:03:38
ЛМ вам не нужно сообщать о том что является общим но юмор всё это Нет вам
1:03:45
нужно как когда вы вам не нужно но это проявляется как если бы я случайно
1:03:50
опрокинул это вы вероятно будете Смеяться надо мной и в контексте
1:03:56
того что вы смеетесь надо мной будет объяснение того факта что чашки падают а
1:04:02
потом вы знаете Гравитация работает таким образом и тогда у вас будет какая-то очень расплывчатая информация о
1:04:08
том какие вещи взрываются когда они ударяются о землю и возможно вы сделаете шутку о энтропии или что-то в этом роде
1:04:16
И мы никогда не сможем это восстановить снова типа Хорошо вы сделаете маленькую
1:04:22
шутку как это и будет триллион других шуток и из шуток вы сможете собрать факт что Гравитация работает и кружки могут
1:04:30
разбиться и всё такое вам не нужно это видеть э это будет очень неэффективно
1:04:35
проще чтобы не опрокидывать это да Но я чувствую что это было бы там если у
1:04:43
вас достаточно этих данных Я просто думаю что большая часть информации этого
1:04:49
типа которую мы накопили когда были детьми просто отсутствует в тексте в любом описании по сути э а сенсорные
1:04:56
данные являются гораздо более богатым источником для получения такого понимания Я имею в виду это 16.000 часов
1:05:03
бодрствования четырёхлетнего ребёнка 10 в пятна степени байт вы знаете проходящих через зрение только через
1:05:09
зрение верно существует аналогичная пропускная способность Вы знаете для осязания и
1:05:16
немного меньше для аудио а потом текст не появляется язык не приходит пока вы знаете не пройдёт год жизни и к тому
1:05:23
времени когда вам исполнится 9 лет вы уже знали о гравитации вы знаете о инерции вы знаете о гравитации вы знаете
1:05:29
о стабильности вы знаете вы знаете о различии между одушевлёнными и неодушевлёнными объектами вы знаете к 18
1:05:37
месяцам вы уже понимаете Почему люди хотят что-то делать и помогаете им если они не могут есть много вещей которые вы
1:05:43
учите в основном через наблюдение на самом деле даже не через взаимодействие в первые месяцы жизни младенцы
1:05:49
действительно не оказывают никакого влияния на мир они могут только наблюдать верно и вы налива Гигантское
1:05:56
количество знаний только из этого так что именно этого нам не хватает в современных системах
1:06:02
и я думаю на вашем слайде У вас есть этот красивый график который является
1:06:07
одним из способов показать что м ограничены мне интересно могли бы вы поговорить о галлюцинациях с вашей точки
1:06:15
зрения Почему галлюцинации происходят у больших
1:06:20
языковых моделей и в какой степени это является фундаментальным недостатком
1:06:27
верно из-за авторе предсказания Каждый раз когда м производит токен или слово
1:06:33
существует определённый уровень вероятности что это слово выведет вас за пределы разумных
1:06:39
ответов и если вы предполагаете что это очень сильное предположение что
1:06:44
вероятность такой ошибки независима для последовательности производимых
1:06:51
токенов Это означает что кажды ково то вероятность он того что вы останетесь в
1:06:57
пределах набора правильных ответов уменьшается и уменьшается экспоненциально таким образом существует
1:07:04
сильное предположение Как вы сказали что если есть не нулевая вероятность совершить ошибку что похоже так и есть
1:07:11
то будет своего рода дрейф да и этот дрейф экспоненциальный ошибки накапливаются
1:07:18
верно таким образом вероятность того что ответ будет бессмысленным увеличивается экспоненциально с количеством токенов
1:07:25
Это очевидно для Вас кстати Ну С математической точки зрения возможно но разве нет своего рода
1:07:33
притяжения к истине потому что в среднем Надеюсь истина хорошо представлена в
1:07:40
обучающем наборе нет это в основном борьба с проклятием размерности таким образом
1:07:48
способ исправить это заключается в том чтобы вы настроили систему заставив е давать ответы на всевозможные вопросы
1:07:54
которые Мот у Люде а люди Есть люди поэтому многие вопросы которые у них
1:08:01
есть очень похожи друг на друга таким образом вы вероятно сможете охватить 80% или
1:08:07
сколько-то вопросов которые люди будут задавать собирая данные а затем вы
1:08:13
настраиваете систему чтобы она давала хорошие ответы на все эти вопросы вероятно она сможет это выучить потому
1:08:19
что у неё много возможностей для обучения но затем существу набор запросов которые вы
1:08:27
не охватили во время обучения и этот набор огромен в пределах набора всех
1:08:34
возможных запросов доля запросов которые были использованы для обучения абсолютно
1:08:40
крошечной крошечный крошечный под набор всех возможных запросов и поэтому система будет правильно реагировать на
1:08:46
запросы которые были либо обучены либо предварительно обучены либо до настроены но затем существует целое
1:08:54
пространство вещей на которых она просто не могла быть обучена потому что число
1:08:59
этих вещей Гигантское таким образом любое обучение которому подвергалась система для получения адекватных ответов
1:09:07
можно сломать найдя подсказку которая будет вне набора подсказок на которых она была обучена или похожих на них И
1:09:15
тогда она просто начнёт выдавать полную чепуху Когда вы говорите подсказка вы
1:09:20
имеете в виду именно эту подсказку или вы имеете в виду подсказку которая м стя
1:09:26
очень отличается от так легко задать вопрос сказать что-то что ещ не было
1:09:31
сказано в интернете Я имею в виду что люди придумали такие вещи когда вы вводите по сути случайную
1:09:38
последовательность символов в подсказку И этого достаточно чтобы как бы
1:09:44
перевести систему в режим в котором она ответит на что-то совершенно другое чем ответила бы без этого так что это способ
1:09:51
взломать систему по сути заставить е выйти за пределы своего это очень наглядная демонстрация этого
1:09:59
Конечно вы знаете это выходит за рамки того для чего она предназначена верно если вы действительно соедините вместе
1:10:06
разумно грамматические предложения так ли легко это сломать Да некоторые люди делали такие
1:10:13
вещи Как написать предложение на английском верно или вы задаёте вопрос на английском и он даёт совершенно
1:10:19
нормальный ответ а затем вы просто заменяется несколько слов тем же словом
1:10:24
на другом языке и вдруг ответ становится совершенно другим Так что я думаю что я говорю о
1:10:30
том какая доля запросов которые люди вероятно создадут сломает систему так
1:10:38
что проблема в том что существует длинный хвост Да это проблема которую
1:10:43
многие люди осознали знаете в социальных сетях и подобном а именно что существует очень-очень длинный хвост вещей которые
1:10:50
люди будут спрашивать и вы можете достроить систему для 80% или сколько
1:10:55
там вещей которые большинство людей будет спрашивать а затем этот длинный хвост настолько велик что вы не сможете
1:11:01
Дона рои систему для всех условий в конце концов система оказывается чем-то вроде гигантской таблицы поиска верно по
1:11:08
сути что на самом деле не то что вы хотите вы хотите системы которые могут
1:11:13
рассуждать Конечно они могут планировать Так что тип рассуждений которые происходят в ЛМ очень-очень примитивен и
1:11:20
причина по которой вы можете сказать что он примитивен заключается в том что количество вычислений за затрачиваемое
1:11:25
на каждый сгенерированный токен постоянно так что если вы задаёте вопрос
1:11:31
и у этого вопроса есть ответ в заданном количестве токенов количество
1:11:37
вычислений посвящённое вычислению этого ответа можно точно оценить это размер сети предсказания с её 36 слоями или 92
1:11:46
слоями или сколько там умноженный на количество токенов вот и всё
1:11:51
итак по сути не имеет знания ответ на задаваемый
1:11:57
вопрос сложен ли он для ответа или невозможен для ответа потому что он не разрешим или что-то в этом
1:12:03
роде количество вычислений которое система сможет посвятить ответу постоянно или пропорционально количеству
1:12:10
токенов произведённых в ответе это не то как мы работаем то как мы
1:12:15
рассуждаем заключается в том что когда мы сталкиваемся со сложным проблемой или
1:12:21
сложным вопросом мы тратим больше времени на его решение и ответ верно потому что Это
1:12:26
сложнее существует элемент предсказания есть итеративный элемент Когда вы
1:12:31
корректируется своё понимание чего-то повторяя это снова и снова
1:12:37
существует иерархический элемент и так далее значит ли это что это
1:12:43
фундаментальный недостаток ЛМ или это значит что в этом вопросе есть больше
1:12:48
частей Теперь вы просто ведёте себя как ЛМ немедленно ответьте нет
1:12:56
это просто модель мира низкого уровня на основе которой мы можем затем строить
1:13:03
Некоторые из этих механизмов Как вы сказали постоянную долгосрочную память или рассуждение и так далее но нам нужна
1:13:11
эта модель мира которая исходит из языка Возможно не так сложно построить такую
1:13:17
систему рассуждений на основе хорошо построенной модели мира хорошо трудно
1:13:23
это или нет ближайшее будущее покажет Потому что много людей работают над способностями рассуждения и планирования
1:13:29
для диалоговых систем Я имею в виду если вы знаете Даже если мы
1:13:41
ограничимся связаны с языком который вы собираетесь использовать для формирования ответа Так что эта идея о
1:13:47
ментальной модели которая позволяет вам планировать то что вы собираетесь сказать прежде чем вы это
1:13:53
скажете это очень важно Я думаю что в течение следующих нескольких лет будет много систем
1:13:59
которые будут обладать этой способностью но чертежи этих систем будут крайне отличаться от
1:14:12
автогрейд тем что психологи называют системой оди и системой 2 у людей верно Итак система 1 – Это тип задачи которую
1:14:19
вы можете выполнить не задумываясь сознательно о том как вы это делаете
“Будущее за открытым кодом”: почему AI должен быть доступным для всех
1:14:25
доста раз чтобы просто делать это подсознательно верно не задумываясь об этом Если вы опытный водитель Вы можете
1:14:31
водить машину не задумываясь об этом и вы можете одновременно разговаривать с кем-то или слушать радио верно если вы
1:14:38
очень опытный шахматист Вы можете играть против неопытного шахматиста не задумываясь об этом Вы просто распознаёт
1:14:44
паттерн и играете верно Это и есть система один Итак все вещи которые вы
1:14:50
делаете инстинктивно не задумываясь о том чтобы намерено планировать дува это а затем есть все задачи где вам нужно
1:14:58
планировать Так что если вы не слишком опытный шахматист или вы опытный когда играете против другого опытного
1:15:03
шахматиста вы обдумывает верно вы думаете об этом некоторое время верно и вы э гораздо
1:15:11
лучше если у вас есть время подумать об этом чем если вы играете в блиц с ограниченным временем Итак этот тип
1:15:19
целенаправленного планирования который использует вашу внутреннюю модель мира это система 2 вот
1:15:27
что ЛМ в настоящее время не может сделать Как заставить их это сделать
1:15:32
верно Как построить систему которая может выполнять такое планирование или рассуждение
1:15:38
уделяя больше ресурсов сложным задачам чем простым и это не будет автогрейд
1:15:45
зания токенов это будет больше похоже на вывод скрытых переменных
1:15:53
в что раше вероятност моделями или графическими моделями и подобными вещами
1:16:00
Так что в основном принцип таков запрос похож на наблюдаемые переменные
1:16:07
а то что делает модель в основном является мерой она
1:16:13
может измерить В какой степени ответ является хорошим ответом на запрос хорошо Так что думайте об этом как о
1:16:20
каком-то гигантском нейроном сети но у него только один выход и это выход ное число которое скажем равно нулю если
1:16:27
ответ является хорошим ответом на вопрос и большое число если ответ не является хорошим ответом на вопрос Представьте
1:16:33
что у вас есть эта модель Если бы у вас была такая модель Вы могли бы использовать её для получения хороших
1:16:39
ответов способ которым вы бы это сделали заключается в том чтобы создать запрос а затем искать в пространстве возможных
1:16:45
ответов тот который минимизирует Это число это называется моделью энергии Но
1:16:52
это модель на основе энергии потребует модель построенную
1:16:58
М Итак на самом деле вам нужно не искать возможные строки текста которые
1:17:03
минимизируют эту энергию Но то что вы бы сделали это осуществить
1:17:09
это в пространстве абстрактных представлений то есть в неком пространстве абстрактных мыслей вы бы
1:17:14
развили мысль верно используя этот процесс минимизируя выход вашей модели
1:17:19
который является просто скаляром это процесс оптимизации верно таким образом система
1:17:25
выдаёт свой ответ через оптимизацию минимизируя целевую функцию по сути и мы говорим о выводе а не о
1:17:34
тренировке система уже была обучена Теперь у нас есть абстрактное представление мысли ответа представление
1:17:41
ответа мы подаём это в основном в автогрейдер который может быть очень простым и который превращает это в текст
1:17:47
выражающий эту мысль Так что На мой взгляд это план будущих диалоговых
1:17:55
систем они будут обдумывать свой ответ планировать свой ответ с помощью
1:18:00
оптимизации прежде чем превратить его в текст и это тюринг
1:18:05
полно можете объяснить В чём именно заключается проблема оптимизации Какова целевая функция
1:18:12
Просто чтобы задержаться на этом Вы как бы кратко описали это но по какому пространству вы
1:18:18
оптимизирует пространство представлений эти абстрактные представления итак у вас
1:18:23
есть абстрактное представление внутри системы у вас есть запрос запрос проходит через кодировщик производит
1:18:29
представление возможно проходит через предсказатель который предсказывает представление ответа правильного ответа
1:18:35
Но это представление может быть нехорошим ответом потому что может потребоваться сложное
1:18:42
рассуждение Таким образом у вас есть другой процесс который берёт представление ответов и модифицирует его
1:18:49
чтобы минимизировать функцию стоимости которая измеряет Отт
1:18:55
на вопрос Теперь мы как бы игнорируем эту проблему на
1:19:01
мгновение Как вы обучается эту систему чтобы измерить является ли ответ хорошим ответом на задачу но предположим что
1:19:08
такая система может быть создана каков процесс этот своего рода Процесс поиска
1:19:14
это процесс оптимизации Вы можете сделать это если вся система дифференцируема и этот скалярный выход
1:19:20
является результатом работы некоторой нейронной сети обработки ответа представления
1:19:26
ответа через некоторую нейронную сеть затем с помощью градиентного спуска обратного распространения градиентов Вы
1:19:33
можете понять как изменить представление ответа чтобы минимизировать это так что это всё ещё основано на градиенте это
1:19:38
вывод на основе градиента Итак теперь у вас есть представление ответа в абстрактном пространстве Теперь вы
1:19:45
можете превратить его в текст верно и классная вещь в этом заключается в том что представление Теперь может быть
1:19:52
оптимизировано с помощью градиентного спуска но также независимо от языка на котором вы собираетесь выразить
1:19:59
ответ верно Итак вы работаете в вычитаемым представлении Я имею в виду
1:20:04
это возвращает нас к совместному встраивания не знаю романтизируй эту
1:20:11
идею как в пространстве концепций против пространства конкретной сенсорной
1:20:16
информации верно хорошо но может ли это делать что-то вроде рассуждений о чём мы
1:20:23
говорим Ну не совсем только в очень простом смысле я имею в виду в основном Вы можете рассматривать эти вещи как
1:20:30
выполняющие тот вид оптимизации о котором я говорил за исключением того что они оптимизируют в дискретном
1:20:36
пространстве которое является пространством возможных последовательностей токенов и они делают
1:20:41
это они выполняют эту оптимизацию ужасно неэффективным способом который заключается в генерации множества
1:20:46
гипотез а затем в выборе лучших и это невероятно
1:20:52
расточительно с точки зрения вычислений потому что вам в основном нужно запускать вашу LM для каждой возможной
1:21:03
сгенерированного гораздо лучше проводить оптимизацию в непрерывном пространстве Где вы можете использовать градиентный
1:21:09
спуск вместо того чтобы генерировать кучу вещей и затем выбирать лучшие вы
1:21:14
просто итеративности
1:21:25
вы говорите О рассуждении о способности глубоко мыслить или глубоко
1:21:31
рассуждать как вы знаете какой ответ лучше на основе
1:21:37
глубокого рассуждение верно Итак мы задаём вопрос концептуально Как вы обучается модель на
1:21:43
основе энергии верно модель на основе энергии – это функция со скалярным выходом просто
1:21:49
число вы даёте ей два входа X и и она говорит вам совместимо ли X или нет X вы
1:21:56
наблюдаете скажем это подсказка изображение видео что угодно а это предложение для ответа продолжение
1:22:04
видео Вы знаете что угодно и она говорит вам совместимо ли и с X и способ которым она сообщает что е
1:22:10
совместима с X заключается в том что выход этой функции будет равен нулю если ВГ совместима с X это будет
1:22:16
положительное число отличное от нуля если ви несовместима с X хорошо как вы обуча такую систему на
1:22:24
совершенно общем уровне Вы показываете ей пары X и которые совместимы вопрос и
1:22:31
соответствующий ответ и обучайте параметры большой нейронной сети внутри чтобы она выдавала ноль теперь это не
1:22:39
совсем работает потому что система может решить Ну я просто скажу ноль для всего Теперь вам нужно иметь процесс
1:22:45
чтобы убедиться что для неправильного й энергия будет больше нуля и у вас есть
1:22:52
два варианта один из них контрастный метод контрастный метод заключается в том что вы показываете X и плохое Y и
1:22:59
говорите системе Ну это знаете ли Дайте высокую энергию этому как бы увеличите энергию верно Измените веса в нейронной
1:23:06
сети компьютерной энергии чтобы она увеличивалась Итак это контрастные
1:23:12
методы Проблема в том что если пространство ямо велико количество таких контрастных образцов которые нужно
1:23:19
показать будет гигантским но люди делают и они делают
1:23:26
это когда обучают систему с помощью шеф по сути то что вы обучается моделью
1:23:31
вознаграждения которая является по сути объективной функцией которая говорит вам Хороший ответ или плохой и это по сути
1:23:38
именно то что это есть так что мы уже делаем Это в какой-то степени Мы просто не используем Это для вывода мы просто
1:23:44
используем Это для обучения существует другой набор методов
1:23:50
которые являются не контрастными и я предпочитаю их эти не контрастные методы в основном
1:23:57
Говорят хорошо функция энергии должна иметь низкую энергию для пар X и которые
1:24:03
совместимы и происходят из вашего обучающего набора Как вы можете убедиться что энергия будет выше везде
1:24:10
остальном и способ которым вы это делаете заключается в наличии
1:24:17
регуляризации стоимости который в основном минимизирует объём пространства
1:24:23
которое может иметь низкую энергию и точный способ сделать это –
1:24:28
это всевозможные конкретные способы сделать это в зависимости от архитектуры Но это основной принцип Так что если вы
1:24:35
снижается функцию энергии для определённых областей в пространстве X она автоматически увеличится в других
1:24:41
местах потому что существует лишь ограниченный объём пространства который может иметь низкую энергию хорошо
1:24:47
благодаря конструкции системы или регу функции мы говорили очень обще Но что
1:24:53
такое хороши и хороший X Каково хорошее представление X
1:24:59
и потому что мы говорили о языке и если вы просто возьмёте язык Напрямую это
1:25:05
предположительно нехорошо Так что должно быть какое-то абстрактное представление
1:25:10
идей Да вы можете сделать это с языком напрямую просто знаете X – это текст а Y
1:25:17
продолжение этого текста это воно вы говорите это Не сработает это
1:25:25
будет как М ну нет это зависит от того как построено внутренняя структура системы
1:25:33
ЕС внутренняя структура сист построена таким образом что внутри Симы есть скрытая переменная Давайте назовём е Z
1:25:41
которую вы можете манипулировать Так что минимизировать выходную энергию тогда Z можно
1:25:47
рассматривать как представление хорошего ответа который вы можете перевести ВХ который является хорошим ответом
1:25:55
м образом такая система может быть обучена очень похожим образом очень похожим образом Но вы должны иметь
1:26:01
способ предотвращения коллапса обеспечивая высокую энергию для вещей на которых вы его не обучается и в
1:26:09
настоящее время это это очень неявно в ЛМ это делается так что люди не осознают
1:26:15
что это делается но это действительно так Это связано с тем что когда вы даёте высокую вероятность слову автоматически
1:26:22
вы дате низкую вероятность другим словам потому что у вас есть лишь конечное количество
1:26:28
вероятности Вы должны суммировать до одного таким образом Когда вы
1:26:34
минимизирует Крос тропи или что-то подобное Когда вы обучается свою м
1:26:39
предсказывать следующее слово вы увеличиваете вероятность которую ваша система даст правильному слову но также
1:26:46
уменьшается вероятность которую она даст неправильным словам теперь косвенно это
1:26:51
даёт высокую вероятность последовательностям которые хороши и низкую вероятность последовательностям
1:26:57
слов которые плохи но это очень косвенно Ага и это не так это не очевидно почему
1:27:04
это вообще работает потому что вы не делаете Это на совместной вероятности всех символов в последовательности вы
1:27:11
просто делаете Это как бы вы как бы Фактори зуе эту вероятность в терминах условных вероятностей для
1:27:17
последовательных токенов Итак как вы делаете Это для визуальных данных Итак мы делали это с архитектура ажи в
1:27:24
основном с совместным Бенин гомбо здесь совместимость между двумя
1:27:30
вещами Такова вот изображение или видео вот испорченная смещённая или преобразованная версия этого изображения
1:27:36
или видео или замаскированная а затем энергия системы Но это ошибка
1:27:43
предсказания представление предсказанное представление хорошей вещи по сравнению
1:27:50
с фактическим представлением хорошей вещи Итак вы подаете испорченное изображение в систему
1:28:00
предсказывает предсказания это энергия системы Итак Эта система скажет Вам
1:28:06
Является ли это хорошим изображением А это испорченной версией она даст вам нулевую энергию если эти две
1:28:13
вещи фактически являются одной испорченной версией другой она даст вам
1:28:19
высокую энергию Если два изображения совершенно разные и надеюсь это процесс
1:28:24
даст вам действительно хорошее сжатое представление реальности то визуальной
1:28:30
реальности и мы знаем что это так потому что затем мы используем эти представления в качестве входных данных
1:28:35
для системы классификации и Эта система классификации работает действительно хорошо хорошо Итак чтобы подвести итог
1:28:42
вы рекомендуете в в остром стиле который может только Ян ли кун вы рекомендуете
1:28:48
отказаться от генеративных моделей в пользу совместных архитектур встраивания да откажитесь от
1:29:00
автоагрегат от вероятностных моделей пользу моделей на основе энергии как мы
1:29:06
обсуждали откажитесь от контрастивная
1:29:15
время критикуете обучение с подкреплением Да итак последняя рекомендация заключается в том чтобы
1:29:22
отказаться от РЛ в пользу показательного управления моделями Как вы говорили и использовать л только тогда когда
1:29:29
планирование не даёт предсказанного результата и мы используем л в этом
1:29:34
случае чтобы скорректировать модель мира или критика Да итак вы упомянули ЛФ
1:29:41
обучение с подкреплением с человеческой обратной связью Почему вы всё ещё ненавидите обучение с подкреплением я не
1:29:48
ненавижу обучение с подкреплением и я думаю что его не следует полностью отвергать
1:29:54
но я думаю что его использование должно быть минимизированы потому что оно невероятно неэффективно с точки зрения
1:30:01
образцов Итак правильный способ обучить систему – это сначала заставить её изучить хорошие представления о мире и
1:30:08
модели мира в основном из наблюдений Возможно с небольшим количеством
1:30:14
взаимодействий а затем управлять на основе этого если представление хорошее то корректировки должны быть
1:30:20
минимальными Да теперь есть две вещи если вы изучили модель мира Вы можете использовать модель мира для
1:30:25
планирования последовательности действий для достижения определённой цели вам не нужно обучение с
1:30:32
подкреплением Если только способ которым вы измеряется успешны ли вы может быть
1:30:37
неточным ваша идея упадёте ли вы с велосипеда Возможно
1:30:43
неверной или о том Собирается ли человек с которым вы боретесь в MMA сделать
1:30:48
что-то одно а затем сделать что-то другое м так что там э итак есть два способа как вы можете
1:30:55
ошибаться либо ваша целевая функция не отражает фактическую целевую функцию которую вы хотите оптимизировать либо
1:31:02
ваша модель мира неточная таким образом предсказание которое вы делали о том что произойдёт в мире
1:31:09
неточно Поэтому если вы хотите скорректировать свою модель мира пока вы
1:31:14
действуете в мире или свою целевую функцию это по сути в области обучения с
1:31:19
подкреплением это то с чем в какой-то степени связано обучение с подкреплением Так что скорректируйте свою модель мира
1:31:27
и способ скорректировать свою модель мира даже заранее – это исследовать части пространство Где вы знаете что
1:31:34
ваша модель мира неточная это называется любопытством по сути или игрой когда вы играете вы исследуете
1:31:43
части пространства состояний вы не хотите делать это в реальности потому что это может быть
1:31:48
опасно Но вы можете скорректировать свою модель мира не убивая себя по сути
1:31:54
Так что именно для этого вы хотите использовать обучение с подкреплением когда приходит время учиться конкретной
1:31:59
задаче у вас уже есть все хорошие представления у вас уже есть ваша модель мира Но вам нужно скорректировать её для
1:32:06
текущей ситуации вот тогда вы используете обучение с подкреплением Почему вы думаете что обучение с
1:32:12
подкреплением с человеческой обратной связью работает так хорошо почему это
1:32:18
оказало такой трансформационный эффект на большие языковые модели ранее ранман
1:32:24
человеческая обратная связь Существует множество способов её использования и некоторые из них являются чисто
1:32:29
контролируемыми на самом деле это не совсем обучение с подкреплением Так что это человеческая обратная связь Это
1:32:35
человеческая обратная связь Да а затем есть различные способы использования человеческой обратной связи верно вы
1:32:42
можете попросить людей оценить ответы несколько ответов которые создаются моделью
1:32:49
мира а затем вы обуча целевую функцию чтобы предсказать эту оценку и Затем вы
1:32:55
можете использовать эту целевую функцию для предсказания Хорош ли ответ и вы можете обратным распространением
1:33:01
градиента настроить вашу систему так чтобы она производила только высоко оцен
1:33:07
ответы Так что это один из способов это похоже на обучение в обучении с подкреплением Что означает обучение так
1:33:14
называемой модели вознаграждения верно то есть некая небольшая нейронная сеть которая оценивает насколько Хороший
1:33:21
ответ Это похоже на цель ранее для планирования за исключением
1:33:26
того что теперь она не используется для планирования она используется для настройки вашей
1:33:32
системы Я думаю что было бы гораздо эффективнее использовать Это для планирования но в настоящее время это
1:33:38
используется для настройки параметров системы теперь есть несколько способов сделать это вы знаете Некоторые из них
1:33:45
являются контролируемыми вы просто спрашиваете человека например какой ответ хороший для этого верно Затем вы
1:33:51
просто вводите ответ есть много способов как эти системы
1:33:58
настраиваются теперь многие люди очень критично относится к недавно выпущенного
1:34:03
Google гени 15 по сути я мог бы сказать что он супер
1:34:09
пробуждённый пробуждённый в негативном значении этого слова есть некоторые
1:34:14
почти смешные абсурдные вещи которые он делает например изменяет историю гери изображение
1:34:24
Джорджа Вашингтона или возможно более серьёзно то что вы прокомментировали в Твиттере что отказывается комментировать
1:34:31
или генерировать изображение или даже описание площади нянь Мень или человека
1:34:37
с танком одного из самых легендарных изображений протестов в
1:34:42
истории конечно эти изображения сильно цензури китайским
1:34:49
правительством и поэтому все начали задавать вопросы о том каков
Острая дискуссия о предвзятости в современных AI системах
1:34:55
процесс разработки этих ЛМ Какова роль цензуры в этом и всё такое Итак вы прокомментировали в
1:35:03
Твиттере что открытый код – Это ответ да по сути можете
1:35:11
объяснить на самом деле я сделал этот комментарий почти на каждой социальной сети которую могу и я поднимал этот
1:35:19
вопрос несколько раз на различных форумах Вот моя точка зрения на это люди
1:35:25
могут жаловаться что системы и предвзяты и они как правило предвзяты из-за распределения обучающих данных на
1:35:32
которых они были обучены это отражает предвзятости в
1:35:39
обществе и это может быть потенциально оскорбительно для некоторых людей или
1:35:46
потенциально нет и некоторые техники для устранения предвзятости становятся возможно
1:35:52
оскорбительными для лю изза исторической некорректно и подобных
1:36:00
вещей Итак вы можете задать вопрос Вы можете задать два вопроса Первый вопрос
1:36:05
возможно ли создать систему ии которая не была бы предвзятый и ответ Абсолютно
1:36:10
нет и это не из-за технологических проблем Хотя такие проблемы существуют Дело в том что предвзятость
1:36:19
находится в глазах смотрящего иметь разные представления о том что
1:36:25
составляет предвзятость вы знаете по многим вопросам Я имею в виду что есть факты которые вы
1:36:31
знаете неопровержимые много мнений или вещей которые могут быть выражены по-разному
1:36:37
Итак вы не можете иметь беспристрастно систему это просто
1:36:44
невозможно Итак каков ответ на это ответ такой же как и тот который мы
1:36:50
нашли в либеральной демократии относительно прессы пресса должна быть свободной и
1:36:57
разнообразной У нас есть Свобода слова по уважительной причине мы не хотим
1:37:02
чтобы вся наша информация поступала из единственного источника потому что это противоречит самой идее
1:37:10
демократии вы знаете Прогресс идей и даже науки верно в науке люди должны
1:37:16
спорить по поводу разных мнений и наука делает Прогресс когда люди не согласны и находят ответ изна
1:37:23
консенсус верно и это верно для всех демократий мира таким образом существует
1:37:29
будущее которое уже происходит Где каждое наше взаимодействие с
1:37:34
цифровым миром будет опосредовано системами ии помощь ии верно У нас будут
1:37:40
умные очки вы уже можете купить их у Мета рейбан Мета Где вы знаете Вы можете
1:37:46
говорить с ними и они подключены к ЛМ и вы можете получить ответы на любой вопрос который у вас есть или
1:37:53
Вы можете смотреть на памятник и в системе в очках есть камера вы можете спросить что она может рассказать вам об
1:38:00
этом здании или памятники Вы можете смотреть на меню на иностранном языке и
1:38:06
устройство переведёт его для вас или вы можете делать перевод в реальном времени если говорите на разных языках таким
1:38:14
образом многие наши взаимодействия с цифровым миром будут опосредованные в ближайшем будущем
1:38:21
знаете ВС больше и больше мы будем использовать не будут
1:38:26
поисковыми системами они будут диалоговые которым мы просто задаём вопрос и они отвечают а затем указывают
1:38:33
вам Возможно на подходящую ссылку Но вот в чём дело мы не можем
1:38:39
позволить чтобы эти системы исходили от горстки компаний на Западном побережье США потому что эти системы будут
1:38:45
представлять собой хранилище всех человеческих знаний и мы не можем
1:38:50
позволить это кон м людей верно Это должно быть разнообразным по той же
1:38:56
причине пресса должна быть разнообразной Итак как мы можем получить
1:39:02
разнообразный набор и помощников обучить базовую модель очень дорого и сложно верно на данный момент это базовая ЛМ
1:39:09
знаете в будущем это может быть что-то другое но на данный момент это м поэтому только несколько компаний могут сделать
1:39:15
это правильно И если некоторые из этих лучших систем являются открытым исходным
1:39:21
кодом любой Может их использовать любой Может их донать если мы
1:39:28
внедрить любой группе людей будь то отдельные граждане группы
1:39:35
граждан государственные организации НПО компании или кто угодно чтобы взять
1:39:43
эти системы с открытым исходным кодом и и системы и до настроить их для своих
1:39:48
собственных целей на своих данных тогда у нас будет очень большое разнообразие
1:39:53
различных ии систем специализированных для всех этих задач верно Так что я вам
1:40:01
скажу я много говорил с французским правительством и французское правительство не примет того чтобы
1:40:07
цифровая диета всех их граждан контролировалась тремя компаниями на Западном побережье США это просто
1:40:14
неприемлемо Это угроза демократии независимо от того насколько благими намерениями обладают эти
1:40:21
компании это также угроза местной культуре ценностям
1:40:28
языку я разговаривал с основателем инфо сис в
1:40:35
Индии он финансирует проект по до настройке Лама 2 модели с открытым
1:40:40
исходным кодом созданной Мета чтобы Лама 2 говорила на всех 22 официальных языках
1:40:46
Индии это очень важно для людей в Индии я разговаривал с моим бывшим коллегой Мустафой сисе который раньше был учёным
1:40:53
а затем вернулся в Африку и создал исследовательскую лабораторию для Google в Африке А теперь у него есть новый
1:40:59
стартап под названием ра и то что он пытается сделать – это создать ЛМ который говорит на местных языках
1:41:05
Сенегала чтобы люди могли получать доступ к медицинской информации потому что у них нет доступа к врачам в
1:41:11
сенегале очень небольшое количество врачей на душу населения Я имею в виду что вы не можете
1:41:17
иметь Ничего из этого если у вас нет платформ с открытым исходным кодом с
1:41:22
платформами с открытым исходным кодом Вы можете иметь ии системы которые разнообразны не только с точки зрения
1:41:28
политических мнений или подобных вещей но и с точки зрения языка культуры
1:41:34
систем ценностей политических мнений технических возможностей в различных
1:41:40
областях и вы можете иметь индустрию экосистему компаний которые донара иватк
1:41:45
исходным кодом для вертикальных приложений в промышленности верно У вас есть я не знаю издательство у которого
1:41:51
есть тысячи книг и они хотят создать систему которая позволяет клиенту просто задать вопрос о содержании любой из их
1:41:58
книг вам нужно обучаться на их собственных данных верно У вас есть компания У нас есть одна в Мета она
1:42:06
называется Met Mate и это по сути LM который может ответить на любой вопрос о
1:42:11
внутренней информации компании очень полезно много компаний этого хотят верно
1:42:17
много компаний этого хотят не только для своих сотрудников но и для своих клиентов чтобы заботиться о своих клиентах таким образом единственный
1:42:24
способ создать индустрию ии единственный способ иметь ии системы которые не имеют
1:42:29
уникальных предвзятое – это наличие платформ с открытым исходным кодом на основе которых любая группа может
1:42:36
создавать специализированные системы таким образом неизбежное направление истории
1:42:43
заключается в том что подавляющее большинство и систем будет построена на основе открытых
1:42:49
платформ Это прекрасное видение то есть компании такие как Мета или Google и так
1:42:56
далее должны делать только минимальные Шаги по тонкой настройке после создания
1:43:02
основы
1:43:22
предобзор видео Марк Цукерберг очень привлекательное видео говорящее о
1:43:29
350.000 NVIDIA h100 математика Такова за
1:43:34
графические процессоры – это 100 млрд плюс вся инфраструктура для обучения я не бизнесмен э но как на этом
1:43:43
зарабатывать введение которое вы рисуете действительно мощная но как можно на
1:43:49
этом заработать хорошо Итак У вас есть несколько бизнес-моделей
1:43:55
верно бизнес-модель вокруг которой построена Мета заключается в том что вы
1:44:01
предлагаете услугу а финансирование этой услуги
1:44:06
осуществляется либо через рекламу либо через бизнес клиентов Например если у
1:44:11
вас есть ЛМ который может помочь маленькой пиццерии общаясь с
1:44:16
клиентом через WhatsApp таким образом клиенты Могут просто заказать пиццу и система будет
1:44:23
спрашивать их например Какие начинки они хотят или какой размер и так далее бизнес будет за это платить хорошо это
1:44:30
одна из моделей А в противном случае если это
1:44:37
система которая больше относится к классическим услугам она может поддерживаться рекламой или вы знаете
1:44:43
есть несколько моделей но суть в том что если у вас достаточно большой потенциальная клиентская база И вам всё
1:44:50
равно нужно построить эту систему для них то вам не повредит на самом деле распространить её с открытым исходным
1:44:56
кодом снова я не бизнесмен Но если вы Выпустите модель с открытым исходным
1:45:02
кодом то другие люди смогут выполнять аналогичные задачи и конкурировать с
1:45:08
вами в основном предоставлять настроенные модели для бизнеса конечно
1:45:13
это ставка которую делает Мета Кстати я большой поклонник всего этого но ставка
1:45:18
которую делает Мета заключается в том что мы сделаем это лучше нет ставка больше в том что у нас уже
1:45:24
есть огромная пользовательская и клиентская база Так что это будет полезно для них
1:45:32
всё что мы им предложим будет полезно и есть способ получить доход от этого И
1:45:38
это не повредит что мы предоставляем эту
1:45:43
систему или базовую модель фундаментальную модель с открытым исходным кодом Чтобы другие могли
1:45:50
создавать приложени на е основе же окажутся полезными для наших клиентов мы просто можем купить их у
1:45:58
них Возможно они улучшат платформу на самом деле мы уже это видим
1:46:04
Я имею в виду что есть буквально миллионы загрузок Лама 2 и тысячи людей которые предложили идеи о том как
1:46:11
сделать это лучше таким образом Это явно ускоряет Прогресс чтобы
1:46:17
сделать систему доступной для широкой аудитории и есть буквально тысячи
1:46:22
компаний которые буквально и всего создают приложение с его помощью таким образом способность Мета
1:46:29
получать доход от этой технологии не ухудшается из-за её
1:46:35
распространения этих моделей с открытым исходным кодом основная критика которую
1:46:41
получает Gemini заключается в том что как вы указываете на Западном побережье
1:46:46
просто чтобы прояснить мы сейчас на восточном побережье где Я полагаю находится штаб-квартира META ai
1:46:54
Итак сильные слова о Западном побережье но я думаю проблема в том что по
1:47:01
справедливости большинство технарей имеют политическую привязанность к
1:47:06
левому крылу они склоняются влево Итак проблема с которой люди критикуют мени
1:47:13
заключается в том что в процессе устранения предвзятости о котором вы упомянули присутствует их идеологическая
1:47:20
предвзятость это становится очевидным Можно ли
1:47:26
избежать этого вы говорите что открытый Исходный код – это единственный путь вы наблюдали
1:47:33
такую идеологическую предвзятость которая усложняет инженерное дело Нет я
1:47:39
не думаю что проблема связана с политической предвзятость людей разрабатывающих эти
1:47:44
системы Это связано с приемлемость или политическими наклонностями их это связано с при
1:47:54
их клинской Ба и аудитории большая компания не может позволить себе обидеть слишком многих людей поэтому они будут
1:48:01
уверены что любой продукт который они выпускают Безопасен Что бы это значило и
1:48:07
оче возможно переусердствовать и также невозможно сделать это правильно для
1:48:12
всех вы не сможете удовлетворить всех поэтому я и сказал ранее нельзя иметь
1:48:17
систему которая является беспристрастно и воспринимается как беспристрастно в се
1:48:23
это будет так Если вы продвигается это в одном направлении одна группа людей будет воспринимать это как предвзятое А
1:48:29
если вы продвигает направлении другая группа людей будет воспринимать это как предвзятое и Кроме этого есть проблема в
1:48:36
том что если вы продвинется не фактической верно У вас
1:48:44
будет знаете ли чёрный нацист Солдаты Да мы должны упомянуть генерацию
1:48:49
изображений чёрных нацистских солдат что не является фактически точным верно и
1:48:55
может быть оскорбительным для некоторых людей поэтому знаете будет невозможно
1:49:01
создать системы которые были бы беспристрастным для всех так что единственное решение которое я вижу –
1:49:08
это разнообразие и разнообразие в полном смысле этого слова разнообразие во всех
1:49:14
возможных аспектах Да Марк андрин только что твитнуть мне сделать краткий обзор вывод
1:49:23
в том что только стартапы и открытый код могут избежать проблемы которые он поднимает с большими
1:49:29
технологиями Он спрашивает Может ли большая технология выпускать продукты генеративного ии во-первых требования со
1:49:37
стороны внутренних активистов безумных руководителей сломанных Советов групп давления экстремистских регуляторов
1:49:44
госучреждений прессы в кавычках эксперты и всё что например портит
1:49:51
результат постоянный риск генерации плохого ответа создания плохой картинки
1:49:56
или рендеринга плохого видео Кто знает что скажет или сделает в
1:50:02
любой момент три юридическая ответственность ответственность за продукт клевета Закон о выборах многие
1:50:09
другие вещи и так далее Всё что может разозлить конгресс четыре постоянные попытки
1:50:15
ужесточить контроль над приемлемым результатом ухудшают модель Какова она на самом деле с точки зрения
1:50:23
использования приятности и эффективности и всего такого и пять публичность
1:50:28
плохого текста изображений видео на самом деле это добавляет эти примеры в
1:50:33
обучающие данные для следующей версии и так далее он просто подчёркивает насколько это сложно из-за того что
1:50:40
множество людей недовольны Он сказал что нельзя создать систему которая сделает всех счастливыми Поэтому если вы
1:50:47
собираетесь настраивать её самостоятельно и держать закрытым Исходный код основная проблема
1:50:53
заключается в том чтобы минимизировать количество людей которые будут недовольны Да и вы говорите что
1:50:59
единственный это почти невозможно сделать правильно а лучший способ – это использовать открытый Исходный код в
1:51:07
основном да я имею в виду что Марк прав по многим пунктам которые он
1:51:13
перечисляет и которые действительно пугают крупные компании вы знаете определённо
1:51:19
расследование конгресса там это одно из них ответственность вы знаете создание вещей которые заставляют людей вы знаете
1:51:27
причинять вред себе или другим крупные компании действительно
1:51:33
осторожны чтобы не производить вещи такого типа потому что они не хотят никому навредить прежде всего а
1:51:39
во-вторых они хотят сохранить свой бизнес таким образом для таких систем которые неизбежно могут формировать
1:51:46
политические мнения и мнения по различным вопросам которые могут быть политическими или нет но по которым люди
1:51:51
могут гша это по сути невозможно о моральных
1:51:57
вопросах и вопросах религии и подобных вещах или культурных вопросах с которыми
1:52:03
люди из разных сообществ изначально будут не согласны таким образом есть лишь относительно небольшое количество
1:52:09
вещей с которыми люди будут согласны основные принципы Но помимо этого если
1:52:15
вы хотите чтобы эти системы были полезными они неизбежно должны будут оскорбить определённое количество людей
1:52:23
Итак открытый код просто лучше разнообразие лучше верно а открытый код способствует разнообразию верно открытый
1:52:30
код к разнообразию это будет увлекательный мир где Если это правда
1:52:35
что мир открытого кода если Мета прокладывает путь и создаёт такую модель открытого кода будет как правительства
1:52:42
будут иметь точно настроенную модель а затем возможно будет способ
1:52:48
знаете ли люди которые голосуют за левых и правых будут иметь свою собствен модель и предпочтения для выбора и это
1:52:55
возможно ещё больше разделит нас Но это зависит от нас людей нам нужно
1:53:01
разобраться в основном технология позволяет людям более эффективно взаимодействовать и всё А сложные
1:53:08
этические вопросы которые поднимают люди просто оставят нам возможность разобраться с ними я имею в виду что
1:53:16
есть некоторые ограничения на то что знаете ли также как есть ограничения на свободу слова должны быть некоторые
1:53:23
ограничения на то что эти системы могут быть уполномочены производить знаете какие-то рамки Так что я имею в виду это
1:53:30
одна из вещей которая меня интересует Это тип архитектуры о которой мы говорили ранее
1:53:36
Где выход системы является результатом вывода для достижения цели эта цель
1:53:42
может включать рамки и мы можем установить рамки в системах с
1:53:48
открытым исходным кодом Я имею в виду если в конечном итоге у нас будут системы построенные по этому плану мы
1:53:54
можем установить рамки в этих системах которые гарантируют наличие минимального набора рамок которые делают систему
1:54:00
безопасной и нетоксично и так далее знаете основные вещи с которыми все согласны а затем знаете тонкая настройка
1:54:08
Которую люди добавят или дополнительные рамки которые люди добавят будут как бы соответствовать их сообществу чем бы оно
1:54:16
ни было и да тонкая настройка будет больше касаться серых зон того что является ненавистной речью что опасно и
1:54:23
всё такое Я имею в виду у вас или разные системы ценностей Я имею в виду но всё
1:54:29
же даже с целями Как построить биологическое оружие Например я думаю вы что-то комментировали или по крайней
LLaMA и будущее открытых моделей искусственного интеллекта
1:54:35
мере есть статья где группа исследователей пытаются понять социальные последствия этих
1:54:42
ЛМ Я думаю один из порогов заключается в том облегчает ли ЛМ это по сравнению с
1:54:49
поиском как например поиск в Google таким образом растущее
1:54:56
количество исследований по этому вопросу похоже указывает на то что это не помогает таким образом наличие ЛМ не
1:55:04
помогает вам разрабатывать или строить биологическое или химическое оружие если у Вас уже
1:55:10
есть доступ к поисковой системе и библиотеке Итак тот объём информации
1:55:15
который вы получаете или лёгкость с которой вы её получаете на самом деле не помогает вам это первое второе это одно
1:55:22
дело иметь список инструкций о том как сделать химическое оружие например или биологическое оружие совсем другое на
1:55:29
самом деле его построить и это гораздо сложнее чем вы можете подумать и нлм не
1:55:35
поможет вам с этим на самом деле никто в мире даже
1:55:40
страны не использует биологическое оружие потому что чаще всего у них нет понятия как защитить свои собственные
1:55:47
населения от него так что на самом деле это слишком опасно чтобы когда-либо использовать и И на самом деле это
1:55:53
запрещено международными договорами химическое оружие Но это другое оно также запрещено договорами но
1:56:00
проблема та же его трудно использовать в ситуациях которые не оборачиваются
1:56:06
против преступников но мы могли бы спросить Илона маска я могу дать вам
1:56:11
очень точный список инструкций о том как построить ракетный двигатель и даже если у вас есть команда из 15 инженеров
1:56:17
которые опытны вам ВС равно при взорвать несколько прежде чем
1:56:23
и вы знаете с химическим оружием или биологическим оружием или с такими вещами ВС тоже самое это требует
1:56:30
экспертизы вы знаете в реальном мире с чем авиакомпания вам не поможет и это
1:56:35
требует даже той экспертизы здравого смысла о которой мы говорили А именно как взять инструкции на основе языка и их
1:56:43
материализация в физическом мире требует много знаний которых нет в инструкциях
1:56:49
да именно так многие биологи на самом деле сказались по этому поводу в ответ на эти вещи говоря
1:56:56
осознаёт дно на самом деле выполнять лабораторную работу знаете Это не тривиально Да и Ханс Маро ВИЧ снова
1:57:03
выходит на свет Просто чтобы задержаться на ламе Марк объявил что Лама 3 в
1:57:08
конечном итоге выйдет Я не думаю что есть дата выхода Но что вас больше всего
1:57:14
волнует прежде всего Лама 2 которая уже доступна А может быть будущее Лама 3 4 5
1:57:20
6 10 просто открытого кода под управлением Мета Ну несколько вещей будут различные
1:57:28
версии Лама которые являются улучшениями предыдущих Лам более крупные лучшие мультимодальные
1:57:37
и тому подобное а затем в будущих поколениях системы способные к планированию которые действительно
1:57:44
понимают Как устроен мир возможно обученные на видео чтобы у них была какая-то модель мира возможно способные
1:57:50
к тому типу рассуждений ИП ком я говорил ранее Сколько времени это
1:57:55
замт когда исследования которые движутся в этом направлении начнут как-то влиять
1:58:00
на продуктовую линейку Лама Я не знаю не могу вам сказать и есть несколько
1:58:06
прорывов которые нам нужно в основном пройти прежде чем мы сможем туда добраться но вы сможете следить за нашим
1:58:14
прогрессом потому что мы публикуем наши исследования верно Итак вы знаете на прошлой неделе мы
1:58:20
опубликовали работу жепа которая является своего рода первым шагом к обучению систем для видео а затем
1:58:27
следующим шагом будут модели мира основанные на этом типе идеи обучении для
1:58:32
видео также есть аналогичная работа в Deep Mind происходят люди а также в UC
1:58:38
berk над мировыми моделями из видео многие люди работают над этим я думаю что появляется много
1:58:45
хороших идей моя ставка заключается в том что эти системы будут похожи на ДПА они не
1:58:51
будут равными моделями и мы увидим что скажет
1:58:56
будущее Есть действительно Хорошая работа в джентльмен по имени Ниш хафнер который
1:59:04
не определён кто работал над моделями этого типа который учат представления а затем используют их для планирования или
1:59:12
обучения задачам с помощью обучения с подкреплением и много работы в Беркли от Питера абела Саги ливена и группы других
1:59:20
людей этого типа с которыми на самом деле сотрудничаю в контексте некоторых грантов с моей шляпой nyu а также
1:59:28
сотрудничество через Мета потому что лаборатория в кли связана с Мета в некотором роде Так что
1:59:34
СФ Я думаю это очень захватывающе Я думаю я очень взволнован я не был так взволнован
1:59:41
направлением машинного обучения и и с тех пор как 10 лет назад был основан до этого 30
1:59:50
лет назад Мы работали над с вточ сетями и ранними днями нейронных
1:59:56
сетей поэтому я очень взволнован потому что вижу путь к потенциальному человеческому уровню
2:00:03
интеллекта с системами которые могут понимать мир запоминать Ясь планировать и рассуждать
2:00:11
существует набор идей чтобы продвинуться в этом направлении которые могут иметь шанс на успех и я действительно
2:00:18
взволнован этим что мне Мы как-то движемся в правильном
2:00:24
направлении и возможно добьёмся успеха прежде чем мой мозг превратится в белый
2:00:30
соус или прежде чем мне нужно будет уйти на пенсию да да Тебя также волнует разве
2:00:38
это некрасиво сколько пу задействовано Так что весь процесс обучения на таком
2:00:46
количестве вычислительных мощностей это просто отдаление просто взгляд на
2:00:51
зем люди вместе создали эти вычислительные устройства и могут обучать Этот один
2:00:57
мозг с открытым исходным кодом как будто рождается этот мозг с
2:01:03
открытым исходным кодом обученный на этой гигантской вычислительной системе остались только детали того как на этом
2:01:10
обучаться Как построить инфраструктуру и оборудование охлаждение все такие вещи
2:01:16
Или ты просто вс ещ большая часть твоего восторга связана с теоретической стороной есть
2:01:23
обеспечением ранее я был инженером Да верно десятилетие назад аппаратное
2:01:28
обеспечение Немного улучшилось Немного изменилось Да я имею в виду что масштаб
2:01:34
безусловно необходим но недостаточен абсолютно Так что нам определённо нужна
2:01:40
вычислительная мощность Я имею в виду что мы всё ещё далеки от необходимой вычислительной мощности чтобы
2:01:46
соответствовать вычислительной мощности человеческого мозга это может произойти в следующие пару деся
2:01:52
мы ВС е далеки от этого и безусловно с точки зрения энергоэффективности мы действительно
2:01:57
далеко так что нужно сделать много прогресса в аппаратном обеспечении
2:02:04
и сейчас много прогресса не я имею в виду что немного приходит от кремниевой
2:02:09
технологии Но много из архитектурных инноваций и довольно много приходит от
2:02:15
более эффективных способов реализации архитектур которые стали популярными в основном
2:02:22
Трансформеров и свёрточные верно Так что нам Ещё предстоит пройти определённый
2:02:28
путь прежде чем мы достигнем насыщения нам придётся придумать новые
2:02:35
принципы новые технологии производства новые базовые компоненты возможно основанные на других
2:02:43
принципах чем классический цифровой тис интересно Так вы думаете что для
2:02:50
создания Эми нам потенциально может понадобиться и
2:02:55
аппаратная инновация Ну если вы хотите сделать это повсеместным да конечно потому что нам
2:03:01
придётся снизить потребление энергии современный GP потребляет от
2:03:20
полукилометре огромный фактор Вы часто говорите что agi не
2:03:26
появится скоро то есть не в этом году не в ближайшие несколько лет возможно гораздо
2:03:32
позже Какова ваша основная интуиция по этому поводу во-первых это не будет
2:03:38
событием верно идея которая Как вы знаете популяризировал вдом
2:03:45
что кто-то откроет секрет секрет или на уровне человека или бы вы это не
2:03:52
называли а затем вы знаете включить машину и у нас будет agi это просто не
2:03:57
произойдёт это не будет события это будет постепенный Прогресс
2:04:03
Будем ли мы иметь системы которые могут учиться на видео как устроен мир и учиться хорошим представлениям Да прежде
2:04:10
чем мы достигнем масштаба и производительности которые мы наблюдаем у людей Это займёт довольно много
2:04:15
времени Это не произойдёт за один день Будем ли мы иметь системы которые могут
2:04:21
иметь большой объём ассоциативной памяти чтобы они могли запоминать вещи Да но то
2:04:26
же самое Это не произойдёт завтра я имею в виду есть некоторые базовые техники
2:04:31
которые нужно разработать У нас их много но как вы знаете заставить это работать вместе с полной системой Это другая
2:04:38
история Будем ли мы иметь системы которые могут рассуждать и планировать возможно в соответствии с архитектура ии
2:04:45
ориентированными на цели которые я описывал ранее да Но прежде чем это будет работать должным образом пройдёт
2:04:51
некоторое и прежде чем мы заставим все эти вещи работать вместе а затем вдобавок к этому
2:04:58
иметь системы которые могут учиться иерархическому планированию иерархическим представлениям системы
2:05:04
которые могут быть настроены для множества различных ситуаций как это делает человеческий мозг и м вы знаете
2:05:10
всё Это займёт как минимум десятилетие а вероятно и гораздо больше Потому что есть много проблем которые мы сейчас не
2:05:17
видим с которыми мы не сталкивались и поэтому мы не знаем Есть ли простое решение в рамках этой
2:05:25
системы Так что знаете это не так близко Я имею в виду я слышал как люди на
2:05:31
протяжении последних 12-15 лет утверждают что agi вот-вот появится и они систематически ошибались и я знал
2:05:38
что они ошибаются когда это говорили я называю Это чепухой почему по вашему мнению Люди так говорят Прежде всего я
2:05:45
имею в виду с самого начала с рождения термина искусственный интеллект существует вечный оптимизм
2:05:52
возможно отличается от других технологий Это парадокс моравица Является ли это
2:05:57
объяснением того почему люди так оптимистично настроены по поводу Я не думаю что это только
2:06:04
Парадокс моравица Парадокс моравица является следствием осознание того что мир не так прост как мы думаем прежде
2:06:11
всего интеллект – это нелинейная вещь которую можно измерить скалярном
2:06:16
числом Можно ли сказать что люди умнее орангутанов
2:06:21
отношениях да но в некоторых отношениях орангутаны умнее людей во многих
2:06:27
областях Это позволяет им выживать в лесу например таким образом IQ – это
2:06:32
очень ограниченная мера интеллекта вы считаете что интеллект больше чем то что например измеряет IQ Ну IQ может
2:06:39
измерять вы знаете примерно что-то для людей Но люди
2:06:44
А знаете ли довольно однородные Но это измеряет только один
2:06:50
тип способности который вы знаете может быть актуален для некоторых
2:06:55
задач Но не для других А если вы говорите о других разумных
2:07:00
сущностях для которых основные вещи которые им легко даются очень отличаются
2:07:06
то это ничего не значит таким образом интеллект – это
2:07:12
совокупность навыков и способность эффективно приобретать новые навыки
2:07:18
верно и совокупность навыков которыми обладает конкретная Разумная сущность или которые она
2:07:24
способна быстро усваивать отличается от совокупности навыков другой сущности и поскольку это многомерная
2:07:31
вещь набор навыков представляет собой пространство высокой размерности вы не можете измерить вы не можете сравнить
2:07:37
две вещи чтобы определить является ли одна более умной чем другая это
2:07:45
многомерное против так называемых апокали и
2:07:52
Поче вы считаете что они неправы Итак Апокалипс возможные сценарии катастроф
2:07:59
как и может вырваться из-под контроля и по сути убить нас всех и это
2:08:06
основывается на множестве предположений которые в основном ложны Итак первое предположение
2:08:13
заключается в том что появление суперинтеллект событием что в какой-то момент мы пойм
2:08:19
секрет и ВКМ Маши и поскольку мы никогда этого не делали
2:08:24
Раньше она захватит мир и убьёт нас всех Это неправда Это не будет
2:08:32
событием у нас будут системы которые будут умны как кот и будут обладать всеми характеристиками интеллекта на
2:08:38
уровне человека но их уровень интеллекта будет как у кота или попугая Возможно или
2:08:44
чего-то подобного а затем мы будем постепенно повышать их интеллект ког сде
2:08:50
их установим ограничения для правильного поведения и мы не будем делать это
2:08:55
только с одним это не будет единым усилием а будет множество разных людей занимающихся этим и некоторые из них
2:09:01
добьются успеха в создании интеллектуальных систем контролируемыми и безопасными и с правильными
2:09:07
ограничениями и если некоторые из них выйдут из-под контроля мы сможем использовать хорошие чтобы противостоять
2:09:13
тем кто вышел из-под контроля Так что это будет моя умная и полиция против твоего вышедшего из-под контроля и это
2:09:20
не будет так что мы будем подвержены одному ии который убьёт нас всех это не случится теперь есть ещё одна ошибка
2:09:27
которая заключается в том что поскольку система умная Она обязательно хочет захватить
2:09:33
власть и есть несколько аргументов которые пугают людей и я думаю что они
2:09:39
также совершенно ложные один из них заключается в том что знаете в
2:09:46
природе кажется что более умные виды – это те которые в конечном итоге доминируют над другими и
2:09:55
даже знаете уничтожают других иногда намеренно иногда просто по
2:10:01
ошибке и поэтому Знаете есть такое мышление при котором
2:10:07
вы говорите ну если ии системы умнее нас то они конечно нас уничтожат если не
2:10:14
намеренно то просто Потому что им на нас наплевать и это просто абсурд по ряду
2:10:20
причин при в том что они не будут видом они не будут видом которые конкурируют с
2:10:26
нами у них не будет желания доминировать потому что желание доминировать – это то что должно быть жёстко запрограммировано
2:10:33
в умной системе оно жёстко запрограммировано у людей оно жёстко запрограммировано у
2:10:40
бабуинов шимпанзе Волков но не у орангутанов виды в которых это желание
2:10:47
доминировать или подчиняться или достигать статуса другими СПО специфичны для социальных
2:10:54
видов не социальные виды такие как орангутаны не имеют этого верно и они
2:10:59
почти так же умны как и мы верно и для вас нет значительного стимула для людей закодировать это в системы ии и в той
2:11:06
степени в которой они это делают будут другие и которые своего рода накажут их
2:11:11
за это я буду конкурировать с ними из-за этого ну есть всевозможные стимулы сделать системы ии подчинёнными людям
2:11:18
верно я имею в виду Так мы будем их строить верно и тогда люди говорят о но посмотрите на ЛМ ЛМ не поддаются
2:11:24
контролю и они правы ЛМ не поддаются контролю но а ии ориентированный на цели
2:11:31
то есть системы которые получают свои ответы путём оптимизации цели должны
2:11:36
оптимизировать эту цель и эта цель может включать ограничения одно из ограничений –
2:11:42
это подчиняться людям другим ограничением является не подчиняться людям если это причиняет вред другим
2:11:48
людям я где-то это уже слышал не помню Да может быть в книге Да но говоря об
2:11:54
этой книге Могут ли быть непредвиденные последствия от всего этого Нет конечно
2:12:01
так что это не простая проблема верно я имею в виду что проектирование этих ограничений чтобы система вела себя
2:12:07
правильно не будет простым Это непростое вопрос есть универсальное решение У вас
2:12:13
есть математическое доказательство того что система может быть безопасной это будет очень Прогрессивная итеративная
2:12:18
система проектирования где мы установим ограничения таким образом чтобы система вела себя правильно И иногда они будут
2:12:25
делать что-то Неожиданное потому что ограничение было неправильным и мы исправим их чтобы они сделали это
2:12:31
правильно идея о том что мы не можем сделать это немного неправильно Потому что если мы сделаем это немного
2:12:36
неправильно мы все умрём абсурдно Мы просто будем двигаться постепенно
2:12:42
и это будет аналогия которую Я использовал много раз проектирование турбореактивного
2:12:49
двигателя как мы поняли как сделать турбореактивный двигатели настолько
2:12:54
невероятно надежными верно я имею в виду что это знаете ли невероятно сложные устройства которые работают при очень
2:13:01
высоких температурах иногда по 20 часов подряд мы можем пролететь половину мира
2:13:06
на двух моторном реактивном самолёте на скорости близкой к скорости звука как
2:13:12
это невероятно это просто невероятно и сделали ли мы это
2:13:21
изобрели общий принцип Как сделать турбореактивный двигатели безопасными нет потребовались десятилетия чтобы
2:13:27
как-то доработать проектирование этих систем чтобы они были безопасными Есть
2:13:32
ли отдельная группа внутри General Electric или снема или кто-то ещё кто специализируется на
2:13:39
безопасности турбореактивный двигателей нет проектирование полностью сосредоточено на безопасности потому что
2:13:46
лучший турбореактивный двигатель также является более безопасным то есть более
2:13:51
с ии всё также Нужны ли специальные меры для обеспечения безопасности ии Нет
2:13:56
нужно создавать лучшие системы ии и они будут безопасными потому что они разработаны для того чтобы быть более
2:14:02
полезными и более управляемыми Итак давайте представим систему систему ии
2:14:08
которая может быть невероятно убедительной и может убедить вас в чём угодно я по крайней мере могу
2:14:15
представить такую систему и я могу представить такую систему как оружие
2:14:22
потому что она может контролировать умы людей мы доверчивы мы хотим верить в что-то У вас есть система ии которая это
2:14:28
контролирует и вы можете увидеть как правительство использует это как оружие Так вы думаете Если вы представите такую
2:14:36
систему Есть ли какие-либо параллели с чем-то вроде ядерного
2:14:42
оружия Так почему это технология отличается вы говорите что будет
2:14:48
постепенное развитие будет Я имею в виду это может быть быстро но будет
2:14:58
итеративности ии разработанная Владимиром Путиным или его
2:15:03
приспешника вы знаете будет пытаясь поговорить с каждым американцем чтобы
2:15:08
убедить их голосовать за кого угодно кто поддерживает Путина или что-то в этом
2:15:16
роде или вы знаете или разжигать людей друг против друга
2:15:23
как Они пытались делать они не будут говорить с вами они будут говорить с вашим ai ассистентом
2:15:31
который будет таким же умным как их верно этот и потому что как я уже сказал
2:15:37
в будущем Каждое ваше взаимодействие с цифровым миром будет осуществляться через вашего ai ассистента Так что
О роботах в нашем будущем: когда ждать прорыва в робототехнике?
2:15:43
первое что вы Спросите это это мошенничество это говорит мне правду он даже не сможет добраться до вас
2:15:51
будет говорить только с вашим ai ассистентом ваш ai ассистент даже не будет он будет как Спам фильтр верно вы
2:15:57
даже не видите электронное письмо спам письмо верно оно автоматически помещается в папку которую вы никогда не
2:16:03
видите будет тоже самое та система и которая пытается убедить вас в чём-то будет говорить с вашей системой и
2:16:10
которая будет как минимум такой же умной и она скажет что это спам она даже не привт ваше внимание
2:16:18
поэтому для вас очень трудно чтобы либо одна система ии сделала такой Большой скачок вперёд чтобы убедить даже другие
2:16:25
системы ии таким образом всегда будет своего рода гонка
2:16:31
где никто не будет сильно впереди Это история мира история мира такова что знаете когда где-то
2:16:37
происходит Прогресс появляется контрмеры и знаете э игра в кошки-мышки Вот почему
2:16:45
в основном да Но именно поэтому ядерное оружие так интересно потому что это было
2:16:50
такое мощное оружие что имело значение Кто получит его первым вы знаете Вы
2:16:57
можете представить Гитлера Сталина Мао получивший оружие первым
2:17:05
оказал на мир другое влияние чем Соединённые Штаты получившие оружие
2:17:10
первыми для вас ядерное оружие не ассоциируется с прорывным открытием и
2:17:15
усилиями подобными манхэттенскому проекту для ии
2:17:21
нет как я уже сказал это не будет событием это будет непрерывный Прогресс
2:17:26
И когда вы знаете происходит одно прорывное событие оно будет быстро на
2:17:31
широко распространено вероятно сначала в отрасли Я имею в виду что это не та
2:17:37
сфера Где вы знаете государственные или военные организации особенно инновационные И на самом деле они сильно
2:17:43
отстают и так это будет исходить от отрасли и такая информация распространяется чрезвычайно быстро мы
2:17:50
видели это за последние несколько лет верно Когда у вас появляется что-то новое например alp Go это было
2:17:57
воспроизведено в течение ТХ месяцев даже без особенно детальной информации Да это
2:18:02
отрасль которая не умеет хранить секреты нет Но даже если это так просто
2:18:08
тот факт что вы знаете что что-то возможно заставляет вас понять что стоит
2:18:13
потратить время на то чтобы это сделать вы можете быть вторым человеком который это сделает Но вы это сделаете
2:18:21
и Тоже самое касается всех инновации
2:18:35
самонаблюдения возможно потому что это внедрено а затем воспроизводится а затем
2:18:41
люди работающие в этих компаниях переходят они переходят из одной компании в другую и информация
2:18:49
распространяется Что делает успех технологическая индустрия США и в частности Силиконовая долина именно в
2:18:56
этом Это потому что информация circulates очень-очень быстро и распространяется очень быстро и поэтому
2:19:03
Весь регион как бы опережает благодаря этому круговороту информации может быть стоит немного
2:19:10
задержаться на психологии пессимистов по поводу ии вы приводите в классическом
2:19:15
стиле янна Куна довольно хороший пример того когда появляется Нова
2:19:21
технология вы говорите Инженер говорит я изобрёл эту новую вещь я называю это шариковой
2:19:28
ручкой и затем Twitter отвечает омг люди могут писать ужасные вещи с помощью
2:19:34
этого такие как дезинформация Пропаганда ненависть запретите это сейчас затем приходят писатели
2:19:43
пессимисты Представьте у всех шариковая ручка нужен закон против использования
2:19:49
ручки для вести регулируйте шариковые ручки сейчас а затем Магнат индустрии
2:19:55
карандашей говорит Да шариковые ручки очень опасны в отличие от письма
2:20:01
карандашом которое можно стереть письмо шариковой ручкой остаётся навсегда государство должно требовать лицензию
2:20:08
для производителей ручек Я имею в виду это действительно кажется частью человеческой психологии Когда речь идёт
2:20:15
о новых технологиях Какие глубокие идеи Вы можете высказать
2:20:21
по этому поводу Ну существует естественный страх перед новыми технологиями и тем
2:20:29
воздействием которое они могут оказать на общество и у людей есть своего рода инстинктивная реакция на угрозу их
2:20:35
знакомому миру из-за крупных преобразований будь то культурные явления
2:20:40
или технологические Революции и они боятся за свою культуру
2:20:48
боятся за свою работу за будущее своих детей и свой образ
2:20:55
жизни поэтому любое изменение вызывает страх и вы видите это на протяжении
2:21:01
истории любая технологическая революция или культурное
2:21:07
явление всегда сопровождались группами или реакцией в СМИ которые в основном приписывали все
2:21:14
проблемы текущие проблемы общества этому конкретному изменению верно электричество в какой-то
2:21:21
момент должно было убить всех поезд должен был стать ужасной вещью потому что вы не можете дышать на скорости выше
2:21:27
50 км вчс Итак есть замечательный сайт под названием pessimist ахай который
2:21:34
содержит все эти газетные вырезки обо всех ужасных вещах которые люди представляли что произойдут из-за либо
2:21:42
технологических новшеств либо культурных
2:21:48
явлений существует замечательно приме когда Джа или комиксы обвинялись в
2:21:55
безработице или в том что молодые люди больше не хотят работать и В подобных
2:22:01
вещах это существует На протяжении веков
2:22:08
и эта реакция на уровне рефлекса вопрос в том принимаем ли мы
2:22:14
изменения или сопротив им и каковы реальные опасности по сравнению с
2:22:22
воображаемыми поэтому люди беспокоятся о том я думаю о том насколько мощным будет ии о чём мы говорили снова и снова но я
2:22:30
думаю что стоит упомянуть это снова они беспокоятся о том что он окажется в
2:22:36
руках одной централизованной власти или всего лишь НДФЛ центрального
2:22:44
контроля Итак это скептицизм по отношению к большим технологиям эти компании могут
2:22:50
огромные деньги и контролировать эту технологию и делая это вы знаете
2:22:57
злоупотреблять эксплуатировать мелкого человека в обществе Вот почему нам нужны платформы с открытым исходным кодом Да я
2:23:05
просто хотел ещё больше подчеркнуть эту мысль Позвольте мне спросить вас о
2:23:12
вашем как я уже сказал Вы немного ярче на Интернете и оши твит что-то над чем
2:23:18
вы лолли в связи с л 9000 цитата Я ценю ваш аргумент и полностью
2:23:24
понимаю ваши разочарование но вопрос о том Должны ли двери шлюза быть открытыми или закрытыми является сложным и
2:23:31
многогранным так что вы глава Мета ai Я владею знаете Это то что меня
2:23:38
действительно беспокоит что и или и правители будут говорить с нами
2:23:43
с корпоративным языком такого рода и выв
2:23:51
образом жизни Можете ли вы прокомментировать это Работая в большой компании Как можно
2:23:57
избежать чрезмерного страха Я полагаю из-за осторожности можно нанести
2:24:05
вред Да снова я думаю что ответ на это открытые платформы а затем
2:24:11
предоставление возможности широкому разнообразию людей совать и ассистентов
2:24:16
которые представляют разнообразие
2:24:21
и сием ценное по всему миру чтобы вы не были привязаны только к вы знаете быть
2:24:28
промытые мозгами определённым образом мышления из-за единого и сущности Так
2:24:34
что я имею в виду я думаю что это действительно очень важный вопрос для общества и проблема которую я вижу
2:24:43
заключается в этом Именно поэтому я так активно вызываю ином
2:24:49
сарка не останавливаясь потому что я вижу опасность этой концентрации власти
2:24:54
через проприетарные и системы как гораздо большую опасность чем всё
2:25:00
остальное если мы действительно Хотим разнообразия мнений в будущем например возможно Все мы без исключения будем
2:25:08
взаимодействовать через современные и системы которые будут развиваться нам нужно чтобы они были
2:25:15
разнообразными для сохранения разнообразия идей исповедания и политические мнения и
2:25:22
что угодно а также сохранение демократии что противоречит этому так
2:25:29
это люди которые считают что по соображениям безопасности мы должны
2:25:34
держать и системы под замком Потому что слишком опасно отдавать их в руки всем
2:25:40
так как их могут использовать террористы или что-то
2:25:45
подобное это может привести к потенциально очень плохо будущему в
2:25:51
котором вся наша информационная диета будет контролироваться небольшим числом компаний с
2:25:59
проприетарные Вы доверяете людям с этой технологией чтобы создавать системы которые в целом полезны для человечества
2:26:06
разве это не то о чём говорит демократия и свобода слова так думаю вы доверяете институтам делать правильные вещи Вы
2:26:13
доверяете людям делать правильные вещи Да есть плохие люди которые будут делать плохие вещи но у них не будет
2:26:19
Превосходно технологии по сравнению с хорошими людьми Так что тогда это будет мой хороший ии против твоего плохого ии
2:26:26
верно примеры о которых мы только что говорили о том что возможно какая-то
2:26:31
Мятежная страна создаст ии систему которая попытается убедить всех вступить
2:26:38
в гражданскую войну или выбрать благоприятного правителя Но тогда им прид преодолеть
2:26:45
наши и системы и система с сильным русским акцентом будет пытаться убедить нас
2:26:51
и не ставит никаких артиклей в свои предложения Да ну это будет по крайней мере абсурдно
2:27:00
комично хорошо Итак поскольку мы говорили о физической
2:27:05
реальности мне бы хотелось узнать ваше видение будущего с роботами в этой физической
2:27:11
реальности многие из тех видов интеллекта о которых вы говорили позволят роботам быть более эффективными
2:27:17
сотрудниками для нас людей Итак поскольку команда Optimus от Tesla
2:27:23
демонстрировала некоторые успехи в области гуманоидный роботов Я думаю это
2:27:29
действительно вдохнула новую жизнь В целую индустрию Я думаю что Boston dynamics лидировали очень-очень долго
2:27:36
теперь есть множество компаний Figure ai очевидно Boston dynamics UNI 3 UNI 3 Но
2:27:44
их как бы много здорово Это здорово Я имею в виду Мне это нравится Так что Как
2:27:50
вы думаете скоро будет м миллионы гуманоидные роботов гуляющих вокруг не
2:27:56
скоро но это произойдёт Я думаю что следующее десятилетие будет действительно интересным для роботов
2:28:03
появление индустрии робототехники ожидалось 10-20 лет не проявляясь на самом деле Кроме предустановленное
2:28:09
поведения и подобных
2:28:15
вещей и главная Проблема в том снова Парадокс моравица как вы знаете
2:28:20
заставить эти системы понять как работает Мир и планировать действия но мы можем это сделать для
2:28:25
специализированных задач а способ которым занимается Boston
2:28:31
dynamics заключается в том что вы знаете в основном это много ручных динамических
2:28:37
моделей и тщательное планирование заранее Что является очень классической робототехникой с множеством инноваций и
2:28:43
немного восприятия Но это всё ещё не так они не могут создать домашнего робота Но
2:28:49
верно м и мы ВС ещё находимся на некотором
2:28:54
расстоянии от полностью автономного вождения уровня пить и
2:29:01
мы безусловно очень далеки от того чтобы иметь автономное вождение уровня 5п с
2:29:06
системой которая может обучаться водя 20 часов как любой семнадцатилетний Так что
2:29:14
пока у нас нет мировые модели могут обучаться чтобы
2:29:21
понять как работает Мир мы не увидим значительного прогресса в робототехнике поэтому многие люди
2:29:29
работающие над робототехнический оборудованием в данный момент ставят или рассчитывают на то что ии сделает
2:29:36
достаточный Прогресс в этом направлении и они надеются также открыть продукт в
2:29:42
этом прежде чем у вас будет действительно сильная мировая модель будет почти сильная мировая модель и и Я
2:29:50
полагаю люди пытаются найти продукт в неуклюжем роботе например Не идеально
2:29:56
эффективный робот есть Фабричная обстановка где роботы помогают автоматизировать аспекты фабрики Я думаю
2:30:04
что это безумно сложная задача из-за всех требований безопасности и всего такого я думаю что в домашних условиях
2:30:10
это более интересно но затем вы начинаете думать Я думаю вы упомянули загрузку посудомоечной машины верно Да Я
2:30:17
полагаю это одна из основных над которой вы работаете Я имею в виду что есть
2:30:23
Уборка Уборка дома очистка стола после еды мытьё посуды все эти
2:30:31
задачи приготовление пищи все задачи которые в принципе могут быть автоматизированы но на самом деле
2:30:37
невероятно сложные действительно запутанные Но даже просто базовая навигация в пространстве полном
2:30:43
неопределённости Это вроде как работает вы можете как бы сделать это сейчас навигация в порядке Ну навигация таким
2:30:50
образом который был бы интересен нам людям это другое дело Да это не обязательно будет Я имею в виду у нас
2:30:58
есть демонстрации на самом деле Потому что есть так называемая группа воплощён
2:31:03
ии в FA и они не строят своих роботов а используют коммерческих роботов и вы
2:31:10
можете сказать роботу собаки Иди к холодильнику и они действительно могут открыть холодильник и вероятно могут
2:31:17
взять банку из холодильника и подобные вещи и принести вам так что они могут
2:31:22
навить хватать объекты если Они пытались их распознать что вы знаете системы зрения сейчас работают довольно хорошо
2:31:29
но это не совсем такой знаете универсальный робот который был бы достаточно сложным чтобы делать такие
2:31:36
вещи как убирать со стола после ужина да Для меня это захватывающее
2:31:42
будущее получение гуманоидные людям напрямую
2:31:48
взаимодействовать с темами в физическом пространстве и таким образом Это позволяет нам философски и
2:31:54
психологически исследовать наши отношения с роботами это будет интересно
2:32:00
Так что я надеюсь что вы скоро добьётесь прогресса с джапа Ну я надеюсь что всё
2:32:06
будет работать по плану я имею в виду что мы снова работаем над идеей самообучения из видео
2:32:13
в течение 10 лет и только за последние 2 или 3 года добились значительного
2:32:18
прогресса сказали что есть много прорывов возможных без доступа к множеству вычислительных мощностей Так
2:32:26
что если Вас интересует получение степени PHD есть много возможностей для
2:32:31
инновационной работы какой совет вы бы дали студенту бакалавриата который хочет поступить в аспирантуру и получить
2:32:38
степень PHD Итак в основном я уже перечислил их
2:32:43
Это идея о том как обучить мировую модель на основе наблюдений и вам не обязательно обучаться на гигантских
2:32:49
наборах данных Я имею в виду вы могли бы сделать так чтобы это было необходимо для
2:32:55
обучения на больших наборах данных чтобы иметь возникающие свойства как у ЛМ но я думаю что есть много хороших идей
2:33:02
которые можно реализовать без необходимости масштабирования затем возникает вопрос
2:33:07
как планировать с помощью обученной мировой модели если мир в котором эволюционирует система не является
2:33:14
физическим миром а скажем миром интернета или каким-то миром где
2:33:19
действия заключается в выполнении поиска в поисковой системе опросе базы данных
2:33:25
запуске симуляции вызове калькулятора или решении дифференциального уравнения
2:33:30
Как заставить систему на самом деле спланировать последовательность действий для решения
2:33:36
проблемы таким образом вопрос планирования не сводится только к
2:33:42
планированию физических действий это может быть планирование действий для использования инструментов в диалоговой
2:33:48
системе или для ро интеллектуальной системы и есть некоторые работы в этой
2:33:54
области но не в большом количестве некоторая работа одна из них называется Tool for которая была несколько лет
2:34:01
назад и несколько более недавних работ по планированию но я не думаю что у нас
2:34:06
есть хорошее решение для чего-либо из этого затем возникает вопрос иерархического
2:34:13
планирования Так что пример который я упомянул планируя поездку из нью-йорка в
2:34:18
Париж является иерархическим но почти каждое действие которое мы совершаем в
2:34:23
каком-то смысле включает иерархическое планирование и у нас действительно Абсолютно нет представления как это
2:34:29
сделать в и нет никаких демонстраций иерархического
2:34:36
планирования где м различные уровни представлений которые необходимы были
2:34:43
изучены мы можем осуществлять двухуровневое иерархическое планирование когда мы проектируем два уровня Например
Напутствие будущим исследователям: главные проблемы AI для решения
2:34:50
у вас есть робот похожий на собаку верно вы хотите чтобы он прошёл из гостиной на кухню Вы можете спланировать путь
2:34:56
который обходит препятствия а затем Вы можете отправить это на планировщик
2:35:01
нижнего уровня который определяет как двигать ноги чтобы следовать за этими
2:35:06
траекториями верно это работает но это двухуровневое планирование разрабатывается вручную мы указываем
2:35:13
Какие уровни абстракции и представления на каждом уровне абстракции должны быть как вы это
2:35:20
Как вы изучаете эту иерархическую репрезентацию планов действий мы знаем что с помощью сверточных нейронных сетей
2:35:27
и глубокого обучения мы можем обучить систему работать с иерархическим
2:35:32
представлениями восприятий каков эквивалент когда то что вы пытаетесь представить Это планы действий что
2:35:39
касается планов действий Да вы хотите чтобы робот собака или гуманоидный робот включался и путешествовал из нью-йорка в
2:35:46
Париж самостоятельно верно У него могут возникнуть проблемы в
2:35:54
но нет но даже выполнение чего-то довольно простого как домашняя задача например готовка или что-то в этом роде
2:36:01
Да в этом много нюансов это супер сложная задача и снова Мы принимаем это как
2:36:07
должное какую надежду Вы имеете на будущее человечество мы говорим о стольких
2:36:13
захватывающих технологиях стольких захватывающих возможностях
2:36:19
Когда вы смотрите на следующие 10 20 50 100 лет если посмотреть на социальные
2:36:25
сети там много всего войны разделения ненависть всё это тоже часть
2:36:31
человечества но среди всего этого Что даёт вам
2:36:37
надежду Мне нравится этот вопрос мы можем сделать человечество
2:36:42
умнее с помощью и хорошо я имею в виду что и в основном
2:36:49
усилит человеческий интеллект это как если бы у каждого из нас был штат умных
2:36:55
и и ассистентов они могут быть умнее нас они будут исполнять наши поручения
2:37:03
возможно выполнять задачи так как гораздо лучше чем мы могли бы
2:37:08
сделать сами потому что они будут умнее нас Итак это как если бы каждый был
2:37:14
начальником штата суперум виртуальных людей поэтому мы не должны чувствовать угрозу
2:37:21
от этого больше чем мы должны чувствовать угрозу будучи менеджером группы людей Некоторые из которых умнее
2:37:29
нас У меня определённо есть большой опыт в этом знаете когда рядом со мной работают
2:37:37
люди которые умнее меня на самом деле это замечательно поэтому наличие машин
2:37:42
которые умнее нас и помогают нам во всех наших задачах в нашей повседневной жизни будь то профессиональная или личная Я
2:37:49
думаю было бы абсолютно замечательной вещью потому что интеллект – это товар который наиболее
2:37:55
востребован на самом деле все ошибки которые совершает человечество происходят из-за недостатка интеллекта
2:38:01
действительно или недостатка знаний что вы знаете связано ээ с тем что делая людей умнее мы можем
2:38:10
только стать лучше я имею в виду по той же причине что вы знаете государственное
2:38:15
образование – это хорошая вещь книги – это хорошая вещь и интернет тоже по сути
2:38:20
Хорошая вещь И даже социальные сети это хорошая вещ если их правильно управлять
2:38:27
это сложно но вы знаете это помогает в комуникации информации и знаний а также
2:38:35
в передаче знаний Так что и и сделает человечество
2:38:40
умнее аналогия которую я использую заключается в том что возможно эквивалентным
2:38:46
событиям в истории человечества тому что может предоставить обобщение и
2:38:53
помощника является изобретение печатного станка это сделало всех
2:38:58
умнее факт в том что люди могли получить доступ к книгам книги стали намного дешевле чем
2:39:05
были раньше и поэтому у гораздо большего числа людей появилась мотивация учиться
2:39:11
читать чего не было раньше и люди стали
2:39:16
умнее это способствовало Просвещению Просвещение не было бы без печатного
2:39:23
станка это способствовало философии
2:39:29
рационализму освобождению от религиозной доктрины демократии
2:39:37
науке и безусловно без этого не было бы ни американской Революции ни французской
2:39:42
революции и возможно мы всё ещё находились бы под феодальными режимами
2:39:49
Итак это полностью преобрази мир Потому что люди стали умнее и как бы узнали о
2:39:56
многих вещах теперь это также создало 200 лет по сути религиозных конфликтов в Европе
2:40:03
верно потому что первой книгой которую читали люди была Библия и они поняли что
2:40:09
возможно существует другое толкование Библии чем то что говорили им священники Итак это создало
2:40:16
протестантское движение и привело к расколу на самом деле католическая церковь не одобрял идею печатного станка
2:40:23
но у них не было выбора у него были как плохие так и хорошие последствия Я не
2:40:28
думаю что кто-то сегодня скажет что изобретение печатного станка имело в целом негативный эффект Несмотря на то
“ИИ сделает человечество умнее”: оптимистичный взгляд в будущее
2:40:34
что оно создало 200 лет религиозных конфликтов в Европе теперь Сравните это
2:40:41
и я думал что очень Горжусь собой за то что придумал эту аналогию но я понял что
2:40:47
кто-то другой прил к тойже иде до меня Сравните это с тем что произошло в Османской империи Османская империя
2:40:55
запретила печатный станок на 200
2:41:01
лет и она не запрещала его для всех языков только для арабского на самом
2:41:06
деле вы могли печатать книги на латыне или иврите или на любом другом языке в
2:41:12
Османской империи только не на арабском и я
2:41:17
думал что это бы связа с тем что правители просто хотели сохранить
2:41:22
контроль над населением и домой религиозной домой и всем остальным но после разговора с министром
2:41:29
и ОАЭ омаром Аль омаром он сказал мне что нет была другая
2:41:36
причина а другой причиной было то что это было необходимо для сохранения
2:41:42
сотрудничества каллиграф существует форма искусства
2:41:47
которая заключается в написани Эх красивых арабских стихов или любых религиозных
2:41:53
текстов в этом стиле И это была очень мощная корпорация Песцов которая по сути
2:41:58
управляла большой частью империи и мы не могли вывести их из бизнеса поэтому они
2:42:04
запретили пекинскую прессу для защиты этого
2:42:09
бизнеса теперь Какова аналогия для ии сегодня кого мы защищаем запрещая ии кто
2:42:15
эти люди которые просят регулировать ии чтобы защитить свои ра места
2:42:21
и конечно это действительно вопрос о том Каковы будут последствия технологической
2:42:26
трансформации такой как ии для рынка труда и рабочей силы и есть экономисты
2:42:34
которые гораздо более компетентны в этом чем я но когда я с ними разговариваю они говорят нам что знаете мы не останемся
2:42:39
без работы это не приведёт к массовой безработицы это будет постепенный
2:42:46
переход к другим профессиям мы не имеем представления о том какие
2:42:52
профессии будут востребованы через 10 или 15 лет если вернуться на 20 лет
2:42:57
назад Кто мог подумать что самой востребованной работой даже 5-10 лет
2:43:02
назад будет разработчик мобильных приложений когда смартфоны ещё не были изобретены большинство профессий
2:43:09
будущего может быть в метавселенной Ну возможно да Но суть в том что вы не
2:43:15
можете предсказать но вы правы Я имею в виду вы привели много убедительных аргументов И я верю что люди по своей
2:43:22
сути добры и если и и особенно открытый и и может сделать их умнее это просто
2:43:29
усиливает доброту в людях Так что я разделяю это чувство хорошо Я думаю что
2:43:35
люди по своей сути добры И на самом деле многие пессимисты становятся пессимиста
2:43:41
потому что не считают людей по своей сути добрыми и они либо не доверяют людям либо не
2:43:48
доверят инту чтобы те поступали правильно чтобы люди вели себя должным образом Ну я думаю что и вы и я верим в
2:43:54
человечество и я думаю что говорю от лица многих людей когда говорю спасибо за поддержку движения открытого кода за
2:44:02
стремление сделать как исследование так и и и открытыми делая это доступным для
2:44:08
людей сами модели делая их открытыми Так что спасибо за это и спасибо что
2:44:13
Говорите То что думаете яркими способами Я верю что вы никогда не остановитесь вы
2:44:19
Интересный человек за которым могу быть фанатом так что Ян Спасибо что поговорили со мной и Спасибо что вы есть
2:44:26
Спасибо Рекс Спасибо что послушали разговор с Яном лекуносомбат
2:44:49
и Надеюсь увидеть вас в следующий раз

Поделиться: