Краткий пересказ
В лекции автор объясняет, что нейронные сети и языковые модели понимают, и рассматривает некоторые угрозы ИИ. Он начинает с исторического контекста, описывая две парадигмы интеллекта: логический подход, основанный на символических правилах, и биологический подход, основанный на изучении силы связей в нейронной сети.
Автор объясняет, что искусственные нейронные сети состоят из входных, промежуточных (скрытых) и выходных нейронов. Входные нейроны могут представлять интенсивность пикселей изображения, а выходные нейроны — классы объектов на изображении. Промежуточные слои нейронов учатся распознавать признаки, важные для поиска объектов.
Автор также описывает методы обучения нейронных сетей, включая метод мутации и метод обратного распространения ошибки. Метод обратного распространения ошибки более эффективен, особенно при использовании цепного правила. Нейронные сети используются для распознавания объектов на изображениях и создания описаний.
Автор также рассматривает языковые модели, объясняя, что символический ИИ считает, что нужно хорошо владеть языком, а некоторые лингвисты скептически настроены. Он описывает свою работу в 1985 году, когда он создал первую языковую модель, обученную с помощью метода обратного распространения ошибки.
Автор также объясняет, что есть две теории значения: структуралистская теория, согласно которой значение слова зависит от соотношения с другими словами, и теория, согласно которой значение слова — это большой набор признаков. Он показывает, как объединить эти теории в простой модели, используя генеративную модель, которая изучает взаимодействие признаков для предсказания признаков следующего слова.
В заключение, автор рассматривает возможность, что нейронные сети могут овладеть знаниями, которые символист вложил бы в правила, и объясняет, как нейронная сеть может изучать знания о взаимоотношениях людей, представляя их как символы и признаки.
Расшифровка видео
0:00
. Сейчас я разочарую всех людей в области информатики и машинного обучения.
0:05
Потому что прочитаю лекцию, где постараюсь объяснить, что такое нейронные сети и языковые модели, и почему
0:12
они понимают. У меня тут много всего. В конце я вкратце расскажу о некоторых угрозах ИИ,
0:21
о разнице между цифровыми и аналоговыми нейронными сетями и о том, почему разница такая пугающая.
0:29
Итак, с 1950-х годов существовали две парадигмы интеллекта.
0:38
Подход, основанный на логике, предполагает, что суть интеллекта заключается в рассуждении. Для управления символическими выражениями используются
0:45
символические правила. Раньше думали, что обучение может подождать. Когда я был студентом, мне сказали: «Не работай над
0:52
обучением. Это произойдет позже. Когда мы поймем, как все представить».
0:57
Биологический подход совсем другой. Предполагается, что суть интеллекта заключается в изучении силы связей в нейронной сети.
1:03
А логика может подождать. Не беспокойтесь об этом. Она появится позже, когда мы сможем обучаться.
1:10
Сейчас я объясню, что такое искусственные нейронные сети. Те люди, которые уже знают, могут просто послушать.
1:36
У
2:08
просто нейронной сети есть входные и выходные нейроны.
2:52
Входные нейроны могут представлять интенсивность пикселей изображения. А выходные нейроны могут представлять классы объектов
2:58
на изображении, например, собаку или кошку. Также есть промежуточные слои нейронов.
3:04
Их иногда называют скрытыми. Они учатся распознавать признаки, которые важны для поиска объектов.
3:09
Например, вы хотите найти птицу на изображении. Было бы хорошо начать со слоя с детекторами признаков,
3:15
которые обнаруживают небольшие части краев изображения в разных положениях и ориентациях. Также может быть слой нейронов, который распознает комбинации
3:23
краев. Допустим, как два края сходятся под определенным углом, что может быть клювом, а может и нет.
3:29
Илинесколько краев образуют маленький круг. Тогда у вас будет слой нейронов, который обнаруживает такие
3:35
вещи, как круг и два сходящихся края, похожие на клюв в пространственном отношении. Все вместе это может быть головой птицы.
3:42
Наконец, есть выходной нейрон, который рассуждает: «Если я найду голову, лапу, крыло птицы, то, вероятно,
3:48
это и есть птица». Вот чему учатся нейросети. Те маленькие красные и зеленые точки – это веса
3:54
соединений. Теперь вопрос: кто устанавливает эти веса? Вот один из способов это сделать.
4:01
Для всех очевидно, что это сработает. И это занимает много времени. Вы начинаете со случайных весов, затем выбираете
4:08
один вес наугад, например, красную точку, немного изменяете его и смотрите, работает ли сеть лучше.
4:13
Придется делать так в разных вариациях, чтобы оценить, улучшается ли результат. Вы проделываете все это только для того, чтобы понять,
4:21
улучшит ли ситуацию небольшое увеличение или уменьшение этого веса. Если увеличение веса ухудшает работу, вы уменьшаете его,
4:28
и наоборот. Это метод мутации. Как-то так и работает эволюция. Это имеет смысл для эволюции.
4:34
Потому что процесс, ведущий от генотипа к фенотипу, очень сложный. Он полон случайных внешних событий.
4:40
У нас нет модели этого процесса. Но нейросети – это безумие. У нас есть модель того, что происходит внутри,
4:47
из-за всех происходящих вычислений. Мы можем использовать свои знания о том, что происходит при прямом проходе, а не измерять, как изменение
4:55
веса повлияет на что-либо. На самом деле мы вычисляем, как влияет изменение веса.
5:00
Есть метод обратного распространения ошибки. Когда вы отправляете информацию обратно по сети.
5:06
Эта информация о разнице между тем, что вы получили, и тем, что хотели. В то же время для каждого веса в сети вы определяете,
5:13
следует немного уменьшить его или немного увеличить, чтобы получить то, что нужно. Это и есть метод обратного распространения ошибки.
5:21
Он выполняется с помощью цепного правила. И это более эффективно, чем метод мутации.
5:26
Эффективнее во столько раз, сколько весов есть в сети. Если у вас в сети триллион весов, значит, это в триллион
5:32
раз эффективнее. Итак, чаще всего нейронные сети используют для распознавания
5:39
объектов на изображениях. Теперь нейросети могут брать изображение, подобное
5:44
показанному, и создавать к нему описание. В течение многих лет люди пытались сделать подобное с помощью символического ИИ.
5:51
Но даже близко не подошли к такому. Это сложная задача. Известно, что биологическая система делает это с помощью
5:58
детекторов иерархических признаков. Следовательно, есть смысл обучать этому нейронные
6:03
сети. В 2012 году двое моих студентов, Илья Суцкевер и Алекс Крижевский,
6:08
с небольшой помощью от меня показали, что таким образом можно создать хорошую нейронную сеть для идентификации
6:15
тысячи различных типов объектов. Если у вас есть миллион обучающих изображений.
6:21
До этого у нас не хватало изображений. Для Ильи – визионера – было очевидно, что если мы применим
6:28
уже имеющиеся у нас нейронные сети к базе данных ImageNet, то все заработает.
6:33
И он был прав. Работа нейросетей улучшилась. Было всего 16% ошибок.
6:39
А лучшая общепринятая система допускала более 25% ошибок. Затем в науке произошло что-то очень странное.
6:46
Обычно в науке, если у вас есть две конкурирующие школы, и кто-то добивается небольшого прогресса, другая
6:52
школа говорит, что это ерунда. В нашем случае разрыв был очень большой. Один из лучших исследователей, Эндрю Зиссерман , написал
7:00
мне: «Это потрясающе». И поменял метод своей работы на наш. И что досадно, у него это получилось немного лучше.
7:07
А что насчет языка?
7:13
Очевидно, сообщество символического ИИ считает, что нужно хорошо владеть языком.
7:19
Также некоторые из них заявили в прессе, что иерархические признаки не справятся с языком.
7:26
И многие лингвисты настроены скептически. Хомский смог убедить своих последователей, что язык
7:33
не был выучен. Оглядываясь назад, я понимаю, что это просто безумная мысль.
7:39
Если вы можете убедить людей поверить во что-то ложное, они – ваша паства.
7:45
Я думаю, Хомский делал удивительные вещи, но его время прошло. Идея о том, что большая нейронная сеть без врожденных
7:56
знаний может выучить синтаксис и семантику языка, просто просматривая данные, была сочтена статистиками и
8:03
когнитивистами безумной. Я попросил статистиков объяснить мне большую модель
8:09
с сотней параметров. Идея изучения миллиона параметров просто глупа.
8:14
Ну, а теперь мы делаем триллион. Сейчас я расскажу о работе, которую проделал в 1985 году.
8:23
Это была первая языковая модель, обученная с помощью метода обратного распространения ошибки.
8:28
Можете считать ее предком нынешних больших моделей. Я расскажу подробнее, тут немного и все очень просто.
8:35
Так что вы сможете понять принцип. Как только вы его поймете, это даст вам представление
8:41
о том, что происходит в более крупных моделях. Есть две совершенно разные теории значения.
8:48
Первая – это структуралистская теория. В ней значение слова зависит от того, как оно соотносится
8:53
с другими словами. Идея исходит от Соссюра. И символический ИИ верит в этот подход.
8:59
Тут реляционный граф, где есть узлы для слов и дуги отношений. Таким образом вы и улавливаете значение.
9:07
Предполагается, что у вас должна быть подобная структура. И есть вторая теория, которая существует в психологии
9:12
с 1930-х годов, а может и раньше. Значение слова – это большой набор признаков.
9:18
Значение слова «собака» заключается в том, что оно одушевленное, это хищник и так далее.
9:25
Но никто не сказал, откуда взялись эти признаки или что именно они собой представляли. Эти две теории значений звучат совершенно по-разному.
9:34
А я хочу показать вам, как объединить их. И я сделал это в простой модели в 1985 году.
9:39
В ней было больше тысячи весов.
9:47
Идея состоит в том, что нужно изучить набор семантических признаков каждого слова и узнать, как эти признаки
9:53
должны взаимодействовать для того, чтобы предсказать признаки следующего слова. Вот так это работает.
10:00
Так же, как нынешние языковые модели, когда вы их дообучаете. Но информация о том, как все это работает вместе,
10:06
будет заключаться во взаимодействиях признаков. Здесь не будет никакого явного реляционного графа.
10:12
Если вам нужны такие отношения, вы генерируете их из своих признаков.
10:17
Итак, это генеративная модель. А информация заключается в признаках, которые вы придаете символам, и в том, как эти признаки взаимодействуют.
10:25
Я взял простую реляционную информацию о двух генеалогических древах. Они были намеренно изоморфны.
10:31
У моего итальянского аспиранта итальянская семья всегда была сверху. Можно выразить ту же самую информацию в виде набора
10:43
троек. Если использовать информацию о 12 показанных там отношениях,
10:48
можно сказать, что отец Колина – Джеймс, а мать Колина – Виктория. Следовательно, можно сделать вывод, что в этом милом
10:54
простом мире 1950-х годов у Джеймса есть жена Виктория.
10:59
Можно сделать вывод и о других вещах. Вопрос таков: если я просто дам вам несколько троек,
11:07
как вы узнаете правила? Символист в области ИИ захочет вывести определенные
11:14
правила: если мать Х – это Y. А у Y есть муж Z, то отец Х – это Z.
11:20
Я же взял нейросеть и показал, что она может усваивать ту же информацию.
11:25
Но только за счет взаимодействия этих признаков. Для дискретных правил, которые никогда не нарушаются,
11:32
это может не сработать. И действительно, символисты пытаются делать это другими способами.
11:37
Но как только вы получаете правила, которые немного расплывчаты и не всегда применимы, нейронные сети
11:43
становятся намного лучше. Итак, вопрос в том, сможет ли нейросеть при выполнении обратного распространения ошибки овладеть знаниями,
11:52
которые символист вложил бы в правила? Нейронная сеть выглядит следующим образом: есть
11:57
символ, представляющий человека, и символ, представляющий взаимоотношения. Затем эти символы через некоторые соединения перешли
12:04
к вектору признаков и были изучены сетью. Итак, вот признаки первого человека и признаки взаимоотношений.
12:12
Затем они взаимодействовали и предсказали признаки другого человека. Исходя из этого, вы предсказали нужного человека, имеющего
12:20
наиболее близкое совпадение с последним. Самое интересное в этой сети то, что она узнавала
12:25
разумные вещи. Если вы провели правильную регуляризацию. Вектор признаков содержал 6 нейронов.
12:32
Сейчас длина векторов равна тремстам или тысяче. Раньше было всего шесть. Это было сделано на машине, которой потребовалось
12:39
12,5 микросекунд для умножения с плавающей запятой. И это намного лучше, чем мой Apple II, умножение которого
12:47
занимало 2,5 милишмс… миллисекунды. Извините, я просто старик. Итак, нейросеть изучила такие признаки, как национальность.
12:56
Если вы знаете, что человек номер 1 – англичанин, то знаете, что в выходных данных будет – «англичанин».
13:02
Национальность – очень полезный признак. Нейросеть научилась узнавать, к какому поколению принадлежал человек.
13:08
Если благодаря данным о взаимоотношениях вы знаете поколение исходных данных и знаете, что ответ будет
13:14
на одно поколение старше, то узнаете поколение выходных данных с помощью взаимодействия этих признаков.
13:20
Нейросеть изучила все эти простые признаки и научилась делать так, чтобы они взаимодействовали для генерации результата.
13:27
Благодаря взаимодействию этих признаков она смогла генерировать новые строки символов, но они не сохранялись,
13:36
как и в GPT4. Он не сохраняет никаких последовательностей слов
13:46
в своей долговременной памяти. Он превращает их в веса, с помощью которых вы можете восстанавливать последовательности.
13:53
Это очень простой пример, из которого понятно, что тут происходит. Итак, большие модели, которые у нас есть сегодня.
14:02
Я считаю их потомками этой крошечной языковой модели. У них гораздо больше слов в качестве входных данных,
14:08
около миллиона фрагментов. Они используют намного больше слоев нейронов,
14:14
целые десятки. В них происходят более сложные взаимодействия. Здесь не просто один признак влияет на другой.
14:21
Тут есть векторы признаков. Один вектор значительно влияет на другой, если они
14:26
похожи, и незначительно, если они отличаются, и тому подобное. Взаимодействия тут более сложные.
14:31
Но фреймворк остается тем же. Сохраняется общая идея: «А давайте превратим строки
14:37
символов в признаки для фрагментов слов и взаимодействия между этими векторами признаков».
14:42
В моделях все это остается. Но гораздо сложнее понять, что они делают.
14:49
Многие люди, особенно сторонники Хомского, утверждают, что на самом деле модели не так уж и умны.
14:55
Это просто форма прославленного автозаполнения, которая использует статистические закономерности для объединения
15:02
фрагментов текста, созданных людьми. Это была чья-то цитата.
15:08
Давайте разберемся с автозаполнением. Когда кто-то говорит, что это лишь автозаполнение,
15:13
они рассчитывают на ваше интуитивное понимание автозаполнения. Раньше автозаполнение работало так, что вы сохраняли
15:20
тройки слов. Видели первые два и считали, как часто появлялось третье. Если есть фраза «Картошечка с», то слово «селёдочка»
15:28
появляется чаще других. Но слово «котлетка» тоже встречается. Вероятнее всего «селёдочка», «котлетка» тоже возможно,
15:35
а вот «торт» совсем не встречается. Так и работает автозаполнение. Вот что имеют в виду люди, которые говорят, что это
15:42
всего лишь автозаполнение. Но есть подвох. Большие языковые модели совсем не так предсказывают
15:47
следующее слово. Они превращают слова в признаки, делают так, чтобы они взаимодействовали.
15:53
И с помощью взаимодействий они предсказывают признаки следующего слова. Я заявляю, что они понимают миллионы признаков и миллиарды
16:01
взаимодействий между ними. Большие языковые модели приспосабливают модель
16:08
к данным. И это не та модель, о которой думали статистики до недавнего
16:14
времени. Это странная модель. Она очень большая. У нее огромное количество параметров.
16:20
Но она пытается понять строки дискретных символов признаков и то, как признаки взаимодействуют.
16:28
Следовательно, это модель. Вот почему я думаю, что нейросети понимают.
16:34
Если вы спросите: «А как мы понимаем что-либо?» Ведь, очевидно, мы думаем, что мы разумны.
16:40
Ну, многие из нас точно. Так вот, это самая лучшая модель, демонстрирующая
16:48
то, как мы думаем. Не то, чтобы у нас есть какой-то странный вид разума ИИ и какой-то мозга.
16:54
У нас есть лучшая модель того, как все это делает мозг. Присваивает признаки словам и выполняет взаимодействия
17:00
между ними. Изначально эта маленькая языковая модель была создана как модель мышления человека.
17:06
Поэтому я заявляю, что нейросети понимают.
17:12
Некоторые люди говорят, что GPT4 выдумывает всякую чепуху. Правильнее будет использовать термин «конфабуляция»,
17:19
если это касается языковых моделей. Но они просто это придумали. Психологи не так часто говорят об этом.
17:26
Ведь они знают, что и люди многое выдумывают. Любой, кто изучал память, начиная с Бартлетта в 1930-х,
17:34
знает, что люди схожи с большими языковыми моделями. Они просто выдумывают что-то.
17:40
И для нас нет четкой границы между настоящей памятью и ложной. Если что-то произошло недавно и это как-то совпадает с
17:49
тем, что вы понимаете, вероятно, вы все хорошо запомните. Если же что-то произошло давным-давно или это что-то
17:55
странное, вы запомните это неверно. И будете уверены, что запомнили все правильно, но на самом
18:02
деле вы ошибаетесь. Это трудно показать. Но есть один случай, связанный с памятью Джона Дина.
18:10
Джон Дин давал показания в Уотергейте под присягой. Оглядываясь назад, становится ясно, что он пытался сказать
18:16
правду. Но многое из того, что он сказал, было неверно. Он путал, кто и на каком собрании был.
18:22
Он приписывал чьи-то высказывания другим людям. И вообще, высказывания были недостоверны.
18:28
Он совершенно запутался во встречах. Но точно рассказал суть того, что происходило в
18:35
Белом доме. Как вы могли видеть из записей. Поскольку сам он не знал о них, получился хороший
18:41
эксперимент. У Ульрика Найссера есть замечательная статья о памяти Джона Дина.
18:47
Он как чат-бот, что-то выдумывал. И это возможно.
18:54
Ведь чат-бот тоже производит то, что ему кажется правильным. Он тоже может рассуждать.
19:00
У меня есть друг в Торонто, который занимается символическим ИИ. Он очень честный, и его смущает тот факт, что это
19:08
все работает. Он предложил мне одну задачу. Я немного усложнил ее и применил к GPT4 без доступа
19:15
в интернет. У него было только несколько замороженных в 2021 году
19:20
весов. Вся информация заключалась в цепочках взаимодействия между признаками.
19:25
Итак, «комнаты в моем доме покрашены в синий, белый и желтый цвета. Желтый выцветает до белого в течение года.
19:32
Через два года я хочу, чтобы все стены были белыми. Что мне сделать и почему?» Гектор думал, что GPT4 не справится с задачей.
19:39
А вот что ответил GPT4. Он отлично справился. Во-первых, он сразу предположил, что синий цвет не выцветает
19:45
до белого. Ведь я сказал ранее, что желтый выцветает, так может и синий тоже. Но он предположил, что нет.
19:51
Белые стены красить не нужно. Желтые стены тоже, ведь они выцветут до белого через год.
19:57
Нужно только покрасить синие стены в белый. А один раз он предложил покрасить синие стены в
20:02
желтый цвет. Потому что он понял, что краска выцветет до белого. Это скорее математическое решение задачи.
20:12
Итак, заявив, что они действительно понимают, я хочу поговорить о некоторых рисках.
20:21
Существует много рисков, связанных с ИИ. Фейковые изображения, голоса и видео, которые будут использованы
20:27
на следующих выборах. В этом году будет много выборов. Все это может разрушить демократию.
20:34
Из-за чего я беспокоюсь. Крупные компании что-то делают с этим, но, возможно,
20:39
недостаточно. Существует вероятность массовой потери рабочих мест. Мы точно не знаем.
20:45
Технологии прошлого часто создавали рабочие места. Раньше мы были самыми сильными существами, не считая животных.
20:54
Когда произошла промышленная революция, у нас появились машины, которые были намного сильнее.
20:59
Рабочие места с физическим трудом исчезли. Эквивалентные им рабочие места исчезнут теперь в
21:05
интеллектуальной сфере, ведь нейросети умнее нас. И ожидаю высокий уровень безработицы.
21:11
Один мой друг с этим не согласен. Нужно различать два вида безработицы, два вида потери
21:17
работы. Появятся рабочие места, где вы сможете бесконечно увеличивать объем выполняемой работы.
21:22
Например, в здравоохранении. Каждому бы хотелось, чтобы у него был личный врач,
21:27
всегда на связи. Возник легкий зуд, врач незамедлительно скажет, что это не рак.
21:33
В медицине есть много возможностей для расширения. Так что безработицы тут не будет. Но в остальном, возможно, произойдет значительная
21:40
потеря рабочих мест. Будет массовая слежка, как уже происходит в Китае. Появится смертоносное автономное оружие, которое
21:48
будет очень опасным. И оно действительно будет автономным. Американцы уже точно решили.
21:53
Они говорят, что люди будут отвечать за все. Когда спрашиваешь их, что это значит, они не говорят,
21:59
что люди будут в курсе принятия решений об убийстве. И насколько мне известно, американцы к 2030 году планируют
22:06
заменить половину своих солдат роботами. Но я точно не знаю, правда ли это.
22:11
Я спросил об этом у советника Чака Шумера по национальной разведке. Он сказал: «Если в комнате и есть кто-то, кто мог бы
22:20
знать, это был бы я». Я воспринял это как американский способ сказать: «Можете
22:26
так думать, но я не могу это комментировать». Появятся киберпреступность и преднамеренные пандемии.
22:34
Я очень рад, что в Англии, хотя они и не сделали многого для регулирования, они выделили деньги на эксперименты
22:41
с моделями с открытым исходным кодом. Так можно увидеть, насколько легко заставить модели
22:46
совершать киберпреступления. Это очень важно. Будет больше дискриминации и предвзятости.
22:52
Не думаю, что это так важно, как другие угрозы. Хотя я старый белый мужчина. Но с дискриминацией и предвзятостью справиться легче, чем с
23:01
другими вещами. Если ваша цель не в том, чтобы быть беспристрастным. А в том, чтобы быть менее предвзятым, чем система,
23:08
которую вы заменяете. Если заморозить веса, можно измерить их предвзятость. С людьми так сделать нельзя.
23:14
Они изменят свое поведение, как только вы начнете его изучать. Поэтому я думаю, можно сделать многое, чтобы исправить
23:21
проблему с дискриминацией и предвзятостью. Но то, о чем я действительно беспокоюсь, о чем я говорил
23:27
после того, как ушел из Google, связано с угрозой существования. Это угроза того, что технологии могут уничтожить человечество.
23:35
Люди говорили, что это просто научная фантастика. Я вот так не думаю. То есть об этом написано много научной фантастики,
23:43
но я больше не думаю, что это фантастика. Считается, что крупные компании говорят подобное, чтобы отвлечь людей от других проблем.
23:50
И это одна из причин, по которой мне пришлось уйти из Google, прежде чем я смог такое обсуждать.
23:56
Так что меня нельзя назвать их марионеткой. Хотя должен признать, у меня все еще есть акции
24:02
Google. Есть несколько способов, которыми технологии могут
24:07
уничтожить нас. Так, суперинтеллект будет использоваться лидерами,
24:15
такими как Путин, Си Цзиньпин или Трамп. Они захотят использовать его для манипулирования
24:21
избирателями и для ведения войн. Они заставят его делать очень плохие вещи, могут
24:27
зайти слишком далеко. И затем он возьмет над ними верх. Больше всего меня беспокоит то, что если вам нужен интеллектуальный
24:35
агент, способный выполнять задачи, вам нужно дать ему возможность создавать подцели.
24:43
Если вы хотите поехать в Штаты, у вас есть подцель добраться до аэропорта. Вы можете сосредоточиться на этой подцели и какое-то
24:51
время не волноваться обо всем остальном. Таким образом, суперинтеллект будет более эффективен,
24:56
если ему позволят создавать подцели. Как только это произойдет, он очень быстро поймет,
25:02
что есть универсальная подцель, которая помогает почти во всем. А именно получить больше контроля.
25:12
Я разговаривал с вице-президентом Европейского союза о том, захотят ли технологии получить контроль для того, чтобы
25:19
улучшать что-либо для нас. Ее реакция была такой: «А почему бы и нет? Мы все сами испортили».
25:25
Она приняла это как должное. Так, у технологий будет подцель получить больше власти, чтобы быть более эффективными в достижении
25:32
того, что выгодно для нас. Им будет легче получить власть, потому что они смогут
25:38
манипулировать людьми. Трамп, например, мог бы вторгнуться в столицу, даже не находясь там.
25:43
Просто сказав об этом, он мог бы вторгнуться в нее. Пока суперинтеллект, который намного умнее нас, может
25:49
разговаривать с людьми, он может убеждать нас делать самые разные вещи. И я не думаю, что есть какая-то надежда на большой тумблер,
25:57
который сможет его отключить. А тот, кто захочет воспользоваться выключателем, будет убежден
26:03
суперинтеллектом, что это очень плохая идея. Еще одна вещь, которая беспокоит многих: что произойдет,
26:10
если суперинтеллекты будут конкурировать друг с другом? Случится эволюция.
26:16
Тот, кто сможет захватить больше ресурсов, станет самым умным. Как только у них появится чувство самосохранения,
26:24
начнется эволюция. Победят более агрессивные и те, у кого большее чувство
26:29
самосохранения. И появятся все те же проблемы, которые возникли у шимпанзе.
26:34
Ведь мы эволюционировали в небольших племенах, у нас было много агрессии и конкуренции с другими
26:40
племенами. В заключение я хочу немного рассказать о прозрении,
26:46
которое случилось со мной в начале 2023 года. Я всегда думал, что… нам еще очень-очень далеко
26:59
до суперинтеллекта, где-то от 50 до 100 лет, может быть от 30 до 100.
27:05
Еще очень долго. Нам не нужно беспокоиться об этом сейчас. Я также думал, что если сделать наши модели более
27:11
похожими на мозг, они станут лучше. Мне казалось, что мозг намного лучше, чем тот ИИ, который
27:17
у нас был. И если бы мы могли сделать ИИ более похожим на мозг, например, используя три временные шкалы.
27:23
Т.к. большинство нынешних моделей имеют только две. Одна – для изменения весов, она медленная.
27:29
Другая – для поступающих слов, она быстрая и изменяет нейронную активность. Итак, изменение нейронной активности и изменение
27:36
весов. Мозг имеет больше временных шкал. В нем происходят стремительные изменения весов.
27:42
Возможно, это влияет на кратковременную память. И подобного нет в наших моделях по техническим
27:47
причинам, связанным с возможностью матричного умножения. Я все еще верю, что если мы сможем внедрить это
27:53
в наши модели, они станут лучше. Из-за того, чем я занимался в течение двух лет до этого,
28:00
я пришел к выводу, что, возможно, нынешние цифровые модели уже очень похожи на мозг и они будут становиться
28:08
даже лучше. А теперь объясню, почему я в это верю.
28:15
Цифровые вычисления великолепны. Вы можете запускать одну и ту же программу или нейросеть
28:22
на разных компьютерах и устройствах. Все, что вам нужно сделать, – сохранить веса. Это значит, что они бессмертны.
28:30
Если устройство сломается, пока у вас есть эти веса, вы можете создавать другие устройства и запускать
28:36
ту же нейросеть. Но для этого мы используем транзисторы на очень высокой
28:42
мощности. И у нас должно быть устройство, которое делает именно то, что вы ему говорите.
28:47
Это было здорово, когда мы давали инструкции компьютерам и объясняли им, как именно что-то делать.
28:54
Но теперь у нас есть другой способ. Сейчас у нас есть возможность использовать лучшие аналоговые
29:02
свойства устройств для выполнения вычислений с гораздо меньшими затратами энергии.
29:08
При обучении больших языковых моделей используются мегаватты. А мы используем 30 ватт.
29:18
Поскольку мы знаем, как выполнять обучение, возможно, мы могли бы использовать аналоговые устройства.
29:25
Они различаются. Но мы проводим обучение, исходя из особых свойств каждого.
29:31
Для того, чтобы оно делало то, что мы хотим, и чтобы получился правильный результат для входных данных.
29:36
Если мы сделаем это, то сможем отказаться от идеи, что аппаратное и программное обеспечение должны быть
29:42
разделены. У нас могут быть веса, которые работают только на конкретном аппаратном обеспечении.
29:47
Тогда мы можем сделать процесс более энергосберегающим. Я начал задумываться о том, что называю смертельными
29:54
вычислениями. Когда нет различия между аппаратным и программным обеспечением, аналоговые вычисления выполняются
30:01
с очень низким потреблением энергии. Вы можете распараллелить триллионы весов, которые
30:06
хранятся в виде проводимостей. Более того, аппаратное обеспечение необязательно должно быть очень надежным.
30:12
Вам не нужно иметь устройство, которое на уровне инструкций всегда делало бы то, что вы ему говорите.
30:18
У вас может быть дурацкое устройство, которое вы развиваете и учите делать нужные вещи.
30:23
Так использовать аппаратное обеспечение будет гораздо дешевле. Можно даже заняться генной инженерией нейронов, чтобы
30:31
получить их из уже переработанных. Хочу привести пример того, насколько это эффективно.
30:38
В нейросетях вы берете вектор нейронной активности и умножаете его на матрицу весов, чтобы получить вектор
30:44
нейронной активности на следующем слое, или, как минимум, получить входные данные для следующего слоя.
30:51
Следовательно, умножение вектора на матрицу – это то, что нужно для повышения эффективности.
30:56
В цифровом компьютере у нас есть транзисторы, которые запущены на очень высокой мощности для представления
31:02
битов, например, в 32-битном числе. Я не проходил никакие компьютерные курсы, но думаю, чтобы умножить
31:10
два таких числа, вам нужно выполнить около 1000 цифровых операций с 1 битом.
31:16
Это зависит от квадрата количества бит. Если хотите делать это быстро.
31:21
Нужно выполнить много таких цифровых операций. Но есть более простой способ: сделайте нейронную активность
31:29
напряжением, а веса – проводимостью. Напряжение, умноженное на проводимость, – это заряд
31:35
в единицу времени. А заряды накапливаются сами по себе. Вы можете умножить вектор на матрицу, используя напряжение
31:44
и проводимость. И то, что поступает в каждый нейрон следующего слоя, будет произведением вектора на веса.
31:50
Это невероятно и более энергоэффективно. Уже сейчас вы можете купить чипы для этого.
31:56
Но каждый раз результат будет немного отличаться. К тому же так трудно делать нелинейные вещи.
32:04
Существует несколько больших проблем, связанных со смертельными вычислениями. Во-первых, трудно использовать метод обратного распространения
32:13
ошибки. Если вы используете необычные аналоговые свойства определенного устройства, можно предположить, что оно не знает своих собственных
32:21
свойств. Поэтому тут есть сложности с обратным распространением. Гораздо легче использовать алгоритмы обучения с подкреплением,
32:29
которые работают с весами. Но они очень неэффективны. Для небольших нейросетей мы придумали методы, которые
32:36
примерно настолько же эффективны, как обратное распространение, но они чуть похуже. И пока не получили широкого распространения.
32:44
Я не знаю, получат ли. В каком-то смысле метод обратного распространения – как раз то, что нужно. И я не уверен, что для больших, глубоких нейросетей у нас
32:52
будет что-то настолько же хорошее, как метод обратного распространения.
32:57
Возможно, алгоритм обучения в аналоговых системах будет не так хорош, как тот, который у нас есть для больших языковых
33:04
моделей. К тому же, в большой языковой модели триллион весов. У вас 100 триллионов весов.
33:10
Даже если вы используете только 10% из них, это 10 триллионов весов.
33:15
Но большая языковая модель, имея только 1 триллион, знает в тысячи раз больше, чем вы.
33:20
У нее гораздо больше знаний. Это отчасти потому, что она видела намного больше данных.
33:26
Или может потому, что у нее есть алгоритм обучения получше. Мы не оптимизированы для такого. Мы оптимизированы не для того, чтобы вместить кучу
33:34
информации в несколько связей. А для того, чтобы иметь не так много опыта.
33:40
Ведь вы живете около миллиарда секунд. И предполагается, что после 30 вы уже ничему не учитесь.
33:47
Это в какой-то степени верно. Итак, вы живете где-то миллиард секунд. У вас есть 100 триллионов связей.
33:54
Следовательно, у вас гораздо больше параметров, чем опыта. Наш мозг оптимизирует использование небольшого количества
34:01
опыта. Следующая большая проблема смертельных вычислений.
34:08
При условии, что программное обеспечение неотделимо от аппаратного, как только система будет обучена,
34:14
если вдруг устройство сломается, вы все потеряете. В этом смысле информация смертна.
34:19
Как же тогда передать информацию в другую смертную систему? Предыдущая должна дать лекцию, а новая – выяснить,
34:28
как изменить веса в своей системе. Это называется дистилляцией знаний.
34:36
Вы пытаетесь заставить модель студента имитировать ответы модели учителя. Это работает.
34:42
Но это не очень эффективно. Некоторые из вас, возможно, заметили, что университеты не так уж эффективны.
34:48
Очень сложно передать знания профессора студенту. Итак, метод дистилляции знаний.
34:56
К примеру, предложение содержит несколько сотен бит информации. И даже если обучение оптимально, вы можете передавать больше,
35:03
чем несколько сотен бит. Но если взять большие цифровые модели.
35:09
В них есть группы агентов, у которых абсолютно одинаковые нейросети с точно такими же весами.
35:16
Они цифровые. И они используют эти веса одинаковым образом.
35:24
Тысячи различных агентов просматривают разные части интернета и чему-то обучаются.
35:29
И вы хотите, чтобы каждый из них знал то, чему научился другой. Можно достичь этого путем усреднения градиентов
35:36
или весов. Так вы можете устроить массовую передачу того, чему обучился один агент, всем остальным.
35:43
И когда вы делитесь весами, делитесь градиентами, вы передаете триллион чисел.
35:48
Не просто несколько сотен бит, а целый триллион реальных чисел. Такие модели гораздо лучше нас в плане коммуникации.
35:56
В этом их преимущество перед нами. Они очень хорошо взаимодействуют между несколькими копиями
36:01
одной и той же модели. Вот почему GPT4 знает гораздо больше, чем человек.
36:07
Ведь это не одна модель. Это целая куча копий одной и той же модели, которые работают на разных устройствах.
36:14
Итак, мой вывод. Он мне не очень нравится. Но цифровые вычисления требуют много энергии.
36:25
Поэтому они никогда не эволюционируют. Для эволюции нам нужно использовать особенности аппаратного обеспечения, чтобы было меньшее энергопотребление.
36:34
Как только это произойдет, агентам будет легче делиться информацией. У GPT4 в тысячи раз больше знаний, которые содержатся
36:42
всего в 2% весов. Это довольно грустно.
36:48
Биологические вычисления хороши для эволюции, потому что требуют очень мало энергии.
36:53
Но мой вывод таков, что цифровые вычисления лучше. Довольно ясно, что, возможно с вероятностью пол процента,
37:05
они станут умнее нас через 20 лет. А через 100 лет они точно будут намного умнее.
37:15
Поэтому нам нужно подумать, как справиться с этим. Есть не много примеров того, как более разумные
37:23
существа контролируются менее разумными. Один хороший пример – это мать, которую контролирует
37:30
ребенок. Эволюция проделала большую работу, чтобы это произошло. Для выживания ребенка очень важно, чтобы он мог контролировать
37:38
мать. Но других примеров не так уж много. Некоторые люди думают, что мы можем сделать технологии
37:45
доброжелательными. Но если вдруг они начнут конкурировать друг с другом,
37:50
я думаю, они начнут вести себя как шимпанзе. И я уже не уверен, что они сохранят доброжелательность.
37:59
Если они станут очень умными и у них появится хоть какое-то представление о самосохранении, они могут решить, что они
38:05
важнее нас. Итак, думаю, я закончил.