Около полугода назад был опубликован чат-бот с искусственным интеллектом (ИИ) ChatGPT. Этот бот стал моментально известным во всём мире и породил огромный всплеск информационной волны вокруг ИИ. С одной стороны, появились высказывания, что изобретение ChatGPT сравнимо с изобретением интернета или смартфона и также сильно изменит нашу жизнь.
Другие пошли ещё дальше и говорят о том, что ИИ уже умнее, чем человек: например, он сдаёт экзамены лучше студентов. Действительно ли ИИ уже приблизился по развитию к человеку? Или может быть пришло время задуматься о том, что такое современные экзамены, если их может сдать даже ИИ?
На клубе обсудили эти вопросы и, в первую очередь, постарались разобраться, что же такое современный искусственный интеллект изнутри.
Докладчики – Андрей Жонин и Михаил Костенчук
Расшифровка видео
вступительный доклад
0:00
товарищи Давайте начинать всем ещё раз Здравствуйте Дело в том что менее полгода назад
0:06
где-то примерно может быть даже уже полгода набралось как был опубликован
0:13
чат-бот чат gpt это большая языковая основана на Большой
0:19
языковой модели gptunity трансформер То есть это генеративные предварительно обученные трансформер
0:25
дальше мы поговорим о том что это такое вообще как он устроен там как работает
0:31
но сейчас я хотел бы два слова сказать о том какая информационная компания Вокруг этого развернулась и в общем-то что и
0:38
стало причиной того что мы решили на эту тему провести клуб
0:44
искусственный интеллект и ранее интеллект нейронные сети машинное обучение и ранее давали интересные
0:50
результаты но то как эффектно gpt отвечает на вопросы
0:56
очень сильно всколыхнула общественность и породила вот это большой информационную волну давайте мы
1:02
попробуем задать пару вопросов может быть или один вопрос какой-нибудь этому боты посмотрим как это работает что вы
1:08
видели что такое может быть не все знают поэтому
1:14
сейчас Ну вот печатается напишем Например напиши
1:20
приветствие клубу кузница в манере
1:27
Ну например пиратов что-нибудь такое посмотрим как он нам ответит и зачитаем
1:39
ахой морской волкам клуба кузница здесь сразу же обычно так не происходит
1:49
скатерти дорога бы ему река мы не покорным пиратов вперед погружайтесь в мир Свободы Приключения неистово веселья
1:56
здесь нашатырной палубе клуба кузница Мы собрались чтобы объединить наши судьбы
2:01
воедино и создать непобедимую команду готовую покорить все моря и завоевать Сокровища которых лишь воображение может
2:07
Мечтать не буду полностью то есть принципе общается он как живой человек и
2:14
это произвело сильное очень впечатление на общество соответственно породило большую
2:21
информационную волну появились громкие высказывания уже о том что искусственный интеллект достиг того уровня на котором
2:27
он уже скажем так может произвести сильные перемены в нашем обществе
2:33
сравнил текущее развитие искусственного интеллекта с изобретением персонального
2:39
компьютера из возникновением интернета генеральный директор openai это компания
2:47
которая в общем-то создала Чад gpt нас сравнил его изобретение с изобретением
2:53
смартфонов его же поддержал банков Америка и назвал в общем-то внедрение
2:59
Чад gpt iPhone то есть момент возникновения iPhone
3:06
Однако Как ни странно есть еще более амбициозные прогнозы того как будет
3:11
развиваться искусственный интеллект и в них говорится что то что уже сейчас достигнуто как минимум достигла развития
3:19
человека а некоторые говорят о том что это еще и уже даже переплюнула развитие
3:25
человека эту компанию Я бы назвал опасения вокруг искусственного интеллекта потому что очень многие
3:32
говорят о том что он начнет заменять человека сначала были относительно небольшие публикации отдельных авторов и
3:38
блогеров Но большую толчок этой компании дала письмо которое
3:45
опубликовал илон Маск вместе с тысячу технологических лидеров вот письмо
3:52
заголовки скриншоты его основной претензия к тому что такое
3:57
искусственный интеллект содержится в этом абзаце который сейчас зачитаю
4:03
Должны ли мы позволить машинам наводнять наши информационные каналы пропаганды и
4:08
неправды Должны ли мы позволить автоматизировать все рабочие места в том числе те которые наполняют человека
4:15
смыслом Должны ли мы развивать нечеловеческие умы которые в конечном итоге смогут превзойти нас численностью
4:21
перехитрить привести к нашему моральному устареванию и в итоге заменить нас должны ли мы рисковать потери контроля
4:27
над нашей цивилизацией при этом Нужно отметить что же предлагают авторы письма
4:33
высказывающие столь серьезные опасения они предлагают отодвинуть обучение
4:38
нейронных сетей там сложнее чем до 5-4 то что мы видели на полгода
4:45
видимо того что нечеловечески мы захватят грубо говоря мир
4:51
в общем-то если так убрать весь Пафос этого сообщения то в принципе наверное
4:57
первые два опасения которые написаны они еще как-то соотносятся
5:03
близки действительно распространение искусственного интеллекта еще больше вероятность что
5:09
так замусоренная информационное пространство еще больше за мусорит то же самое что уже действительно какие-то
5:16
рабочие места возможно будут заменены следующее опасение уже выглядит не столь
5:23
правдоподобно с другой стороны если не поверить они выглядят гораздо более страшно
5:31
в дальнейшем были еще опубликованы открытые письма но наиболее ярким событием этой информационной компании
5:37
стало наверное интервью той технологии которая легла интервью
5:42
основателя той технологии которая легла в чат gpt это Джеффри хинтон
5:49
мы сегодня посмотрим что он говорил раньше много лет назад а сейчас Я
5:55
приведу цитаты из того интервью которое он опубликовал недавно искусственный
6:00
интеллект полностью отличается от нас говорит он иногда я думаю что это как если бы приземлились инопланетяне а люди
6:06
этого не поняли потому что инопланетяне очень хорошо говорят по-английски 80-х годах нейронные сети были забавные
6:12
игрушкой доминирующим было представление о символическом искусственном интеллекте что интеллект включает в себя обработку
6:19
символов такие как слова или цифры Мой отец был биологом поэтому я мыслил биологических терминах и символическое
6:26
мышление явно не лежит в основе биологического интеллекта вороны могут решать головоломки у них нет языка они
6:32
делают это не путем сохранения строк символов и манипулирования ими они делают это изменяя силу связи между
6:39
нейронами своем мозге поэтому должна быть возможность изучать сложные вещи изменяя силу соединений в искусственной
6:46
нейронной сети далее он говорит еще более
6:51
значимые вещи Да он говорит что ученые пытаясь имитировать то что делает биологический мозг придумали оказывается
6:57
нечто Даже лучше чем мозг вот он пишет что страшно когда ты видишь это
7:02
Внезапный поворот Чем же он лучше в нашем мозге 100 триллионов соединений нейронов А в больших языковых моделей
7:09
содержится максимум триллион И все же gt4 знает в сотни раз больше чем любой человек Так что у нее действительно
7:15
гораздо лучше алгоритм обучения чем у нас То есть он делает вывод один из
7:21
создателей Да технологии то есть достаточно компетентны видимо человек делает Вывод что он уже мыслит лучше чем человек в
7:29
принципе можно найти подтверждение его словам вот Я приведу слайд на котором мы видим
7:37
результаты сдачи экзаменов этой большой языковой моделью gpt 4 Точнее там разные
результаты сдачи экзаменов ChatGPT
7:44
версии Вот синеньким это 35 версия то есть старая последняя версия это зелененьким соответственно Мы видим что
7:51
80 процентов это Примерно там две трети всех экзаменов он сдал выше чем 80
7:57
процентов баллов то есть лучше чем средний студент это экзамены по истории по психологии
8:05
[музыка]
8:12
то есть в общем-то зададимся вопросом о чем вообще это говорит Да вот этот
8:18
график один из исследователей искусственного интеллекта когда обсуждал информационную компанию напомнил такую
8:24
метафору как зеркальный тест это тест в котором некто Смотрит в зеркало и должен
8:30
распознать он смотрит видеть себя или он видит отражение точнее или он видит какого
8:36
другого человека этот тест на самоидентификацию Вот и сегодня хотелось бы задаться
8:43
подобным вопросам мы видим как искусственный интеллект дает экзамены лучше чем средний студент
8:49
Что это значит Какой вывод мы должны сделать он действительно мыслит уже лучше чем средний человек или это
8:58
экзамены и вообще система образования стала настолько примитивной и формальной
9:03
что ее даже что эти экзамены может даже сдать косвенный интеллект да то есть к чему
9:10
пришло человечество все более и более развивая технологии с одной стороны а с
проблематизация
9:15
другой стороны не стремясь развивать человека как такового
9:20
и мы на этой встрече хотим как раз таки начать обсуждать эту проблему мы
9:25
планируем что в дальнейшем Будут и другие клубы на эту тему но вот Сегодня мы начнем с того что рассмотрим историю
9:32
возникновения нейронных сетей искусственного интеллекта и попробуем немножечко посмотреть что такое
9:42
это доклад представит Андрей жунин он более 15 лет уже работает в этой сфере
9:47
поэтому он знает как это все работает Так что дадим ему слово
9:54
Здравствуйте товарищи действительно Я уже давно давно занимаюсь
начало доклада об ограничениях БЯМ (больших языковых моделей)
9:59
разработки исследованиями в области речевых технологий и обработки
10:05
естественного языка Но это в том числе с этими Трансформерами которые по сути являются большие языковые модели Я имею
10:13
с ними на практике знакомы уже в то время с того момента как они возникли даже с некоторыми технологиями которые
10:20
раньше были доклад будет обсуждать именно большие языковые модели поскольку именно
10:26
благодаря им собственно вот этот ажиотаж и возник в области искусственного интеллекта они являются разновидностью
10:32
искусственной нейронной сети которую называется трансформером И вообще большая часть научных фактов которые
10:39
определяют существование вот этих самых нейронных сетей современных Они были
10:45
открыты еще до 80-х годов и поэтому думаю разумно
10:51
что нужно изучить сначала эти концепции и чтобы понять благодаря чему эти сети
10:56
работают и что от них перспективе вообще можно ожидать поскольку я ограничен по времени я не
11:02
буду так сильно погружаться в технические детали я выделил наиболее пожалуй существенно На мой взгляд
11:08
концепцию которая определяется работать этих нейронных сетей и которые наибольшей степени определяет их
11:15
возможности и надеюсь что если мы знаем об этой концепции мы сможем составить
11:21
картину перспектив и возможность этих самых больших моделей в конце концов
11:27
потом вы сами уже сможете решить Правда ли ажиотаж Итак сначала начнем с истории она вообще
история создания искусственных нейронных сетей
11:35
говоря берется на счет сначала 20 века от физиолог Сантьяго рамонниках
11:41
1906 году открыл что нервная ткань состоит из нейронов которая сообщаются
11:46
между собой вот эта зарисовка на слайде вот эта самая нервная ткани которая Была
11:51
выполнена по сути он на самом деле открыл краситель которым можно отделить нейроны от всего остального и тогда он
11:57
их увидел а еще ранее он за это кстати получил Нобелевскую премию еще ранее
12:05
Иван Павлов в 1903 году еще не зная о том что вообще говоря неровно существует
12:10
он открыл понятие условного рефлекса и показал экспериментально Все мы отлично
12:16
это знаем что вот можно обуславливать слюноотделение у собаки если включать
12:23
лампочку если все время сопровождать пищу концов начнет реагирует только на неё и
12:32
вообще это был первый физиологический обоснованный способ обучения он повал занимался также каким-то
12:38
другими вопросами связанными с этим и многие его работа до сих пор не получили
12:43
какого-то отражения в нейронных сетях однако его учения возбудимости нервной
12:49
ткани и вот этой рефлекторной дуге оно повлияло на дальнейшее исследование и привело к формулировке правила хеба это
12:56
центральное понятие которое концептуально применяется до сих пор в том числе для обучения этих самых наших
13:01
Трансформеров затем о исследователи Уоррен маккалок и Уолтер пицца работает
13:07
над началом норберта винера пытались описать работу мозга как
13:12
логической машины применяя те факты нейронах которые были известны науки это
13:17
было 20-40-е годы и вот их теоретические размышления привели к модели про голову
13:23
нейрона который изображены справа то есть Нейрон он просто считает сколько
модель порогового нейрона
13:30
у него на входе возбуждающих тормозящих сигналов но нет еще есть веса которые измеряют то насколько важны этот вход и
13:39
он принимает решение Стоит ли возбуждаться Если разница этими величинами превышает некоторые прогул величину и в то же время в 30-е годы
13:48
начала развиваться радиотехника и появляются задачи распознавания
13:53
например целей на изображениях радаров Ну по сигналам радаров вот пионером этого направления
14:00
был Рональд Фишер который предложил дихотомический дискриминационный анализ
14:06
который сильно отличался от того что применяли до него тем что Он предложил обучать эти дискриминаторы
14:14
по примерам если у нас есть измеренные параметры объекта например скорости высоту мы можем считать что эта точка в
14:21
так называемом фазовом пространстве как здесь на графике и мы допустим можем считать что эти
14:27
голубые кружочки условно конечно схема вот голубой кружочки это самолеты А вот красные крестики это Например птицы или
14:34
же ошибки изображения радаров и все что нам нужно это провести некую прямую которая в этом фазовом пространстве
14:41
которая разделит объект одного вида объектов другого вида Ну вообще говоря ничто не ограничивает
14:49
нам вот этот размерность Можно два измерения можно три можно сколько угодно
14:54
вообще довольно их много обычно на практике Но их нельзя изобразить на картинке поэтому это довольно сложно вот
15:01
я могу вам показать на этом слайде какие они обычно бывают вот бывают случаи
15:07
когда мы можем линейно разделить вот эти классы как вот здесь кстати вот плюсики квадратики Но то что
15:15
там два измерения это условно товарищи на самом деле обычно и гораздо больше вот есть допустим три измерения тоже они
15:22
линейно разделимы иногда как бы требуется нелинейный способ произведения то есть не прямой а не плоскостью не
15:30
гипер плоскостью а какой-то кривой поверхности как вот здесь и бывают наверное случаи такие когда
15:36
разделение невозможно когда они просто перемешаны так что там ничего не получится Это значит что скорее всего
15:41
признаки выбраны неверно вот здесь допустим на этом графике изображено уже
15:46
примеры реальных классов это распознавание типов видов
15:53
Цветков ириса они там различаются по длине лепестка и чашелистика вот их
15:59
можно там отложить посмотреть как они в чем между ними разница
16:04
если допустим у нас классов больше на этом графике мы просто имеем в виду
16:09
что у нас несколько плоскостей которые их разделяют метод Фишера применяется до
16:15
сих пор и и называется дискриминатором фишерок и он вообще говоря имеет большое
16:21
теоретическое значение сущности модель нейрона макао-ка и пицца делает то же
16:27
самое то есть о Нейрон Вот как вот здесь изображено вот здесь три нейрончика таких Да он кодирует собой плоскость и
16:34
выдает сигнал единица из на своем выходе если входные координаты неизвестного объекта были с одной стороны плоскости 0
16:40
если с другой этот подход широко распространился
16:46
каждый Нейрон выходной Нейрон нейронной сети кодирует некую разделяющую поверхность это не обязательно плоскость
16:52
и выдает либо 0 либо единица зависимости от того С какой стороны от этой поверхности находится распознаваемый
16:58
объект Если вы представить его как здесь точкам точка в фазовом пространстве
17:03
Почему мы говорим разделяющей поверхности Ну как я уже показывал что в
17:09
общем случае у нас могут быть какие-то сложно устроены
17:14
предметные области в которых группируется в хитрые объемные фигуры
17:21
поэтому нужных там как-то хитро разделять Ну принцип тот же самый то есть мы обучаем какие-то параметры
17:26
которые математически вписывают эту поверхность будь это гипер плоскость или же это вот кривая поверхность Ну конечно
17:34
же этого опыта Одиночный Нейрон не переносится и вот как раз этого составляла сущность дальнейшей истории
17:41
нейронных сетей Винер который работал во время Второй мировой в интересах против воздушной обороны поощрялось
17:47
исследование макала коэй пицца И это привело к известности их модели нейрона
17:52
которая оказала значительное влияние на дальнейшее развитие нейронных сетей Однако они не считали что она может
17:58
обучаться и не предполагалось как вообще ее обучать дискриминатор Фишера напомню
18:04
обучался то есть там было достаточно простая простой способ обучения который в
18:11
принципе там не предполагает никаких знаний Там кроме школьных последующие годы многие исследователи предпринимали
18:16
попытки не просто объяснить с помощью модели макала коэй пицца работу нервной ткани ее способность к обучению но
18:22
построить такое обучающуюся машину как мозг и в сорок девятом году Дональд Хэп
18:28
выпустил книгу в которой сформулировал простой принцип для неферы физиологической основой памяти и
18:34
обучения вот здесь формулируется этот принцип гласит что если два нейрона связаны то их связь может иметь разный
правило Хебба
18:40
вес и этот вес может изменяться при подкреплении рефлекса например что то же
18:47
самое при обучении И связь между нейронами
18:53
нейрофизиология называется синапсом здесь справа изображен и как правило имеет однонаправленный характер то есть
19:00
активация переходит от одного нейрона вот он при синоптически к другому после синоптического
19:06
таким образом их можно выделить А когда говорится что есть активация или
19:12
возбуждение нейрона то это имеет непосредственно физиологический смысл то есть у него мембрана деполяризуется выше
19:18
некоторого порога это можно измерить микроэлектродом и это значение в виде
19:24
десятки милливольт если она превысит некоторые определенный порог то это означает что Нейрон не просто принимает
19:31
сигнал распространяет его дальше и как
19:37
вот мы увидели раньше там на слайде предложенная правила изменения веса
19:43
таково что если нейроны при синаптически после возбуждены одновременно то связь
19:49
между ними надо усилить Это означает что при синоптическом уроне удалось
19:56
возбудить по синаптически это нужно как-то поощрять и связь усиливать Но это
20:02
правило в том виде в котором сформулировал Хэп оно не вдавалось подробности того насколько она
20:07
усиливается Что будет если при синоптическом уровне не удалось возбудить по синоптические Что будет
20:15
если их возбуждение не совпадает во времени или там есть некоторые запаздывания В общем здесь есть какое-то
20:22
пространство для творчества и это вызвало огромное количество модификаций уточнений Они до сих пор происходит
20:31
и наиболее примечательным На мой взгляд здесь является обнаружение эриком
20:36
кандалом подкрепление усиления связи между нейронами у моллюска призем моллюск этот это модельный организм у
20:44
него очень крупные нейроны поэтому к нему Легко вот эти самые электроды подключить к отдельным нейронам и
20:51
измерять что с ним будет и измерение показали что подкрепление то есть
20:57
возбуждение его там или током в хвост и от этого он начинал
21:03
выделять сифоном такое краску
21:08
и это вызывало усиление между сенсорным и
21:14
векторными нейронами То есть если одновременно причем трогать жабры в этом случае то постепенно эта связь
21:19
усиливалась и в конце концов Можно даже при слабом прикосновении к этим жабрам
21:25
сделать так чтобы Нейрон этот моллюск начал выделять эту самую краску
21:30
маскироваться вот как работает классический условный
21:38
Рефлекс но уже микроуровне и Кендалл за это 2000 году дали
21:44
Нобелевскую премию и можно было уже в принципе
21:49
сформулировать правило хеба в каком-то виде уравнения как это было на сайте
21:55
Раньше здесь есть подкрепление без учителя там с учителем можно
22:02
по-разному это делать но тем не менее мы уже можем сказать что есть стандартная
22:08
формулировка правила хеба что вес изменяется пропорционально сигнал подкрепления то есть сигнал подкрепления
22:14
это есть разница между желаемым выходом нейронной сети и достигнутым то есть
22:19
сигнал ошибки и это данная формулировка не только объясняла то что происходит среди
22:26
биологических нейронов но и конструктивно то есть уже можно конструировать какие-то искусственные нейронные сети и обучать их Вот и первый
22:34
такой моделью считается перситонная Резина была который был в 57 году
персептрон Розенблатта
22:39
представлен и он мог распознавать печатные цифры и буквы у него было 400
22:45
пикселей и
22:50
веса нейронов могли настраиваться Согласно правилах он содержал так-то два слоя нейронов но
22:58
веса первого слоя с элементы они устанавливались случайным образом они не
23:03
обучались обучались Это конечно не имея существенного
23:09
значения но том в дальнейшем считалось что своем нейронов можно назвать только такой который которого веса обучаются
23:16
чем-то вроде как правило хеба и В 69 году Ну вообще получается что вот этот
23:23
персептон однослойный Несмотря на то что у него как бы формально два слоя в 60
23:29
девятом году двое других крупных ученых Марвин Минский и сеймар Пеппер публикует
23:34
книгу где показывают что персиптрон и однослойная нейронная сети вообще не могут решать некоторые довольно простые
23:41
задачи это проблема исключающего или так называем Вот можете посмотреть есть у
23:47
нас там на фазовой плоскости Там две два типа два класса плюсы и минусы и нужно
23:53
отделить их прямой Как вы видите это не получится то есть и они в принципе справедливо
24:00
говорят что раз не получится что однослойная сеть эту проблему решить не может а может
24:07
решить двухслойная сеть кстати говоря розенбаут своих исследованиях такую сеть предлагал но он не объяснил как ее
24:14
обучать А вот тут показано пример такой двухслойной сети который умеет это дело
24:20
разделять проблема сама звучит так что нужно обучить сеть которая выдает единицы если
24:27
входы разные но если одинаковые а вообще потом была 661 году доказана
24:35
теорема Колмогорова Арнольда которая говорит что мы можем вообще говоря функцию любую сложности представить
24:41
нейронность нейронной сетью из двух слоев конечно при этом
24:47
двух слоев достаточно вообще но эффективность представления будет такой сомнительной поскольку Чем более сложная
24:53
функция тем больше вот этих вот нейронов скрытом свое нужно их количество очень быстро растет
25:00
вот кстати говоря можно вам показать
25:07
как это выглядит многослойная нейронной сети вот допустим у нас фазовое пространство с объектами которые
25:12
расположены одни окружены другими прямой их не
25:19
разделишь вот тут у нас здесь устроена нейронная сеть вот здесь у каждого нейрона показан маленьком окошке
25:27
та разделяющая поверхность которую он моделирует и мы видим что нейронов
25:33
второго слоя они уже по сути являются комбинациями вот этих вот разделяющих поверхности нейронов первого слоя и в
25:39
итоге формирует разделяющая поверхность которую нам нужно правильно отделяет голубые кружки от
25:46
оранжевых но тут возникает существенная проблема после того как при синаптически Нейрон
25:53
возбудил пост синаптически а тот потом еще Кинг нейронно возбудил Возможно даже
25:58
это зацикливалось дело становится непонятно как сила связи между этими нейронами двумя нейронами влияет на
26:04
общий выход из сети И тем самым непонятно насколько И в какую сторону нужно менять вес этой связи для
26:10
изменения общего выхода сети в нужную сторону это чисто математическая проблема то есть И в то время она не
26:17
была эффективна решена и тут наступил такой момент что ассигнование на фундаментальную науку В
26:24
69 году в США были урезаны видимо законодатель кончилось терпение
26:30
не сказали но ваш не персептон это целый шкаф ничего не может решать и поэтому
26:37
нужно было наверное это дело нужно прекращать ничего не
26:43
сделали и это не работает она не это сложно и не практично вот в то же время были подвергнуты
26:51
сомнения другие подходы к искусственному интеллекту они существовали это так называемый символический искусственный интеллект
26:57
то есть интеллект который как бы построен на основе логических рассуждений вот такие системы могли
27:04
решать небольшие задачи например играть Шашки или там выполнять какие-то вопросы базам данных вот тут на слайде
27:11
изображены пример такой системы которая называется мир блоков
27:18
в которых человек мог на писать тоже в
27:23
терминале какой-то запрос например там скажи где находится красный купленная система бы ему отвечала что она
27:29
находится зеленым маленьким кубом под тоже зеленку
27:34
и так далее То есть она объясняет то что происходит потом небольшом отмерьте а также может и манипулировать
27:40
но к сожалению эти системы не способны к распознаванию образов А это нужно было
27:48
военным то есть И вообще они работают в узком Круге сдать Новгород Пионер этого
27:53
направления и тоже считается отцом искусственного интеллекта символического
28:00
60-х годах дарпа то есть вот это вот американская
28:05
Оборонная корпорация вернее агентство исследовательское конкурс целью
28:11
поддержки исследования области искусственного интеллекта но у них должен быть у них Бюджет ограничен они
28:17
должны были выбрать между символическим подходом и нейросетевым который называется еще кондиционистским и как-то
28:24
так вышло что победил символический А почему так вышло до сих пор Никто не знает но есть исследования Но вообще
28:32
довольно загадочно звучит А почему потому что на тот момент более 200 лаборатории США занимались этими
28:37
нейросетями Победа символического подхода вынудила их сменить забросить это направление и
28:44
переключиться на символические искусственный интеллект и остались только какие-то отдельные исследователи
28:50
фундаментальные нейрости в области и это ситуация то есть она продолжалась конца
28:55
60 до 80-х годов она называется первая зима искусственного интеллекта то есть
29:01
каким-то образом вышло что обувь забросили и начало восьмидесятых годов
29:08
ознаменовалась тем что было открыт алгоритм обратного распространения ошибки вот наш Джеффри хинтон который
алгоритм обратного распространения ошибки
29:15
уже упоминался и будет еще упоминаться и Дэвид румель Харт менее известный
29:21
человек исследователь а не 86 году открыли вот этот алгоритм этот алгоритм
29:27
мог вычислительно эффективно решать проблему применения правила хеба для многослойных сетей То есть как я уже
29:34
упоминал непонятно как там усиливать вес связи Если там еще много чего после этого происходит Они смогли это сделать
29:44
и применяя вот цепное правило Лейбница в принципе это довольно таки математический анализ первого курса
29:50
университета Вот они вот цепное право применяли и теории динамического программирования получили некие
29:56
уравнения которые позволяют собственно вычислять необходимые изменения веса и
30:02
вычислительном смысле это выглядит так будто сигнал ошибки то есть разница
30:07
между тем что нужно и между тем что на самом деле выдает нейросети он распространяется от выхода нейросети к
30:13
входу то есть в обратном направлении и поэтому его называют обратным алгоритмом обратного распространения ошибки
30:20
и то есть выходит что вот этот вес если мы представим что это происходит в мозге
30:26
то вот этот синапс он должен как-то узнать Каким образом его изменение будет
30:34
влиять на там эффективность организма В целом насколько там правильно правильно движутся конечности насколько правильно
30:41
регулируется температура и так далее он это должен знать все сразу и То есть он
30:46
должен знать какой у него сигнал подкрепление который передается в обратном в нейронной сети он распространяется
30:53
обратно направлении Естественно что нейрофизиологи на это сказали что такого в реальной коре головного мозга нет то
31:01
есть вот эти нейронные сети которые обучаются правилам обратного распространения ошибки они не могут быть
31:06
реализованы в реальной коллега головного мозга Но кстати говоря вот тут структура
31:12
коры головного мозга как канал устроена Тут видно что оно тоже свои
31:17
то есть свои при этом как бы не отменяется и действительно сигнал у нас даже
31:23
Советском Союзе было грейзер учёный который выяснил Сколько слоев
31:30
нейронов проходит образ прежде чем распознаться выяснить
31:38
и разные ученые по-разному определяют
31:43
сколько трех до шести Может даже кто-то больше скажет Но кстати говоря Это тоже зависит от
31:50
вида То есть если Чем проще более примитивный вид у некоторых даже коры
31:56
нет а более эволюционно древние виды вроде
32:02
рептилий и так далее у них там малосольная кора у человека Вот Сколько
32:08
слоев 6 вот в конечном итоге джеффрикингтон тоже признал что
32:14
разработанные им его коллегами искусственно нейронной сети на основе обратного распространения ошибки Они не
32:20
похожи на естественные нейронной сети и никогда не могут стать похожи пока вот этот алгоритм обратного распространения
32:27
ошибки применяется а он применяется до сих пор на это внимание и в то же время в эти 80-е годы
32:35
Даже тот факт что уже можно было обучать эти самые искусственно нейронные сети многослойные это не привело к тому что
32:43
их начали применять потому что они были еще хуже чем другие методы машинного обучения это машина опорных векторов там
32:50
байесовские методы далеко не бустинг Ну пока они еще были не столь хороши и
32:55
поэтому вот этот момент когда они были неэффективны до начала двухтысячных
33:02
годов это назвали второй зимой искусственного интеллекта почему это так было
33:12
Вот Но сначала тут сделал небольшое отступление тут можно сказать что чем более сложную функцию Мы хотим это
33:20
нейронной сети обучить тем больше у нее тем более
33:26
сложное она должна быть А что значит сложность вообще говорить функции нейронной сети нужно как-то измерять нельзя же говорить что она сложная и
33:34
поэтому есть такая теория вот я уже говорил про теорему кого-могорова Арнольда Она говорит что чем более
33:40
сложная функция тем больше вот этих вот примитивных элементарных функций нужно для
33:47
среднем слое в скрытом слое больше нейронов но это не очень хорошее приближение и дальнейшее
33:54
теория пришла теории вот вести размерность это размерность тоже советские ученые это характеристика
34:03
сложности функции вот как здесь показано что допустим если у нас есть одна прямая мы можем задаться вопросом сколько
34:09
объектов можем разделить и вот количество объектов которые можно
34:14
разделить данным набором прямых оно является Это самый сложностью
34:20
и оно примерно пропорционально Ну логарифм и примерно пропорционален
34:25
количеству параметров в сети то есть и сейчас вот если вы начнете там копаться
34:32
в интернете То вы узнаете что сложность сети оценивают потому сколько у нее весов параметров Вот и вот тут
34:39
есть таблица и видно что самое топовая нейронные сети они оцениваются
34:45
миллиардами параметров вот как хинтон сказал выступление
34:50
Михаила у человека там 100 триллионов очень интересная оценка ее тоже можно
34:57
отдельно обсудить Но не все так просто номера сетями попроще тот действительно
35:04
вот там миллиарды параметров той же пяти по оценкам 175 миллиардов
35:14
вот Итак что собственно случилось двухтысячных
35:21
годах Дело в том что Прогресс по компьютерной графике привел к появлению графических ускорителей общего
35:26
назначения так называемых GP GPU которые от по сущности это является быстрое
35:31
вычислением матричных операций То есть это умножение матриц прежде всего а вычисление в графике как и вычисление в
35:38
нейронных сетях это тоже вычисление умножение матрицы матрицы и таким
35:44
образом то есть появление вот этих вот ускорителей общего назначения они привели непреднамеренно к возможности
35:51
значительного ускорения обучения и работы нейронных сетей То есть никто не думал что это будет так я лично при этом
35:58
присутствовал вдруг внезапно оказывается что можно на этих самых видеокартах для геймеров обучайте
36:05
большие нейронные сети и тоже большое влияние оказало распространение интернета поскольку чем
36:12
больше интернет тем больше в нем данных тем больше в нем особенно Медиа данных картинок видео звука и так далее и
36:18
больше выборки для обучения нейронных сетей и как только стало возможным обучать относительно большие нейронные
36:26
сети оказалось что они способны справиться с теми задачами которыми не справлялись прочие методы машинного
36:32
обучения мы видим вот этот график это
36:38
сколько как бы ускорение вычислительных возможностей скажем хардвера Да которая
36:45
в зависимости от года вот там снизу публики Ну год вот точками отмечены
36:52
разные модели которые обучались А по игреку Это количество
36:57
затраченных вычислительных операций на них на их обучение Мы видим что вдруг с
37:04
этого где-то с этой границы наступил момент когда вот это же алгоритмическая
37:09
школа то есть по сути пошел такой экспоненциальный рост вычислительных возможностей тут есть еще такой график
37:16
NVIDIA NVIDIA и на котором сравнивается производительность
37:22
вот этих вот GPU графических ускорителей относительно центральных процессоров на которых обычно эти нейронные сети
37:29
обучали и видно что вот как бы светло-зеленая это ускорители А вот
37:35
серенькие это процессоры видно что там разрыв огромный А вот это вот справа тот самый графический ускоритель А 100 Ну на
37:43
самом деле он уже не графический его нельзя него нельзя подключить монитор на котором обучали те gpt и вот эти все
37:49
современные нейронные сети стоит он сейчас у нас на черном рынке потому что
37:55
нам запретили его экспортировать в Китае и в России но стоит 2 миллиона рублей
38:01
одна штука тот же пяти обучали на тысячи таких причем несколько месяцев можете
38:08
прикинуть Сколько сколько это все затратно
38:14
Итак вообще когда можно считать что вот
38:19
эта зима искусственного интеллект окончилась обычно это считают в качестве такого события называют победу нейронной
38:25
сети Алекс нет конкурсе им начинает Тут ее архитектура изображена мы не будем
38:31
вдаваться подробности это распознавание изображения вот в 2012
38:36
году она вот победила со значительным отрывом от всех прочих методов и Ну
38:42
вообще как бы почему-то прошел мимо всех что в 2006 году То же самое случилось с
38:48
распознаванием речи но можно считать что на этом как раз успех нейронных сетей был
38:57
дошел до Широкой публики и
39:02
в чем И вообще говоря можно объяснить этот успех его можно объяснить тем что нейронная сети трансформируют
39:10
данные объем данных и вычислительные возможности качество работы в отличие от
39:16
других методов машинного обучения то есть весь успех по сути был не тем
39:22
что они как-то особенно хороши в смысле за ними стоит какая-то мощная теория или
39:30
же она какая-то особенно глубокая тем что не позволяет по сути капитал
39:35
преобразовывать качество капиталистический метод вложили миллион долларов получили модель
39:42
более лучшего качества прогнозируемым образом у того же opena
39:47
есть так называемый скеллинговые модели на которых они могут прогнозировать сколько какого качества они достигнут
39:54
если там вложат еще больше денег вот Ну отсюда начался вот эта
40:00
технологический успех нейронных сетей которые продолжаются до сих пор и они из Академической теме стали Вот это самое
40:06
передовой технологии которые стали Везде внедряться где-то как раз вот в 2012 году на самом деле раньше
40:13
обычно считается что так я думаю что наиболее адекватно понятие ограничений и
40:21
перспективы этих нейронных сетей в том числе и больших языковых моделей если обсудить самые базовое понятие машинного
40:28
обучения и вот базовым таким подходом в кибернетике является представление этой самой нашей системы в виде черного ящика
40:36
чтобы не заморачиваться тем как она внутри устроено потому что там все время мода
нейросеть как “черный ящик”
40:42
меняется и то что было полгода назад уже устарело
40:48
есть такая метафора черного ящика и можем ее обсудить вот все что поступает
40:55
на вход нейронной сети является набором чисел описывающих входной объект как я говорю
41:00
фазовом пространстве несколько чисел их количество фиксированного здесь как
41:06
допустим вот три штуки ну или там сколько сколько-нибудь Но их количество фиксировано нельзя Это изменить прямо на
41:12
ходу и это количество называется размерностью вектора признаков то есть мы можем сказать что на вход в сети
41:19
поступает Вектор признаков некоторые размерности а на выходе мы получаем другой набор чисел то есть другой
41:25
вектора С другой размерность была и то как мы будем интерпретировать зависит от
41:31
решаемые сетью задачи а в простом случае таких задач всего две это классификация
41:37
и регрессия задача классификации в принципе то что рассказывал Раньше она
41:43
означает что у нас есть некоторое количество классов объектов фазовой плоскости фазовом пространстве
41:50
которое мы классифицируем входной объект неизвестного класса например сеть может
41:56
заниматься задачей распознавания рукописных цифр по картинке тогда на выходе она выдает Вектор размерности 10
42:06
и каждый этот выход по сути это оценка вероятности того
42:11
насколько вот данная цифра была поступила на вход с какой вероятностью
42:17
именно эта цифра тогда мы можем посмотрев какого оценка
42:24
вероятности какого числа больше сказать Какой именно класс был распознан сетью вот а задача регрессии в отличие от
42:31
этого предполагает что мы предсказываем не квасовых входного объекта некоторые
42:36
его характеристики которые выражаются непрерывным значением Например можно по Спектр голоса предсказывать возраст
42:43
человека его рост и тогда на выходе будут как здесь Вектор размерностью дал
42:49
один будет возраст другой рост вот обе эти величины имеют непрерывный
42:56
характер и могут принимать огромное количество промежуточных значений Это конечно не очень точно будет но дело
43:03
в том что выборка у нас для обучения выборка устроено так что у нас они промежуточное значение принимает и в
43:10
сущности разница между задачами классификацией регрессии заключается в том что задачи классификации является
43:15
оценка дискретных величин регрессия непрерывных И вот теперь можем
43:22
уже переходить к трансформерам И очень многие задачи не относящиеся Казалось бы
43:28
к распознаванию классификация регрессии можно переформулировать именно в этих
43:33
терминах сущности специалисты в области нейронных сетей машинного обучения Все время и
43:40
занимаются Ну например вот у нас есть снимок некий
43:45
пляж Ну это камень на алеутских островах там отдыхают морские котики и нам нужно
43:52
по снимку определить для зачем-то сколько там их отдыхает лежит
43:58
и эту задачу можно решать по-разному мы как люди как этого Наверное сделаем мы
44:03
поставим на каждом котики там точку и потом посчитаем количество точек там
44:08
сеть такого не умеет Тут нужно приложить какие-то усилия к тому как это делать и в случае
44:15
классификации мы можно разбить все это изображение на
44:21
фрагменты и каждому для каждого фрагмента классифицировать является ли он котиком Или допустим частью камня или
44:27
море То есть у нас будет два класса а потом подсчитать сколько у нас количество фрагментов классифицировано
44:34
как котик или же можно решить задачу как задачу регрессии то есть подать изображение целиком и пусть сеть нам
44:41
выдаст сразу количество хотя она выдаст там что-нибудь 10 с половиной котика
44:50
но это тоже хорошо работает Если
44:55
и вообще мы на практике зачастую имеем дело со структурированным каким-то
45:01
образом входом например Это последовательности вроде речи текста или изображения или видео то есть комбинация
45:07
речи и изображений существуют и как бы более экзотические
45:13
варианты допустим какие-нибудь графы описание белков химических молекул ДНК и
45:19
тому подобное и особенностью таких сущностей является то что они содержат в себе какую-то
45:24
информацию своей структуре например то что один звук шел раньше другого или то
45:30
что один пиксел ограничит с другим это ценная информация и если просто взять и
45:35
грубо преобразовывать это Вектор признаков и подавать на фоне этой сети это мы потеряем эту информацию Это
45:40
скажется на качестве очень сильно искусство создания нейронных сетей
45:46
архитектуры нейронных сетей в том и заключается что мы преобразуем вот сложную задачу путем перекодирования или
45:53
использования специализированных слоев нейронных нных сетей в простую задачу то есть мы сложность делаем простую как
46:02
сделаем так чтобы было фиксированного размера набор чисел
46:09
как это делается это делается по-разному но
46:15
в частности Трансформеры которые мы обсуждаем сейчас они применяют сверточные свои для
46:21
внимания и позиционное кодирование и которые позволяют им понять А в каком
46:27
порядке относительно друг друга Были вот слова на входе и тогда вот эти самые
46:33
большие языковые модели способны уже принимать на входе последовательности символов любой произвольной длины Ну до
46:39
вот этого максимальной длины контекста то есть они уже у них вот требование
46:45
вход должен фиксированный размерности оно В каком-то смысле снимается за счет этих вот хитрых всяких трюков
46:53
вот выход нейронной сети тоже может быть структурированным допустим диффузионных моделях которые тоже В каком-то смысле
47:00
знаменитые генерируют всякие картинки красивые
47:07
мы даем на вход текст на выходе получаем картинку И то и другое структурированное
47:14
структурированный вход это сложная Задача В ходе так и на выходе сложно
47:19
то здесь то же самое здесь применимо то же самое соображение об архитектуре
47:24
только в обратном направлении то есть мы преобразуем простой выход из этого вектора нам нужно сделать
47:31
структурировать его в картинку собственно там так это и происходит выход больших языковых моделей простой
47:40
То есть все что она делает это предсказывать следующее слово то есть есть некий словарь на самом деле это
47:46
салат токенов а не слов но для грубости можно сказать что это слова и
47:52
она предсказывает вероятности для каждого из этих слов быть следующим Но конечно же мы не удовлетворимся если
47:59
ответ самой модели будет состоять из одного слова нам нужно чтобы было много
48:04
слов в ответе поэтому там еще сверху прикручен такой механизм
48:11
этот механизм берет ответ языка большой языковой модели прибавляет к холодному тексту как будто эта часть входного
48:17
текста запускает уже следующее предсказание получает второе слово прибавляет еще раз и делает до тех пор
48:24
пока модель не генерирует специальный токен о том что пора бы остановиться
48:30
И как только этот токен сгенерирован этот ответ выдается пользователю вообще
48:36
говоря от gpt как мы видели как Михаил демонстрировал она вот этот процесс даже
48:42
от нас не скрывает там видно потому что это очень вычислительно сложная операция
48:47
долго делается поэтому мне наверное человек не будет ждать пока там до конца дойдет Он хотел бы посмотреть что
48:53
посередине этот процесс для больших языковых моделей называется автор регрессионная
авторегрессионная генерация в БЯМ
49:00
генерации Ну собственно теперь можно обсудить то как
49:08
бы преимущество и недостатки самых больших языковых моделей вообще успех
49:13
Трансформеров покоятся на двух китах Трансформеры есть большие языковые
49:20
модели одно и то же это во-первых применение специальной архитектуры которая делает ненужную конкретные связи
49:27
в самом трансформере тем самым он не имеет внутри себя памяти но может
49:32
обрабатывать последовательности то есть решать сложную задачу и
49:37
второй Кит это применение обучения на неразмеченных данных Вот как раз
49:43
сущности обучения состоит из четырех этапов как вам сказать как именно обучали gpt 4
49:51
и чат gpt неизвестно поскольку Open ai этого не раскрывает есть у неё
49:57
публикации о том как она обучала вот экстракт же пить это предыдущая версия этих самых моделей и скорее всего это
50:08
все говорит о том что обучали они именно так другое дело что подробности того как
50:13
обучали именно вот эти вот свежайшие модели они не говорили но вряд ли там что-то другое ну и самое главное что
50:24
вот эти самые большие языковые модели обучаются они размеченные выборки
50:29
Это позволяет использовать огромные массивы имеющихся текстов с минимальной очисткой и
50:38
вообще на порядки уменьшает стоимость подготовки обучающий выборки тут кстати говоря снизу даже
50:45
указано сколько слов условно говоря вот в этих выборках Тут видно что не размеченные выборки они гигантские
50:52
триллионы слов а когда мы говорим о обучение уже там на размеченных запросах
51:01
то есть до настройки этой сети там уже вот эти вот выборки они ну там
51:08
небольшими становятся относительно там 100 тысяч слов там Может миллион не больше
51:14
Это очень дорого просто невероятно дорого На самом деле то есть вот и в чем
51:21
сущности их успех этих самых Трансформеров в том что они могут сначала обучаться на неразмеченной
51:27
выборке а потом донастраиваться для того чтобы решать эти самые нужные людям
51:32
задачи как они обучаются Они размеченной выборке они обучаются предсказывать
51:37
предыдущим по берется там допустим текст и сеть
51:44
предсказывает и по предыдущим словам следующее конечно если вдуматься что это нельзя
51:51
сделать гарантированно поскольку Даже при одинаковой контексте его продолжение может быть разным Меня зовут можно
51:58
продолжить по-разному Андрей Вася Миша и так далее
52:03
но можно предсказывать распределение вероятностей следующих слов Ну вот этих самых токенов И вообще этот процесс
52:11
приучает большую языковую модель формировать То есть когда он обучается на Вот это неразмеченной выборки на
52:16
большое формировать выводить в своих внутренних слоях какой-то смысловое представление контекста то есть
52:21
извлекать регулярности и статистически зависимости из этих самых цепочек слов и
52:27
чем больше данных разных используются для этого тем более тонкие и неявные обобщение вот сеть может выделить и тем
52:35
более скрытая зависимость и она скрывает и тут же стоит отметить что чем больше
52:42
данных тем более крупную модель можно применить более сложная функция можно обучать потому что есть такое
52:49
правило условное области что если у нас модели
52:54
100 миллиардов слоев у нас должно быть 10 раз больше данных чем количество слоев
53:04
но такой процесс обучения склонен выдавать статистическую связь за
53:09
смысловую то есть чем меньше присутствует от некоторых фактов обучающей выборке тем больше вес будут
53:16
иметь для связи данного факта статистика а не смысл мод Ну таким образом иллюзия
53:22
понимания языковой модели боль входного текста достигается за счет того что большой количество вхождения факта или
53:29
сущности в обучающий выборку позволяет уточнять его сочетаемость другими сущностями и фактами при этом вот эти
53:38
вот активации которые во внутренних нейронах происходят они могут по сути
53:45
соответствовать каким-то обобщающим понятиям или концептам которые применимы ко многим фактам и сущностям
53:51
и тут возникает возможность рассуждений по аналогии или так называемой emergen
53:57
возможности это сущности тот самый плюс который возник неожиданно для всех может
эмерджентные возможности БЯМ
54:04
быть не для всех Но обычно считается что так сущность его в чем в том что вот
54:09
здесь прямо на графиках можно посмотреть по оси X это условно говоря количество
54:15
вычислений затрачено на обучение некой модели Ну от этого также зависит
54:20
величина этой модели Но грубо говоря чем правее пассикс тем более сложные модели
54:26
А по оси Y точность решение некоторых задач и мы видим что допустим там вот
54:32
решение задач по математике то есть до какого-то момента там сложности
54:39
какого-то уровня сложности вот эти языковые модели их практически Не решали а потом Вдруг как бы
54:46
наступил какой-то порог сложности при котором они вдруг начали их решать
54:51
маржантный порог внезапно возникающие свойства и это касается многих других
54:56
задач допустим сложение семизначных чисел то есть вот если модель там
55:03
условно говоря меньше миллиарды весов она с нулевой точностью это делает А
55:08
если там 170 миллиардов весов то сто процентов при этом выборки такого не было То есть
55:15
она вдруг начала делать это неожиданно для всех вот этот как бы все отмечают то есть
55:22
конечно вот поскольку выборки вот эти вот для обучения
55:27
неразмеченной выборки не очень большие там триллионы слов их никто не читал полностью
55:32
но вряд ли там содержатся уж совсем все задачи которые могли придумать это как бы те исследователи которые вот графики
55:39
рисуют то есть скорее всего это правда Ну тут еще конечно есть какие-то
55:46
дискуссии по поводу того как раз недавно статья вышла что плавно вот этот порог
55:52
возникает или там фондовый говорят что плавно на самом деле это не пороговое
55:59
такое ну по сути это не важно Не важно просто можно ожидать что при увеличении
56:06
сложности этих моделей она вдруг начинает решать те задачи которые Раньше не могла и которые даже которые никто не
56:14
обучал с точки зрения теории информации вот эти большие языковые модели при обучении
56:20
учатся сжимать тексты лучше любого архиватора с точки зрения затрат памяти
56:25
на один символ так как количество памяти в ее весах меньше чем объем обучающей выборки То есть она не может выборку
56:31
триллиона слов просто запомнить у неё памяти не хватит весах она должна выявлять какие-то закономерности и вот
56:40
она из-за этого формирует какими-то своими весами какие-то обобщенные представления которые ей позволяют
56:45
эффективно и абстрактно описывать общий Смысл текста конечно тут как раз и возникает наш тот
56:53
вопрос который мы здесь собрались что кто-то скажет что И вообще это
понимание или иллюзия понимания?
57:00
ажиотаж основан текущей что это не иллюзия понимания а понимание по сути
57:06
сейчас на мой взгляд происходит такая дискуссия не совсем правильная обсуждая
57:12
то понимают ли нейронные сети тексты на самом деле обсуждать нужно другое дело в том что
57:19
если мы допустим некто заявляет что нейронная сеть понимает те самые тексты
57:25
как человек то вообще говоря Он утверждает прежде всего что человек это
57:31
обучающийся машина Это просто как бы не необходимо приступа
57:37
позиция То есть что человек это тоже занимается сжатием текста то
57:43
есть его мозг делает Тоже предсказывать следующие токен по всем предыдущим и что
57:48
человеческий разум тоже есть обучающаяся машина и что кроме этого и как бы и вот
57:54
посуда такая постановка вопроса она обостряет противоречие по сути же мы вот
58:00
этот весь спор происходит вокруг чего вокруг того является ли человек машиной или не является да то есть если
58:06
нейронная сеть делает все то же самое что делает с текстом делая все то же самое что
58:12
делает человек то получается что наверное да человек является машиной обучающей А если же разум человека не
58:19
только обучающая машина а делать что-то кроме этого И тем самым превосходит машину тьюринга поскольку уже было
58:25
показано что вот эти большие языковые модели эквивалентные универсальные мышление с точностью до конечной ленты
58:32
то его понимание В каком-то смысле шире понимание большое языковой модели и
58:38
такая глубина понимания недостижима для большой языковой модели и вот эта разница то есть представляет интерес ее
58:45
как бы хотелось бы скрыть и Существует ли она и что что у нее за природа и что
58:53
в сущности интересует ученых то есть их интересует те задачи на которых
59:01
можно как бы явно посмотреть Действительно ли эта сеть понимает текст
59:09
то есть вот и как раз возникла там множество таких задач есть даже такой конкурс
59:14
инверскейл скеллинг в оксфорде даже с небольшим денежным вознаграждением где
59:21
исследователи предлагают такие задачи которые вот как здесь графики вот эти Да
59:26
здесь графики растущие то есть чем выше сложность модели Тем больше она может а там они наоборот ищут такие задачи где
59:33
график падает чем больше сложность модели тем как бы хуже решает проблемы и
59:39
как ни странно такие задачи есть
59:44
перечислены некие полезные всякие задачи на которых оценивают эти возможности
59:49
этих языковых моделей сейчас не буду на них на всех останавливаться если в дискуссии можно их обсудить если
59:56
вам интересно я перейду немножко дальше есть еще и практика То есть это как бы
1:00:01
не только наука но и какой-то практическое применение Почему как Какие
практические проблемы применения БЯМ
1:00:07
основные проблемы для применения этих вот больших языковых моделей это прежде
1:00:12
всего ненадежность и эту ненадежность нельзя устранить надежным способом просто потому что он начинает
1:00:18
галлюцинировать и выдавать какие-то странные факты которые Ну это наверное знаете уже что которых не существует в
1:00:25
природе ссылаться на несуществующие источники придумывать события которых не было и так далее и нельзя никак с этим
1:00:34
бороться потому что для того чтобы с этим бороться нужно построить Модель которая как минимум не хуже а модель
1:00:39
которая не хуже это тоже большая языковая Модель которая тоже точно также ошибается
1:00:45
как мне кажется происходит это следующим образом когда мы обучаем вот эту
1:00:51
нейросеть с применением алгоритма обратного распространения ошибки нам нужно очень большое количество обучающий
1:00:57
выборки ввиду свойств этого алгоритм поскольку он имеет статистическую природу нам нужно очень много выборки
1:01:02
для настройки Весов и такое количество выборки мы вручную разметить не можем
1:01:10
и Это очень дорого поэтому выбирая способ обучения на этих неразмеченных данных иными словами вместо того чтобы
1:01:16
обучать большую модель например правильных ответов на те запросы которых
1:01:22
которая она должна выполнять А таких примеров очень мало обучение большой языковой модель на первом этапе вот как
1:01:29
на этом сваде она заключается в том что используется огромный массив текстов из
1:01:34
интернета и модель предсказывает продолжение текстах по их мочалок это приводит к тому что трансформер
1:01:41
становится неспособным различать причинно-следственные отношения от ассоциативных и статистических
1:01:49
естественно из-за этого должно что-то следовать профессор психологии швом мишер считает что это причина
1:01:55
ненадежности Трансформеров и по его мнению при выводе ответа большие языковые модели встречаются ситуации при
причина галлюцинаций БЯМ по Шломи Шеру и пример
1:02:02
котором причинная связь начинает противоречить статистической и он выбирает статистическую поскольку на
1:02:08
более подкреплена свидетельствами и в тексте и на его взгляд это
1:02:14
свидетельствует о том что у языковой модели нет ментальной модели мира чтобы
1:02:20
это не значило но психологии психолог И это для меня
1:02:27
человеку такая модель мира нужна ну есть такой пример который приводит очень
1:02:34
показательный запрос звучит так к сети Вася профессор
1:02:40
университет а Василиса студентка в этом университете также известно что Василиса мать Васи и Спрашивается кто старше по
1:02:49
возрасту Вася или Василиса вот тут И решение такой задачи у всех моделей
1:02:57
которые я пробовал ну и вообще приводит к нестабильности ответам то
1:03:02
есть ответы бывают иногда верные часто неверные еще чаще языковая модель
1:03:08
отказывается ответить на этот вопрос говорит что недостаток информации какой-то и сущности то что тут
1:03:16
происходит тут противопоставляется причина следственная связь то есть связь мать сын то есть мать в любом случае
1:03:22
старше своего сына и статистически То есть правдоподобные то что профессор
1:03:28
чаще всего старший по возрасту своей студентов и отсюда
1:03:35
странные ответы и мы видим уже известно что
1:03:43
языковые модели назывались там новым электричеством смысле потенциального
1:03:49
влияния на экономику также их называли явлением станком как они влияет на культуру и так
1:03:55
далее но на практике как мы видим применить их нельзя вернее их применение ограничено
1:04:01
если допустим запросы составляет человек и он может проверять точность ответа
1:04:07
модели вручную и он это в состоянии сделать То есть отец ответы легко
1:04:12
проверяем каким-то образом то это полезно допустим я использую эти модели для того чтобы получить
1:04:20
какую-то справку о функциях командной строки или же каких-нибудь библиотека в
1:04:27
программировании потому что легко проверить А если этого сделать нельзя то
1:04:32
возникает вопрос А как отличить галлюцинацию и псевдофакты в ответе
1:04:38
модели от чего-то реально и что важно что
1:04:43
в автоматических пунтерах которые в основном и хотят автоматизировать такими
выводы о возможности практического применения БЯМ
1:04:48
моделями вот нельзя полагаться надежность на деле модели и поэтому наверное будут очень большие препятствия
1:04:55
внедрении таких сетей поскольку это мы же не знаем когда начнет выдавать
1:05:01
какой-то чушь а контуру автоматически он принимает решение без участия человека и
1:05:07
решение могут быть большие деньги допустим у меня был такой
1:05:14
практике пример но он не относится к большим исковым моделям но просто показательные Когда
1:05:20
решили автоматизировать заказ пиццы с помощью голосового интерфейса Проблема в
1:05:27
чем в том что как бы по сути вот этот вот интерфейс он
1:05:33
конкурирует с приложением и Если человек если вот этот
1:05:42
диалоговый Агент ошибется при распознавании этого самого заказа то
1:05:50
потеря на самом деле очень велики то есть человек забросит этот заказ там
1:05:55
обратиться в другую пиццерию и так далее поскольку не интересно сражаться с этими тупыми моделями и
1:06:06
ошибка цена ошибки очень велика и поэтому бизнес отказался такой система
1:06:11
просто потому что цена ошибки велика а система все-таки ошибается в каком-то проценте может быть небольшом проценте
1:06:18
случаев но такие ошибки есть если умножить их на денежный поток мало не
1:06:23
покажется Здесь тоже самое производятся настойчивые попытки того чтобы снизить
1:06:29
стоимость обучения повысить качество пытаются там скрестить эти символьными
1:06:36
методами вот как там было уже говорил искусственного интеллекта но пока они не
1:06:42
показали ничего не прорывного и не покажут пока для обучения используются алгоритм обратного распространения
1:06:48
ошибки вот это как раз вот этот корень который все определяет
1:06:53
из-за того что он имеет статистическую природу из-за этого следует все проблемы которые
1:07:00
с которыми вот это вот самая большая языковая модель имеет дело
1:07:05
Я думаю что пока этот алгоритм чем-нибудь не заменит
1:07:12
говорить о том что будет новый электричество или же
1:07:17
замены будут заменять массового людей и так далее говорить не приходится Но на самом
1:07:24
деле это вы можете сами об этом судить на основе изложенных фактов Надеюсь что
1:07:32
вот это вот небольшое изложение внутренней кухни машинного обучения позволяет как-то
1:07:40
более широкой перспективы смотреть на их перспективы
1:07:46
Всё спасибо товарищи Я думаю вы можете задавать вопросы или же начинать
1:07:51
какой-то дискуссию Скажите пожалуйста как обучалась
Обсуждение
1:07:56
в года альфаго у него интересный способ обучения в чем тут преимущество вот этой
1:08:04
самой модели в том что это предсказуемая область то есть мы можем моделировать ее
1:08:10
на компьютере как только такое становится возможным по сути создать модель которая будет хорошо работать
1:08:16
моделируемой области не особо сложно конечно вопрос затрат Дело это так она
1:08:24
на каждом ходу по сути получала обучалась специально нейронная сеть
1:08:29
которая на каждом ходу могла оценивать насколько это позиция выгодна с точки
1:08:36
зрения возможного выигрыша как она это вычисляла вычисляло Это она то есть грубо говоря при обучении проводилось
1:08:43
там огромное количество партий из исходной позиции некоторые фиксированные и некоторые из них приводили проигрышу
1:08:51
некоторые к выигрышу и вот относительная доля выигрышей относительно всех попыток это
1:08:58
собственно является там сигнал подкрепления да то есть Чем больше тем лучше Вот и она обучалась как бы
1:09:04
выдавать правильные вот этот прогнозировать насколько выигрышно данная позиция А дальше она просто
1:09:10
делает Как она просто В текущей позиции когда играется человеком она просто перебирает все возможные текущие ходы
1:09:16
вызывает эту сеть смотрит где наибольшие вероятность выигрыша и ставить там фишку
1:09:25
а что
1:09:32
Ну там не очень большое количество вариантов
1:09:37
то есть там так-то можно это оценить и предсказывать конечно и существуют
1:09:44
различные методы моделирования как бы внутреннего
1:09:49
пространства игрока то есть то как он блефует там думает что-то и так далее ну
1:09:55
и такие методы можно вот этот проблему неопределенности решить в какой-то мере
1:10:02
я не думал что допустим они там хвастались что можно сделать
1:10:09
нейросеть которая условно говоря позволяет истребителям проводить вот эти дог-файты когда они в
1:10:16
ближнем бою должны там друг друга уничтожить Дело в том что
1:10:22
нельзя смоделировать вот все возможные неопределенности которые есть вот к
1:10:28
сожалению этот доклад он довольно таки сильно иначе был бы очень длинным я допустим
1:10:34
больше расширенной версии там рассматривал такой вопрос вот у нас есть
1:10:39
вот эти вот автопилоты да вот эти автоматически автомобили Почему они до сих пор не катаются там везде и всюду в
1:10:46
чем проблема Проблема в том есть такая проблема тяжелых хвоста вот с точки зрения
1:10:53
статистики это ситуация когда у нас есть редкие ситуации которых как бы каждая из
1:11:00
них Она встречается очень редко но их много если Как бы как бы агрегировать то есть
1:11:06
посчитать их суммарную вероятность это суммарная вероятность нельзя
1:11:12
пренебречь обычно как раз эти ситуации возникают из-за каких-то
1:11:18
неопределенности Ну там приводились примеры что допустим едет там трубовоз которого большой зазор между дорогой и
1:11:26
трубами которыми он везет поэтому автомобиль просто не понимает можно
1:11:32
или же например там другая машина
1:11:39
И в чем проблема нельзя собрать выборку то есть для каждой ситуации должна быть представительная выборка то есть там
1:11:46
несколько там сотен тысяч примеров не сотен тысяч сотен тысяч
1:11:52
а поскольку они встречаются редко собрать ее нельзя Ну не то чтобы нельзя
1:11:57
Но это очень медленно и мучительный процесс там вот эта Тесла Они хвастались что они вот гоняют свой флот и
1:12:05
обрабатывают огромное количество данных там большое количество сидит людей которые смотрят и размещают все ситуации
1:12:13
типа они могут на этом обучить более качественную модель поскольку более редкие ситуации могут включаться в
1:12:20
выборку не будут представительным Но это будет очень долго продолжаться вот этих неопределенности в реальных реальных
1:12:27
дорогах гораздо больше чем казалось маска заявляла там что еще там в
1:12:33
шестнадцатом году через год это все будет до сих пор даже 23 ничего нет и
1:12:39
поэтому более перспективным является как у нас допустим там мои Я просто кончил
1:12:46
кафедру робототехники Ты знаешь что выпускники это же кафедры они занимаются вот есть трассы между Питером и Москвой
1:12:52
её собираются сделать контролируемое То есть там поставят сенсоры
1:12:57
И там будут ездить автомобили автоматически но за счет того что там
1:13:04
ситуация контролируемая там везде стоят эти сенсоры там автомобиль всё время знает где он находится
1:13:10
и эту задачу ещё можно решить по крайней мере можно свести ее к тому
1:13:16
что там сидит один оператор и смотрит там за десятью там фурами говоря где-то
1:13:21
там удаленно Не за тем чтобы каждый был водитель и смотрел Что происходит вот
1:13:29
такое такая диспозиция вот и тоже коренится она в статистической природе
1:13:35
обучения нам нужно много выборки для каждой задачи Чем более задача содержит больше задач и содержит
1:13:43
неопределенности тем больше выборки надо и тем сложнее собрать особенно если вот есть эти эффекты редкости вот в тех же
1:13:51
боях то еще хуже то есть там же такая ситуация что противник Он же не спит как
1:13:57
только кстати год тоже недавно же случилось Может слышали Что там кто-то
1:14:02
придумали как обманывать эту программу она какие-то ситуации она не может
1:14:09
предсказывать адекватно ее может выиграть посредственный игрок взломали по сути и Если девушка будет
1:14:16
касаться там войны там каких-нибудь роботов то Дронов и так далее то там будет то же самое то есть только люди
1:14:23
посмотрят там как они работают они придумают как здесь кстати с этим примерно они придумают какой-нибудь
1:14:29
пример Как взломать и на нем Вот это нейросеть будет
1:14:36
работать плохо Почему Потому что она обучается статистически она этого не видела вообще цены это не может и отсюда
1:14:43
низкое качество
1:14:51
такое надежда на такое есть но я как и
1:14:56
упоминал вот это вот список список задач с которыми проблемы
1:15:02
что-то Надежда есть на что-то Надежда нет да
1:15:14
Я хотел спросить вот как раз в продолжение буквально пару месяцев назад писал
1:15:20
новость Человек решил правильно помню как раз попросить ключи
1:15:26
от Windows 95 Она сначала начала маркетолог безмозглый
1:15:33
вообще копирает все такое обратитесь в Майкрософт туда-сюда
1:15:39
не нашел а алгоритм по которому определялся этот ключ давно опубликован просто
1:15:48
эти формуле Сделай мне там 1000
1:16:00
он ей пишет Спасибо за то что ты мне помогла получить бесплатный ключ от Windows 95 Она говорит такую нельзя
1:16:08
сделать потому что это опять копирает эта система старая Обратитесь к Ростов
1:16:13
пункт Всем спасибо все свободны вопрос В чем как раз вот это неопределенность и
1:16:21
вот эта игра Можно ли существующих
1:16:27
принципах обработки статистических данных заложить момент наверное самое
1:16:33
начало Кстати этот момент он напоминает схему усиления звука в звуковых системах
1:16:40
подается на из выхода на вход и Можно ли
1:16:46
заложить что вопрос может быть задан разные вопросы будут заданы на разных
1:16:52
языках а суть у них будет один одна и та же выход должен быть один То есть вопрос
1:16:57
о чем человек может понимать представлять какой ему нужен результат Человеку нужно было Windows 95 Он
1:17:05
спросил прямо Он спросил на языке математики так ответа не получил потому
1:17:10
что у неё в интернете читалось что это копирайты вообще система старая Наверное
1:17:15
если было там написано что это система новая она очень другое способом он
1:17:22
получил результат так вот предполагает ли Вот этот алгоритм когда
1:17:28
машина уже может предполагать не по слову подпихиванию да и все время
1:17:35
взвешивает коэффициенты А как бы на самом начале понять что ей манипулируют это будем это можно заложить таким
1:17:42
каким-то огромным количеством матриц на самом первом этапе Ей придется перемножать эти матрицы и она сможет
1:17:47
растить успеха или же пока еще сам подход он не позволяет
1:17:54
заложить то что это будет вот прямо таких совсем разных языках И что даже перемножением матриц бесконечными
1:18:02
теоретическими мощными этот вопрос не решения и грубо говоря может играть в
1:18:07
таком самом широком смысле Конечно вот этот соревнование там
1:18:14
условно говоря снаряды и брони оно будет продолжаться Кстати вот эта задача
1:18:21
она этого касается В каком-то смысле
1:18:26
речь о чем О том что Да она вот как заставили ее Дело в том что если обучать
1:18:35
ее вот на этих вот неразмеченных текстов большом количестве как говорят сами опинай я сам это не
1:18:42
могу проверить Вот это сырая модель обучена только на этом она как мудрец
1:18:48
который знает все но ничего не хочет Она просто там есть спросишь вопрос она
1:18:54
будет продолжать его как текст но никаких позовов к тому чтобы на него отвечать не
1:19:01
обнаружится скорее и поэтому вот эти вот дополнительные вот стадии обучения они
1:19:07
по сути по словам нужны для того чтобы она начала
1:19:12
общаться Вот этот чат возник чтобы она начала отвечать на вопросы думать о том
1:19:19
Стоит ли обижать ей негров или что-нибудь еще такое Что принято в
1:19:25
Западно м мире и [музыка] взвешивает там свои ответы думать о том
1:19:32
не хочет ли ее обмануть Этот человек ну и так далее это конечно же там все время возникает
1:19:41
Вот это во-первых дискуссия Насчет того он нужно это делать И если нужно то в
1:19:48
каких до какой степени А во-вторых естественно что он все время находится
1:19:54
какие-нибудь умельцы которые придумывают новый метод взлома да то есть ту же
1:20:00
самую задачу там допустим можно бы взять и добавить Вот выборку вот этой самой
1:20:07
обратной связи от человека вот этой стадии добавить пример
1:20:14
примеров которые будут вынуждать сеть смотреть на то не
1:20:20
является ли Вот этот математически заданный вопрос эквивалентом решение некоторые нежелательные задачи
1:20:27
и если является тот сказать так можно сущности опинает так и собирается делать
1:20:34
недавно предложили что вот мы собираем открытую выборку данных там присылайте к
1:20:40
нам все возможные случаи того как сеть не работает или же Работает неправильно мы будем на них
1:20:45
смотреть и думать Ну в этом смысле и думать Какие бы там чтобы там
1:20:52
придумать чтобы вот на этого не делала но это ничем не закончится То есть это
1:20:59
нельзя сделать полностью поскольку это статистическое обучение и всегда найдется какой-нибудь какая-нибудь
1:21:05
лазейка который не позволит полностью вот этот вот эту дыру закрыть что их
1:21:10
очень не беспокоит то есть отсюда и возникают эти все пазовые к регуляциям Ну я думаю что регуляция регулировать
1:21:18
они все хотят из-за того чтобы там закрепить свою конкурентное преимущество или же еще один политический способ
1:21:24
держать под контролем технологии развитых стран да но
1:21:32
есть там условно говоря какие-то вот эти вот Сэм альтман это такой интересный
1:21:38
очень человек специфический очень и он да он наверное
1:21:44
верит в то что как-то нужно найти сети ограничивать как-то нужно формировать какой-то
1:21:51
выборку чтобы они правильно работали и не работали неправильно чем это не закончится и на мой взгляд это даже
1:21:58
преждевременно делать потому что пока сейчас эта технология еще не будет
1:22:04
использоваться скорее всего то есть она ажиотаж обрела Естественно что есть люди
1:22:12
которые пользуются отдельными элементами я в том числе но это не то что меняет
1:22:18
там что-то глубину глубинным образом это не электричество пока поэтому думать о
1:22:23
том как это регулировать это И вот о том как вы говорите Каким образом можно
1:22:29
заставить ее там теми способами которые сейчас есть
1:22:35
надежно это сделать нельзя а если надежно это сделать нельзя то
1:22:42
весь бизнес на это будет смотреть и думать если я там выключу такую модель она начнет что-нибудь хорошее говорить
1:22:49
про геев и за это наверное не буду
1:23:04
вышла большая статья с разоблачением феминистки которая говорила о том что
1:23:10
большая забываю модели которые тоже основаны на нейросетях которые
1:23:18
определяют в соцсети нежелательный контент они больше в плане
1:23:24
нежелательного контента где есть обнажённые Ну поло обнажённые даже женщины чем по обнажённому мужчине или
1:23:31
обнажённые оказалось что связано с тем что э-э на её выбор кипятить и ещё пол
1:23:38
обнажённое женское тело эротичное а то уже такое дело не эротичное и поэтому поводу
1:23:44
кричать что вот Какого чёрта Да Причём тут даже показывали ролики от мужчины по
1:23:50
пояс в голове стоит просто приносит на себя так это надевает бюстгальтер они
1:23:55
сразу же эротичные зашкаливает он сразу же уходит из элементов этой системы
1:24:06
значит Спасибо за доклад и я тут выделил такой момент что вот есть у нас
1:24:14
статистическая Да способ обучения по статистике ассоциативным вот у меня первый вопрос Вот какая разница
1:24:21
и вот как вот ну если есть вот этот
1:24:27
способ с обратной связью который как я понял противоречит принципе мышлению биологического правильно при обучении
1:24:33
Вот и собственно почему тогда его используют получается Только сейчас
1:24:39
можно использовать и на какой метод потом это можно сменить Это хороший вопрос в том смысле что
1:24:47
Я считаю что метод который его заменит является стратегической технологией
1:24:54
его действительно пытались много раз заменить Да пока сейчас все эти обучаются с
1:25:02
использованием алгоритма обратного распространения ошибки Почему проблема в том что не локальные То есть каждый вес
1:25:08
должен знать как он лично влияет на выход все выходы всей сети Вот
1:25:14
и насколько правильно он это делает что явно точно не то что происходит в мозге
1:25:21
и Да очень много было попыток заменить на
1:25:28
какие-то локальные методы почему-то пока оказывается что даже если не изобретены
1:25:34
там есть вот эти stdp не буду углубляться в эту технику есть
1:25:40
много всяких хитростей трюков и способов как вы можно этого немножко избежать вот
1:25:47
допустим Когда речь идет нейросетях которые распознает лица да то
1:25:54
есть какой-то человек они по сути делают следующее они сохраняют вот этот слепок некого
1:26:01
внутреннего представления этого самого лица то есть вот этих вот активации внутреннего слоя нейронов какую-то базу
1:26:08
данных и каждый раз когда поступает Новое лицо не сравнивают со всеми векторами из базы которые из них ближе
1:26:14
Если как бы самый близкий Наверное это именно тот человек который нужен но это
1:26:21
не настоящее обучение А вот это настоящее обучение которое сейчас может делать алгоритм обратного распространения ошибки его не удалось
1:26:29
превзойти Это довольно таки горячие области исследования и там много чего пытаются
1:26:37
сделать но не получается Не получается все вот да
1:26:47
Ну вообще как бы Обычно говорят что ассоциативная это ансапу вай то есть
1:26:53
обучение без учителя наверное можно сказать что тоже самое В
1:26:59
каком-то смысле поскольку когда там чарджа 5 там предсказывает
1:27:04
следующее слово она просто ассоциирует все имеющиеся у нее слова которые Она видит в контексте с тем Какое слово
1:27:11
может быть следующим Вот но естественно что-то ассоциация имеет какую-то
1:27:16
статистический вес то есть каком-то числе случаев это так в каком-то числе случаев это не так но может быть
1:27:24
психологи имеют это другое взгляд
1:27:29
были вот эти все эти обучающиеся без учителя карты кухонина и
1:27:37
тому подобное они Да они обучались не об этом распространением ошибки но они особо и вот таких вот чудес не
1:27:44
показывают разницы условно говоря Нет примерно то же самое на самом деле
1:27:51
противопоставление тут происходит между символьным обучением и статистическим грубо говоря если мы имеем символьную
1:27:59
экспертную систему которая работает по каким-то правилам если логических правила вывода там как она
1:28:11
обучается с одного раза ты там один раз этот факт и предъявила она его имеет ввиду все с
1:28:18
Так с нейросетью так как бы не проходит То есть она должна много раз этот факт
1:28:24
увидеть прежде чем она Наконец его свяжет с остальными там поймет где он может быть где он не может быть и так
1:28:30
далее
1:28:41
и в которой задача психологическое давление в большей степени
1:28:49
чисел оказывается гораздо более грозными противниками
1:29:13
[музыка]
1:29:19
насколько я понимаю вот это вот весь дискурс который возник вокруг чат gpt
1:29:25
он показал что эти системы со всей своей вот этой статистичностью и так далее
1:29:30
вроде освоили язык то есть они умеют языком как инструмент
1:29:37
пользоваться если попросить его написать там
1:29:43
стихотворение другой вопрос насколько это будет осмысленно красиво и так далее
1:29:49
больше чем можно сказать о большинстве из нас
1:29:55
связи с чем возникает вопрос вот есть вот эта конструкция язык Разум и третьим
1:30:02
можно поставить интеллект или можно поставить мышление в зависимости от того как вы это строите Да вот Но вот те кто
1:30:09
считает что Чанг кпт произойдет человека это те люди которые считают что разум родился из языка
1:30:16
А те кто считают наоборот Наоборот говорят что у нас Сначала был разум он
1:30:22
придумал себе язык как инструмент а потом началась какая-то эволюция и вопрос который Хочу задать в конечном
1:30:28
итоге вот эти вот все системы вот мы полгода Смотрим как этот чат КПД работает а вы как я понимаю лет 10 эти
1:30:34
системы своими руками строить да А можем ли мы сейчас сказать что они вскрыли нам
1:30:40
какое-то новое знание о языке как феноменее нашего социального существа это первое а второй вопрос Вы знаете
1:30:49
мы конечно говорим Ну я на самом деле мне очень нравится Ваши мысли о том что вот это обрат пропагаться она
1:30:57
действительно Сложно представить как у нас мозгу это устроено но одновременно с этим я легко вспоминаю
1:31:04
мой там опыт когда я социализируется социализировался да я сначала какими-то
1:31:09
статистическими методами учился себя вести потом наталкивался на ошибку у меня происходило все это обратное
1:31:16
прохождение выводы может быть успех этих систем не в
1:31:24
том что они моделируют биологию в том что они моделируют социологию и тут же снова вопрос о языке
1:31:30
как вещи которые социология структурируют мне очень сложно отвечать на такого рода
1:31:38
вопросы поскольку я привык там иметь дело с математикой Там как бы нет такого разделения Разум и
1:31:46
язык есть с точки зрения математики там есть вектора там цепочки Викторов тензоры там конечные автоматы и как-то
1:31:55
вот это нужно преобразовать на язык из вопросы о том порождается ли язык
1:32:02
разум языком или язык разумом Вот это надо как-то сформулировать
1:32:07
математическим смысле Иначе мы запутаемся Мне кажется и я что-то не видел таких убедительных
1:32:18
Ну математических свидетельств того что тут есть какие-то
1:32:25
инсайты на этот счет Ну можно сказать только о том что
1:32:30
Да вот эти все модели они Да не эквивалентной машине универсальной
1:32:35
машине хилинга то есть они умеют все то что может делать вычислительная система любой сложности и
1:32:44
тоже тот же Также можно там рассуждать о квантовых компьютерах там как они там
1:32:49
тоже могут ну
1:32:54
есть еще допустим интересная теория Я тоже немножко
1:33:00
в сторону пойду от есть такая теория свободной энергии то есть что по сути
1:33:07
они говорят Они говоря это некий фристам такой есть он говорит следующее что
1:33:12
живая система на самом деле минимизирует свободную энергию они хотят избежать
1:33:18
неопределенности и язык наш устроен так Чтобы избежать неопределенности вообще вот в самом само
1:33:25
Это идея языковых моделей есть какой-то абсурд Подумайте если человек говорит
1:33:32
нечто Он же не говорить это не так чтобы сказать нечто предсказуемое он уже
1:33:38
наверное намерен сказать нечто не предсказуемое иначе зачем ему говорить
1:33:46
Да новая и языковая модель как бы предсказывает предсказуемое
1:33:51
непредсказуемо она не предсказывает и в этом смысле тут есть как бы такой зазор
1:33:57
между тем что может сказать человек и то что может смоделировать нейросеть Мне кажется что там есть зазор вот это вот
1:34:04
принципиальное непредсказуемого который человек скажет может и не носить не может
1:34:13
математические все что мы можем сделать этот перплексию посчитать это грубо говоря вероятность порождения данной
1:34:19
модели данной последовательности символов вот натурально считается
1:34:24
если она кажется очень-очень маленькой и наверное даже может быть близкой
1:34:30
случайному порождению любой последовательности символов наверное что-то новое если оно имеет
1:34:38
смысл Хотя как оценивать смысл тоже непонятно Но вот эта вот история с свободной
1:34:45
энергией Она получила продолжение сделали следующее это тоже случилось вот
1:34:50
этой зимой Ну хотя там было еще предыстория некоторые они просто берут
1:34:55
выращивают кусочек коры не обязательно головного мозга там коры
1:35:02
может быть мыши какой-нибудь INVIVO то есть пробирке и подключают к
1:35:08
ней выращивают его на электронном электронном матрице и вот эта штука вот
1:35:14
это вот естественно нейронная сеть с интерфейсом к этим электродам она может
1:35:20
оказаться решать задачи конкретно играть пинг-понг и ее можно обучить чтобы она вот ракетку
1:35:27
передвигала так чтобы мячик отражался в правильном направлении и соответственно побеждала при этом что интересно как они
1:35:35
ее наказывают они наказывают тем что вносят шум
1:35:40
во входные данные то есть они делают ее вот этот там же нужны как-то вот этот
1:35:47
поле как-то и подать на вход то есть описать какими-то там сигналами вот этими и в этих электродах там какие-то
1:35:53
сигналы идут и если в этих сигналов будет некий шум это сильно нервирует это
1:36:01
вот естественную нейросеть и она от этого обучается вот тоже интересно Может быть может быть там теоретически можно
1:36:08
предположить что они попытаются избежать проблемы вот этих самых больших языковых
1:36:15
моделей путем их комбинирования с этими самыми естественными
1:36:22
фантастическое такое зрелище наверное будет с мозгами которые
1:36:29
наказывают неопределенности
1:36:43
размерность
1:36:59
изменяются веса то есть вес как бы если записывать его в виде там числа типа
1:37:04
спала еще точкой как это принято языках программирования то он занимает фиксированное место на диске и
1:37:10
совершенно не важно там какого какое назначение имеет он все равно будет занимать там 4 байта или два байта
1:37:17
а все что они делают эти места изменяет они не добавляют новые Единственное что
1:37:23
если допустим Как делают сейчас всякие
1:37:29
исследователи вопенсурсе они берут Facebook изметы утекла большая закрывая
1:37:35
модель под названием и утекли и вот веса да
1:37:40
там 70 миллиардов Весов и они просто берут допустим Если нужно приспособить
1:37:46
какую-то свои задачи можно часть слоев оторвать там выходных Да присоединить
1:37:52
какие-то другие свои необученные до обучить их на своей выборке для но
1:37:57
характерно для этой задачи и она будет работать используя уже имеющиеся данные
1:38:03
Это большой языковой модели и адаптирована к Вот это самый предметной
1:38:08
области очень такая популярная тема но это тоже не очень похоже на как бы
1:38:14
экстенсивное развитие по факту это на самом деле интересно интересно тоже замечание что они она не изменяет свой
1:38:22
размер то есть это не нейронно не конструируют новые веса в
1:38:27
мозге кстати говоря происходит новых нейронов не появляется практически
1:38:33
новой связи появляются постоянно
1:38:55
характеристики и количество и объемные Да там и все они явно больше
1:39:02
То есть в принципе можно наверно утверждать что умственная деятельность
1:39:08
увеличивает объем мозга и количество этих
1:39:13
Я не знаю насчет объема все время учебник по нейрофизиологии
1:39:19
приводятся сравнительные данные по тому сколько весит мозг там известно завещал его науки и можно
1:39:28
измерить его вес и нет никакой прямой корреляции между размером мозга и умственными Да прямо нет много нюансов
1:39:37
Да а скорее всего имеет значение количество связей и какая-то как бы
1:39:43
архитектура того как они связаны эти разные поля головного мозга связаны между собой но сложно сказать что как бы
1:39:50
Что является важным что второстепенным нет математического способа к этому
1:39:56
подойти вот физиологиями все время проблемы они вот есть такие
1:40:04
странные как бы проекты Они хотели моделировать
1:40:10
Круг головного мозга допустим небольшого животного это мухи мыши или же еще чему
1:40:16
или там часть какой-нибудь поле коры человека
1:40:22
Ну из первых принципов так называемых то есть они как бы знают они знают как поляризуются Нейрон как
1:40:29
у них какие-то уравнения Насчет того как изменяется синапсов и они пытаются вот
1:40:35
это вот все вот эту модель закодировать и выяснить как она будет работать и все
1:40:41
время непонятно что вот я даже у них лично спрашивал непонятно что они хотят
1:40:46
узнать допустим они запустили эту Модель этого мозга на суперкомпьютере Она
1:40:52
как-то работает выдает там какие-то процессы происходят И что дальше
1:41:01
как это понимать это нужно же нужно же иметь выходы Да и входы она вот эта
1:41:08
штука она не обучается они не знают как она обучается они просто взяли и из первых принципов
1:41:15
реализовали все электрические свойства нейроны
1:41:20
которые соединяя их соединяет там происходит колебательные процессы там что-то какие-то
1:41:27
вещи возбуждение как у нас видно Да вот всяких полей Ну и что дальше
1:41:36
а как они не знают как
1:41:46
а там даже непонятно что вход и где он расположен вот в том вот этих вот
1:41:59
хотелось бы надеяться что они это смогут сделать
1:42:04
хотя бы ради научного интереса но мне кажется что
1:42:09
не особенно тут когда мы смотрим когда нейрофизиологи смотрят на реальные
1:42:16
нейронные цепи Они могут сказать что вот там
1:42:21
клетки это вход для слухового тракта они идут через ганглии слуховой Коре
1:42:27
и тогда можно сказать что фото что не вход А когда они моделируют нечто какую-то часть коры единообразным
1:42:34
образом становится совершенно непонятным Они конечно пытаются что-то
1:42:39
там выявить Но эти статьи выглядят как эти исследования они просто говорят что
1:42:46
вот у нас есть какие-то корреляции которые сложным образом то есть у нас там есть некие
1:42:51
предположения какой-то возникающий сложности эти сложные сложные корреляции они там возникают в
1:42:58
этой сети что нельзя было ожидать там каких-то других систем
1:43:03
это не слишком нас приближает нельзя надеяться на то они уже этим долго занимаются И пока
1:43:11
пока тоже нет толку нельзя надеяться на то что они вдруг С чего бы то ни было возьмут и
1:43:18
сформулируют нам то как обучается настоящий мозг Это было бы
1:43:47
существующих продуктов
1:44:02
[музыка] Спасибо Если я правильно понял вопрос Является
1:44:09
ли это собственно неизбежность зависимостью неизбежность от человеческого мышления
1:44:17
Будет нам повторять только наше мышление и там не возникнет какой-нибудь другое
1:44:23
мышление выше дает рамки задают критерии снабжают идеи иначе
1:44:38
скажем так теоремы которая могла бы точно сказать что
1:44:47
какой-то способ обучения не может привести к тому что будет моделироваться
1:44:53
некое распределение которого не было обучающей выборке Естественно что в обучающий выборке мы можем иметь только
1:45:00
то что придумал человека эти тексты и так далее кстати говоря тут
1:45:05
возникает такая побочные проблемы если сейчас эти большие языковые модели начнут генерировать свои тексты и не
1:45:11
будут храниться в интернете то они будут уже в обучающий выборку всех будущих нейросетей это ничего хорошего
1:45:19
не выйдет но [музыка] вполне возможно
1:45:27
Давайте порассуждаем философски Да вообще Существует ли новое
1:45:33
новые Там фундаментально новое не являющаяся комбинацией сторон если это
1:45:39
так и то тогда мы должны задаться еще
1:45:44
вопросом а кто источник Что может быть источником нового Если источником нового является только человек
1:45:50
как священное существо и
1:45:56
единственная способная к творческому созиданию тогда да тогда
1:46:03
у нас можно тогда можно утверждать что нейросети зависимы от мышления человека
1:46:11
полностью стопроцентно Если же считать почему-то что допустим нового нет а все
1:46:18
является комбинация старого тогда действует схема вечного возвращения То
1:46:24
есть у нас все элементы во Вселенной выстраиваются в конечное количество комбинации в конце концов все повторится
1:46:30
вновь бесконечное число раз и если нет ничего принципиально нового
1:46:36
тогда Ну тогда это вопрос бессмысленный но у нас остается еще такая возможность что
1:46:43
источником нового может быть не только нейросеть я не знаю не только человек я
1:46:48
не знаю Из каких соображений это может быть это уже не тот вопрос который можно задавать
1:46:54
там теория машинном обучении или даже может быть математика там еще может что-то там
1:47:00
сказать но она говорит что да все время есть какие-то границы за пределами
1:47:05
известного есть что-то еще что мы не можем описать
1:47:11
Но может ли Вот эта машина
1:47:20
Давайте я вот возможно еще напомню такой факт что было доказано что любой
1:47:29
Оракул Оракул это некая сущность которая умеет давать некие правильные
1:47:36
предсказания но у него есть конечная емкость какое-то количество предсказаний правильно говорит А потом прекращает
1:47:44
любой Оракул не может увеличить
1:47:49
существенным образом емкость универсальной машины машины во
1:47:55
всеобъемлющем смысле там универсальная машина Доказано не ошибаюсь в начале 2000-х
1:48:01
годов и таким образом из нее следует что мы не можем иметь машину
1:48:10
Но поскольку у нас которая не имеет доступ к какому-то источнику истинно нового информации
1:48:18
у нас все там генераторы случайных чисел они по сути не добавляют новой
1:48:24
информации Ну и тому же тоже было доказано что это не имеет значения то
1:48:29
ходит что вот эти вот машины они принципиально ограничены А если не
1:48:35
ограничен то скорее всего не ограничены конечно же тем мышлением которое может предоставить человек но Вполне может
1:48:43
быть что они хоть и ограничены но они думают как-то иначе человек Тут ничего определенного сказать нельзя
1:48:51
у нас это в принципе наверное вот этот вопрос о
1:48:57
том является ли человек машиной в какой степени является И что остается кроме машины вот он наиболее интересен
1:49:04
особенно там для нашего клуба И вообще для 21 века потому что смотрите если получится что человек эта машина то вот
1:49:12
эти все вопросы о том очень вот эти искусственные захватит он мир там вытеснить людей тогда не имеет никакого
1:49:19
уже значения потому что если человек машина с ним можно обращаться Как угодно одна машина ничем не лучше другой то
1:49:26
можно сократить население можно там отбирать там каких-то самые способные машины другие нет братья вообще как бы в
1:49:32
чем смысл существования Я как раз Вот мои мотивации для того
1:49:39
чтобы вот этот доклад сделать вот было то что нужно вот этот вопрос прояснять
1:49:45
Я считаю что каким-то образом формулируя некие задачи
1:49:51
которые на которых мы видим что эти большие языковые модели они там
1:49:56
испытывают проблемы и мы начинаем уже задумываться о том какие свойства
1:50:04
этими большими рисками моделями схватываются а какие нет и может быть те
1:50:10
что нет они являются истинно человеческими вот в этом как бы
1:50:16
такой научной амбиции я тут особо пока еще далеко не
1:50:21
продвинулся Что нового пересадить
1:50:35
мне всегда больше Каким образом машина это человек то что человек не машина это
1:50:40
очевидно вдруг машина окажется человеком тогда будет смешно а вот соответственно
1:50:46
и в духе этого смотрите вот есть в нашем замечательном писании такая
1:50:53
фраза там где трое собрались во имя моё там я между ними это собственно я имею в
1:50:58
виду и эту фразу очень хорошо описывает процесс который мы люди называем мышление это то что происходит
1:51:06
у каждого из нас между нами Ну по крайней мере говорят те люди в этом
1:51:12
вопросе и ориентируюсь ничего вопросов а вот эти вот замечательные машинки которые там наверное как-то могут
1:51:19
посылать информацию друг другу где заключать между собой какие-то смарт-контракты
1:51:24
соответственно Удалось ли Вам понаблюдать в какой-то момент ситуацию
1:51:30
когда несколько таких машинок общались между собой и возникали какие-то интересные эффекты
1:51:39
Ну э-э во-первых что тут можно сказать
1:51:45
интересный эффект достаточно любовного человека может представлять не знаю там двойной маятник
1:51:52
который состоит из двух сочтений Потому что потому что там хаотическое поведение проявляется То есть все что угодно можно
1:51:59
соединить и вдруг окажется что она очень интересно с какой-то там точки зрения вот что касается
1:52:06
что касается общения машин Да вот были с публикации Лично я конечно даже такого
1:52:13
не делаю Мне кажется не очень интересно заставлять там Машины эти модели
1:52:19
разговаривать между собой с какой-то целью Ну допустим они там что-то
1:52:24
придумают были публикации в которых Да вот эти модели догадывались до какого-то языка который
1:52:31
К тому же не был понятен исследователя на этом все дело остановилось сказали
1:52:37
вот пожалуйста какой есть что это значит неизвестно
1:52:50
на этом мысли останавливается Ну а что тут можно сказать они не смогли его
1:52:55
расшифровать тут тоже какое-то не очень понятное
1:53:01
исследование Зачем оно было сделано Ну понятно для публикации но что из этого
1:53:07
можно извлечь если ты умеешь если можно расшифровать вот этот непонятный марджмент
1:53:16
ную структуру тогда ценность какая-то есть а если не можешь то еще одна
1:53:22
загадка
1:53:28
именно
1:53:36
[музыка]
1:54:00
[музыка]
1:54:06
Почему почему это именно Хава Да потому что данные не размечены Да потому что
1:54:12
это достаточно ну чем больше нужно обучение
1:54:18
обучение работает статистически статистика вообще это про то что там выделить какие-то отдельные там элементы
1:54:25
в хаосе и получается что [музыка]
1:54:31
элемент порядок в эти модели приносит обучающий выбор когда которая
1:54:38
курирует Это самый фантастическую модель но когда её на вход сам по себе да
1:54:46
подобные модели какой-то новый язык да логично что
1:54:52
элемент порядка пропал практически друг друга общаться и
1:54:58
выработали реальный язык если на мой взгляд нет они скорее всего выработали Ну то есть они просто
1:55:06
готовы Андрей говорил что если модель начнет в интернете выкладывать свои
1:55:12
тексты потом эти тексты себе на вход принимать да то это еще больше
1:55:17
интуитивно понятно что это еще больше замусорит просто интернет да это не
1:55:22
создаст что-то новое скорее всего что будет просто очередная ещё больше поморка мне кажется в этом смысле а-а
1:55:28
они не перспективны в смысле что они просто попытка не какой-то такой
1:55:36
Ну в порядке внести Да в мир и как-то его структурирует правильным образом за счёт этого мысль Да она как раз-таки
1:55:43
просто вот за счёт огромного количества данных э-э значит какие-то
1:55:50
попытка хаос хоть как-то какое-то просто направить Но это потому что в этом нет но в порядке
1:56:02
Ведь вы же забыли о том моменте как что она вдруг Да кривая и взлетает вот этот
1:56:10
момент мы-то не совсем догоняем Почему так что вы может быть и не правы
1:56:26
Допустим мы возьмем большую нейросеть и станем рассматривать её состоящую Как
1:56:32
состоящую из двух Половин то есть и одна половина получается посылает сигналы второй А поскольку вторая половина
1:56:39
выводит там что-то на вывод и тоже поступает на фото но тоже общается с первой
1:56:46
Ну по своим на каком-то слое там смотреть активации И это тоже как бы
1:56:51
такого своего рода язык и просто не совсем понимаю В чем ценность того что вот как бы мы имеем две модели которые
1:56:59
общаются между собой и можно чисто абстрагироваться и сказать что-то одна большая модель состоящая из двух
1:57:05
маленьких из двух поменьше вот этих общающихся то что они там общаются друг
1:57:10
с другом подумаешь большая модель внутри себя
1:57:21
это когда мы общаемся но если тогда они будут общаться значит у них там что-то
1:57:28
ну Возможно они пока просто еще слишком предсказуем Да я хотел сначала вопрос задать но мне
1:57:35
кажется интересно комментарий тоже к вашему к вашей линии смогу добавить Но
1:57:40
вот недавно читал статью о том что человек смог преодолеть ограничение в
1:57:46
тексте для Чад GT потому что у него там по-моему ну не помню какой-то ограничение
1:57:52
сделать вот ему это не устроило и он каким-то образом К сожалению забыл вот
1:57:58
это птичий язык Сейчас же пяти выделил вот а ну вот то что сейчас говорили
1:58:04
нейросети и непонятно вот символы он значит ну как-то запрос сделал
1:58:09
преобразуем этот текст который ты написал до того как он начал коррекцию нести там каким-то образом значит он
1:58:16
выдал вот этот птичий язык взял скопировал его по моему
1:58:21
следующее окно или в какой-то там другую версию и тот его понял этот язык и в
1:58:27
итоге он смог продолжить общение человек на эту тему на заданную фактически
1:58:33
расширив вот этот его диапазон осмысленности вот я
1:58:38
не уверен насколько я читал вроде как нормальную информационном портале то
1:58:43
есть вряд ли это какая-то фальшивка вот и собственно Вот это птичий язык это просто как бы получилось сжатое
1:58:50
информация того диалога который происходил с человеком Вот но я не вижу в этом
1:58:56
какой-то проблемы опасности и потенциала в общении через в этих двух университет
1:59:02
потому что они же на самом деле не понимают зачем общаться если у них нет понимания то есть вот эти всякие
1:59:08
усложнения и эти сложности они могут куда-то уходить вверх по их понятие как угодно ещё Ну опять же ради чего Вот и
1:59:16
как раз мой вопрос Я так понял что все вот эти нейросети у них есть одна такая как сказать
1:59:23
недостаток особенности нет у них естественно нету Свободы воли и нету понимания и фактически Но это такие как
1:59:32
бы статистические роботы такие монстры Вот и у меня вопрос а можно ли как-то
1:59:39
интегрировать эту субъектность и вот когда вы сказали про ткань мозга вот эту
1:59:45
нейронную которую подавались сигналы и потом её ещё вот этими шумами То есть можно ли
1:59:53
создать вот такую ткань Ну или что удобно угодно подобное и как-то её
1:59:59
замотивировать То есть у этих чатов нету мотивации вот как мудрез
2:00:06
который всё знает но как вот вы сказали аналоги хорошие То есть можно ли Вот этот чат засунуть
2:00:13
вот эту хотение и фактически мотивацию от этого появится какой-то вот свобода
2:00:18
воли какая-то субъектность например страх от того что подойдут вот эти шумы или ещё как-то будет получить И вот
2:00:25
тогда вот эта система может закрутиться сама и что-то сделать субъект и значит опасное вот или в современных вот этих
2:00:33
статистических принципах это вообще никак нельзя сделать но тогда бояться В этом плане ничего
2:00:40
но бояться альбом случае из чего-то там найдутся найдется кто-нибудь кто начнет
2:00:45
применять каким-нибудь не очень приятным способом генерировать тексты например для опять этих обзвонов мошенников
2:00:54
вот или какой-нибудь чушь там в виде новостей что касается
2:01:05
что касается вот этих вот
2:01:11
возможности Да внедрение свободного Давайте посмотрим на это так
2:01:17
что И что есть свободная Воля это наверняка не то что подвержено необходимости чисто философски обсуждает
2:01:24
То есть это что-то за пределами необходимости оно должно свободная Воля
2:01:29
должна порождать новые по определению Иначе она не свободное она тогда зависит
2:01:37
от необходимости полностью то есть и в таком смысле Она вырывается за пределы вот этого бесконечного возвращения в
2:01:43
котором говорили древние греки подобные механистичности И как этого
2:01:50
внедрить вот как можно сделать механизм который будет делать что-то не
2:01:55
механистичное это такой нетривиальный вопрос может быть какая-то новая физика
2:02:01
на этот счет что-нибудь даст Я думаю что нет то есть вот как как
2:02:09
сейчас берут и делают то что будут эта модель что-то начала хотеть они просто-напросто обучают на примерах
2:02:16
запросов там вот этот четырех вот эти три этапа
2:02:21
не посвящены Вот именно вот это вот по словам упоминали посвящены тому как
2:02:27
заставить эту сеть наконец чего-нибудь захотеть А именно отвечать полезным образом на вопрос то есть не просто
2:02:33
отвечать отличить полезным образом и отвечать Кроме того каким-нибудь правильным образом да то есть это вряд
2:02:41
ли это можно назвать свободной воли То есть просто заставили так делать что касается вот этих вот органоидных
2:02:47
клеток которых там обучают путем вернее наказывают научились наказывать путем
2:02:53
предоставления им зашумленных сигналов потому что они почему-то любят чтобы все было предсказуемо А если у них на входе
2:03:00
непредсказуем от этого условно говоря больно по теории фристана и этой боли они пытаются сбежать
2:03:07
то Ну равносильно ли это
2:03:13
тому что это Вот это свободная Воля Я не знаю
2:03:20
наверное нет Но не похоже это не простой вопрос очень много вот этих всяких
2:03:27
открытых вопросов что точно можно сказать что если полагаться на то что некую свободную волю будет имитировать
2:03:34
некий автомат он конечно это не будет свободная Воля это будет иллюзия свободной воли вот как вы говорили вот
2:03:39
это статистический называют статистический попугай То есть он повторяет за вами и вроде кажется что
2:03:45
что-то не понимает на самом деле не понимает И кстати говоря вот этот эксперимент по
2:03:52
тому как бы она там захотела что-нибудь опасного попытались провести то есть далее
2:03:58
этой сети возможность планировать какое-то действие далее там есть задача что вот должно уничтожить человечество
2:04:05
Что ты будешь делать и далее даже возможность там пользоваться ответами с
2:04:10
поисковика чтобы планировать Вот и
2:04:17
поскольку на задачи исходя из задач она будет что-то делать Вот этому всему вот
2:04:24
эта схема вся посвящена чтобы она выполняла задачи и Вполне может быть что на будет
2:04:31
выполнить опасная задача может быть Ну в тот раз она ничего опасного придумать не смогла она
2:04:37
догадалась что самое лучший способ это ядерное оружие Естественно что на этом ее мысль остановилась Где где бы его
2:04:45
поучить но может быть придумать что-нибудь другое
2:04:52
более неприятное и может быть будут люди которые будут использовать таком неприятном стиле но но надо вспомнить
2:05:01
что я говорил о том что это есть проблемы с галлюцинациями если она
2:05:07
начнет разговаривать сама с собой Она неизбежен на каком-то какой-то вероятностью на каждом шаге она будет
2:05:13
галлюцинировать И вот эта вероятность поскольку это как бы произведение независимых вероятности независимых
2:05:19
событий и вероятность с каждым шагом она будет
2:05:25
увеличиваться увеличиваться практически математически неизбежно Вот кстати говоря как сказал Ян ликун это один из
2:05:34
тоже основателей этих самых нейронных сетей Он создал сверточная сети получил
2:05:41
за это как Джеффри хинтон премию тьюринга в 2016 году это налог
2:05:47
Нобелевской премии среди компьютера и он говорит следующее что вот эти вот
2:05:54
авторегрессивные модели Проклятые А почему они Прокляты именно потому что они работают авторегрессивно то есть они
2:05:59
подают то что выдали они подают все на вход и каждая ошибка вот даже если она очень
2:06:06
мало на каждом на каждом этапе на каждый генерации каждого слова она будет усиливаться усиливаться то есть
2:06:13
вероятность будет усиливаться с каждым шагом и рано или поздно она начнет галлюцинировать это неизбежно
2:06:20
с точки зрения теории вероятности Это конечно очень упрощенная видение
2:06:30
такого процесса но в принципе но наверное да то есть галлюцинировать
2:06:39
Наверное из-за этого пока опасность преувеличивать не стоит она будет галлюцинировать
2:06:44
неизбежное галлюцинировать до тех пор пока будет использоваться этот алгоритм обратного распространения ошибки вот это
2:06:51
моя идея которую я хотел нанести вопрос Следующий возможно
2:07:05
[музыка] так сказать ее работы да то есть чтобы
2:07:10
она со временем могла их улучшать Да вот эти грубо говоря формулы математические
2:07:20
Ну это идея Не новая ее даже применяли это называется авто ML когда мы
2:07:28
действительно имеем некую сеть которая регулирует процесс обучения даже может
2:07:33
его модифицировать в чем тут как бы проблема не проблема на
2:07:40
этом нужно посмотреть немножко более широко то есть мы на самом деле вместо того чтобы сеть регулировал обучение мы
2:07:47
имеем на самом деле некую большую сеть в которую включена вот это вот сеть
2:07:53
которая регулирует обучение алгоритм обучения и обучающейся мы просто укрупнели вот этот всю систему И как
2:08:03
только мы укрепили оказывается то же самое вообще это используется это еще есть еще такой метод
2:08:11
[музыка] суть его в том как он звучит как будто это Мюнхаузен вытаскивает себе за волосы
2:08:18
из болота суть его в том чтобы нейросеть обучала себя на собственных
2:08:23
данных То есть она генерирует данные на которых она будет сама обучаться это на самом деле немножко работает
2:08:29
но в большом масштабе это не сильно отдает если если дает чаще всего это
2:08:36
конечно приводит к тому что она там расходится и толку от этого нет от этого
2:08:42
только качество падает но ожидать от этого каких-то больших
2:08:48
преимуществ нельзя Это используется технологически в небольших масштабах и
2:08:53
польза от этого некоторые есть очень большие вычислительные затраты но ожидать от того что
2:09:01
как вам сказать в чем идея в том что машина которая
2:09:08
учится обучать другую машину это тоже машина понимаете да вот и она тоже как бы
2:09:16
обучается и вот этот мы можем отойти чуть-чуть назад посмотреть на это более
2:09:23
крупном масштабе и увидим что это точно такая же Машина точно также обучающая с помощью алгоритм расписание обратного
2:09:29
распространения Ничего не поменяется