Сергей Марков: “Искусственный интеллект и машинное обучение: итоги 2023 года”

📢 Главные работы в области искусственного интеллекта и машинного обучения в 2023 году. Прогресс за прошедший год с позиции метрик и фактов. О новых трансформерных моделях (GPT-4, Llama 2, Gemini, GigaChat, LLAVA, DALL-E 3, SDXL, Kandinsky 3.0, Midjourney 6, RT-2 и мн. др.), о распознавании и синтезе изображений, речи, музыки, новых молекул и материалов, различных задачах обработки естественного языка и программного кода, об интерактивном ИИ, а также о других направлениях исследований; новые нейросетевые модели и оборудование 2023 года, применение ИИ и машинного обучения в бизнесе, медицине и науке, чего мы ждём от искусственного интеллекта и машинного обучения в 2024 году.

Расшифровка видео
0:02
[музыка]
0:14
Всем привет Меня зовут Сергей Марков И сегодня я немножко расскажу о том что у нас в прошлом году происходило в области
0:22
искусственного интеллекта и машинного обучения Ну несколько слов обо мне Я в общем-то
0:27
сразу всегда когда рассказываю что-то на тему я делаю маленький дисклеймер я не
0:33
совсем настоящий учёный Да у меня там не такой высокий хирш как хотелось бы вот
0:39
но я скажем так Практик м и в Сбере я руковожу большим подразделением которое
0:45
называется управление экспериментальных систем машинного обучения которые собственно занимаются обучением всяких
0:50
разных моделей машинного обучения Некоторые из них мы будем упоминать
0:58
сегодня несколько слов вообще о технологиях искусственного интеллекта
1:05
да о том какую роль они играют в развитии общества но тут Важно выровняться по терминам Да поскольку
1:12
издревле у бородатых мужиков существует традиция что прежде чем о чём-то спорить
1:18
Надо договориться об определениях Мы тоже с вами договоримся с самого начала об определениях сегодня Когда я буду
1:24
говорить искусственный интеллект я буду под этим термином понимать область науки и технологии кото занимается
1:30
автоматизацией решения интеллектуальных задач Ну проще говоря если есть какие-то
1:36
задачи которые мы с вами решаем при помощи своего человеческого интеллекта и дальше Мы стремимся создать систему
1:42
которая способна человека подменить или человеку помочь в решении такой интеллектуальной задачи то вот
1:48
собственно мы и занимаемся этим самым искусственным интеллектом Вот Ну вообще
1:53
У этого определение довольно Интересная история его в 1956 году предложил Джон Маккарти
2:01
известный специалист в области вычислительных технологий математик друг
2:06
Алана тьюринга вот ну и в общем-то это определение оно в какой-то мере
2:14
является детём тех романтических времён Вы знаете что когда годом спустя люди
2:21
запустили на Орбиту земли Первый искусственный спутник то всем казалось что конечно Ну вот ещ чуть-чуть Да ещ
2:27
через 10 лет мы полетим планеты А ещё через 20 лет полетим к соседним звёздам
2:33
будем строить колонии у Альфа Центавра и так далее и так далее вот Ну и конечно в
2:40
тогда в середине пятидесятых годов Ну наверное многим казалось что
2:46
дистанция от системы способной скажем обыграть человека в шахматы обыграть
2:52
чемпиона мира в шахматы до действительно универсального искусственного интеллекта то есть система которая способна решать
2:58
неопределённо широкий Круг интеллектуальных задач расстояние будет сравнительно небольшим В общем трудно
3:04
было тогда предвидеть что Ну эта дистанция растянется На многие десятилетия Вот Но тем не менее здесь в
3:13
общем-то многие из этих надежд как мы видим оправдались хотя и спустя гораздо
3:21
больший промежуток времени вот и ну ещ тоже несколько слов о нюансах в
3:28
использовании рми Если уж мы определяем достаточно
3:34
широко искусственный интеллект то неизбежно может стать вопрос Ну хорошо А
3:39
ну скажем калькулятор да Или механические счёты являются ли они системами искусственного интеллекта ведь
3:45
конечном счёте это тоже инструменты автоматизации решения интеллектуальных задач Ну в общем формально всё
3:51
действительно так ну в той же мере в которой скажем математикой является таблица умножения Да ребнок который ут
3:58
вшколе табли умножени Ну конечно мы не скажем про него что он математик Да и
4:06
может быть даже не скажем что он изучает математику Вот но формально В общем
4:11
Действительно это так действительно есть целый ряд задач
4:16
тривиальный день с точки зрения современных технологий Вот и конечно когда мы говорим об искусственном
4:22
интеллекте об исследованиях в области искусственного интеллекта Мы обычно понимаем фронти следования То есть те
4:27
задачи которые пока не решены либо те которые были решены сравнительно недавно
4:34
поэтому Ну вот такой
4:52
обывательских Марк или эффекта искусственного интеллекта Ну эффекта Марк в честь помела Марк известный
4:59
специалиста в области искусственного интеллекта А значит ну и в общем-то в
5:04
шутливой форме его можно выразить Так что э значит Ну если какая-то задача
5:10
успешно решается при помощи автоматизированных систем то эта задача не интеллектуальная вот э поэтому Ну
5:19
скажем в пятидесятые годы ни у кого бы не возникло сомнений о том что победить
5:24
чемпиона мира в шахматы может только настоящий условно говоря искусственный
5:30
интеллект Да вот но в девяностые годы когда ди Блу одолела Каспарова в матче
5:36
конечно Нашлись многие люди которые стали говорить что Ну ничего интеллектуального в ПБ нету это просто
5:43
значит очень глупая но очень быстрая машина которая значит вот механически пересчитала чемпиона мира Ну это на
5:50
самом деле не так но тем не менее такое такие суждения популярны достаточно ну и
5:56
тогда многие люди стали говорить о том что Ну шахмата это и не был никогда
6:02
интеллектуальной игрой А вот есть такая мудрая Восточная игра го вот в неё
6:08
машины играют плохо Ну вот когда вы нам покажете машину которая сможет обыграть сильнейшего мире игрока в го вот тогда и
6:14
поговорим вот ну когда в четырнадцатом году Альфа го обыграла Леси доля конечно
6:20
же тоже Нашлись люди которые стали говорить Ну это всё чепуха Это ваши свёрточные нейронные сети это всё
6:26
умножение матриц это всё не считается вот когда ваши машины начнут рисовать
6:32
картины вот тогда мы с вами и поговорим да ну и мы видим что сейчас машины рисуют картины И точно также постепенно
6:40
смещается граница Ну вот того что является что не является искусственным интеллектом с
6:47
обывательский точки зрения Ну а с научной точки зрения конечно же системами искусственного интеллекта
6:52
являются иб и альго и в общем-то
6:57
нейросетях на картинках и так далее И вот об этих технологиях мы с вами сегодня не будем говорить но будем
7:04
говорить о том что произошло в этой сфере в прошедшем двадцать третьем году
7:10
вот Ну ещё несколько наверное таких важных
7:16
тезисов в принципе перед нами сейчас стоит такая важная задача вообще в эпоху
7:21
технологической Революции это улучшить качество принятия тех
7:27
решений которые мы принимаем улучшить собственно наши способность решать сложные интеллектуальные задачи в
7:34
этом существует достаточно глобальный вызов Потому что Ну вот наша с
7:40
вами технологическая мощь она постоянно растёт в XIX веке человечество даже При
7:46
всём желании собравшись мы все вместе вряд ли могли бы нанести биосфере планеты
7:52
какой-то непоправимый ущерб Да вот ну или своему виду в целом а для того чтобы
7:58
устроить глобальную катастрофу в середине XX века Да нужно было бы чтобы лица принимающие решения в ведущих
8:05
мировых державах свихнулись бы да Нажали на красное кнопке вот ну и в этом случае
8:10
могла бы произойти глобальная катастрофа которая могла бы повредить всему нашему виду и всей биосфере планеты Сегодня
8:17
наши технологии становятся ещё более могущественными развивается биотех достаточно быстро и там тоже возникают
8:24
потенциально опасные применение технологий Ну словом стоимость генной
8:29
катастрофы глобальной она постоянно падает вот а вот наша способность распоряжаться нашим технологическим
8:35
могуществом она растёт к сожалению не столь быстро потому что ну биологически всё-таки Мы эволюционируем медленно Да
8:42
тот мозг который Нам достался от предков в ходе эволюции примерно тот же самый который у человечества был в наличии там
8:50
несколько тысяч лет назад тот же самый остался и сегодня изменения сравнительно небольшие Вот и в этом смысле для
8:58
человечества ре противопоставить вот этому росту технологического могущества адекватные
9:04
инструменты для принятия решений и Если такого рода инструментов не будет то в
9:10
общем-то Ну как вы понимаете будущее Может быть достаточно
9:24
незавидная очень важны И если мы представим себе э сценарий в котором
9:31
значит какие-то Техно поссии думеры Запрещают нам развивать технологии
9:36
искусственного интеллекта то э ну вот это грозит таким вот дальнейшим расширением этого дисбаланса в этом
9:43
смысле технологии искусственного интеллекта – это инструменты расширения наших возможностей
9:49
интеллектуальных которые Ну вот играют на нашей стороне что ли Вот в этом противостоянии
9:56
[музыка] а Ну на самом деле история развития
10:03
технологии искусственного интеллекта она достаточно длинная вот через несколько
10:08
месяцев свет должна увидеть Моя книга посвящённая в том числе истории искусственного интеллекта в общем у меня
10:15
по итогу получился такой кирпич размером больше чем Война и
10:20
мир если считать в словах вот поэтому как вы понимаете говорить об истории
10:26
искусственного интеллекта я могу долго вот но мы сегодня этого делать не будем Я
10:32
лишь скажу о том что сами технологии искусственного интеллекта в самой
10:37
примитивной форме человечество стало развивать очень-очень давно Вот и конечно по мере развития
10:44
технологического прогресса по мере продвижения вперёд технической
10:50
революции было Ну скажем так темпы развития технологии искусственного
10:57
интеллекта они тоже укоряли Да и в значительной мере за
11:04
последние наверное 20 лет в области Ну или даже 10 лет в области искусственного
11:10
интеллекта мы добились и узнали гораздо больше чем за всю предыдущую историю человечества Вот и здесь можно выделять
11:18
какие-то такие условные вехи важные в развитии этих технологий Да начиная от
11:25
появления первых нейрокомпьютер технологий например нейронных сетей до революции глубокого
11:32
обучения вообще мы с вами сейчас живём в эпоху которую принято называть новой весной искусственного интеллекта вообще
11:39
есть такая смешная концепция о том что якобы в искусственном интеллекте
11:44
существуют какие-то значит вёсны и зимы вот на самом деле это конечно Ну такое
11:50
очень упрощённое представление о том Каким образом развивались здесь технологии вот Но действительно за
11:56
последние 10 лет нам удалось решить очень много задач которые до сих пор ну на всём протяжении истории нашего
12:03
направления удовлетворительным образом решать не удавалось Вот и в общем-то
12:08
основой вот этой Революции глубокого обучения как её называют стало в общем-то Три Кита таких Значит первое –
12:16
это создание новых моделей
12:27
колекционерски строится по принципу такого своеобразного конструктора Lego где
12:33
каждая деталька является параметризованный слоем этой сети Ну и вот из таких
12:38
деталек Мы можем собирать достаточно большие сегодня структуры и при помощи
12:44
методов машинного обучения обучать их подбирать правильные параметры таких
12:49
моделей вот второй Кит – это конечно более мощные вычислительные средства и
12:56
здесь дело не только в том что в принципе мы находимся на стадии такой
13:02
экспоненциального развития вычислительных мощностей вычислительных технологий но дело и в том что появились
13:09
специализированные машины для обучения коннекс моделей Но прежде всего речь
13:15
идёт О тензорные вы с ними сталкивались Скорее всего в формате видеокарт Вот то есть
13:22
это процессоры которые способны выполнять операции сразу над многомерным матрицами чисел Вот и благодаря этому
13:31
благодаря появлению таких вычислительных устройств Мы получили ещё дополнительный прирост производительности Вот то есть
13:39
по сравнению с обычным оборудованием такого общего назначения
13:45
вот ну и третье – это быстрый рост количества оцифрованных данных которые
13:50
нужны для обучения статистических моделей и здесь темпы роста тоже пока
13:56
что напоминают экспоненциальные то есть примерно каждые 2,2 года количество
14:02
оцифрованных данных которые
14:09
накопилочка 175 зеба оцифрованных данных Ну много это
14:15
или мало если все все эти данные записать на DVD диске самым совершенным
14:23
самым плотным способом записи который у нас сейчас есть И эти диски сложить в стопку получится стопка высотой примерно
14:30
в 44 раза больше чем расстояние от Земли до Луны вот ну и соответственно Вот примерно каждые два года ещё высота этой
14:38
стопки удваивается вот происходит это за счёт очень многих вещей Да за счёт
14:45
развития социальных сетей за счёт развития различных интернет-сервисов Куда люди выкладывают оцифрованные
14:51
данные видео записи аудио тексты и так далее В
14:57
результате работы различных систем Промышленной автоматизации которые накапливают информацию в ходе своей
15:04
работы ну и так далее вот Ну вот фактически соединение этих трёх факторов
15:10
оно и породило то что мы сегодня называем революцией глубокого обучения в общем мы в 2023 году праздновали
15:17
десятилетие начала Революции глубокого обучения Вот Но это конечно тоже ВС даты
15:23
очень условные потому что начало Революции глубокого обучения обычно отсчитывается от появления нейросети
15:30
которую сегодня называют alnet значит Ну когда она создавалась
15:35
она так не называлась она называлась supervision вот так вот сеть aln свёрточная нейронная сеть которая
15:42
показала исключительные результаты в качестве распознавания образов Но на самом деле не была не первой
15:50
[музыка]
15:56
свёрточная образов более того она не была первой нейросетью обученной при
16:01
помощи графических ускорителей Вот но так уж получилось что значит в alnet
16:07
воплотилось наконец-то появление зрелой технологии распознавания образов основанной на свёрточные нейронных сетях
16:15
Ну и вот именно с 2013 года с успехов акнет в распознавании изображений
16:22
из началась собственно говоря определённая такая медийная инвестиционная Шумиха вокруг технологий
16:30
глубокого обучения вот значит Ну опять же внутри вот этих 10 лет этой самой
16:38
Революции глубокого обучения происходили также очень важные технологические открытия появления новых чрезвычайно
16:45
важных архитектур прежде всего появление механизма внимания Так называемого затем
16:51
механизма самов немая и архитектуры под названием трансформер которая лежит сегодня в основе огромного количества
16:58
модели о которых мы сегодня будем говорить Ну в общем на самом деле здесь
17:06
Конечно вот эти 10 лет принесли нам плоды которые в
17:12
2022-2023 году превратились в очередную такую революцию генеративного
17:18
искусственного интеллекта Вот и наверняка многие из вас пользуются инструментами которые были созданы за
17:25
эти последние 2 года начиная там от gpt Кандинского и так
17:35
далее В принципе технологии искусственного интеллекта они призваны усилить наши способности путём
17:42
раздвижения некоторых существующих барьеров которые есть у человеческого
17:47
разума Ну и надо сказать что эти барьеры они очень часто носят такой вполне
17:52
понятный эволюционный характер Ну например скорость операции которая
17:58
выполнят человеческий мозг Несмотря на то что человеческий мозг – Это чрезвычайно большая схема в НМ порядка
18:04
86 млр нейронов в Пике развития до квадриллиона синапсов каждый синапс если
18:10
мы захотим его смоделировать при помощи двоичных элементов потребует от нас там десятков или сотен тысяч элементов и в
18:17
целом это Эта система представляет собой огромную схему пока что не доступную по
18:23
своему масштабу существующим технологиям схемотехники вот но при этом
18:29
человеческий мозг действительно довольно медленный и отдельные импульсы в мозге
18:34
имеют длительность там от одно до 3 миллисекунд один импульс передаёт там
18:40
тоже по разным оценкам в зависимости от разных факторов примерно от д до 7 бит
18:46
информации Вот почему так Почему человеческий мозг медленный по сравнению с электроникой Ну на самом деле это
18:52
плата за мокрые вычисления Да при если у нас возникает разница
19:00
потенциалов больше 1,27 в вода начинает разлагаться на кислород и водород вот поэтому
19:07
электрические процессы в мозге не могут превышать вот этот вот барьер по разнице
19:13
потенциалов Ну а вот от этой разниц потенциалов зависит на самом деле скорость пропих Нея ионов ионные каналы
19:20
в синапсах Вот и таким образом человек сталкивается эволюция здесь сталкивается
19:27
с определённым который можно было бы преодолеть только сменой субстрата физического вычисления
19:34
но как вы понимаете для эволюционного процесса это такой очень серьёзный
19:40
скачок значит и машины могут быть быстрее
19:45
человека и в ряде случаев они действительно могут принимать решения гораздо быстрее чем любые биологические
19:52
системы Ну соответственно проблема надёжности Здесь тоже штука в том что в силу своей
20:00
универсальности в силу того что эволюция предъявляла свои специфические
20:05
требования к развитию нашего разума мы на самом деле можем сегодня создавать системы которые по показателям
20:11
надёжности человеческий мозг в ряде случаев превосходит ограниченный параллелизм
20:18
людям довольно трудно одновременно обрабатывать сразу много интеллектуальных задач достаточно быстро
20:25
деградирует производительность наша интеллектуальная искусственные системы в этом плане этого
20:33
ограничения лишены коммуникативные ограничение Но это собственно ограничение опять же
20:39
наших органов чувств наших рецепторов и также и наших мышц
20:47
через которые мы взаимодействуем с окружающим нас миром значит пропускная
20:53
способность каналов которыми обладает человек Она тоже довольно велика но в целом скорость
21:03
обработки Скорость обмена информацие с внешним миром ограничено и искусственные
21:08
системы в этом плане могут здесь показать более впечатляющие
21:13
результаты барьеры физической хрупкости понятно что человек может жить лишь в
21:19
определённом диапазоне температур в определённом диапазоне содержания кислорода в атмосфере в определённом
21:26
диапазоне урени Вот и есть ряд случаев когда нам нужны системы которые будут работать в
21:32
условиях которые неблагоприятны для человеческого организма следующий барьер порог
21:38
сложности анализируемых систем Ну на самом деле мы уже сегодня сталкиваемся
21:44
очень часто с тем что различные системы с которыми Мы сталкиваемся в природе и которые нам нужно анализировать для того
21:50
чтобы создавать новые технологии для того чтобы в принципе существовать и
21:57
развивается способности отдельно взятого человека Да скажем если мы
22:02
возьмём биохимические сигнальные цепочки человеческого организма распечатаем их
22:07
на плакате и повесим этот плакат Ну вот например на этой стене
22:12
то скорее всего мельчайшие надписи на этой диаграмме они всё равно будут выполнены вторым третьим кеглем примерно
22:20
И как вы понимаете в голову одного отдельно взятого человека вместить всю вот эту сложность анализируемой систе
22:28
и в ряде случаев невозможно Это один из важных барьеров сегодня на пути научного
22:35
познания природы вот Конечно мы умеем создавать человеческие коллективы для борьбы с вот
22:41
этой сложностью но с коллективами естественно мы
22:56
наталкивает то есть грубо говоря с увеличением количества компонента в вашей системе растёт количество
23:02
взаимодействия между ними в ряде моментов параллельной обработки и Ну в
23:09
общем ситуация примерно такая говоря простым языком если один Строитель
23:15
строит дом за год да это не значит что миллион Строителей вам возведут его за
23:20
несколько секунд Да как вы понимаете значит эффективность здесь будет падать вот поэтому искусственного
23:28
интеллекта потенциально могут раздвинуть для нас отодвинуть вот этот барьер сложности анализируемых нами
23:35
систем ограниченность памяти ну здесь тоже ситуация понятна люди довольно
23:40
давно используют всякого рода инструменты для того чтобы расширить свою память да едва ли не
23:47
первые инструменты в области искусственного интеллекта это письменность значит при помощи которой
23:54
Мы научились сохранять передавать информацию тем самым ограниченность
24:00
памяти ограниченные экспертные навыки и знания отдельного человека ну здесь тоже
24:05
в общем-то всё понятно нельзя быть экспертом во всём А машины потенциально могут на дать нам доступ к большим
24:13
банкам экспертных знаний барьеры инициативности и креативности ну и
24:18
барьеры масштабирования и репликации ну нас инициативности и креативности
24:25
здесь в общем-то
24:30
человеку трудно начать иной раз что-то делать человеку трудно выйти за границы
24:36
некоторых шаблонов существующих довольно хорошо это видно на примере той же самой
24:42
игры в go где благодаря приходу туда машин удалось найти многие ну такие
24:47
достаточно неочевидные трюки Ну и в шахматах на самом деле тоже очень похожая
24:53
ситуаци бар масштабирования репликации зде что Ну вот если
24:59
вам нужно срочно я не знаю открыть кол-центр на 10.000 человек да на 10.000
25:05
операторов то вы сами понимаете что вам потребуется очень много времени
25:10
чтобы этих людей нанять просо беседовать организовать Да в момент когда вам нужно будет сократить их Да окажется что
25:16
сократить вы их тоже не можете сразу с машинами такого ограничения нет да вы запускаете на одной виртуальной машине
25:25
там электронного оператора Да если нужно запускаете 10.000 таких машин Да ну и в
25:32
общем целом там нейросеть Эксперт Может быть там от реплицировать
25:45
технологии являются инструментами для усиления человеческого интеллекта
25:51
она очень Стара она звучит ещ у таких классиков этого направления Но вот
25:57
частности энгельбарт человек благодаря которому мы с вами сейчас пользуемся
26:02
оконными интерфейсами или мышкой например да человек который в принципе придумал парадигму обработки информации
26:09
в мультикон средах Вот он в шесть втором
26:15
году написал как раз работу которая была посвящена концепции развития
26:21
вычислительной техни как инструмен усиления человеческого
26:26
интеллекта в общем-то это было понятно и другим его современникам вот ушедший от нас в ть третьем году Эд фретки таким
26:35
поэтическим языком выражался на эту тему он говорил что как партнёры с интеллектуальными системами которые
26:41
дополняют и компенсируют наши исправим и недостатки и в полной мере используют присущую нам креативность мы могли бы
26:49
развивать все области науки и искусства имея вычислительные крылья мы могли бы взлететь на встречу
26:56
фениксу Ну последние несколько лет фронтир развития технологий
27:02
искусственного интеллекта связан с так называемыми фундаментальными моделями фундаментальные модели – это большие
27:10
нейросети с большим числом параметров которые обучаются при помощи подхода
27:15
который называется или самообучение Ну я немножко ом
27:24
скажу ВМ
27:29
быстрого горизонтального масштабирования таких моделей Дело в том что пока что мы
27:34
не видим уменьшающийся отдачи от масштабирования этих моделей модели становятся больше модели потребляют
27:42
большее количество данных больше количество вычислительных мощностей в процессе обучения и пропорционально
27:47
этому демонстрирует возрастание различных метрик качество решения интеллектуальных
27:53
задано фундаменталь моделе эта предо они по сути дела
28:01
анализируют огромное количество информации решая какую-то достаточно простую задачу ну вот это как раз
28:08
классика такого самообучения например соберём несколько десятков терабайт текстов в
28:14
интернете и будем учить модель предсказывать следующее слово в тексте по предыдущим словам Ну вот один из
28:21
примеров такой задачи который может на этапе предо использоваться
28:27
Ну и затем оказывается что если ваша модель действительно хорошо научилась продолжать тексты любые тексты это
28:34
значит что она потенциально может решать в принципе любую интеллектуальную задачу потому что любую интеллектуальную задачу
28:41
можно свести к задаче продолжения некоторого текста Ну пример Да например такой текст
28:48
яблоко тире Apple стол тире Ну если модель хорошо продолжает этот текст Да
28:54
она напишет там слово са произведёт перевод с русского языка на английский Вот ну или Например
29:02
я не знаю Вы можете описать шахматную позицию словами естественного языка Да перечислить На каких полях стоят фигуры
29:09
и потом в конце вашего текста написать лучший ход в этой позиции двоеточие Ну
29:14
если модель действительно умна то и умеет продолжать такие тексты то она
29:19
таким образом предложит вам ход в этой шахматной позиции То есть в принципе в
29:25
силу того что естественный язык является такой полной формальной системой при
29:30
помощи него можно описать условия вообще любой эффективно Вычисли мой задачи Ну и любую эффективную Вычисли задачу А как
29:37
следствие и любую интеллектуальную задачу можно свести к задаче продолжения текста Вот затем вот эта
29:45
предобзор
29:55
доочить на вашей э конкретное задачи То есть если у вас есть цель обучить модель
30:02
решать какую-то конкретную задачу более хорошо более качественно то вы можете потом небольшое количество шагов эту
30:09
модель до оббурдон
30:18
это в какой-то мере Похоже на то каким образом обучаются люди потому что ну
30:24
скажем в школе в институте Да мы изучаем получаем множество самых разных задаче
30:30
зачастую Как нам кажется бессмысленных вот студенты любят жаловаться на то что
30:35
вот зачем нас вот этому учат мы никогда в жизни не будем решать квадратные
30:40
уравнения или брать неопределённые интегралы или что-то ещё Да но
30:46
оказывается что в процессе решения вот этих вот разнообразных задач над разнообразными данными у людей
30:51
вырабатываются внутренние представления Т которые потом при Рени
30:57
других прикладных задач успешно нами переиспользовать вот эти
31:02
сформировавшиеся паттерны сформировавшиеся спати темпоральной карты активации нейронов для того чтобы
31:09
решать какие-то другие задачи Ну и вот с фундаментальными моделями всё примерно
31:14
так же значит Ну ещё несколько замечаний Да значит по
31:20
числу выполняемых единицу времени операции пока что наши суперкомпьютеры человеческий мозг не догнали
31:27
вот поэтому Если уж говорить о том На чьей стороне грубая сила Да на
31:33
стороне шахматной программы или человеческого мозга то грубая сила пока что на стороне человеческого мозга
31:40
другое дело что ну всякие из вас может сказать Ну хорошо Да вот человеческий
31:46
мозг производит огромное количество вычислений Да все вот
31:51
эти квадри синапсов значит меняет сво состояние с скоростью импульсы передают
31:59
э значит сигналы в через нервные волокна Но где где моя способность Почему я не
32:07
могу перемножать например десятизначное числа в уме Да вот ну и здесь конечно
32:13
штука заключается в том что огромное количество действий которое наш с вами мозг осуществляет оно происходит вне
32:19
нашего сознательного контроля Вот и наша так сказать сознательная умственная
32:24
деятельность построение рассуждений на самом деле Ну вот это очень небольшая
32:29
часть тех процессов которые в нашей психике с вами происходят да то есть
32:35
скажем если я вам покажу фотографию на которой будет нарисован котик или не
32:40
будет нарисована котика Вы скорее всего легко справитесь с этой задачей Но если я вас попрошу объяснить каким именно
32:46
образом вы поняли что на этой картинке есть котик Да вряд ли вы мне Опишите все
32:52
те значит активации нейронов которые произошли в вашем мозг того чтобы
32:57
определить есть здесь котик или нет Да вот поэтому значит Ну вот этот момент важно
33:04
понимать Однако если темпы роста производительности наших самых лучших
33:10
вычислительных машин будут сохраняться такими же какими они были предыдущие десятилетия то примерно к концу 2020
33:18
годов мы наконец-то сможем создавать машины примерно сопоставимые по брутто производительности с человеческим
33:25
мозгом сложность она заключается в том что при симуляции нейронных сетей наши
33:31
современные компьютеры существенно теряют из-за того что существует проблема так называемого
33:39
бутылочного горлышка фо Неймана А что такое бутылочное горлышка фо Неймана Ну
33:44
вот если мы посмотрим на человеческий мозг то в нём Нейрон одновременно
33:49
является местом и хранения и местом обработки информации вот а вот в случае
33:54
вычислительных машин у нас отдельно есть память и отдельно есть какие-то вычислительные
33:59
ядра и данные передаются в начале из памяти вычислительные ядра где производятся вычисления затем передаются
34:06
обратно в память и вот эта вот шина по которой передаются данные из памяти в
34:11
процессор Из процессора обратно она является узким местом в данном случае да то есть мы не можем позволить себе
34:20
огромное количество параллельных операций в каждой с с данными в каждой ячейке
34:27
Ну и вот современные машины примерно теряют в сся раз своей производительности при симуляции Таких
34:34
вот массивно параллельных объектов как биологические сети вот поэтому здесь конечно это
34:42
бутылочная горлышко постоянно стремятся расширить разными трюками разной степени
34:49
радикальность начиная от создание суперкомпьютеров с очень
34:54
быстрыми для обн у заканчивая специализированными так называемыми
35:00
нейроны архитектура вот ну увеличением опять же количества памяти в каждом
35:06
отдельном вычислительном узле количества быстрой памяти и так далее вот значит Ну
35:14
что ещё наверное хочется здесь сказать Ну как я уже
35:21
сказал мы находимся на этапе такого горизонтального масштабирования тех моделей которые
35:27
Вот Но значит вот конкретные законы этого оптимального
35:33
масштабирования они по сути дела Сейчас активно исследуются Да там нам нужно
35:39
понять в какой пропорции нам нужно увеличивать количество данных количество вычислений количество параметров моделей
35:46
для того чтобы получить оптимальные системы вот ну и вот важная рабо
35:55
из создателями модели шиншила они показали что не росте модели большие
36:01
которые тренировались до этого в основном были не дооб
36:08
ученым сменилась парадигма масштабирования больших моделей Именно поэтому мы сейчас не видим там такого
36:16
быстрого роста моделей сверх 600 млрд параметров вот просто потому что в ряде
36:24
случаев более оптимальным решением является просто более долгое обучение модели с
36:29
меньшим числом параметров вот Ну конечно со временем мы увидим модели монолитной модели с
36:37
количеством параметров больше триллиона Ну поскольку изначально
36:43
Трансформеры создавались для обработки текстова Конкретно вообще механизмы внимания были изобретены при решении
36:50
задачи машинного перевода вот первое время Прогресс наблюдался имен вни за
36:56
связаных С обработкой естественного языка Вот Но сегодня Трансформеры стали Ну таким донором Да и
37:05
область обработки естественного языка стала донором для других областей искусственного интеллекта вот ну
37:11
во-первых очень много что похожи на тексты поэтому модели которые умеют хорошо работать с текстами оказывается
37:17
хорошо работают например с программным кодом и с музыкой и например с
37:23
биологическими последовательностями Ну и в конечном счёте и с изображениями тоже да хотя
37:31
изображения двумерная структура в отличие от текста Вот Но тем не менее
37:36
оказалось что Трансформеры способны с такими структурами эффективно работать вот и поэтому если скажем
37:44
в ВОМ дем годах во многих отраслях машинного
37:50
обучения со результаты такие of результаты достигались ещ не трансфор
37:57
то сегодня конечно довольно трудно найти такую отрасль машинного обучения в
38:03
которой трансформер модели не показывали бы наилучшие
38:09
результаты значит Ну вот последние там 6-7 лет мы наблюдаем такой постепенный
38:17
сдвиг парадигм в области машинного обучения переход от специализированных
38:23
моделей к фундаментальным до появления фундаментальных моделей обычно не роевые
38:30
модели обучали решать какую-то одну конкретную задачу вот понятно что При таком подходе мы были очень сильно
38:37
ограничены за счёт необходимости наличия большого
38:42
количество размеченный данных вот фундаментальные модели немножечко
38:48
здесь снимают жёсткость требований к количеству данных которые используются при
38:55
добу хотя им конечно нужно очень много данных на этапе [музыка]
39:21
[музыка]
39:26
и обучение с учителем классическое переход от
39:32
моделей которые решают одну или несколько задач на одном языке к моделям
39:39
которые эффективно работают с разными языками с разными задачами переход от моделей которые
39:46
работают с какой-то одной модальностью но под модальностью на самом деле понимается
39:52
обычно психологии под модальностью понималось всегда отнесение раздражителя
39:58
к той или иной сенсорной системе человека да то есть зрительный раздражитель например или слуховой
40:04
раздражитель и так далее этот термин довольно вольно стали использовать в области машинного
40:10
обучения вы сейчас во многих статьях увидите такие термины как например текстовая модальность Или например даже
40:17
кодовая модальность хотя Где у человека есть рецепторы для восприятия текста
40:22
например да вот нету таких рецепторов но э Значит на самом деле термин используется
40:29
достаточно широко для обозначения различных представлений данных вот ну и
40:35
вот когда мы говорим о модальностей модальности так и некоторые
40:41
представления данных вот поэтому модели постепенно становятся мультимодальные то
40:47
есть учится работать не только с текстом одна и та же модель Может сегодня рабо наме одновременно с текстом и с
40:53
картинками даже звуком Ну а в рамках текста значит может
40:58
работать там с программным кодом и с нотами и с шахматными партиями и много с
41:04
чем ещё вот парадигма обучения больших моделей да Значит
41:10
от таких последовательных пайплайн обучения
41:15
мы переходим к массивным параллельным причём распараллеливания подвергается не
41:21
только подача данных в модели но и сами модели сегодня распиливают между разными Вычислите у вот значит Ну вот возникает
41:29
так называемый 3D параллелизм Ну и модная технология хотя она была
41:36
придумана ещё в девяностые годы mixture of experts смесь экспертов последние
41:41
годы тоже получила много популярных воплощений это
41:46
сети с так называемой разреженной активации Когда у нас по сути дела есть много подсетей и есть
41:53
слой диспечер такой да который активации
41:58
перенаправляет лишь в небольшое число существующих подсетей что позволяет Ну
42:05
вот значит сэкономить Нам очень сильно вычислительные ресурсы как при обучении
42:12
так при инфе сетей Ну и вот в отличие от таких монолитных сетей
42:20
сети с архитектурой смеси экспертов могут насчитывать больше сотни триллионов параметров
42:27
вот Ну конечно на практике обычно меньше Но отдельные такие экземпляры
42:34
есть значит эмерджентность ну на эту тему тоже много забавных разговоров есть
42:41
под эмерджентность вообще понимается обычно в науке значит какие-то
42:48
свойства системы которая не свойст е компонентам По отдельности Вот вот под
42:54
эмер поведением вообще фундаментальных моделей понимается обычно такое явление когда
43:01
модель до некоторого количества значит параметров не способно
43:08
решать какую-то интеллектуальную задачу вот а при превышении некоторого порога
43:14
По числу параметров по количеству компью и данных при обучении она начинает
43:19
решать очень хорошо и зачастую на сверхчеловеком уровне Ну то есть
43:24
происходит такой фао при масштабировании моделей вот ну на эту тему ведутся споры
43:30
о том что вот если там правильно пространство числа параметров ремезова
43:35
то значит такого резкого скачка не будет будет всё-таки сравнительно плавный рост Но это такой Конечно уже
43:45
Вопрос конкретных деталей и параметров этих кривых масштабирования но тем не
43:50
менее фак оста фак
43:56
задачи удалось решить действительно По мере увеличения размеров
44:04
нейросетей Ну в области разработки программного обеспечения Интересно что
44:10
происходит такой тоже сдвиг достаточно важный вообще программная инженерия –
44:16
это область которая Ну наверно наибольшее число революций на протяжении
44:23
века претерпело Да в сое годы программист пробивали дырочки в перфокартах Вот Потом значит появились
44:31
там языки низкого уровня в начале вроде языка ассемблера потом языки высокого
44:37
уровня появились библиотеки функции которые стали переиспользовать вот
44:44
появилось объектно ориентированное программирование в какой-то момент появились социальные технологии
44:51
разработки Да вот скажем девяностые годы там или начале 2000 годов когда я был
44:56
олимпиадный программистом и участвовал на соревнованиях хороший программист –
45:01
это был человек который прочитал там кнута искусство программирования все
45:07
тома там что-нибудь по теории графов ведение разработку анализ алгоритмов
45:12
гутмана хит неми там что-то по комбинаторике Да И вот вы этого человека
45:17
берёте запирается его в четырёх стенах отключа от внешнего мира даёте ему компьютер и даёте ему какую-то задачку
45:26
жок вот найди-ка ты мне там максимальный поток вот в этом графе да Или
45:33
гамильтонов цикл Да и человек радостно хватает клавиатуру и прямо из головы
45:38
Пишет вам программный код который э задачу решает и даже значит успешно
45:44
сдаёт на проверку и оказывается что этот код работает и укладывается в существующие ограничения вот конечно же
45:51
давно никто таким образом разработку не вет Да и сегодня современный разработчик
45:57
получив такую задачу первым делом идт куда-нибудь на стек офло Вот и находит
46:04
там нужный снипет кода копирует его к себе в кодовую базу и тут главное конечно умение это скопировать не из
46:11
вопроса из ответа да Вот потому что прецеденты к сожалению бывают обратного
46:17
Вот Но по факту Да сегодня разработка программного обеспечения она конечно очень
46:27
умение понять где искать Да умение переиспользовать чужой код понять его и переиспользовать оказывается более
46:34
важным чем Ну вот там количество не знаю алгоритмов которые вы заучили Вот и
46:41
сегодня за счёт появления прихода сюда в программную инженерию моделей машинного
46:47
обучения парадигма снова начинает смещаться за счёт того что ну Вам теперь
46:53
Возможно не обязательно идти куда-то на Overflow да Умный автокомплит в виде там
46:58
копай сам вам на основе вашего комментария на основе названия вашей функции сам сгенерирует необходимый блок
47:06
Вот сам сгенерирует к нему там Юнит тесты Да и ваша задача здесь скорее уже
47:12
контролировать да то что у вас получается да если сгенерированный
47:18
вариант вас какой-то причин не устраивает там переформулировать может быть свой промт вот опять же являются
47:26
более умные инструменты поиска дефектов в программном коде Вот и множество
47:31
других прекрасных инструментов программной инженерии которые конечно же всё равно являются тоже социальными
47:37
такими средствами разработки Вот потому что они основываются там на больших базах программного кода которые
47:45
использовала в ходе обучения ваша языковая модель Вот Но значит
47:50
здесь переиспользование вот этих социальных знаний оно как бы выходит на более
47:57
на новый качественный уровень вот ну и ещ такая интересная тоже интересный
48:03
сдвиг парадигм сдвиг парадигм от дискриминанте Ката то есть от моделей
48:09
которые преимущественно способны решать задачи распознавания вот значит к начале
48:15
генеративным системам то есть системам которые способны генерировать чтобы то
48:22
ни было да новые экземпляры данных программный код картинки текст и так далее вот ну и следующей стадий нередко
48:29
называют так называемый интерактивный искусственный интеллект это системы которые в ходе решения задач
48:35
поставленный им людьми способны взаимодействовать друг с другом вот и с
48:41
человеком также с другими людьми значит Ну и вот здесь в качестве
48:47
примера наверное такой интерактивности которые люди используют при решении интеллектуальных задач является
48:52
использование разных инструментов скажем не умеем быстро и качественно устно считать
48:59
Да но мы всегда знаем В какой момент нам нужно взять калькулятор да Или в какой момент нам нужно обратиться в поисковую
49:06
систему Вот соответственно система интерактивного искусственного интеллекта Это обычно какая-то генеративная модель
49:13
оркестратор которая умеет например обращаться к поисковым моделям умеет обращаться к различным символьным
49:20
моделям например к интерпретатором кода Ну и так далее да то есть по сути дела
49:25
Это возникновени таких мультиагентные систем в духе вот
49:31
этих вот Соса of Mind Минского и перта вот ну теперь побольше поговорим о
49:40
том что что же произошло именно за последний год значит Ну вот с текстовыми
49:45
языковыми моделями год назад мы говорили о революция gpt Да и о том что благодаря
49:53
появлению gpt многие люди узнали вообще существование каких-то генеративных трансформер моделей обще генеративных
49:59
языковых моделей Ну вот Один из таких популярных
50:05
сейчас способов оценки способностей знаний умений языковых моделей
50:12
используется набор тестов который называется mml значит это соответственно массовая
50:18
мультизадачность
50:25
насчитывает 16.000 а задачек вот которые делятся на 57 типов вот ну э задача
50:32
самые разные то есть из области арифметики информатики юриспруденции истории А и так далее Ну вот один из
50:40
самых популярных таких способов быстрой оценки возможностей языковой модели А
50:46
почему именно он популярен Хотя Казалось бы ну там у него есть некоторые
50:52
особенности это э там все вопросы они в виде закрытых сформулированы да Значит
50:59
нужно выбирать один из четырёх вариантов ответа всегда Вот но этот тест он
51:05
конечно удобен тем что он полностью автоматизированный да вам не нужно большое количество каких-то людей
51:10
асессоров сажать Да оценивать ответы вашей языковой модели Вот вы можете
51:16
просто прогнать такой вот автоматизированный ЕГ через любую языковую модель и получить Ну вот
51:22
какой-то средний балл который ваша моделька здесь выбивает вот топ 5
51:29
выглядит следующим образом Да значит Ну первое место это моделька от Гугла
51:37
опубликованная в Точнее не опубликованная в ть третьем году
51:42
заявленная Гуглом вот ру это вот работка уже двадцать четвёртого года поэтому мы
51:48
не будем про не говорить вот ну и дальше Вот мы видим опять
51:54
g44 и опять Джени вот на самом деле При
52:00
этом инженеры из Гугла конечно немножечко схитрить первую строчку здесь Потому что
52:09
они использовали как бы не один шаг выполнения модели а подход который получил название цепочка рассуждений Вот
52:17
то есть модель прежде чем дать ответ выполняет несколько шагов рассуждений
52:22
генерирует кандидаты на ответ ответа да и потом отбирает наиболее вероятного
52:28
кандидата Вот Но в какой-то мере это похоже на такой вот систему 2 камано Да
52:34
вот это вот сознательное рассуждение вот поэтому здесь вот конечно
52:40
сравнение gpt 4 с G в
52:46
Сета chin of не совсем правильная при помощью jt4 можно тоже соорудить и
52:52
скорее всего получить более хороший результат что здесь можно сказать про этот лидерборд
52:59
ещё его через него неоднократно пропускали людей вот значит что что
53:05
умеют люди люди в среднем дают что-то около 40 баллов на этом наборе тестов
53:13
Вот Но если мы посмотрим на верхний квартиль Да людей значит топ 5% Вот то
53:20
топ 5% людей дают в среднем около 89 баллов тее Да значит
53:27
Вот соответственно можно примерно прикинуть Как соотносится возможность
53:33
самых лучших языковых моделей с значит
53:38
людьми в решении таких задачи Вот ну если посмотреть что там дальше в этом же
53:45
лидер борде Да шестое седьмое место там до тридцать восьмого что здесь вы можете увидеть
53:52
подавляющее большинство моделе которое вы этом рде это годы Вот то есть о чём это говорит
54:01
говорит о быстром прогрессе да то есть модели становятся умнее и Неудивительно
54:07
что лучшие результаты показывают модели последних лет вот ну скажем вот там
54:15
модели двадцать первого года ни одной вы Не найдёте в топ там
54:22
40 поче Опя революция конечно привлекла очень много внимания к этой области и
54:29
много исследовательских команд много компаний много университетских
54:35
исследовательских центров сейчас сосредоточены на совершенствовании этих
54:41
моделей вот Ну вот ещё немножко про jp4 которая
54:47
ну в общем-то конечно видимо если так по чесноку сравнивать поумнее чем в среднем
54:57
оказывается естественно Через много других тестов эту модель прогоняли Вот и
55:05
почти везде почти везде чат gpt Ну gt4 на сегодняшний день
55:13
является сото моделью да то есть показывает самый самые хорошие метрики вот но надо
55:21
сказать что лучшие открытые модели всё-таки не так сильно уступают сегодня
55:27
то есть отставание лучших открытых моделей от лучших разработок Open Ну сегодня
55:33
составляет меньше года скажем так то есть вот этот гэп он примерно такой да то есть если вы
55:40
посмотрим где же находится gpt 3.5 здесь Да вот в этом топе то она находится на
55:48
двадцатом месте да то есть видите что между gpt 35 и gt4 уже
55:56
десят моделе как минимум вот Ну какие интересные модели
56:03
языковые появились именно в двадцать третьем году Ну gt4 gt4 turb ну что что
56:10
тут можно про эту модель сказать да ничего ничего потому что Open конечно перестало быть
56:23
Open торый посвящен тестированию модели на разных датасета мы не знаем ни число
56:30
параметров этой модели не знаем ни архитектуру можем строить какие-то обоснованные предположения на эту тему
56:36
но факт остаётся фактом не веса модели не открыты не архитектура ни набора
56:42
данных на которых модель обучалась вот в целом модель ценна только тем что она
56:49
дест показывает ре пока
56:56
Да это ответ Гугла openi значит модель существует в четырёх
57:04
версиях про Две из них мы знаем что Первый из них 1,8 млрд параметров а
57:09
другой 3,25 миллиардов параметров это мий NAN G
57:14
NAN 2 вот эти модели предназначены в общем-то для запуска на мобильных
57:20
устройствах на конечных устройствах вот ну и две старшие модельки включая самую
57:25
большую модель Ультра опять же про неё мы не знаем примерно
57:31
ничего Вот Но значит интереснее посмотреть что же Какие же лучшие
57:38
открытые модели существуют И на что они похожи значит Ну вот Лама 2 появившаяся
57:44
в двадцать третьем году доступна в трёх вариантах создатель её исследователи из
57:50
Мета три версии модели 7 млр 13 мл 70 миллиардов параметров можно скачать веса
58:00
этой модельки вот моделька с 13 миллиардами параметров Вполне может
58:06
использоваться на там какой-то топовой видеокарте домашней вот ну 70 ярдов
58:12
параметров будет конечно очень медленно и плохо Вот это монолитная трансформер
58:17
ная архитектура ничего в ней в общем-то такого радикально нового по сравнению с
58:23
предыдущими трансфор мо нет значит многослойный трансформер декодер
58:30
Вот обучалось это всё на
58:36
трх 3 триллионов токенов значит это тексты собранные в интернете и
58:43
профильтровать чисто технически то есть удалены дубликаты удалён мусор ошибки парсинга
58:51
вот естественно сюда же включены Википедии сюда же
58:57
включены значит большие библиотеки оцифрованных книг Значит типа того же самого лигена в
59:04
первую очередь вот ну в общей сложности вот эти профильтровать
59:16
там от одного до 10 триллионов токенов Ну что такое токен на самом де Я
59:25
когда говорил о задаче предо обучения я говорил что мы учим модели предсказывать следующее слово по предыдущим на самом
59:31
деле не совсем так на самом деле у нас есть некий алгоритм который называется танизаки на фрагменты этими фрагментами
59:39
могут быть как отдельные слова так и отдельные символы сочетания символов иногда даже несколько слов
59:44
словосочетание Ну в общем э на самом деле вот элементом последовательности
59:50
является этот самый токен вот ну и средняя длина примерно такого фрагменти
59:55
текста с которым оперирует модель она где-то 4-5 символов составляет Вот соответственно если мы говорим там о
1:00:01
триллионе токенов значит это 4-5 тба данных вот следующая очень
1:00:11
интересная модель лучшая В своём классе на момент появления получил название
1:00:16
местраль была создана она значит стартапом это самый большой Европейский
1:00:24
стартап по обучению фундаментальных моделей вот недавно Света видела мо
1:00:32
версия раля называется Мистраль значит представляет собой восем
1:00:38
сетей по 7 миллиардов параметров с слоем
1:00:44
роун вот несколько китайских моделей вот в
1:00:50
частности Отт 7 мл параметров тоже монолитная моделька
1:01:01
Вот квен это ВС модели с открытыми весами То
1:01:07
есть вы можете скачать пря все полностью всю сетку со всеми её параметрами вот
1:01:15
значит это созданный институтом находящимся в ауби
1:01:26
проект вот ещ одна китайская модель от компании 0 6 млр параметров открытые
1:01:36
веса две модельки от майкрософта довольно интересные это семейство моделей в
1:01:42
которых авторы делают особый фокус на качестве обучающих данных то
1:01:49
есть используют Дану Ну и довольно жёсткую фильтрацию
1:01:56
собранных данных и благодаря этому на некоторых Задачка Ай модели
1:02:02
ориентированы на обработку программного кода прежде всего они показывают результаты которые превосходят
1:02:08
существенно модели с большим числом параметров вот э Ну несколько наших а
1:02:15
изделий Fred T5 моделька которая появилась в самом начале двадцать
1:02:21
третьего года это энкодер декодер ная моделька с 13 млрд параметров обучалась она
1:02:30
на преимущественно русских текстах и соответственно долгое время занимала
1:02:35
показывал сотые результаты в обработке русского языка в частности в
1:02:41
Лидер барде R Super GL
1:02:46
лидировали параметров это самая большая сетка из тех которые мы опубликовали с
1:02:52
открытыми весами вот Но это такая моделька уже немножечко предыдущего
1:02:57
поколения Вот ей на смену вот в нашем
1:03:03
ответе чат gpt который получил название гига Chat значит пришли две новые
1:03:09
модельки 7u и с 29 миллиардами параметров вот Ну на самом
1:03:15
деле мы особенно не скрываем это тоже монолитные модельки очень похожие на
1:03:21
ламу по своей архитектуре единственное что у нас другой
1:03:33
[музыка] танизаки неза Тора получается при обработке русского языка то есть там на
1:03:39
один э значит токен приходится несколько всего русских букв там одна-две
1:03:46
то значит модельки которые в основном гача лежат они русский текст нормально тонизируют словарь у нас на 10.000
1:03:53
токенов больше Вот училось соответственно это тоже ВС с нуля на нашем собственном датасете Мы
1:04:01
собирали его в интернете он плюс-минус тоже как у всех такой же датасет То есть
1:04:08
это отфильтрованный кокл это Ген это Википедия на разных языках Вот
1:04:16
это [музыка]
1:04:23
мто ВС это было подвергнуто довольно жёсткой фильтрации Как при помощи наборов правил
1:04:30
так при помощи дупликатор при помощи мной модели И вдобавок ещё при помощи
1:04:37
энтропийного кодирования вот Ну наши коллеги из Яндекса опять же представили
1:04:43
свои модели вот ну закрытые тоже к сожалению пока Яндекс
1:04:49
GP значит ну Две версии у них есть поменьше 7 млр параметров Ну большая
1:04:54
по-моему 33 у них Но они по-моему публично Это нигде не заявляли но так в кулуарах В общем особо не
1:05:01
скрывают вот Ну вот если посмотреть на гат вообще как на вычислительный проект
1:05:06
довольно забавно то что на момент обучения сетка с 29 млр параметров стала
1:05:13
самым большим вычислительным проектом в истории России вот и получается
1:05:20
чтот вот этка самых быстрых суперкомпьютеров
1:05:26
страны кристофари Нео и получается что мы обучая её выполнили Ну вот там
1:05:35
порядка 6,5 на 1023 степени операций с
1:05:40
плавающей запятой Да ну и вот насколько это много да это
1:05:47
получается в раз больше чем мы потратили свое время на обучение
1:05:53
R3 милда параметров в первом году и на
1:05:58
тот момент проект по обучению rp3 был тоже самым большим вычислительным проектом в истории России Вот то есть с
1:06:06
дго по вать Трей год видите в шесть раз произошло
1:06:11
масштабирование вот
1:06:19
так Ну немножко об обработке программного кода некоторые языковые модели специализируется на задачах
1:06:25
связанных с обработкой программного кода Вот Но если мы посмотрим в специализированные Лидер борды По
1:06:32
предназначенной для оценки способностей моделей в кодовом домене мы там вверху всё равно видим решения основанные на
1:06:40
gp4 Вот но правда не голую gp4 да а
1:06:47
это специальные обёртки вокруг неё вот ну если опять же посмотреть дальше вниз
1:06:55
в этот лидерборд то опять же вы видите здесь модели д ВД
1:07:00
тго года ни одной до Там сорокового места нету точно
1:07:05
модельки более старой вот ну и вот если
1:07:11
посмотреть в топ что там идёт ниже G4
1:07:20
и то там вот есть вот которая действительно очень удачная
1:07:27
модель для кодового домена вот ну есть китайские модельки типа паньгу
1:07:33
кодер есть вот она на дем месте
1:07:38
примостился фай вот хотя она маленькая моделька Но вот оказывается что на этом
1:07:44
Лидер борде Как видите она успешно соревнуется с топовыми
1:07:52
сетками одно из направлений развития мультимодальной способны понимать
1:07:59
картинки вот ну наверное самый такой здесь опять же яркий проект – это
1:08:05
gpt 4 V gt4 Visual вот значит Ну на
1:08:11
самом деле моделек предназначенных значит вот для такой Крос доменной работы с картинками и с
1:08:18
текстом их в два третьем году появилось довольно много я вот заголовки слайда перечислил основные
1:08:24
ва Ну это понятно Визуальная Лама Космос 12 фма
1:08:32
квен вот ну и на самом деле есть ещё другие модельки но наша моделька о
1:08:38
Fusion называется мы её на показывали но пока пока не публикуем со временем
1:08:45
станет частью чата естественно
1:08:52
приго кроссворд решает да То есть вы ей скан кроссворда кидаете Да она
1:09:00
распознаёт э значит где Какие слова должны быть Да
1:09:07
понимает же а судоку тоже да судоку тоже Ну
1:09:13
иногда получается иногда не получается можете поэкспериментировать вот как у всех языковых моделей
1:09:20
результаты не всегда стабильные из-за стохастика вот ну или вот например да
1:09:25
уравнение пожалуйста тоже представленное в визуальной форме моделька понимает
1:09:31
и решает вот Ну вот другие какие-то примеры здесь здесь вот она объясняет
1:09:38
что она видит вот о чихуа-хуа на первом плане что сзади картинка которая
1:09:45
отсылает нас к Ван гогу Звёздной ночи Ну и так далее вот
1:09:50
или вот например счёт пожалуйста Да значит тоже
1:09:56
вопросы по этой картинке Какая дата счёта На какую сумму значит там
1:10:03
конкретная работа в этом счёте была оценена и так далее ну и справа вот
1:10:09
диаграмма Это причём картинки я взял не из работы самих инженеров Open ВТО
1:10:19
независимого рования сли
1:10:25
G4 ила вот ещ одна интересная фундаментальная модель работающая с
1:10:33
картинками это модель от инженеров из Мета называется она
1:10:41
сегмент и это модель которая предназначена для произвольной сегментации картинок
1:10:48
дасть Попро просто формулировать При помощи
1:10:55
естественного языка запрос что именно Вы хотите на картинке Да ну и
1:11:02
моделька выделяет сегмент соответствующей той части картинки
1:11:08
которую просили Ну дальнейший Прогресс в области
1:11:15
генерации картинок по тексту в этом году сразу несколько новых моделей появилось
1:11:22
вот у или дали Да никто не знает как
1:11:29
правильно ставить ударение в этом слове потому что оно получено путём совмещения
1:11:34
имени Сальвадора Дали с именем робота Олли Вот и поэтому вроде бы кто-то из
1:11:41
Open в каком-то интервью говорил далли поэтому я я как-то говорил тоже далли
1:11:47
вслед за ними но меня последнее время переу потому что все вокруг говорят дали Ты что не знае худож
1:11:54
дали вот значит Ну вот далет ну очередной там СТ в качестве
1:12:02
генерации это понятно Вот что на самом деле интересно в отношении этой модели
1:12:07
Она довольно неплохо справляется с написанием текстов на картинках но тоже не без дефектов понятно что при длинном
1:12:14
тексте дефекты всё равно там появляются Вот но это очень существенный такой бу
1:12:19
именно вот в работе с сгенерирован текстами Вот и если посмотреть технический отчёт А вот по дали 3
1:12:26
опубликован технический отчёт там из него можно узнать что они довольно много синтетических данных
1:12:32
использовали в обучении этой модели для того чтобы добиться именно качественной работы с текстами там с руками со всеми
1:12:40
классическими проблемка вот Ну вот тут у меня что-то там из творчества дали три
1:12:46
что было в папочки сохранённые Я на слайд выложил вот Ну вот например
1:12:54
McDonald’s в Древнем Риме вот или вот Windows 77 на
1:13:01
винили вот справа внизу Это
1:13:06
в кто-то выложил по запросу вот Ну не знаю Мне понравилось
1:13:14
F Ну это понятно здесь тоже к чему на
1:13:20
самом это какой-то ураган креативности Посмотрите
1:13:27
в Фейсбуке если не читаете это сообщество Там просто куча всяких проклятых генераций вот очень смешных и
1:13:35
там много таких мемов локальных образовалось типа там
1:13:40
клунс или ещё там какие-то странные объекты которые генер эти
1:13:46
модельки вот жр 6 опять же в этом году мы увидели
1:13:53
Ну точнее в прошедшем вот Ну жр
1:13:59
конечно очень хороший именно в визуале самом он уступает дали 3 в понимании
1:14:05
текстовых запросов то есть сложные текстовые запросы он хуже отрабатывает Но вот именно по качеству визуала
1:14:12
которые он создаёт Ну понятно что это фтн на каких-то очень качественных красивых картинках
1:14:20
вот ну Наш кандинский третий тоже увидел в ть третьем
1:14:26
году мир но одна из задач которую мы решали нормально генерить картинки
1:14:32
которые вот там типа с отечественным культурным кодом условно говоря да Потому что если вы попробуете там далит
1:14:39
или жур попросить вам чебурашку нарисовать там конечно очень страшно
1:14:47
Вот ну вотже
1:14:52
сния 22н 22 тоже в трем году вышел Вот и
1:14:57
stable diffusion последняя версия sxl вот мы на самом деле активно
1:15:03
сравниваем качество генерации С флагманами С D 3
1:15:10
с stable diffusion У нас есть корзина из 2000 запросов вот на который
1:15:18
генерируем 2000 картинок отдам людям на оценку чтобы они сказали У кого лучше
1:15:24
получилось вот ну кандинский он лучше чем stable diffusion но он хуже чем жр и
1:15:31
далит то есть вот сейчас пока в среднем Так вот Ну надеемся что догоним в
1:15:37
какой-то момент времени идея есть по крайней мере что с этим делать Вот Ну
1:15:43
следующее направление – это конечно которое в д году активно
1:15:48
развивалась это генерация видео потому что ну вот картинки уже научились бедно
1:15:54
генерировать Давайте посмотрим что у нас в плане видео Выходит так а звук у нас
1:16:00
будет же да откуда-то Сейчас узнаем
1:16:20
Ага вот ну это виде соответственно diffusion для работы с
1:16:26
видео вот на самом деле я здесь уж не стал в своей презентации перечитать все
1:16:33
тексты видео модельки их много Да их там се или вос появилось 23м году ну в конце
1:16:40
двадцать второго и в двадцать третьем вот Ну вот одну я ещё покажу вам МР это
1:16:48
вот Одна из последних и самых прикольных на мой взг
1:16:53
[музыка]
1:17:14
[музыка]
1:17:22
лик
1:17:50
[музыка]
1:18:04
[музыка]
1:18:12
[музыка]
1:18:21
C
1:18:43
вот Ну понятно что черепичной показывают вот вообще надо сказать
1:18:50
что наверное важный такой перелом произо Вт году К сожалению вот увеличение
1:18:57
закрытости нашей области Вот и кто-то пошутил даже о том что вот
1:19:04
количество публикаций по языковым моделям открытых уменьшилось и это очень
1:19:10
похоже на то как в своё время Советский Союз по уменьшению числа публикаций посвященных атомной
1:19:16
бомбе догадался мыта близки к е созданию вот поэтому по
1:19:24
мере приближения конечно к универсальному искусственному интеллекту Видимо нас ждёт увеличение
1:19:32
закрытости в нашей области вот Ну вот наши
1:19:38
какие-то тоже потуги Нам бы конечно железа побольше
1:19:45
потому что вотт
1:19:51
недавно что у него сейчас будет кластер из 600.000 NVIDIA h100 тут-то конечно
1:19:59
Тут и сел мужик как как говорится Вот Ну тем не менее в общем-то
1:20:05
рецепты обучения сеток мы знаем таких да то есть ну вот примеры каких-то
1:20:11
видосиков которые мы умеем генерить по тексту вот ну генерация музы музыки по тексту
1:20:19
но это тоже должно было произойти неизбежно вот году соответственно моделька под названием
1:20:26
Music LM появилась Ну вот давайте послушаем на что это
1:20:37
похоже Ну то есть описываем текстом что мы хотим за мелодию получить
1:20:46
[музыка] и так сечас так сделаем
1:21:06
[музыка] Ну в общем суть примерно Я думаю
1:21:13
понятна эти технологии будут развиваться и дальше и соответственно будут
1:21:21
совершенствоваться для генерации музыки вот Ну мы тоже развиваем это направление
1:21:27
у нас наша моделька называется симформер вот ну наверное многие из вас что-то
1:21:34
слышали из сочинений симформер Ну давайте я
1:21:39
какую-нибудь одну
1:21:51
поставлю [музыка]
1:21:59
вот симформер работает в нотном домене соответственно у нас вначале сеточка
1:22:05
сочиняет ноты а потом соответственно мы эту мидюрал
1:22:15
вот Ну потом соответственно эту презу яшарю там Если хотите послушайте другие
1:22:20
приёмы вот Так что это тут у нас да синтез
1:22:28
пения значит Ну на самом деле ещё на тему генерации музыки вот
1:22:35
это вот версия которая произволе тоже текстовые запросы должна обрабатывать но пока это хорошо работает вот вы можете
1:22:44
например там придумать исполнителя придумать
1:22:49
название композиции Да и значит Ну вот у вас что-то будет получаться такое
1:22:57
[музыка]
1:23:05
Да ну то есть она понимает что Моцарт Ну вот наверное наверное что-то такое
1:23:11
должно быть вот а вот какой-нибудь The Troll of
1:23:18
donats будет звучать вот так
1:23:27
Вот но э медюнион
1:23:33
вот мы в прошлом году сделали такой интересный совместный проект с
1:23:40
композитором Петром дран гой Вот и в рамках культурной программы на фе прол
1:23:47
концерт большого симфонического оркестра в котором в режиме живой э импровизации
1:23:55
наша сеточка выполняла то есть всё это делалось прямо в Реал тайме вот сетка
1:24:01
исходя из того что игралась и из действий значит
1:24:08
э дирижёра сочиняла на ходу музыкальные
1:24:17
[музыка] партии
1:24:24
Ну то есть там одновременно как бы и люди и сочинённая самим Петром музыка потом партии какие-то вставляются туда
1:24:32
которые на лету наша сетка [музыка]
1:24:45
генерить тут тут конечно у нас динамики такие
1:24:51
немножечко Ну ладно в общем тоже тоже тоже этим всем поделимся послушайте если
1:24:58
интересно вот что ещё хорошего в двадцать третьем году произошло
1:25:03
фундаментальные звуковые модели стали появляться Ну вот характерный пример это к аудио Вот то есть
1:25:10
моделька как мы видим сразу способна решать много разных задач и распознавание речи и синтез речи
1:25:20
вот Иво доме и
1:25:26
соответственно в принципе любые кросс модальные задачи которые значит сочетают
1:25:32
в себе аудио и текст И вот интересно что Ну они опять же получили сотые
1:25:39
результаты Практически во всех этих типах задач Да за счёт одной единственной модели
1:25:46
которая усь на бом количестве данго поворот вая Вот Но тем не менее
1:25:54
э результат довольно внушительный это конечно будет и дальше и дальше развиваться а кросс
1:26:02
модальный перевод вообще значит вот один из лидеров традиционно это Мета и их
1:26:08
модели для перевода обычно самые популярные и используемые всеми из
1:26:16
открытых вот Ну вот они нас в двадцать третьем году порадовали новой моделькой которая называется seamless
1:26:24
вот значит она может получать на вход как текст так и речь и на выходе
1:26:32
соответственно выдавать тоже как текст так и речь Вот
1:26:37
соответственно Ну вот здесь у меня вроде видосик есть
1:26:51
тоже
1:26:56
перевод наша цель создать более связанный
1:27:21
мир
1:27:30
[музыка]
1:27:35
вот ну вот что хорошо В отношени этой сеточки она открытая и на хаген фейсе
1:27:42
есть её карточка можете поэкспериментировать сами Нейро поэзия но это так немножечко
1:27:49
баловство которым мы занимаемся Вот Но хорошо то что можете попробовать сами
1:27:54
вот есть бот в телеге verber бот Вот это вот стишок которые генерирует маленькая
1:28:03
генеративная моделька Но в ней всего 1,3 млрд параметров но она
1:28:09
м в отличие от больших моделей тонизирует текст посимвольно благодаря этому Она довольно неплохо понимает
1:28:16
фонетику языка Вот и поэтому может вполне писать шата фонетически организованные
1:28:24
Да там соответствую стихотворного размеру вот Ну вот это Примерно там
1:28:31
народ у меня в чатике вечер поэкспериментировать такие результаты но Попробуйте сами что
1:28:39
у вас получится ну получается не всегда понятное дело иногда ярун какая-нибудь Но зато Вы можете вотже на произво
1:28:47
русском языке сформулировать наме Вот этот текст
1:28:53
который про
1:28:59
про жить с комфортом В частоте Это я попросил стихотворение про вантуз
1:29:04
сочинить вот поэтому получилось стихотворение про вантузы вот ну
1:29:09
попробуйте В общем Надеюсь что это не
1:29:14
скучно так плане железок что происходит NVIDIA выпустила
1:29:23
NVIDIA h100 анонсированы ещ в д втором году в третьем году они начали их наконец-то
1:29:30
отгружать вот мы уже пощупай железка в три раза быстрее
1:29:36
примерно чем О вот и одновременно они анонсировали скорое появление
1:29:43
H2 вотт Ну что е приятно что есть какие-то
1:29:49
попытки конкурировать с со стороны AMD со стороны интела
1:29:54
значит Intel анонсировала Вот эту вот свою карточку мая 100 ад соответственно
1:30:00
MD Mi 300 вот можно посмотреть примерно на
1:30:05
параметры этих железок вот что наверное более даже важно чем
1:30:13
анонс этих железок это то что в конце уже д третьего года вышла работа
1:30:20
посвященная обучению большой языковой модели на суперкомпьютер НР а узлы
1:30:25
фронтира – это амды железки Вот то есть
1:30:30
для того чтобы обучить большой языковой модели они э сделали специальную
1:30:37
версию фреймворка deeps Speed для мдшник железок вот и это в общем открывает путь
1:30:44
к обучению больших языковых моделей не только на МД не только на железка от
1:30:51
nVidia вот ну есть шанс что ту какая-то хотя бы будет конкуренция может быть немножко удастся цены посбивало
1:31:05
тензорная железка у Apple есть своя тензорная железка своя тензорная железка
1:31:10
есть у Мета Вот Но пока в широкий доступ именно пользовательский вот то что здесь
1:31:18
нарисовано вот ну не исключено что появится и от других производителей но
1:31:24
Apple тут же нужно понимать что Apple конечно не является с
1:31:30
производителем железа Непосредственно да всё равно сами железки делаются либо на
1:31:35
Самсунге либо в tsmc либо в интеле Да поэтому значит Ну
1:31:42
вот свои есть тут нюансы
1:31:48
так Какие вызовы стоят перед развити ши языковых моделей на начало че года по
1:31:56
итогам ре ну ни для кого не секрет что большие
1:32:01
языковые модели значит иногда склонны генерировать чепуху
1:32:07
правдоподобно раньше это называлось факто Ида теперь это называется галлюцинациями вот Ну на самом
1:32:15
деле Почему так получается
1:32:20
такая ре аналогия Ну вот представим себе студента
1:32:26
который прил на экзамен Да и вытянул билет ответ на который он не знал или
1:32:32
Забыл да вот но он знает что молчать нельзя Да нужно что-то отвечать Вот и
1:32:40
языковой модели по сути дела в её обучающей выборке не было большого
1:32:45
количест примеров в ответ найто вопро F датасета всегда правильные
1:32:53
хорошие ответы вот ну моделька как бы честно старается сгенерировать что
1:33:00
получается да то есть главное нести бред Но уверенно вот Ну и дальше
1:33:06
соответственно нам приходится расхлёбывать эти последствия Да когда моделька выдаёт правдоподобный ответ в
1:33:13
котором выдумывает каких-нибудь людей научные работы и что угодно вообще вот
1:33:20
а Ну и поэтому там полагаться на ответы даже там gpt 4 я вам не советую в
1:33:28
каких-то важных областях Да лучше
1:33:36
перепроверять Ну понятно почему Потому что количество параметров модели ограничено всё-таки модель не может
1:33:43
дословно заучить весь интернет Да весь тот обучающий корпус на котором Она
1:33:48
училась неизбежно происходят какие-то потери да то есть то есть ну вот
1:33:53
языковая модель – это такой как бы размытый жпег всего интернета Да вот Ну
1:34:02
у людей ведь также Да у людей также люди просто ну как бы обычно понимают границы своей
1:34:09
компетентности знают Когда нужно пойти значит в поисковик Да или честно сказать
1:34:15
не знаю вот ну соответствующим образом этим борется и в языковых моделях то
1:34:21
есть Первое это как раз rug Generation то что называется когда мы учим модельку
1:34:28
ходить в поисковую систему Вот и опираться на найденную
1:34:49
фактологической вопрос есть это решать хорошо есть много на эту тему исследований есть много прототипов
1:34:56
решения этой проблемы Вот но такого вот единого мейнстрим решения хорошего на все случаи жизни пока ещё не
1:35:04
выработано пути имплементации мультимодальной каким именно образом в языковых моделях должна
1:35:13
быть введена
1:35:21
ОТК тоже активно обсуждается и ищется оптимальные
1:35:27
решения Ну в силу разных причин вы не можете сделать пока что там универсальное решение на все времена для
1:35:33
всех модальностей просто из-за проблемы размерности данных выравнивание
1:35:40
интерпретируемые то что модель действительно делает то что мы от неё хотим да то есть не получается что вот
1:35:49
она как требо свои сформулировали недостаточно чётко Да и в результате Ну
1:35:56
вот как старая шутка о том что экспертную систему в семидесятые годы спросили Все ли грибы Может есть человек
1:36:04
да И она ответила что да все и как бы программисты долго искали ошибку
1:36:11
значит наконец-то значит оттра сирова всю цепь рассуждений и Выяснилось что
1:36:17
модель в общем-то права как бы люди действительно могут есть все грибы Просто некоторые только один раз в жизни
1:36:24
вот значит и соответственно вот чтобы системы делали на самом деле
1:36:30
то что мы хотим а не то что мы их формально попросили Да это и есть вот проблема
1:36:36
выравнивания вот ну и проблема интерпретируемые иногда мы хотим знать
1:36:41
на чём основан тот или иной ответ да почему той или иное решение было принято
1:36:47
вот ну и в этом смысле люди Они вот умеют генерировать какой-то такой нарратив да про то почему они приняли то
1:36:54
или иное решение другой вопрос просто в том что насколько опять же этот нарратив соответствует тому На что мы на самом
1:37:00
деле опирались Принимая решение Это вопрос открытый вот для достаточно сложных задач это уже не работает мы
1:37:08
знаем что не знаю там Михаил Моисеевич Ботвинник в своё время мечтал создать шахматную программу которая будет играть
1:37:14
в шахматы также как росме Да И вот он всю свою жизнь в виде систем правил пытался описать ход рассуждений
1:37:22
шахматиста Вот но потерпел неудачу Почему Потому что мы сами не до конца осознаём Почему мы принимаем те или иные
1:37:29
решения вот и ну как бы вот наша способность к
1:37:36
такому ретроспективно анализу она ограничена Да но в принципе опять же
1:37:43
поэтому Если говорить о людях люди – это конечно тоже никакие не интерпретируемые модели Это я бы сказал такие объясняющие
1:37:50
модели то есть вот мы умеем какие-то объясняющие нарративы генерировать в принципе языковую модель тоже можно
1:37:57
научить так действовать Вот Ну а в рамках моделирования рассуждений как раз таких подходов как
1:38:05
цепь рассуждений дерево рассуждений Граф рассуждений мы можем даже и в явном виде
1:38:11
процесс принятия решений свести к генерации каких-то промежуточных шагов сделать таким образом его
1:38:19
интерпретируемые важно управление называется им много занимается
1:38:25
специалистов Вот и тоже находится на фронтире исследования сегодня высокие
1:38:31
требования к вычислительным ресурсам обучать языковые модели дорого
1:38:36
и долго вот много здесь предпринимается усилий для того чтобы
1:38:43
сэкономить Ну например пум оптимизации алгоритмов которые лежат в основе методов Маши обучения ну скажем в 2023
1:38:52
году появился алгоритм Flash Attention 2 новая
1:38:57
имплементация блок само внимание на куда которая значит там ещё позволяет
1:39:05
существенно сократить время вычислений вот этого самого блока
1:39:11
внимания В трансформер сетях Вот Но это не единственные пути как здесь можно
1:39:16
сэкономить есть такое большое направление которое называется ку lear когда мы
1:39:22
пытаемся специальным образом переу порядок для того чтобы модель там лучше
1:39:28
и быстрее сходилось с меньшими вычислительными затратами В общем Здесь много есть исследований как бы
1:39:35
нам выжать из ограниченных вычислительных ресурсов больше результатов трансформер модели
1:39:42
по-прежнему хуже классических моделей умеют решать некоторые задачи Но в основном это связано с операциями в
1:39:48
символьном домене вми Вот но на самом деле не только Да ну
1:39:56
нельзя сказать что это такая вот какая-то фундаментальная проблема Да люди тоже как мы знаем многие задачи
1:40:02
решают хуже чем иные гораздо более примитивные системы Вот Но значит тогда
1:40:10
нам нужно это решать путём значит такой вот мультиэкт мультиагентной образом
1:40:18
учить модели использовать сторонние инструменты более эффективные вот ну и в связи с
1:40:24
этим как бы каким именно образом в моделях должна реализовываться это самое
1:40:31
интерактивность
1:40:39
мультиэкспозиция Гри Маркус рассуждать о том что вот ваши
1:40:46
генераторы картинок умеют нарисовать астронавта на лошади но немет пока что
1:40:51
лошадь скачуються Вот потому что всё-таки не до конца
1:40:58
уяснили элементами э структур вот
1:41:03
ну здесь тоже активно ищут способы как добиться для того того чтобы сетки лучше
1:41:11
такого рода отношения выучиваем но надо сказать что люди тоже не сходу
1:41:17
это выучиваем классе учат там и грибочки складывать и ёжиков и
1:41:26
лисичек и конфетки и яблоки прежде чем мы осознаём значит ну как бы саму суть
1:41:32
сложения Да и начинаем эффективно использовать это отношение да то есть возможно здесь путём решения является
1:41:39
создание специальных синтетических обучающих данных для нивер сетей ну такого вот тоже школьного курса и в этом
1:41:46
смысле это пересекается с идеей ку ну и не случайно
1:41:51
Такие интересные результаты были получены многими исследователями которые
1:41:56
подход пробовали в д третьем году там создателями дали 3 или создателями моделей семейства фай
1:42:03
а постоянная утрата актуальности данных в
1:42:13
предоброе данных да потом что за эти несколько месяцев произошло в нескольких странах уже за это время президент
1:42:21
сменились премьер-министры в нескольких странах там ещё что-то произошло какие-нибудь открытия новые научные
1:42:27
Да кто-то победил там на спортивных соревнованиях новый а а сетка Ну вот она
1:42:34
что на этапе обучения запомнила то оно и знает да То есть Вам нужно найти способ Каким образом либо быстро
1:42:41
актуализировать знания сетей да то есть это какие-то пайплайн постоянного добу
1:42:47
continous Learning Вот либо это опять же должно решаться за счёт
1:42:53
механи Generation то есть сетка там куда-нибудь подсматривает какой-то
1:42:59
источник данных актуальный когда даёт ответ на вопрос который требует актуальных знаний вот проблема
1:43:06
длины контекста Ну вообще стандартная реализация
1:43:14
внимания Она имеет квадратичную вычислительную сложность есть с увеличением контекстам чиле и
1:43:21
потребности в памяти растут как квадрат длины контекста вот что конечно не очень
1:43:27
хорошо когда вам нужно обрабатывать действительно длинные документы вот современные сетки Ну обычно работают с
1:43:35
длиной контекста в тысячи токенов
1:43:41
вот некоторые сетки заявляют сейчас то что перешагнули через 100.000 токенов в
1:43:47
длине контекста Но это происходит за счёт механизмов уже разреженного
1:43:52
внимания и тут вопрос встаёт конечно не только в том какая длина контекста на который ты смотришь но и что-то в этом
1:43:59
контексте в состоянии на самом деле заметить и не пропустить Вот и здесь Ну
1:44:04
вот нужны какие-то алгоритмы которые позволят нам эффективно обрабатывать
1:44:09
длинные документы ну таких опять же алгоритмов кандидатов много вот и всякие
1:44:15
разные виды разреженного внимания и отчасти ре подходы Здесь тоже
1:44:21
всякие подходы с иерархической суммации длинных контекстов это тоже сейчас такой
1:44:28
горячий направление исследований вот проблема
1:44:35
мультиагентной Я кстати вот видосик я сейчас найду отдельно покажу
1:44:41
вам на самом деле вы можете обладая одной хорошей предо сеткой генеративной
1:44:47
из не сделать несколько таких агентов меняя пром этой модели сделать например
1:44:53
такой коллектив экспертов Да в котором будет скажем там программист тестировщик
1:44:59
программный менеджер Проектный менеджер генератор технической документации Да
1:45:06
там технический писатель Вот и вот организовав такие вот коллективы псевдо
1:45:12
коллективы Вы можете тоже многие задачи решать более эффективно как раз вот за сч таких механик
1:45:19
моделирования коллективных рассуждений вот опять же Одно из ограничений это
1:45:27
большая часть фундаментальных моделей это сейчас Форвард сети Вот это значит
1:45:33
что количество операций которые за один шаг Ирен сетка выполняет оно ограничено
1:45:39
и поэтому очень многие задачи в один шаг сетки решить не могут Да дайте
1:45:45
достаточно длинный текст попросите его зам на чил попросите сетку отсортировать его
1:45:53
вы увидите что начиная с какого-то размера задач сетки с этим перестают справляться Ну вот как раз потому что в
1:46:00
них нет рекуррентно не являются тюринг полными моделями каким-то образом мы должны
1:46:07
учиться значит решать задачу то что называется AD
1:46:13
computation адаптивного времени вычисления Когда в зависимости от параметров задачи мыж иметь
1:46:21
доль обдумывать или меньше соответственно эти механизмы тоже активно исследуются Ну и открытые
1:46:28
вопросы такие уже больше прикладного характера связанные с тем Каким образом Нам сейчас созданные нами языковые
1:46:35
модели интегрировать существующую it инфраструктуру соединять с имеющимися
1:46:41
системами вот здесь тоже много работы
1:46:48
предстоит ну тренды Да тренды в исследованиях Что сейчас модно Да
1:46:55
модна мультимодальной рассуждений вот на эту
1:47:01
тему работ много Я вообще к выложу потом в канальчик список
1:47:09
источников к этой презентации чтобы Вы могли почитать оригинальные статьи
1:47:14
потому что понятно что о некоторых вещах Я говорю очень коротко здесь вот Ну вот лы направлений именно связанных с
1:47:22
моделированием рассуждений это цепи рассуждений деревья рассуждений графы
1:47:27
рассуждений ST вот этот самый модный про который значит скандалы интриги
1:47:34
расследования идут вот значит смеси
1:47:41
экспертов ре про который я сегодня уже
1:47:49
говорил за счёт поиска интерактивный искусственный
1:47:54
интеллект мультиагентной искусственный интеллект так называемые проблемы выравнивания ку
1:48:01
lear ну и оптимальное масштабирование моделей Да уж в силу того что мы находимся этапе горизонтального
1:48:07
масштабирования нам нужно хорошенько разобраться как нам правильно
1:48:13
распорядиться имеющимися ресурсами Так ну скриншот с прошлогодней
1:48:19
лекции что я там на прогнозировал на Д Трей год что сбылось что не сбылось
1:48:25
вот 20% на B Bench подмножество Human tasks но непонятно B Bench всё-таки не
1:48:33
очень удобный тест видите все используют в основном вот на Биг бенче Ну вот
1:48:39
конкретно этого результата нету но например jp4 никто не прогонял через би поэтому неизвестно будет там у не такое
1:48:47
значение или нет поэто ставил знак вопроса монолитная трансформер
1:48:54
генеративная модель с более чем триллионов параметров Ну в силу закрытости Мы не знаем вот сколько в
1:49:00
Gemini Ultra Сколько в jp4 jp4 Turbo нуно Я подозреваю что нету там ещё пока
1:49:08
всё-таки триллиона параметров потому что всё-таки масштабирование пошло в сторону того что в силу того что эти модели
1:49:15
внезапно поступили в массовый иренс как бы точка оптимума
1:49:21
стало выгоднее делать модельки поменьше но учить сильно дольше Вот но поставил
1:49:27
тоже знак вопроса себе может подыграл чуть-чуть значит монолитная трансформер
1:49:33
мультимодальная модель текст картинки звук с значит архитектурой и 5 или более
1:49:42
миллиардами параметров Ну нету насколько
1:49:49
знаем которая умеет звук имеет меньше параметров Ну в общем Будем считать что
1:49:55
я не угадал новая версия там способна работать с играми с большим
1:50:03
поисковым пространством в силу закрытости значит Ну я в нескольких источниках упоминания
1:50:10
нашл о том что 2 есть которую
1:50:15
Сноб ис
1:50:21
было на эту те поэто тоже поставил вопросик значит что сбылось
1:50:26
мультимодальный вариант инструктивно генерации с картинками вот
1:50:32
ну появился с картинками и с генерацией и с пониманием картинок голосовые
1:50:39
напарники Ну например аудит они появились Да помощник разбой
1:50:49
слушает против создателей stable diffusion отказал суд удовлетворения
1:50:54
иска по формальным правда причинам но может быть ещё будут переподавать
1:51:00
начало преподавания промт инжиниринга в передовых вузах есть у нас вышки
1:51:06
например вот и выход на публику аналогов gpt от других ведущих исследовательских команд
1:51:12
Ну как мы видим их много появилось и бар и много кто е Вот это бы читерский такой
1:51:21
пункт все понимали что в крайнем случае я понимал что мы сами
1:51:27
сделаем вот ну теперь прогнозы на двадцать четвёртый год значит что что я
1:51:33
бы предсказал думаю что появится звук в аналогах чат gpt Вот то есть возможность
1:51:42
отвечать на вопросы по звуку или генерировать звук добавление видео в Ало
1:51:50
Ну тоже самое то есть вот в рамках одного и того же сквозного мультимодального диалога сможете вопросики по видео задавать и
1:51:57
генерировать видео синхронный перевод аудио в аудио то есть сам по себе перевод аудио в
1:52:03
аудио уже есть нужно теперь чтобы он стал синхронным Вот я думаю что в этом году уже промышленные такие сервисы
1:52:10
должны появиться вот Ну надеюсь что
1:52:16
новым ВМ Я думаю что в zer SH Сета 91 порог
1:52:24
будет преодолен без трюков с вот
1:52:34
картиночка Chat gpt То есть вы сможете по текстовому запросу картинку найти
1:52:42
и значит с найденной картинкой что-то нано на основе найденного образа
1:52:48
что-то сгенерировать вот ну и связанная с ним механика которая тоже скорее всего
1:52:53
появится в таких моделях это инструктивно редактирование изображений То есть когда вы сможете там уже
1:53:00
сгенерирован ную картинку или какую-то имеющуюся у вас картинку при помощи инструкции на естественном языке
1:53:05
модифицировать Ну например заменить там как какого-нибудь человека на другого
1:53:10
или что-нибудь такое сделать с картинкой Вот первые фундаментальные модели для
1:53:16
видео скорее всего появится то есть по аналогии с и
1:53:24
с другими модельками появятся модели для
1:53:29
видео то есть например темпоральная сегментация объектов Вот и другие задачки на видео
1:53:37
вот ну и я думаю что лучше генераторы картинок всё-таки в д чем году смогут нарисовать лошадь ска на астронавт Вот
1:53:44
вот через год проверим посмотрим Наско это сбылось
1:53:50
вот сейчас Спасибо большое за
1:53:58
внимание Вот здесь справа ссылка на мой канальчик в телеге там будут
1:54:04
соответственно ссылки на статьи которые сегодня мы упоминали Ну и следите там за
1:54:10
новостями книга выйдет книга Когда выйдет печатном виде Она же появится в
1:54:15
открытом доступе в электронном виде вот поэтому тоже
1:54:21
это прот Ну сечас я готов по отвечать на вопросы если они у вас
1:54:36
есть Спасибо большое за выступление Меня зовут Алмаз Уменя вопрос связанный с звуковой
1:54:48
моде вания самого То есть как есть ли какой-то тренд связанный с голосовыми
1:54:54
роботами как они улучшится с точки зрения их использования или текущих чей хватает чтобы в целом Ну смотрите
1:55:01
моделей для обработки звука много если говорить конкретно о модельке Audio Да
1:55:06
который я сегодня упоминал здесь ну особенность это модельки это такая Экспериментальная модель которая хороша
1:55:13
именно тем что она универсальная и там очень хорошие метрики имеет в точности
1:55:18
решение задач но да она тяжёлая у неё много параметров и для своего выполнения
1:55:24
ей нужно просто довольно мощное железо вот а как вы понимаете модельки которые
1:55:30
в прикладных целях используются они должны либо хорошо работать на конечном устройстве да ну либо по крайней
1:55:37
мере чтобы у нас была возможность какой-то массовый Облачный инфе для них
1:55:43
представить вот обычно значит вот модельки распознавания ре например на
1:55:50
всех там современных голосовых устройствах они ну какую-то каскадную имеют природу То есть
1:55:56
у вас есть в начале первичный первичная моделька которая например там вы обращаетесь к своему
1:56:03
умному устройству Говорите там салют там как не знаю там Какой сейчас курс
1:56:09
доллара Да и есть моделька которая вот это вот слово Салют распознаёт Да она работает прямо на вашем конечном
1:56:16
устройстве Да в конечном устройстве там какой-нибудь есть нейронный сопроцессор но он жиденький плохонький дешёвенький
1:56:23
вот но его хватает вот на то чтобы постоянно пропускать сквозь себя
1:56:29
получаемый с микрофона голосовой поток и на него среагировать вот дальше если вам
1:56:36
у вас стоит задача уже распознать речь саму как таковую чтобы сделать это
1:56:41
качественно Ну возможностей модели которые работают на конечном
1:56:47
устройстве уже часто не хватает но здесь есть нюансы потому что иногда ну задачи
1:56:52
распознание речи они бывают разные одно дело вы задали вопрос например какой-то да и ждёте на него ответ Ну например
1:57:00
там вы спросили там не знаю там хочешь печенье Да и человек говорит
1:57:09
там хочу Да но вот это хочу оно распознала с не очень хорошо есть там топ гипотез распознавания первая
1:57:15
гипотеза например там Пикачу Да вторая хочу вот но как бы из контекста можно
1:57:20
угадать что в ответ на то что хочешь печенье Да человек вряд ли скажет Пикачу Но есть конечно такие люди которые
1:57:27
скажут да Но их мало И они в особых местах содержатся вот а как бы
1:57:32
э скорее всего вот из контекста мы таким образом можем угадать и в принципе ну и
1:57:38
опять же процессоры там на мобильных устройствах становятся более мощными Да вот но в целом вот умные устройства типа
1:57:45
там всяких умных колонок они для того чтобы текст полноценно распознать в какой-то момент
1:57:50
имен в ваш запрос в текст они его отправляют ВС равно на серверную сторону
1:57:57
и там уже есть какая-то облачная инфраструктура там есть какие-то карточки там NVIDIA А40 там какие-нибудь
1:58:05
на которых крутится моделька побольше но побольше это что значит Ну это значит у
1:58:10
неё там десятки миллионов параметров может быть да Ну может быть даже сотни миллионов параметров это то что можно
1:58:17
позволить себе то на ЧМ экономика сойдётся Да скажем так вот Конечно можно было бы
1:58:25
Нафига туда ич соты загрузить туда вот там квен какой-нибудь Да но это
1:58:30
экономически будет невыгодно Да вот поэтому значит ну здесь вот надо
1:58:37
понимать что всегда как бы есть научный результат и вот квен аудио – это научный
1:58:42
результат Да а инженерные конкретные решения Они будут как больших се шапок
1:58:48
изв и они будут и работать похуже пожиже но у них там будут какие-то костыли
1:58:54
вокруг них вот которые будут им помогать Да ну то есть в целом как бы качество
1:58:59
распознавания речи оно неустанно растёт на этих устройствах и Ну вот я не знаю я
1:59:06
начинал заниматься там умными девайсами получается там 5 лет назад да и за эти 5
1:59:12
лет конечно как тогда там какая-то боль была А сейчас ты уже даже там там не
1:59:19
слишком чётко сказал на фоне шума и так далее Всё уж довольно надёжно распознаётся вот поэтому в целом здесь
1:59:27
Прогресс конечно быстрый
1:59:34
спасибо спасибо за лекцию Я может далёк немножко от этой сферы но возникли вопросы Мы сечас надим в библиотеке и вы
1:59:43
выпускаемой миром вот когда собственно говорят сечас выступать в качестве
1:59:50
литературных критиков например сравнить вашу книгу Там по каким-то критериям см
1:59:56
толстым сни Льва Толстого первый вопрос второй вопрос касается Вот таких
2:00:02
фундаментальных научных вопросов ну скажем ту картинки тоже с с биологией и
2:00:08
прочее если задать искусственно интеллекту
2:00:18
вопрос как-то по-новому и так далее то подобное два вопроса то есть по критике Да
2:00:24
например книг фильмов там и прочее и по фундаментальным научным вопросам с
2:00:30
Спасибо за вопрос Ну тут Понимаете в чём дело Вот давайте на обе ваши задачи посмотрим да и признаемся к себе себе в
2:00:38
том что для того чтобы высказать своё какое-то суждение по поводу моей любо
2:00:44
какой угодно особого несть может высказать какое-то мнение
2:00:50
вопрос в том насколько это мнение будет ценным да И насколько это мнение нас вообще будет интересовать
2:00:57
Да точно также и с там мнениями которые там генеративная модель может
2:01:03
сгенерировать по поводу какого-нибудь научного вопроса насколько значит это мнение будет ценно и будет не знаю
2:01:10
представлять потенциально какой-то на вязнут Ну также как и в отношении людей
2:01:17
да то есть кого-то мы захотим послушать в отношении литературных качеств
2:01:24
книги чисто технически взять
2:01:29
значит мою книгу запихнуть её в современную языковую модель но она слишком большая Она не поместится в
2:01:36
контекст Да там можно какой-то подвергнуть её иерархической
2:01:48
сумарин как мы будем оценивать насколько это мнение хорошо обосновано э А
2:01:55
насколько нет Да значит Ну для того чтобы здесь оценить э м качество
2:02:03
языковой модели как литературного критика Ну наверное Нам нужен эксперимент большой да Нам нужно собрать
2:02:08
много литературных критиков Да моделей по собрать суждения от критиков собрать
2:02:14
суждения от модели да Потом не знаю дать там каким-то третьим лицам супер
2:02:19
критиком да на оценку вот этого никто не проделывал Да этого никто не проделывал
2:02:24
в целом Ну как бы языковые модели типа gt4 они Ну вот какие-то разумные на
2:02:31
первый взгляд суждения напишут на эту тему вот насчёт
2:02:36
новизны в биологии или в других областях Ну в принципе наука ведь Каким образом
2:02:43
работает учёные формулируют онные гипотезы которые потом при помощи либо
2:02:50
экспериментов либо сопоставляют их с имеющимися какими-то
2:02:56
фактологический с археологическими находками Да ну с
2:03:01
различными результатами Что называется исследования окружающего мира
2:03:07
и Здесь проблема языковой модели заключается в том что Ну всё что она
2:03:13
знает да Что называется она знает из тех того корпуса обучающего на котором Она
2:03:19
училась соответственно Если вы зададите ей там вопрос по биологии Ну скорее всего она вам ответит опираясь на те
2:03:27
статьи которые попали в её обучающий корпус Да она будет опять же важно понимать что у
2:03:35
языковой модели важным элементом её генерации является просто стохастика да
2:03:40
то есть как на самом деле работает языковая модель она разбивает ваш текст на
2:03:47
токены и по известной части контекста пытается
2:03:53
сгенерировать продолжение а продолжение что же значит сгенерировать продолжение Значит она получает вероятностное
2:03:59
распределение токенов Да что вот с такой-то вероятностью следующий токен будет такой-то с такой-то вероятностью
2:04:06
такой-то с такой-то вероятностью такой-то и потом алгоритм просто основанный на генерации случайных чисел
2:04:13
пропорционально вот этим вероятностям он набирает токены да то есть каждый раз ответ ещё может казаться разным Вот И
2:04:21
задавая там сетки вопрос какой-нибудь по биологии Ну вы будете один раз получать
2:04:27
ответ там больше похожий на мнение одних специалистов другой раз на мнение других специалистов третий раз на мнение
2:04:33
третьих специалистов Но те мнения которые плюс-минус были представлены в
2:04:38
обучающей выборке но другое дело что конечно сетка не будет копировать их дословно Да она
2:04:45
будет ре комбинировать каким-то образом знания но в этом плане она будет похожа
2:04:51
на человека который Ну вот начитался какой-то биологической литературы Да составил какое-то представление о
2:04:57
действительности вы задаёте ему вопрос Ну вот он в меру своей компетентности в меру своих знаний ответ Вам даст вот
2:05:05
Представляет ли это какую-то научную ценность Ну с точки зрения того что
2:05:10
сделать новый вывод из известных посылок Да почему нет может быть выдвинуть
2:05:16
какую-то гипотезу Да тоже потому что выдвигать правдоподобные гипотезы такая
2:05:21
сетка может да но проблема её заключается в том что она же никак не взаимодействует с окружающим миром у неё
2:05:27
нет возможности проверить свою гипотезу уточнить её Да вот
2:05:32
поэтому Ну вот как бы можно относиться к этой сетке как к такому жаку паганель
2:05:38
который выучил весь мир не выходя из своей комнаты да по книгам и вот ценность для науки такого искусственного
2:05:46
Жака паганеля Ну она под вопросом да то есть мы в определённых областях видим
2:05:53
очевидную ценность Да там где нам нужно например генерировать гипотезы вот с
2:05:58
точки зрения значит там какого-то экспертного научного рассуждения в отношении чего-то Ну Нужно
2:06:06
больше данных нужно больше экспериментов для того чтобы эту ценность оценить вот
2:06:12
а в целом Ну какой-то принципиальной разниц с людьми в плане
2:06:19
как бы способности строить рассуждения скорее всего ну она Если есть то
2:06:25
несущественно А вот в плане того что источники информации у сетки очень
2:06:32
сильно ограничены нуно они с одной стороны ограничены с другой нет понимаете тут вот диалектика тоже такая
2:06:38
что сетка прочитала в ходе обучения гораздо больше книг чем человек в состоянии там прочитать за всю свою
2:06:44
жизнь да то есть она видела ВВВ что было чаю выборки и в этом смысле
2:06:50
Ну как бы она ценный Эксперт Да потенциально То
2:06:56
есть она прочитала больше чем вы или любой другой человек на планете Вот Но с
2:07:02
другой стороны Об окружающем мире она знает только то что представлено в текстах да то есть она никак с этим
2:07:08
окружающим миром не взаимодействует свои эксперименты не строит и вся её модель мира основана на статистическом
2:07:15
обобщении содержащегося в обучающей выборке
2:07:22
раз раз раз а меня зовут Михаил я работаю прокт
2:07:28
менеджером в ВК Вот и на самом деле я хотел задать какие-то конкретный вопрос
2:07:34
Ну может быть там кулуарах по поводу того на вот эта знаменитая лекция в cs50
2:07:40
по поводу того как программирование скоро исчезнет но пока из того что я слышал Спасибо ещё раз за лекцию Это
2:07:46
скорее всего как прокт менеджеры исчезнут что теперь не будут ставиться задачи Иди туда и сделат эту хренов быстро и чтобы
2:07:53
она не ломалась хорошо делайте нехорошо не дела Вот по крайней мере сейчас вот а
2:07:59
вопрос такой почему ведь правильный ответ
2:08:04
известен суперкомпьютер должен ответить 42 Почему почему Про это ничего не
2:08:10
было Ну
2:08:17
42 Конечно гмс Как и Лем как и многие другие фантасты много предвидел интересных
2:08:25
таких моментов насчёт Да вот не интерпретируемый ответов
2:08:31
Да ну тут Понимаете в чём штука нам на
2:08:37
самом деле в большинстве случаев не нужна интерпретируемые нам нужна скорее
2:08:42
Надёжность Вот потому что в отношении машин Насть можем
2:08:50
обеспечить многократной повторяемостью испытаний да И если мы например
2:08:56
проверили не знаю там на сотнях миллионах учебных ситуаций что машина
2:09:02
там повела себя правильно Так как нам это нужно Да нам это даёт гораздо большую возможность степень уверенности
2:09:09
чем уверенность в другом человеке например которому мы доверяем Принятие какого-то решения
2:09:17
даму случаев
2:09:24
интерпретирует довольно такой непростая штука вот с Сары дальго известный такой
2:09:32
исследователь он говорит что вот способность людей
2:09:37
что-либо понять Да вот она ограничена одним чалоба тамм
2:09:43
ёмкости Да вот наша способность что-то понять это вот этот лабай да Значит кто-то нам
2:09:51
объясняет как принимается решение Да на ту или иную тему Если это объяснение
2:09:57
влезло в этот лабат Да мы значит понимаем в том плане что мы можем как бы теперь переиспользовать этот метод
2:10:03
принятия решений Вот но этот лабай он не очень большой да то есть нейронка там из 100.000 нейронов Ну
2:10:13
вот её можно визуализировать Да вы можете на неё посмотреть можете представить в видя формулы многоэтажной
2:10:20
Да но это слишком сложная структура чтобы влезть в ваш чалоба вы не как бы
2:10:26
не понимаете Почему нейронка приняла то или иное решение Но потому что она большая да в ней много параметров и вам
2:10:33
не очевидно Становится их взаимосвязь Вот Но люди ведь тоже общаясь друг с
2:10:39
другом Казалось бы встречаются с той же проблемой Да вот
2:10:44
там у нас и у вас Мы представители одного биологического вида Но в нашем в наших
2:10:52
мозгах скорее всего там и разное количество нейронов другие совсем карты соединения этих нейронов Да одни и те же
2:10:59
слова одно и то же слово одно и то же понятие для меня и для вас это две совершенно разные спати темпоральные
2:11:05
карты активации нейронов в нашем мозге но тем не менее мы с вами как-то Вот договариваемся да я вам говорю слово
2:11:12
яблоко и вы понимаете что это такое Почему Потому что у нас есть вот такой
2:11:18
энкодер кодировщик который наши индивидуальные карты с Патио темпоральной активации нейронов
2:11:23
превращает последовательность звуковых колебаний Да вот
2:11:29
и у вас есть декодер который эту последовательность звуковых колебаний
2:11:34
распаковывает уже в ваши индивидуальные карты с патом порай активации нейронов
2:11:40
Да а почему это работает да Почему такой
2:11:45
перевод возможен Ну потому что мы живём с С вами все в одном обществе мы ходили
2:11:50
там плюс-минус в похожие школы занимаемся похожими вещами смотрим плюс-минус там один и тот
2:11:59
же телек Да и наша Вот эта общественная практика единство общественной практики
2:12:04
оно нам позволяет опираться на переиспользование Да вот я хочу вам
2:12:10
объяснить как распознать тигра Если вы его встретите на улице А вы тигра ни разу не
2:12:16
видели да я видел Ну тигр – это такая большая кошка с чёрными и жёлтыми полосками Да и вы уже
2:12:23
опираясь на это объяснение можете кое-как задачи распознавания тигра справиться почему это работает Ну Потому
2:12:30
что когда я такое объяснение порождают что вы знаете что такое кошка Что такое
2:12:36
большая или маленькая в отношении кошки Что такое чёрная Что такое жёлтый Что такое полоска Да значит и вот мы пере
2:12:44
используем вот этот набор представлений нашем обществе образом можем наши знание
2:12:50
наш спать темпоральной карты активации упаковать с потерями в такое вот компактное представление как
2:12:56
человеческий язык да и из него потом распаковать этот процесс он может много
2:13:01
чего потерять по дороге Да ваше и моё представление о том что такое большой
2:13:06
или маленький оно в отношении кошки наверняка чуть-чуть отличается наверняка
2:13:12
жёлтый или оранжевый или вот какие-то оттенки цветов да тоже мы с вами можем
2:13:19
чуть-чуть по-разному представлять границы этих понятий и так далее да то есть на самом деле Конечно потом вы
2:13:26
руководствуясь моим объяснением пытаясь распознать тиг
2:13:32
наверняка найдутся какие-нибудь такие тигры которых вы за тигры Не посчитаете а я посчитаю Да но тем не менее Вот эта
2:13:39
относительная общность нашей общественной практики Она позволяет нам такую коммуникацию создавать и так вот
2:13:45
упаковывать наши знания в такие вот то что мы называем обясни представление А теперь встаёт вопрос А что делать с
2:13:52
нейронка нейронки не ходили вместе с нами не сидели с нами за одной партией
2:13:57
Да не у них нету того же опыта который есть у нас с вами Вот Но тем не менее
2:14:05
они о нашем обществе там знают что-то да потому что они прочитали там условно говоря много текстов вот или если это
2:14:12
мультимодальные модели они там могли е картинки видеть видео Там и так далее
2:14:18
значит что в принципе-то мы можем их научить тоже изъясняться да на человеческом
2:14:24
языке значит объясняя почему они принимают те или иные решения
2:14:29
Да не хуже чем это делают люди и работы такие есть да по
2:14:36
интерпретирует ветственно надежда на то что вот 42 это будет не
2:14:41
просто 42 Вот сам вопрос тоже будем знать не только
2:14:46
ответ по поводу программной инженерии о том Кто там будет исчезать кто не будет исчезать Да мне кажется Ну вот просто
2:14:54
наша профессия айтиш профессии они такие что ты каждую каждый день умираешь и
2:15:00
рождае заново потому что весь набор технологий весь набор Практик на весь набор библиотек всё это меняется очень
2:15:07
быстро Там если вспомнить то на чём я там учился всё время программировать но уже эти технологии не используются даже
2:15:14
близко нигде Ну и как бы нас вот вот туун нашей области она приучила к тому
2:15:19
что Ну жизнь меняется Да как бы нужно осваивать новые знания
2:15:25
и сама программная разработка Она никуда не денется и более того я вангую что
2:15:31
эффект будет прямо противоположной какой-то ликвидации рабочих мест Объясню почему Ну просто
2:15:39
вот смотрите в сороковых годах во всём мире было сколько там 200 программистов Да вот они там корли свои дырочки в
2:15:46
перфокартах производительность труда современного программиста там в 1.000 раз больше ну окей в
2:15:53
100 мы теперь дырочки не пробиваем за нас всё там компилятор делает Да мы на
2:15:58
естественном языке ему по сути задание даём Вот и Ну так что по логике вещей
2:16:05
если в 100 раз производительность труда возросла Ну надо было два программиста оставить теперь да 98 уволить А в мире
2:16:13
этих программистов сейчас миллионы Почему Потому что это не игра с нулевой суммы потому что типа как только какая-то
2:16:20
технология дешевеет меняется границе её применения есть куча
2:16:25
областей в которых нам до сих пор было дорого создавать программные решения А
2:16:31
теперь Ну мы сможем то есть там где раньше было не по карману теперь
2:16:36
будет по карману расширится область применения технологий и ещё большее количество людей будет занято
2:16:43
разработкой программного обеспечения другое дело что эта разработка будет уже такой как сегодня там ниже порог входа
2:16:50
станет конечно в эту область изменится практики самой разработки более абстрактным станет уровень
2:16:57
манипулирования требованиями понятиями Там и так далее менее формализованным скорее всего вот меньше будет времени
2:17:04
тратиться на какую-то механическую интеллектуальную рутину типа там поиска ручного информации анализа поисковой
2:17:11
выдачи и так далее Вот но в целом Это скорее всего приведёт к расширению области применения этих технологии и в
2:17:18
конечном счёте к увеличению ещё большего количества людей которые будут этим
2:17:28
заниматься Спасибо большое У меня вопрос из сферы кажется мегатренд инвестиций
2:17:36
будущих лет как минимуму этого года если бы вы начинали стартап ВМ году сферы на
2:17:44
ЧМ бы он был сфокусирован на каких-то складных решениях из предметных областей
2:17:50
или на создание какой-нибудь ai инфраструктуры или сервисов там Не там для чего-нибудь для разработчиков куда
2:17:58
бы вы смотрели с точки зрения какой-то прикладной истории может быть какой-то дивидендной модели скорее Наверно Чтобы
2:18:05
Ну я признаюсь сразу что я не бизнесмен от слова совсем Да вот этим не занимаюсь
2:18:11
но если говорить о том где сейчас возможности какие-то на первый взгляд возникают но они возникают вот на самом
2:18:18
деле на стыке тех кто создаёт сами базовые технологии
2:18:25
и непосредственными продуктовыми применения да то есть на самом деле как вот сейчас это
2:18:33
всё похоже на знаменитый анекдот про Майкла Фарадея Да когда у
2:18:38
него Королева спросила Скажите Лорд Фарадея Зачем нужно вот это ВС ваше
2:18:44
электричество Да он сказал ваше личество я и сам не знаю Но уверен что ваши внуки
2:18:49
будут взимать за него налоги Вот и мы на самом деле в полной мере ещё не раскрыли
2:18:56
все возможности языковых моделей и генеративных моделей вообще и я бы
2:19:04
сказал что это конечно огромное пространство для фантазии Да потому
2:19:11
что ну какие-то их применения они могут быть совсем не очевидными и очевидно что
2:19:16
люди которые работают над самой базовой технологией они Ну им и некогда особенно
2:19:22
заниматься её прикладным применением Да у нас конечно в силу специфики нашей организации понятно что мы всё равно там
2:19:29
хотите не хотите мы внедряем это всё в банковские процессы Мы внедряем это в
2:19:35
разные продукты экосистемы и так далее И вот в силу так сказать того что нас
2:19:41
всё-таки мало Вот Но мы в тельняшках Да поэтому мы вот и продуктовые тоже
2:19:47
применени иногда Но мы прекрасно понимаем что что там прямо огромное пространство для фантазии и кажется есть
2:19:54
много возможностей по созданию новых проектов которые тут ведь ещё Понимаете в чём
2:20:01
дело всегда логика на ранней стадии возникновения
2:20:06
каких-то технологий автоматизации она такая что Ну вот экономический эффект Мы достигнем за сч того
2:20:16
что да то есть Пардон ма франсе но цитата из фильма да то
2:20:22
есть смысл в том что Значит первое как бы к чему тянется рука давайте мы где-то
2:20:28
человека заменим Да И вот сэкономим его зарплату да Вот но на самом деле как вы
2:20:35
понимаете если посмотреть на историю технологий это работало не так да то есть вычислительная техника Она её
2:20:42
экономический эффект от её появления был многократно больше чем эффект замены людей со счётами Да на машинку Да почему
2:20:50
потому что ну появились новые совершенно области применения технологии Да в сороковые там в начале пятидесятых
2:20:56
кому-то могло показаться Что там на всю страну нужно 20 компьютеров Да но как бы сейчас вот вот в этой железке
2:21:05
вычислительная мощность больше чем было у нас когда человека отправляли на луну
2:21:10
причём не просто больше а в 50.000 раз больше примерно Да вот и мы тем немене находим применение этим
2:21:18
вычислительным мощностям Да мы там запускаем птиц свиней там ну тоже баллистическая задача Вот и много других
2:21:26
решаем такого же рода задач вот вся там игровая индустрия Например Она ведь
2:21:32
создала огромное количество рабочих мест не только айтиш нах но и там для
2:21:38
дизайнеров менеджеров маркетологов там бухгалтеров кого угодно Да И
2:21:44
вот Самый наверное талант что ли инноватора здесь какого-то визионер она
2:21:51
заключается в том чтобы не просто увидеть где ты можешь человека заменить на машину Да
2:21:57
здесь там большого ума не надо чтобы такое применение придумать а где вот ты
2:22:03
увидишь что у тебя появилась возможность создать какой-то принципиальный Новый сервис принципиальный новый продукт
2:22:09
который до этого был невозможен Ну просто технически Да ну С тем же самым генеративным
2:22:16
искусственным интеллектом там ну Кто бы мог подумать что просто я не знаю там
2:22:22
люди будут платить деньги за то чтобы там генерировать смешные картинки по текстовым запросам Да ну просто даже вот
2:22:29
прямое применение просто развлекательное да Ну конечно люди
2:22:34
раньше какие-то богатые могли позволить себе там личного художника там не знаю
2:22:41
шаржист который там ну это медленно всё равно делается
2:22:46
Да и и дорого и медленно и А на генерировать не знаю 100 картинок в день
2:22:52
но 100 картинок в день У вас там художник порвётся на второй день там да от такой нагрузки
2:22:58
вот значит ли это что художников по увольняли но нет не значит Как появилась новая потребность Да вот развлекательной
2:23:04
там смешной генерации каких-то мемасов там при помощи генеративных моделей Вот
2:23:10
и здесь Мне кажется нужно искать Вот такие применения которые вот ну делаем
2:23:16
что-то принципиально люди внезапно понимают что им это нужно было они вот вчера им это ещ было не
2:23:23
нужно да сегодня они вдруг поняли что они Жить не могут без вот этой новой штуки вот поэтому мне кажется вот надо в
2:23:30
этом направлении как-то
2:23:39
думать Вот скажите пожалуйста какие из этих моделей программы используют все языки Ну например вы сказали Википедию
2:23:45
по какому-то проблеме Вот кто лопает на всех языках на
2:23:51
большинстве ведь от этого зависит тоже так сказать результат например вы зададите вопрос Как голосовать на этих
2:23:57
выборах Если вы будете на всех языках там один будет Вариант А если только на
2:24:03
русском может быть какой-то другой и ещё второй вопрос что скрывают Почему скрывают вот эти вот так сказать данные
2:24:16
Спасибо самом алгоритмы Вот но отчасти люди тоже
2:24:24
но сама техника сбора данных какая есть автоматические краулеры это просто
2:24:30
программы которые вот обходят весь интернет случайным образом и собирают оттуда всё вот есть там Википедия там на
2:24:36
400 языках Всё мы ВС всю е всё это
2:24:45
соберём источники мы руками подкладываем туда Да вот мы говорим там
2:24:52
Википедия Это хороший структурированные знания поэтому давайте мы убедимся что у
2:24:59
нас точно вся Википедия полностью на всех языках например попало в обучающую
2:25:04
выборку Вот Но это делается в отношении буквально там четырёх пяти-шести самых
2:25:09
ценных источников типа там аркси лигена там би аркси какого-нибудь Википедии и
2:25:16
так далее вот дальше это всё проходит через механизмы фильтрации Они у разных
2:25:22
создателей разных моделей по-разному устроены вот где-то может быть что вы
2:25:28
посадили разметчик они вам показали им там какие-то фрагменты текста попросили
2:25:34
их сказать Вот хороший источник нехороший качественный или мусорный там да потом вы на этих решениях людей
2:25:41
обучили какую-то сетку и эта сетка при помощи неё вы принимаете решение включени включени конкретного документа
2:25:49
в обучающую выборку но так вот делали ещ несколько лет назад но у этого подхода у
2:25:54
него конечно есть проблема потенциальная в том что у
2:25:59
этой модели могут быть какие-то систематические басы Да Нам нужно всё-таки обеспечить большое разнообразие
2:26:05
данных это вот любая идеологическая фильтрация данных предо обучения она
2:26:11
чревата серьёзными проблемами потом с интеллектом этой модели Да это вот Ну
2:26:18
давайте возьмём не знаю поэму Маяковского Что такое хорошо и что такое плохо да и
2:26:24
вычеркни из неё всё что плохо да И теперь посмотрим Сможет ли Вот эта поэма
2:26:30
быть моральным ориентиром для того чтобы отличать хорошее от плохого Ну нет то есть на самом деле как бы попадает весь
2:26:38
Спектр того че в интернете есть мнений суждений
2:26:45
высказываний даже если не знаю Вот вы захотите не знаю матерную речь Удалить
2:26:51
Да Ну в принципе нехитро да написал набор правил и все документы в которых
2:26:56
матерные слова есть исключил и дальше Что Дальше допустим вам нужно на основе
2:27:01
этой фундаментальной модели сделать Ну скажем сетку которая
2:27:07
определяет ругательные отзыв или хвалебный о вашем товаре в интернете да
2:27:13
и и что и она не знает вот этих слов Да и Вам теперь придётся
2:27:20
чтобы её этому научить специально городить обучающий корпус со всеми вариантами матерных слов Да ну типа
2:27:27
отфильтровали теперь занесите обратно пожалуйста Да вот поэтому все вот эти на
2:27:33
сегодняшний день большинство исследовательских команд они фильтруют эти данные чисто механически Да
2:27:40
значит что нету дубликата этого же документа
2:27:46
там исковый индекс который ищет дубликаты выкидывает их есть энтропий
2:27:52
ная фильтрация это вы берёте какой-нибудь алгоритм сжатия сжимается
2:27:57
им Документ и все документы которые сжались либо слишком хорошо либо слишком плохо вы их выкидывайте тоже потому что
2:28:05
Ну видимо то что сжалось очень хорошо там каких-то внутри много повторов и какого какого-то мусора а то что зажало
2:28:12
очень плохо там какой-то тоже Рандомный мусор туда э ка какая-то глоссолалия бесструктурное
2:28:19
которая плохо сжалась всё выкинули вот энграммы допустим вы считаете частоты
2:28:25
нграм которые составляют ваш документ и Если э опять же средняя частота нграм слишком
2:28:32
маленькая или слишком большая Ну тоже выкидывайте потому что если она слишком маленькая то это какой-то мусор если
2:28:39
слишком большая то это какая-то банальна которая повторена уже там много раз теми же самыми словами то есть вот алгоритмы
2:28:45
фильтрации они вот такие примерно Вот теперь вопрос почему скрывается что в
2:28:51
обучающие выборки попадает почему там не выходит не знаю Open и говорит Мы вот
2:28:59
Вот здесь лежит можете сами посмотреть что попало в обучающую выборку причин несколько во-первых
2:29:07
создание всё-таки таких корпусов – это дорогая история Ну то есть них компании вкладывают много денег просто вот э
2:29:13
фильтрация но когда вам надо много дан пропустить их е через разные модели Ну
2:29:19
типа вычислитель это дорого и ну как бы Open не хочет своим
2:29:24
конкурентам облегчать жизнь да но это не единственная причина и наверное более
2:29:30
важная причина это всё-таки то что это до сих пор находится в серой зоне с точки зрения авторских прав да то есть
2:29:37
все понимают что современную модель обучить на данных только
2:29:44
значит не получится потому что не получится да э будет слишком мало данных
2:29:50
и они будут слишком устаревшие там не разнообразные и так далее И сейчас все
2:29:56
вот эти истории там попыток судиться со stable diffusion с openi там и другими
2:30:01
оно про то что там конкретный какой-нибудь автор говорит А я написал книгу я не давал разрешения значит её
2:30:07
использовать в обучении значит модели вот ну на что как бы разработчики
2:30:13
говорят Ну вообще-то это Fair use Да это лежало вот вот также как Любой человек может это
2:30:20
прочитать Да но вот наша модель это прочитала да условно говоря Но поскольку пока судебной практики Не выработано ну
2:30:27
все предполагают Ну предпочитают молчать в тряпочку чтобы против себя не свидетельствовать чтобы завтра ты не
2:30:33
сказал мы положили там все книги там Васи Пупкина в обучающий выбор Вася
2:30:41
Пупкин Давайте сда несите Чеда с долларами что это благодаря моим
2:30:48
произведениям ваша модель такая умная стала вот поэтому причина основная вот
2:30:53
эта А когда здесь правоприменительная практика будет более-менее устои да и
2:30:59
будут приняты соответствующие там судебные решения в странах с прецедентным правом какие-то нормативные
2:31:06
документы в других странах Когда будут выработаны общие подходы открытые
2:31:13
датасеты есть то есть для некоторых моделей есть откры дасе есть н пижама см
2:31:19
пижама ка что угодно Ну то есть это конечно
2:31:24
такие немножко игрушечные датасеты по сравнению с настоящими датасета больших моделей но уже что-то то есть уже уже
2:31:32
что-то можно обучить на открытых данных вот поэтому такой
2:31:45
ответ она опубликована как орная именно как набор Ну параметры самой нейронной
2:31:52
сети а датасет получается все накладывают свой или есть там какая-то
2:31:58
часть которую можно вот ну то есть с точки зрения то есть меня что интересует точки зрения автономного использования
2:32:03
То есть я так понимаю что и Вы в гача то есть вот Быкова все веса модели то есть
2:32:09
уже обученная сеть она уже обучена ей никакие данные для обучения не нужны она
2:32:14
уже готове Загрузи бинарник в питон выполнили и вс работает вот для
2:32:23
ламы конкретно обучающая выборка не была опубликована никогда то есть мы не знаем при этом конкретно на чём Она училась Ну
2:32:30
примерно знаем типа точно не знаем Поэтому вот есть только веса самой
2:32:37
модели он понимаете обученная
2:32:45
неживых тические веса вашего мозга пореза ваш мозг на сороками метровое
2:32:51
доли просвети его сканирующей микроскопе вы оттуда текст войны мира не
2:32:58
извлечён сно есть направление называется в шутку его называют нейрофизиология
2:33:03
искусственных нейронных сетей это когда значит современные нейрофизиологические
2:33:09
методы в том числе используются к исследованию весов уже обученных сеток
2:33:14
вот для того чтобы уже с обученной сеткой можно было как-нибудь манипулировать например заставить её
2:33:21
забыть какие-нибудь данные вот называется ан это направление вот в этом
2:33:27
году было несколько работ на тему Анга Вот и более того там примерно Понятно
2:33:33
где в каких конкретно участках сетки хранится фактология вот а хранится она в
2:33:40
весах слоёв блоков внимания причём более высоко уровневая фактология
2:33:47
Ближе к выходным слоям сетки Вот и ещё например есть работа прекрасная
2:33:54
где нашли конкретные нейроны в обученной сетке которые отвечают за географическую
2:34:00
долготу и широту то есть Ну ещё какие-то вот представления Ну типа абстрактные
2:34:06
они были найдены внутри ну как вот знаете у нейрофизиолог есть вот это Нейрон бабушки там да Или Нейрон ре кри
2:34:14
или кого там вот для искусственных нейронных сеток такое тоже сейчас умеют делать Вот и есть такое направление но в
2:34:21
общем да Лама э данных для обучений нету но она уже обучена и вы её можете
2:34:27
использовать а для некоторых сеток нету ни данных ни э обученных весов но есть
2:34:34
например э архитектура сети то есть вы знаете сколько в ней слоёв Какие этих
2:34:40
слоёв параметры и может быть даже код для обучения Вы можете эту же архитектуру сети обучить на каких-то
2:34:46
своих данных Вот такая тоже есть практика Ну есть есть есть то есть вот
2:34:55
есть Ред пижама и есть сетки обученные на этой Ред пижаме
2:35:01
пожалуйста Да вот Ну что тогда Спасибо большой Ну
2:35:10
на самом деле не расстраивайтесь если забыли или не задали вопрос пишите мне в кальчике в теле и я Вам
2:35:19
[аплодисменты] [музыка]
2:35:30
отвечу

Поделиться: