Обзор видео
Видео представляет обзор новой архитектуры искусственного интеллекта от Google под названием “Титан”, которая развивается на основе архитектуры трансформеров, впервые представленной в 2017 году
Основные моменты видео включают:
- Трансформеры стали революцией в ИИ благодаря механизму внимания, который позволяет модели фокусироваться на важных частях входных данных, подобно тому, как работает человеческий мозг.
- Архитектура Титан расширяет эту идею, добавляя концепции, имитирующие работу человеческого мозга, включая кратковременную и долговременную память, а также механизм забывания неважной информации.
- В трансформерах входной текст разбивается на токены, которые кодируются в векторы и проходят через блоки внимания, что позволяет учитывать контекст и взаимосвязи между словами. Однако традиционные трансформеры ограничены фиксированной длиной контекстного окна, и увеличение длины резко повышает вычислительные затраты.
- Титан вводит новый нейронный модуль долговременной памяти, который способен запоминать исторический контекст и использовать информацию из далекого прошлого для улучшения внимания в текущем контексте. Это позволяет масштабировать модели до работы с контекстом более 2 миллионов токенов, что значительно превосходит возможности предыдущих моделей.
- Модель Титан лучше справляется с задачей поиска “иголки в стоге сена” — нахождения конкретной информации в огромных объемах текста, что является сложной задачей для традиционных трансформеров.
- Видео также подробно рассказывает о том, как Титан управляет памятью, выделяя “удивляющую” или неожиданную информацию, которая запоминается лучше, в отличие от скучной и предсказуемой, которая постепенно забывается. Это напоминает человеческий способ запоминания.
- Обучение модели включает онлайн-метамодель, которая учится запоминать и забывать данные во время тестирования, что улучшает обобщение и предотвращает переобучении.
- В целом, архитектура Титан открывает новые возможности для масштабирования и повышения эффективности ИИ-моделей, приближая их работу к принципам функционирования человеческого мозга.
Таким образом, видео дает глубокое и технически подробное объяснение инноваций в архитектуре Титан, показывая, как она улучшает и расширяет возможности трансформеров за счет внедрения долговременной памяти и более эффективного управления контекстом и вниманием.
Расшифровка видео
0:00
вот Google представил свою новую
0:01
архитектуру искусственного интеллекта и
0:02
они назвали её Титан когда они
0:03
представили Трансформеры в 2017 году это
0:05
положило начало волне развития
0:06
искусственного интеллекта которую мы
0:07
наблюдаем сейчас это было очень
0:08
масштабируемая модель архитектуры и она
0:09
в кор не изменила то что мы могли делать
0:10
Титан построен на основе этой
0:11
архитектуры и что интересно всё больше и
0:13
больше напоминает человеческий мозг то
0:14
как человеческий мозг обрабатывает
0:15
информацию учится и так далее одна из
0:16
главных идей лежащих в основе
0:17
Трансформеров – это внимание мы с вами
0:19
не обращаем внимания на всё подряд мы
0:20
обращаем внимание на определённые вещи
0:22
которые важны для
0:23
нас архитектура титана делает ещё один
0:25
шаг в направлении того чтобы быть ближе
0:27
к человеческому мозгу к тому как наш
0:28
мозг обрабатывает информацию учится и
0:29
так далее Здесь всё больше и больше
0:30
концепций которые похожи на то как
0:32
работает наш мозг включая
0:33
кратковременную и долговременную память
0:34
забывание определённых вещей которые нам
0:36
больше не нужны и есть ещё одна
0:37
концепция которая заимствовано из того
0:38
как работает наш мозг и Это довольно
0:39
удивительно Давайте разберёмся прежде
0:41
чем мы продолжим Убедитесь что вам
0:42
нравится И что мне даже не нужно
0:43
заканчивать предложение ваш мозг скорее
0:45
всего предугадал Какое слово я собираюсь
0:46
произнести дальше если вы смотрите видео
0:47
на YouTube и человек говорит Убедитесь
0:48
что вы нажали лайк и бла-бла-бла вы
0:49
знаете что это за бла-бла-бла ещё до
0:51
того как он это скажет Трансформеры
0:52
работают примерно так же чтобы понять
0:53
почему архитектуры Титан лучше или
0:54
скорее как она улучшает и расширяет
0:56
архитектуру трансформа важно разобраться
0:57
в нескольких
0:58
концепциях пример как работают
1:00
Трансформеры на YouTube есть видео я
1:01
оставлю ссылку в описании Если захотите
1:03
посмотреть там очень хорошо объясняется
1:04
Что такое трансформеры буквально за 30
1:08
секунд это очень круто Вот например 30
1:10
секунд из этого видео после просмотра вы
1:12
поймёте насколько мощны Трансформеры но
1:13
также увидите их главный недостаток и
1:15
вот тут-то и появляется архитектура
1:16
Титан Посмотрите Давайте начнём с общего
1:18
представления о том как данные проходят
1:19
через трансформер мы уделим больше
1:21
времени объяснению каждого шага но В
1:22
общих чертах когда один из этих чатбот
1:23
генерирует слово происходит следующее
1:25
сначала входные данные разбиваются на
1:27
множество маленьких фрагментов эти
1:28
фрагменты называются токенами и в случае
1:29
с текстом Это обычно слова или небольшие
1:30
сочетания слов или другие
1:31
распространённые комбинации символов
1:32
каждый из этих токенов затем
1:33
ассоциируется с вектором то есть списком
1:35
чисел который должен каким-то образом
1:36
кодировать значение этого фрагмента если
1:37
представить что эти векторы задают
1:38
координаты в Очень большом пространстве
1:39
то слова со схожим значением будут
1:41
находиться рядом друг с другом в этом
1:42
пространстве затем эта
1:42
последовательность векторов проходит
1:43
через операцию которая называется блоком
1:45
внимания и это позволяет векторам
1:46
взаимодействовать друг с другом и
1:47
передавать информацию обновляя свои
1:48
значения например значение слова модель
1:49
словосочетание модель машинного обучения
1:50
отличается от значения этого слова в
1:51
словосочетание модель для фотосессий
1:53
блок внимания определяет Какие слова в
1:54
контексте влияют на значение других слов
1:56
и как именно эти значения должны быть
1:57
обновлены предполагается что в последнем
1:59
векторе последовательности каким-то
2:00
образом закодировано основное значение
2:01
всего текста затем Мы выполняем
2:02
определённую операцию с этим последним
2:03
вектором которая создаёт распределение
2:04
вероятности для всех возможных токенов
2:06
то есть маленьких фрагментов текста
2:07
которые могут идти дальше как я уже
2:08
говорил Если у вас есть инструмент
2:09
который предсказывает что будет дальше
2:10
на основе фрагмента текста Вы можете
2:11
вести небольшой фрагмент текста и
2:12
заставить его многократно играть в эту
2:13
игру предсказываю что будет дальше
2:14
выбирая из распределения добавляя и
2:15
повторяя снова и снова Поздравляю Теперь
2:17
вы эксперт по трансформерам Итак они
2:18
начинают с того что модели с
2:19
повторяющимися элементами пытаются сжать
2:20
данные до фиксированного размера
2:21
называемого скрытым состоянием Это
2:22
что-то вроде моделе предыдущего
2:23
поколения Представьте что вы читаете
2:24
книгу И запоминает всё что вам нужно
2:25
знать о ней чтобы понять сюжет Например
2:26
если вы читаете продолжение то вам нужно
2:28
знать что произошло в первой части чтобы
2:29
понять продолжение и так далее значит вы
2:31
читаете и запоминается у вас в голове
2:32
уже есть довольно подробный пересказ
2:33
того что произошло но некоторые детали
2:34
связи зависимости и тому подобное вы
2:36
могли упустить вено допустим вы
2:37
обсуждаете книгу или фильм и кто-то
2:38
говорит А ты знал что когда появился
2:40
красный цвет это означало что он
2:41
разговаривал с призраком А вы такой
2:42
Погоди Погоди Что нет Что случилось
2:44
потом вам нужно пересмотреть фильм и вы
2:45
такой О да точно это было так нужно
2:47
вернуться и вспомнить что я мог упустить
2:49
в первый раз таким образом это
2:50
повторяющиеся модели с фиксированной
2:52
памятью и скрытым состоянием в отличие
2:53
от них в трансформерах есть Внимание
2:55
внимание позволяет вам видеть запоминать
2:56
и понимать весь контекст учитывая прямые
2:57
зависимости между всеми токенами Это
2:59
означает что сохраняется связанность
3:01
верно если модель начинает писать
3:02
научно-фантастический расказ она не
3:03
превращается в Гарри Поттера потому что
3:04
забыла о чём говорила все токены все
3:06
слова весь контекст всё Это сохраняется
3:07
верно но есть проблема такое более
3:09
точное моделирование зависимости
3:10
приводит к квадратичного увеличению
3:11
стоимости что ограничивает контекст
3:12
фиксированной длиной То есть если вы
3:13
увеличите текст в два раза стоимость
3:14
возрастёт в четыре раза Это не совсем
3:16
экспоненциальный рост стоимости но он
3:17
определённо становится непомерно высоким
3:19
Итак мы видели модели с дву миллионами
3:20
контекстных окон таким образом вы можете
3:21
одновременно хранить в памяти 2 млн
3:23
токенов и я бы скорее подумал о
3:24
контекстном окне как о чём-то вроде
3:25
кратковременной памяти а не как О
3:26
долговременной памяти которая Возможно
3:27
немного более жадо через некоторое время
3:28
это может постепенно забыть таким
3:30
образом верхний предел – это контекстное
3:31
окно с дву миллионами токенов с которым
3:32
модель может работать одновременно Но в
3:33
этой новой статье говорится что Мы
3:34
представляем новый нейронный модуль
3:35
долговременной памяти который учится
3:36
запоминать исторический контекст и
3:37
помогает уделять внимание в текущем
3:39
контексте используя при этом информацию
3:40
из далекого прошлого таким образом вы
3:41
можете рассматривать внимание как своего
3:42
рода како временную память рабочую
3:43
память таким типом неровной
3:44
долговременной памяти как долговременная
3:45
память мы показываем что эта неровная
3:46
память обладает преимуществом быстро
3:47
распро пролива обучения при сохранении
3:48
быстрого вывода таким образом вы всё ещё
3:50
можете тренироваться параллельно и она
3:51
обладает быстрым выводом Что означает
3:52
что она по-прежнему быстро отвечает на
3:53
вопрос точки зрения памяти мы утверждаем
3:54
что внимание изза его ограниченного
3:55
контекста на точного моделирования
3:56
зависимости работает какко временная
3:57
память в то время как нейронная память
3:58
благодаря своей способности чтобы
3:59
запомнить данные действует как
4:00
долговременная более стойкая память
4:01
основываясь на этих двух модулях Мы
4:02
представляем Новое семейство архитектур
4:03
под названием titles они тестируют эти
4:04
модели с точки зрения языка здравого
4:06
смысла и геномики имею в виду что при
4:07
использовании токенов это может быть что
4:08
угодно символами могут быть не только
4:09
слова но и цифры видео изображение текст
4:11
голос или музыка Но это также может быть
4:12
связано с погодой физикой и различными
4:13
квантовыми явлениями например в случае с
4:15
альфа кубиком это могут быть белки их
4:16
структура функции и так далее
4:17
основываясь на этих данных Они выяснили
4:18
что титаны эффективнее чем Трансформеры
4:20
и другие современные модели и вот что
4:21
интересно они могут масштабироваться до
4:22
размера контекстного окна более 2
4:23
миллионов и при этом показывать более
4:24
высокую точность в задаче поиска иголки
4:25
в стоге сена по сравнению с предыдущими
4:27
моделями поиск иголки в ге сена – это
4:28
когда вы пытаетесь найти одну маленькую
4:29
конкрет ю вещь в огромном количестве
4:30
текста ещё недавно все эти модели были
4:31
очень-очень плохими в этом Google G был
4:33
первой моделью которая когда они её
4:34
улучшили смогла хорошо справляться с
4:35
этой задачей и она отлично находила
4:36
маленькие кусочки информации в больших
4:38
объёмах текста Интересно что у нас есть
4:39
трансформер и Он помог нам значительно
4:40
улучшить различные вещи Возможно мы
4:42
приближаемся к каким-то пределам эта
4:44
новая архитектура кажется открывает
4:45
новые возможности для масштабирования и
4:47
улучшения моделей Затем они немного
4:48
говорят о памяти память – это
4:49
фундаментальный психический процесс и
4:50
неотъемлемая часть человеческого
4:51
обучения без нормально функционирующей
4:53
системы памяти люди и животные были бы
4:54
ограничены базовыми рефлексами и
4:55
стереотипные поведением конечно было бы
4:56
трудно учиться чему-то Если бы вы не
4:58
могли запомнить информацию и вспомнить
4:59
её позже сначала они говорят о нейронной
5:00
памяти они представляют глубокую
5:01
нейронную долговременную память глубокая
5:03
значит многослойная таким образом эти
5:04
модели учат запоминать и сохранять
5:05
данные своих параметрах во время
5:06
тестирования Это значит что после
5:07
обучения они могут запоминать информацию
5:08
которую получают например когда
5:08
загружаете PD фай и задаёте вопросы они
5:10
сохраняют определённые Воспоминания но
5:11
не так как мы когда записываем что-то на
5:12
клочке бумаги А в своих нейронах в своём
5:14
мозгу в своих параметрах это похоже на
5:16
человеческую долговременную память
5:18
конечно у них не может быть бесконечной
5:19
памяти она всё равно ограничена мы не
5:21
можем Помнить всё вечно Мы тоже забываем
5:23
некоторые вещи некоторые вещи просто
5:24
стираются из памяти но то что эти модели
5:25
решают запомнить А что забыть довольно
5:27
Удивительно мы разработали модули памяти
5:29
события которая нарушает ожидание модели
5:30
запоминается лучше потому что оно
5:32
Неожиданное Извините если я немного
5:33
преувеличил но то как они управляют
5:34
своей памятью и сколько места в ней
5:36
доступно для хранения воспоминаний
5:37
удивительно потому что это буквальное
5:38
использование неожиданности информация
5:39
которая удивляет модель получает особое
5:41
отношение как будто она хранится в мозгу
5:43
Мне кажется что у людей то же самое мы
5:45
лучше запоминаем неожиданные
5:46
удивительные вещи таким образом они
5:47
продолжают использовать ограниченную
5:48
память мы представили механизм который
5:50
учитывает соотношение размера памяти и
5:51
количество неожиданной информации что
5:52
позволяет лучше управлять памятью таким
5:53
образом удивительная информация
5:55
сохраняется и получает особое отношение
5:56
А старая скучная информация постепенно
5:58
забывается Так что когда мы говорим о
5:59
долговременно памяти то по сути идея в
6:00
том что когда мы обучаем эти модели Мы
6:01
хотим чтобы они могли оща Например если
6:03
у вас есть собака и вы
6:06
тренируетесь препятствиями не знаю есть
6:08
ли такой но допустим что есть вы делаете
6:09
дома пять разных вариантов полосы
6:11
препятствий и тренируйте собаку на них
6:13
это и есть тренировочные данные на них
6:15
обучаются эти модели но когда вы придёте
6:17
на соревнования там не будет той
6:18
конкретной полосы препятствий которую вы
6:19
сделали дома там будет другая которую
6:21
возможно специально подготовили для
6:22
этого мероприятия она будет совершенно
6:23
новой вы не сможете научить собаку
6:24
проходить именно эту полосу препятствий
6:26
поэтому вы Используйте тренировочные
6:27
данные в надежде что собака научится
6:28
хорошо справляться с любыми другими
6:29
возможными препятствиями она научится
6:30
например Когда нужно прыгать Когда нужно
6:32
ползти Когда нужно делать что-то ещё как
6:33
вообще работают некоторые вещи поэтому
6:34
задача собаки не в том чтобы запомнить
6:36
эти конкретные полосы препятствия и
6:37
уметь проходить только их это называется
6:38
переобучения Мы хотим чтобы она могла
6:39
обобщать Чем больше она проходит полосы
6:41
препятствий тем лучше она сможет
6:42
проходить те которые мы никогда раньше
6:43
не видели и вот в этом и заключается
6:44
проблема с этими моделями когда мы
6:45
говорим о запоминания они всегда
6:46
считались нежелательным явлением в
6:47
нейронных сетях потому что это
6:48
ограничивает общение модели верно мы не
6:49
хотим чтобы она просто запоминала и
6:50
воспроизводил информацию Мы хотим чтобы
6:51
она так сказать постига суть вещей это
6:53
ограничивает обобщение вызывает проблемы
6:54
с конфиденциальностью приводит к низкой
6:55
производительности во время тестирования
6:56
поэтому они говорят что нам нужна онлайн
6:57
метамодель которая учится запоминать и
6:58
забывать данные во время тестирования в
7:00
этой настройке модель изучат функцию
7:01
которая способна запоминанию но не
7:02
приучается на тренировочных данных Что
7:03
приводит к лучшему общению во время
7:04
тестирования затем мы переходим к
7:05
процессу обучения и метрики удивления
7:06
Ключевая идея для обучения
7:07
долговременной памяти рассматривать это
7:08
как онлайн обучение и они упомянули что
7:10
событие которое нарушает Ожидание и
7:11
удивляет запоминается лучше это похоже
7:13
на человеческую
7:17
память и многое из этого Похоже на то
7:19
как работает человеческий мозг верно У
7:21
нас есть определённое удивление в
7:22
прошлом и удивление в данной момент
7:23
Например если что-то вас удивило Но это
7:25
событие длится какое-то время вы всё
7:26
равно будете обращать на него
7:28
внимание например если ваша собака
7:30
Однажды заговорит с вами по-английски вы
7:31
удивитесь Прошло уже 5 часов и вы
7:32
наверное уже привыкли к этому вы уже
7:33
смирились с этим но всё равно обращаете
7:35
внимание это всё ещё кажется вам чем-то
7:36
новым вы всё равно обращаете внимание
7:38
даже если первоначальное удивление
7:39
прошло в сериале Гриффины была сцена где
7:40
собака разговаривала она разговаривала
7:42
на протяжении всех сезонов во всех
7:43
сериях Верна А потом когда собака
7:44
говорила уже много-много серий хозяин
7:46
был в шоке и закричал Боже мой Ты умеешь
7:50
говорить Не знаю почему но это всегда
7:52
было для меня очень смешным Затем они
7:53
рассказывают Как использовать эту память
7:54
в как её использовать для достижения
7:56
наилучших результатов у них есть Три
7:57
разных подхода каждый со своими
7:58
преимуществами и недостатками со своими
7:59
компромиссам есть память как контекст
8:01
память как ворота и память как слой и
8:02
для языкового моделирования для трёх
8:04
вариантов титана они превосходят другие
8:05
модели в тесте на поиск иголки в стоге
8:07
сена то есть на поиск определённой
8:08
информации в большом тексте Титан – это
8:09
маленькая звёздочка начинает с высоких
8:11
показателей и пока другие модели
8:12
постепенно снижаются он остаётся
8:13
очень-очень
8:15
точным Так что определённо после
8:17
определённого момента он остаётся лучшей
8:18
моделью он остаётся одним из самых
8:19
точных даже после определённой длины
8:20
последовательности у него нет резкого
8:22
спада они также оценивают эффективность
8:23
модели в задачах прогнозирования
8:24
временных рядов они говорят что наш
8:25
модуль неровный памяти превосходит все
8:27
базовые модели включая архитектуры на
8:28
основе маммографии линейной
8:30
чтобы понять возможности Титан они
8:31
оценивают его эффективность в задачах
8:32
моделирования ДНК и они обнаружили что
8:34
эти большие языковые модели конкурируют
8:35
с лучшими современными архитектура мы
8:37
уже видели много Трансформеров и многие
8:38
говорят что Трансформеры устарели Вот
8:40
новая архитектура которую мы внедряем и
8:41
она будет лучше конечно это выглядит как
8:43
следующий Шаг вперёд и Похоже она имеет
8:44
явные преимущества перед архитектуры тнф
8:46
Так что мы посмотрим насколько хорошо
8:47
она будет работать в реальном мире но
8:48
дайте мне знать что вы думаете Это
8:49
действительно следующий Шаг вперёд это
8:50
положит начало новой гонки по улучшению
8:52
этих моделей и Или действительно ли
8:53
Внимание это всё что вам нужно дайте мне
8:54
знать в комментариях Меня зовут у
8:55
Большое спасибо за просмотр увидимся в
8:56
следующий раз