Google Titans: Новая модель ИИ, с вниманием и памятью которая мыслит как человек.

Оценили: 28

Обзор видео

Видео представляет обзор новой архитектуры искусственного интеллекта от Google под названием «Титан», которая развивается на основе архитектуры трансформеров, впервые представленной в 2017 году

Основные моменты видео включают:

Трансформеры стали революцией в ИИ благодаря механизму внимания, который позволяет модели фокусироваться на важных частях входных данных, подобно тому, как работает человеческий мозг.
Архитектура Титан расширяет эту идею, добавляя концепции, имитирующие работу человеческого мозга, включая кратковременную и долговременную память, а также механизм забывания неважной информации.
В трансформерах входной текст разбивается на токены, которые кодируются в векторы и проходят через блоки внимания, что позволяет учитывать контекст и взаимосвязи между словами. Однако традиционные трансформеры ограничены фиксированной длиной контекстного окна, и увеличение длины резко повышает вычислительные затраты.
Титан вводит новый нейронный модуль долговременной памяти, который способен запоминать исторический контекст и использовать информацию из далекого прошлого для улучшения внимания в текущем контексте. Это позволяет масштабировать модели до работы с контекстом более 2 миллионов токенов, что значительно превосходит возможности предыдущих моделей.
Модель Титан лучше справляется с задачей поиска «иголки в стоге сена» — нахождения конкретной информации в огромных объемах текста, что является сложной задачей для традиционных трансформеров.
Видео также подробно рассказывает о том, как Титан управляет памятью, выделяя «удивляющую» или неожиданную информацию, которая запоминается лучше, в отличие от скучной и предсказуемой, которая постепенно забывается. Это напоминает человеческий способ запоминания.
Обучение модели включает онлайн-метамодель, которая учится запоминать и забывать данные во время тестирования, что улучшает обобщение и предотвращает переобучении.
В целом, архитектура Титан открывает новые возможности для масштабирования и повышения эффективности ИИ-моделей, приближая их работу к принципам функционирования человеческого мозга.

Таким образом, видео дает глубокое и технически подробное объяснение инноваций в архитектуре Титан, показывая, как она улучшает и расширяет возможности трансформеров за счет внедрения долговременной памяти и более эффективного управления контекстом и вниманием.

^{https://www.perplexity.ai}

Расшифровка видео

0:00
вот Google представил свою новую
0:01
архитектуру искусственного интеллекта и
0:02
они назвали её Титан когда они
0:03
представили Трансформеры в 2017 году это
0:05
положило начало волне развития
0:06
искусственного интеллекта которую мы
0:07
наблюдаем сейчас это было очень
0:08
масштабируемая модель архитектуры и она
0:09
в кор не изменила то что мы могли делать
0:10
Титан построен на основе этой
0:11
архитектуры и что интересно всё больше и
0:13
больше напоминает человеческий мозг то
0:14
как человеческий мозг обрабатывает
0:15
информацию учится и так далее одна из
0:16
главных идей лежащих в основе
0:17
Трансформеров — это внимание мы с вами
0:19
не обращаем внимания на всё подряд мы
0:20
обращаем внимание на определённые вещи
0:22
которые важны для
0:23
нас архитектура титана делает ещё один
0:25
шаг в направлении того чтобы быть ближе
0:27
к человеческому мозгу к тому как наш
0:28
мозг обрабатывает информацию учится и
0:29
так далее Здесь всё больше и больше
0:30
концепций которые похожи на то как
0:32
работает наш мозг включая
0:33
кратковременную и долговременную память
0:34
забывание определённых вещей которые нам
0:36
больше не нужны и есть ещё одна
0:37
концепция которая заимствовано из того
0:38
как работает наш мозг и Это довольно
0:39
удивительно Давайте разберёмся прежде
0:41
чем мы продолжим Убедитесь что вам
0:42
нравится И что мне даже не нужно
0:43
заканчивать предложение ваш мозг скорее
0:45
всего предугадал Какое слово я собираюсь
0:46
произнести дальше если вы смотрите видео
0:47
на YouTube и человек говорит Убедитесь
0:48
что вы нажали лайк и бла-бла-бла вы
0:49
знаете что это за бла-бла-бла ещё до
0:51
того как он это скажет Трансформеры
0:52
работают примерно так же чтобы понять
0:53
почему архитектуры Титан лучше или
0:54
скорее как она улучшает и расширяет
0:56
архитектуру трансформа важно разобраться
0:57
в нескольких
0:58
концепциях пример как работают
1:00
Трансформеры на YouTube есть видео я
1:01
оставлю ссылку в описании Если захотите
1:03
посмотреть там очень хорошо объясняется
1:04
Что такое трансформеры буквально за 30
1:08
секунд это очень круто Вот например 30
1:10
секунд из этого видео после просмотра вы
1:12
поймёте насколько мощны Трансформеры но
1:13
также увидите их главный недостаток и
1:15
вот тут-то и появляется архитектура
1:16
Титан Посмотрите Давайте начнём с общего
1:18
представления о том как данные проходят
1:19
через трансформер мы уделим больше
1:21
времени объяснению каждого шага но В
1:22
общих чертах когда один из этих чатбот
1:23
генерирует слово происходит следующее
1:25
сначала входные данные разбиваются на
1:27
множество маленьких фрагментов эти
1:28
фрагменты называются токенами и в случае
1:29
с текстом Это обычно слова или небольшие
1:30
сочетания слов или другие
1:31
распространённые комбинации символов
1:32
каждый из этих токенов затем
1:33
ассоциируется с вектором то есть списком
1:35
чисел который должен каким-то образом
1:36
кодировать значение этого фрагмента если
1:37
представить что эти векторы задают
1:38
координаты в Очень большом пространстве
1:39
то слова со схожим значением будут
1:41
находиться рядом друг с другом в этом
1:42
пространстве затем эта
1:42
последовательность векторов проходит
1:43
через операцию которая называется блоком
1:45
внимания и это позволяет векторам
1:46
взаимодействовать друг с другом и
1:47
передавать информацию обновляя свои
1:48
значения например значение слова модель
1:49
словосочетание модель машинного обучения
1:50
отличается от значения этого слова в
1:51
словосочетание модель для фотосессий
1:53
блок внимания определяет Какие слова в
1:54
контексте влияют на значение других слов
1:56
и как именно эти значения должны быть
1:57
обновлены предполагается что в последнем
1:59
векторе последовательности каким-то
2:00
образом закодировано основное значение
2:01
всего текста затем Мы выполняем
2:02
определённую операцию с этим последним
2:03
вектором которая создаёт распределение
2:04
вероятности для всех возможных токенов
2:06
то есть маленьких фрагментов текста
2:07
которые могут идти дальше как я уже
2:08
говорил Если у вас есть инструмент
2:09
который предсказывает что будет дальше
2:10
на основе фрагмента текста Вы можете
2:11
вести небольшой фрагмент текста и
2:12
заставить его многократно играть в эту
2:13
игру предсказываю что будет дальше
2:14
выбирая из распределения добавляя и
2:15
повторяя снова и снова Поздравляю Теперь
2:17
вы эксперт по трансформерам Итак они
2:18
начинают с того что модели с
2:19
повторяющимися элементами пытаются сжать
2:20
данные до фиксированного размера
2:21
называемого скрытым состоянием Это
2:22
что-то вроде моделе предыдущего
2:23
поколения Представьте что вы читаете
2:24
книгу И запоминает всё что вам нужно
2:25
знать о ней чтобы понять сюжет Например
2:26
если вы читаете продолжение то вам нужно
2:28
знать что произошло в первой части чтобы
2:29
понять продолжение и так далее значит вы
2:31
читаете и запоминается у вас в голове
2:32
уже есть довольно подробный пересказ
2:33
того что произошло но некоторые детали
2:34
связи зависимости и тому подобное вы
2:36
могли упустить вено допустим вы
2:37
обсуждаете книгу или фильм и кто-то
2:38
говорит А ты знал что когда появился
2:40
красный цвет это означало что он
2:41
разговаривал с призраком А вы такой
2:42
Погоди Погоди Что нет Что случилось
2:44
потом вам нужно пересмотреть фильм и вы
2:45
такой О да точно это было так нужно
2:47
вернуться и вспомнить что я мог упустить
2:49
в первый раз таким образом это
2:50
повторяющиеся модели с фиксированной
2:52
памятью и скрытым состоянием в отличие
2:53
от них в трансформерах есть Внимание
2:55
внимание позволяет вам видеть запоминать
2:56
и понимать весь контекст учитывая прямые
2:57
зависимости между всеми токенами Это
2:59
означает что сохраняется связанность
3:01
верно если модель начинает писать
3:02
научно-фантастический расказ она не
3:03
превращается в Гарри Поттера потому что
3:04
забыла о чём говорила все токены все
3:06
слова весь контекст всё Это сохраняется
3:07
верно но есть проблема такое более
3:09
точное моделирование зависимости
3:10
приводит к квадратичного увеличению
3:11
стоимости что ограничивает контекст
3:12
фиксированной длиной То есть если вы
3:13
увеличите текст в два раза стоимость
3:14
возрастёт в четыре раза Это не совсем
3:16
экспоненциальный рост стоимости но он
3:17
определённо становится непомерно высоким
3:19
Итак мы видели модели с дву миллионами
3:20
контекстных окон таким образом вы можете
3:21
одновременно хранить в памяти 2 млн
3:23
токенов и я бы скорее подумал о
3:24
контекстном окне как о чём-то вроде
3:25
кратковременной памяти а не как О
3:26
долговременной памяти которая Возможно
3:27
немного более жадо через некоторое время
3:28
это может постепенно забыть таким
3:30
образом верхний предел — это контекстное
3:31
окно с дву миллионами токенов с которым
3:32
модель может работать одновременно Но в
3:33
этой новой статье говорится что Мы
3:34
представляем новый нейронный модуль
3:35
долговременной памяти который учится
3:36
запоминать исторический контекст и
3:37
помогает уделять внимание в текущем
3:39
контексте используя при этом информацию
3:40
из далекого прошлого таким образом вы
3:41
можете рассматривать внимание как своего
3:42
рода како временную память рабочую
3:43
память таким типом неровной
3:44
долговременной памяти как долговременная
3:45
память мы показываем что эта неровная
3:46
память обладает преимуществом быстро
3:47
распро пролива обучения при сохранении
3:48
быстрого вывода таким образом вы всё ещё
3:50
можете тренироваться параллельно и она
3:51
обладает быстрым выводом Что означает
3:52
что она по-прежнему быстро отвечает на
3:53
вопрос точки зрения памяти мы утверждаем
3:54
что внимание изза его ограниченного
3:55
контекста на точного моделирования
3:56
зависимости работает какко временная
3:57
память в то время как нейронная память
3:58
благодаря своей способности чтобы
3:59
запомнить данные действует как
4:00
долговременная более стойкая память
4:01
основываясь на этих двух модулях Мы
4:02
представляем Новое семейство архитектур
4:03
под названием titles они тестируют эти
4:04
модели с точки зрения языка здравого
4:06
смысла и геномики имею в виду что при
4:07
использовании токенов это может быть что
4:08
угодно символами могут быть не только
4:09
слова но и цифры видео изображение текст
4:11
голос или музыка Но это также может быть
4:12
связано с погодой физикой и различными
4:13
квантовыми явлениями например в случае с
4:15
альфа кубиком это могут быть белки их
4:16
структура функции и так далее
4:17
основываясь на этих данных Они выяснили
4:18
что титаны эффективнее чем Трансформеры
4:20
и другие современные модели и вот что
4:21
интересно они могут масштабироваться до
4:22
размера контекстного окна более 2
4:23
миллионов и при этом показывать более
4:24
высокую точность в задаче поиска иголки
4:25
в стоге сена по сравнению с предыдущими
4:27
моделями поиск иголки в ге сена — это
4:28
когда вы пытаетесь найти одну маленькую
4:29
конкрет ю вещь в огромном количестве
4:30
текста ещё недавно все эти модели были
4:31
очень-очень плохими в этом Google G был
4:33
первой моделью которая когда они её
4:34
улучшили смогла хорошо справляться с
4:35
этой задачей и она отлично находила
4:36
маленькие кусочки информации в больших
4:38
объёмах текста Интересно что у нас есть
4:39
трансформер и Он помог нам значительно
4:40
улучшить различные вещи Возможно мы
4:42
приближаемся к каким-то пределам эта
4:44
новая архитектура кажется открывает
4:45
новые возможности для масштабирования и
4:47
улучшения моделей Затем они немного
4:48
говорят о памяти память — это
4:49
фундаментальный психический процесс и
4:50
неотъемлемая часть человеческого
4:51
обучения без нормально функционирующей
4:53
системы памяти люди и животные были бы
4:54
ограничены базовыми рефлексами и
4:55
стереотипные поведением конечно было бы
4:56
трудно учиться чему-то Если бы вы не
4:58
могли запомнить информацию и вспомнить
4:59
её позже сначала они говорят о нейронной
5:00
памяти они представляют глубокую
5:01
нейронную долговременную память глубокая
5:03
значит многослойная таким образом эти
5:04
модели учат запоминать и сохранять
5:05
данные своих параметрах во время
5:06
тестирования Это значит что после
5:07
обучения они могут запоминать информацию
5:08
которую получают например когда
5:08
загружаете PD фай и задаёте вопросы они
5:10
сохраняют определённые Воспоминания но
5:11
не так как мы когда записываем что-то на
5:12
клочке бумаги А в своих нейронах в своём
5:14
мозгу в своих параметрах это похоже на
5:16
человеческую долговременную память
5:18
конечно у них не может быть бесконечной
5:19
памяти она всё равно ограничена мы не
5:21
можем Помнить всё вечно Мы тоже забываем
5:23
некоторые вещи некоторые вещи просто
5:24
стираются из памяти но то что эти модели
5:25
решают запомнить А что забыть довольно
5:27
Удивительно мы разработали модули памяти
5:29
события которая нарушает ожидание модели
5:30
запоминается лучше потому что оно
5:32
Неожиданное Извините если я немного
5:33
преувеличил но то как они управляют
5:34
своей памятью и сколько места в ней
5:36
доступно для хранения воспоминаний
5:37
удивительно потому что это буквальное
5:38
использование неожиданности информация
5:39
которая удивляет модель получает особое
5:41
отношение как будто она хранится в мозгу
5:43
Мне кажется что у людей то же самое мы
5:45
лучше запоминаем неожиданные
5:46
удивительные вещи таким образом они
5:47
продолжают использовать ограниченную
5:48
память мы представили механизм который
5:50
учитывает соотношение размера памяти и
5:51
количество неожиданной информации что
5:52
позволяет лучше управлять памятью таким
5:53
образом удивительная информация
5:55
сохраняется и получает особое отношение
5:56
А старая скучная информация постепенно
5:58
забывается Так что когда мы говорим о
5:59
долговременно памяти то по сути идея в
6:00
том что когда мы обучаем эти модели Мы
6:01
хотим чтобы они могли оща Например если
6:03
у вас есть собака и вы
6:06
тренируетесь препятствиями не знаю есть
6:08
ли такой но допустим что есть вы делаете
6:09
дома пять разных вариантов полосы
6:11
препятствий и тренируйте собаку на них
6:13
это и есть тренировочные данные на них
6:15
обучаются эти модели но когда вы придёте
6:17
на соревнования там не будет той
6:18
конкретной полосы препятствий которую вы
6:19
сделали дома там будет другая которую
6:21
возможно специально подготовили для
6:22
этого мероприятия она будет совершенно
6:23
новой вы не сможете научить собаку
6:24
проходить именно эту полосу препятствий
6:26
поэтому вы Используйте тренировочные
6:27
данные в надежде что собака научится
6:28
хорошо справляться с любыми другими
6:29
возможными препятствиями она научится
6:30
например Когда нужно прыгать Когда нужно
6:32
ползти Когда нужно делать что-то ещё как
6:33
вообще работают некоторые вещи поэтому
6:34
задача собаки не в том чтобы запомнить
6:36
эти конкретные полосы препятствия и
6:37
уметь проходить только их это называется
6:38
переобучения Мы хотим чтобы она могла
6:39
обобщать Чем больше она проходит полосы
6:41
препятствий тем лучше она сможет
6:42
проходить те которые мы никогда раньше
6:43
не видели и вот в этом и заключается
6:44
проблема с этими моделями когда мы
6:45
говорим о запоминания они всегда
6:46
считались нежелательным явлением в
6:47
нейронных сетях потому что это
6:48
ограничивает общение модели верно мы не
6:49
хотим чтобы она просто запоминала и
6:50
воспроизводил информацию Мы хотим чтобы
6:51
она так сказать постига суть вещей это
6:53
ограничивает обобщение вызывает проблемы
6:54
с конфиденциальностью приводит к низкой
6:55
производительности во время тестирования
6:56
поэтому они говорят что нам нужна онлайн
6:57
метамодель которая учится запоминать и
6:58
забывать данные во время тестирования в
7:00
этой настройке модель изучат функцию
7:01
которая способна запоминанию но не
7:02
приучается на тренировочных данных Что
7:03
приводит к лучшему общению во время
7:04
тестирования затем мы переходим к
7:05
процессу обучения и метрики удивления
7:06
Ключевая идея для обучения
7:07
долговременной памяти рассматривать это
7:08
как онлайн обучение и они упомянули что
7:10
событие которое нарушает Ожидание и
7:11
удивляет запоминается лучше это похоже
7:13
на человеческую
7:17
память и многое из этого Похоже на то
7:19
как работает человеческий мозг верно У
7:21
нас есть определённое удивление в
7:22
прошлом и удивление в данной момент
7:23
Например если что-то вас удивило Но это
7:25
событие длится какое-то время вы всё
7:26
равно будете обращать на него
7:28
внимание например если ваша собака
7:30
Однажды заговорит с вами по-английски вы
7:31
удивитесь Прошло уже 5 часов и вы
7:32
наверное уже привыкли к этому вы уже
7:33
смирились с этим но всё равно обращаете
7:35
внимание это всё ещё кажется вам чем-то
7:36
новым вы всё равно обращаете внимание
7:38
даже если первоначальное удивление
7:39
прошло в сериале Гриффины была сцена где
7:40
собака разговаривала она разговаривала
7:42
на протяжении всех сезонов во всех
7:43
сериях Верна А потом когда собака
7:44
говорила уже много-много серий хозяин
7:46
был в шоке и закричал Боже мой Ты умеешь
7:50
говорить Не знаю почему но это всегда
7:52
было для меня очень смешным Затем они
7:53
рассказывают Как использовать эту память
7:54
в как её использовать для достижения
7:56
наилучших результатов у них есть Три
7:57
разных подхода каждый со своими
7:58
преимуществами и недостатками со своими
7:59
компромиссам есть память как контекст
8:01
память как ворота и память как слой и
8:02
для языкового моделирования для трёх
8:04
вариантов титана они превосходят другие
8:05
модели в тесте на поиск иголки в стоге
8:07
сена то есть на поиск определённой
8:08
информации в большом тексте Титан — это
8:09
маленькая звёздочка начинает с высоких
8:11
показателей и пока другие модели
8:12
постепенно снижаются он остаётся
8:13
очень-очень
8:15
точным Так что определённо после
8:17
определённого момента он остаётся лучшей
8:18
моделью он остаётся одним из самых
8:19
точных даже после определённой длины
8:20
последовательности у него нет резкого
8:22
спада они также оценивают эффективность
8:23
модели в задачах прогнозирования
8:24
временных рядов они говорят что наш
8:25
модуль неровный памяти превосходит все
8:27
базовые модели включая архитектуры на
8:28
основе маммографии линейной
8:30
чтобы понять возможности Титан они
8:31
оценивают его эффективность в задачах
8:32
моделирования ДНК и они обнаружили что
8:34
эти большие языковые модели конкурируют
8:35
с лучшими современными архитектура мы
8:37
уже видели много Трансформеров и многие
8:38
говорят что Трансформеры устарели Вот
8:40
новая архитектура которую мы внедряем и
8:41
она будет лучше конечно это выглядит как
8:43
следующий Шаг вперёд и Похоже она имеет
8:44
явные преимущества перед архитектуры тнф
8:46
Так что мы посмотрим насколько хорошо
8:47
она будет работать в реальном мире но
8:48
дайте мне знать что вы думаете Это
8:49
действительно следующий Шаг вперёд это
8:50
положит начало новой гонки по улучшению
8:52
этих моделей и Или действительно ли
8:53
Внимание это всё что вам нужно дайте мне
8:54
знать в комментариях Меня зовут у
8:55
Большое спасибо за просмотр увидимся в
8:56
следующий раз

Обзор видео

Основные моменты видео включают:

Расшифровка видео

Похожие записи