ШОКИРУЮЩИЙ новый искусственный интеллект (Tülu 3) уничтожает DeepSeek и OpenAI! ПМВ №1

Tülu 3 405B от Ai2, массовая модель искусственного интеллекта с открытым исходным кодом, превзошла DeepSeek V3, GPT-4o и Llama 3.1 405B в ключевых тестах, таких как PopQA, GSM8K и MATH, доказывая, что открытые модели могут конкурировать с ведущими проприетарными системами. Обученный с использованием 256 графических процессоров параллельно, Tülu 3 405B использует передовые методы обучения с подкреплением, такие как RLVR, для повышения точности в математике, рассуждениях и следовании инструкциям. Благодаря полной прозрачности, разрешительному лицензированию и подробным данным об обучении, прорыв Ai2 знаменует собой важную веху в продолжающейся гонке в области искусственного интеллекта, бросая вызов корпоративному доминированию в разработке искусственного интеллекта.

Таймкоды

00:00:00 Введение в войну искусственного интеллекта

  • Новый игрок вышел в лидеры в «первой мировой войне искусственного интеллекта».
  • Модель AI-2 Tulu-3 445B превзошла DDP и GPT-4 по нескольким показателям.

00:00:19 История конкуренции

  • Китайский стартап выпустил модель, сравнимую с лучшими предложениями GPT.
  • Alibaba представила модель QN, повысив ставки.
  • Microsoft и GPT обвинили DDP в краже технологий.

00:01:13 Особенности Tulu-3

  • Модель обучена с использованием 256 графических процессоров.
  • Полностью открытый исходный код.

00:01:38 Тестирование и результаты

  • Tulu-3 протестирован на популярных тестах, включая Pop-QAE и GSM.
  • В Pop-QAE Tulu показал лучшие результаты, чем DDP и GPT-4.
  • В GSM 8K Tulu продемонстрировал высокую производительность в математических задачах.

00:03:50 Технические аспекты обучения

  • Использованы передовые подходы к обучению, включая контролируемую тонкую настройку и RL-VAE.
  • Модель получает вознаграждения только за правильные решения.

00:05:08 Масштабирование и безопасность

  • Для обучения Tulu-3 потребовалось 32 узла и 256 графических процессоров.
  • Tulu превзошёл конкурентов в тестах безопасности.

00:06:37 Обработка данных

  • Данные тщательно отобраны и очищены.
  • Многоэтапный подход включает контролируемую тонкую настройку и прямую оптимизацию предпочтений.

00:07:15 Следование инструкциям

  • Модель фокусируется на точном следовании инструкциям.
  • Задания включают выдачу определённого количества слов или абзацев.

00:08:19 Открытый исходный код

  • AI-2 публикует весь код и данные на GitHub.
  • Модель доступна для экспериментов и доработки.

00:09:32 Заключение

  • Tulu демонстрирует высокую конкуренцию в глобальном пространстве ИИ.
  • Сокращает разрыв между академической открытостью и производительностью.
  • Призывает к экспериментам с открытой моделью.

Таймкоды в нейросети https://300.ya.ru/v_6e12WD7m/?t=0

Расшифровка видео

0:00
невероятный поворот событий новый игрок
0:02
вышел в лидеры в то что мы называем
0:04
Первой мировой войной искусственного
0:06
интеллекта последняя модель ai2 tul 3
0:10
445 би появилась из ниоткуда и превзошла
0:13
как противоречивую модель пси так и анай
0:16
по нескольким основным показателям войны
0:19
за искусственный интеллект начались
0:21
когда Китайский стартап бесплатно
0:23
выпустил модель которая могла сравниться
0:25
с лучшими предложениями анай или даже
0:27
превзойти Их что вызвало
0:30
конкуренцию Затем в дело вступил Алибаба
0:33
со своей моделью кн ещё больше повысив
0:35
ставки Чтобы ещё больше обострить
0:38
ситуацию Microsoft и apen обвинили ПК в
0:41
краже их технологий и это добавило
0:43
драматизма в войну но теперь когда на
0:45
сцене появился Тулу становится ясно что
0:48
ставки возросли а конкуренция
0:50
обострилась как никогда
0:52
аи2 сокращённая ан institute For a
0:55
базирующаяся в сиетле и является
0:57
некоммерческой исследовательской
0:59
организацией известный передовыми
1:01
разработками в области
1:02
нейролингвистического программирования и
1:04
других исследований искусственного
1:06
интеллекта название 405b буквально
1:09
указывает на Безумный диапазон
1:11
параметров используемых в модели более
1:14
крупные модели часто демонстрируют
1:16
лучшие мыслительные способности и Тулу
1:18
определённо следует этой тенденции
1:20
очевидно что он был обучен с
1:22
использованием 256 графических
1:24
процессоров Параллельно что показывает
1:27
насколько масштабным был этот проект с
1:29
точки зрения
1:30
реу теперь он является особенным не
1:33
только потому что массивный но и потому
1:35
что у него полностью открытый Исходный
1:37
код как и у многих других мощных моделей
1:40
в ней есть всё необходимое для её
1:42
воссоздания например обучающий код
1:44
данные и инструкции были выпущены в
1:46
свободном доступе и имеют разрешительную
1:49
лицензию сотрудники аи2 называют своё
1:52
детище большим шагом для США в попытке
1:55
заявить что Америка ВС е может быть
1:57
лидером в создании первоклассного
1:58
искусственного с открытым исходным кодом
2:01
не всегда полагаясь на крупные
2:03
корпоративные лаборатории это часть
2:05
более масштабного разговора об
2:07
исследованиях открытого и А2
2:10
протестировал его на множестве
2:12
популярных тестов включая Pop qa GSM M и
2:16
другие эти тесты охватывают всё от
2:18
запоминания знаний и фактической
2:20
корректности до сложных рассуждений
2:22
математических задач со словами задач по
2:25
кодированию исследованию инструкциям а
2:27
также внутренних оценок Тулу 3 ПК и гпт
2:31
4о для выполнения множества задач
2:34
например в тестовом наборе под названием
2:36
Pop qa который содержит более 14.000
2:39
вопросов на знани из Википедии лу
2:41
показал лучшие результаты чем не только
2:44
эти две модели но и Лама ещё одна
2:46
сильная сторона Тулу – это
2:48
Математические задания в тестах под
2:50
названием GSM 8k который полностью
2:53
посвящён математическим задачам на
2:55
уровне начальной школы Тулу
2:57
действительно показали самую высокую
2:58
производительность среди моделе в свом
3:01
классе это всегда интересно потому что
3:03
математика для многих моделей довольно
3:05
сложна Особенно если они не были
3:07
специально доработаны в этой области
3:10
Если вы хотите попробовать нейросеть
3:12
самостоятельно у А2 есть веб-приложение
3:15
для чатбот тов они также Разместили код
3:17
на гитхабе и на hin Face Так что если вы
3:20
разработчик или исследователь там есть
3:22
всё необходимое ссылка будет в описании
3:26
Вы можете протестировать его
3:27
адаптировать или даже объединить вашими
3:30
собственными данными всё это бесплатно и
3:32
открыто Тулу не просто появился в
3:35
одночасье это часть более крупного
3:37
семейства компания выпускала поэтапно
3:40
ранее были версии с периметром 8b и 70b
3:43
которые также были настроены по
3:45
инструкции чтобы соответствовать
3:47
некоторым закрытым моделям или даже
3:48
превосходить их это новейшая версия с
3:51
периметром 4b и 5b по сути попытка
3:54
расширить возможности с помощью
3:56
открытого кода и посмотреть что
3:57
получится одна из главных причин по
4:00
которой э нейросеть выделяется на общем
4:02
фоне это то как он был обучен ai2
4:05
использовала передовые подходы к пост
4:07
ренин которые сочетают в себе
4:09
контролируемую тонкую настройку
4:11
предпочтение обучения такое как dpo Что
4:14
означает прямую оптимизацию предпочтений
4:16
и новый подход называемый обучением с
4:19
подкреплением и проверяемыми
4:21
вознаграждения или RL VR по сути
4:25
RVR предоставляет модели задания и
4:28
ответы на которые можно окончательно
4:30
проверить на правильность например
4:31
математические уравнения или некоторые
4:34
ограниченные инструкции модель получает
4:36
вознаграждение Если она даёт правильное
4:38
решение такой подход по-видимому даёт
4:41
Тулу дополнительный импульс В задачах
4:43
требующих точного рассуждения они также
4:46
подчеркнули важность проверяемых
4:48
результатов при решении математических
4:50
задач исследования инструкция вместо
4:52
того чтобы просто использовать функцию
4:54
случайного вознаграждения Тулу 3
4:56
получает вознаграждение только тогда
4:59
когда проверено с помощью процесса
5:01
который можно автоматизировать вот как
5:04
ему удаётся лучше справляться с этими
5:05
задачами не отвлекаясь на странные
5:07
мелочи А2 также упомянул о нескольких
5:11
технических проблемах при
5:12
масштабировании далу 3 потому что 405b
5:16
для этого требовалось 32 узла и 256
5:19
графических процессоров работающих
5:21
параллельно для выполнения этой работы
5:24
также использовались специализированные
5:26
распределённые платформы ещё одним
5:28
важным достижением стало взаимодействие
5:30
с vlm для вывода больших пакетов данных
5:34
Что позволило им эффективно проводить
5:35
параллельное обучение и логический вывод
5:38
сравнение это всегда увлекательно Тулу
5:41
противостоял пси V3 gpt 4o Lama Ино
5:45
Гермес 3 во многих тестах она показала
5:48
себя с лучшей стороны продемонстрировав
5:51
что открытые модели могут конкурировать
5:53
с крупными фирменными программами тем не
5:56
менее они отмечают что Т4 остатся
5:59
немного сильнее в некоторых задачах
6:01
стулу 3405 би иногда уступая или
6:04
приближаясь к ним Однако разрыв Не такой
6:07
уж большой безопасность также была на
6:09
первом плане по словам аи2 их нейросеть
6:13
превзошла конкурентов в многочисленных
6:15
тестах безопасности таких как отклонение
6:17
вредоносных или запрещённых запросов это
6:21
очень важно если учесть что модели с
6:22
открытым исходным кодом часто не
6:24
работают из-за отсутствия надёжных
6:26
фильтров содержимого но они утверждают
6:29
что лу 3 отлично справляется со своей
6:32
задачей благодаря специализированному
6:34
хранению данных и точной настройке
6:36
предпочтений если говорить об обработке
6:38
данных то конвейер Тулу обширен они
6:41
тщательно отобрали подсказки и
6:42
инструкции из различных наборов открытых
6:45
данных некоторых синтетических данных
6:47
реальных взаимодействий с пользователями
6:49
из таких наборов как W Chat и
6:52
существующих открытых наборов команд
6:54
таких как н V2 Кроме того им пришлось
6:57
провести тщательную очистку данных для
7:00
они позаботились о том чтобы подсказки
7:02
для обучения не слишком сильно совпадали
7:04
с наборами тестов если случайно обучить
7:07
модель на примерах из теста вы
7:09
искусственно завышает его цифры поэтому
7:11
они предприняли шаги для обеспечения
7:13
справедливости затем У нас есть
7:16
многоэтапный подход контролируемая
7:18
тонкая настройка на основе тщательно
7:20
отобранных данных для формирования общих
7:22
навыков прямая оптимизация предпочтений
7:25
для приведения ответов модели в
7:27
соответствие с определенным Лем и корек
7:29
и для задач с проверяемыми правильными
7:32
результатами в совокупности это даёт
7:34
довольно сбалансированную модель которая
7:36
может выполнять математические
7:38
вычисления логические рассуждения
7:40
Запоминание знаний кодирование общий чат
7:43
и довольно хорошо справляться с
7:44
ограничениями безопасности интересным
7:47
выводом является то что Тулу
7:49
фокусируется на точном следовании
7:51
инструкции проект включает в себя
7:53
задания в которых модель должна выдать
7:55
ровно три абзаца или определённое
7:57
количество слов или оден ограничения
8:00
если модель не справляется она в
8:02
буквальном смысле не получает
8:04
вознаграждения Это сложный сценарий но
8:07
он приводит к тому что модель с большей
8:08
вероятностью будет следовать инструкциям
8:11
в точности так что если вашей команде
8:13
нужна модель которая хорошо справляется
8:15
с очень жёсткими ограничениями Тулу
8:18
может стать отличным кандидатом в целом
8:20
позиция компании в отношении открытого
8:22
исходного кода это громкое заявление это
8:25
отличается от открытых моделей которые
8:27
предоставляют только частичный код или
8:29
частичные объёмы в Тулу публикует всё
8:32
обучающие рецепты наборы данных о
8:35
предпочтениях шаблон чата окончательные
8:38
инструкции и код для каждого шага Так
8:40
что если вы хотите повторить эти
8:42
результаты или продвинуть их ещё дальше
8:45
Вы можете найти Тулу Нагин Face с кодом
8:47
и инструкциями Если вы не очень
8:50
разбираетесь в технике возможно вам
8:52
захочется посетить веб демонстрацию А2 и
8:54
пообщаться с чат Ботом Такова природа
8:57
развития искусственного интеллекта в
8:59
время события развиваются очень быстро а
9:03
если вам интересно название Тулу то оно
9:05
относится к гибридной породи верблюдов
9:07
бактери и драма
9:11
дарией гибридных подходов в целом данная
9:14
на нейросеть является важной вехой для
9:16
сообщества разработчиков с открытым
9:18
исходным кодом компания показывает что
9:21
можно продолжать расширять границы для
9:23
больших языковых моделей открытым
9:25
способом позволяя исследователям и
9:27
разработчикам доработать всё начиная с
9:29
кода модели и заканчивая этапами
9:31
обучения благодаря превосходству пси во
9:34
многих тестах лу демонстрирует высокую
9:37
конкуренцию В глобальном пространстве
9:39
искусственного интеллекта сокращая
9:41
разрыв между Академической открытостью и
9:43
производительностью высочайшего уровня
9:45
Если вы хотите провести собственные
9:47
эксперименты то ещё никогда не было
9:49
лучшего времени чтобы заполучить в свои
9:51
руки такую надёжную открытую модель
9:54
подписывайтесь на YouTube и Telegram
9:56
канал а также пишите своё мнение в
9:58
комментариях
9:59
Благодарю за внимание

Поделиться: