NVDIA Nemotron 70b: лучший LLM с открытым исходным кодом! (побеждает Sonnet 3.5 + GPT-4o)

Оценили: 35

https://youtu.be/E3si8BjO9UQ?si=vA6WDdADZuvxS-FA

В этом видео мы рассматриваем новейшую модель с открытым кодом от Nvidia — Nemotron 70B, содержащую 70 миллиардов параметров! 🌍 Узнайте, как этот мощный ИИ не только конкурирует с моделями GPT-4 и Claude 3.5, но и превосходит их во многих аспектах. 💡 Мы расскажем, как Nvidia использовала методы обучения с подкреплением, чтобы создать одну из самых передовых моделей на сегодняшний день. Эта модель станет настоящим прорывом для креативных индустрий и технологий. 🚀 Вас ждут тесты, бенчмарки и практические примеры использования. 💻

Таймкоды(пересказ видео)

NVDIA Nemotron 70b: лучший LLM с открытым исходным кодом! (побеждает Sonnet 3.5 + GPT-4o)

00:03 Введение в новую модель N-Video

N-Video выпустила новую открытую модель Lama-3.1 с 7-10 миллиардами параметров.
Модель превосходит передовые модели, такие как G5.4 и Claude 3.5.
Модель с открытым кодом меняет игру в области искусственного интеллекта.

00:42 Уникальные техники N-Video

N-Video использовала уникальную технику обучения с подкреплением.
Модель превзошла передовые модели благодаря этому подходу.
Видео объясняет, как N-Video достигла таких результатов.

01:14 Бенчмарки и методы обучения

Модель Lama-3.1 занимает лидирующие позиции на бенчмарке Arena Heart.
Используются методы Брэдли-Терри и регрессионная модель для оптимизации ответов.
Разработан набор данных Help Star 2 для улучшения ответов.

02:32 Практическое применение и результаты

Модель достигла высших оценок на бенчмарке Revolt Bench.
Модель справилась с 500 сложными запросами, оцененными G5.4 Turbo.
Улучшение восприятия полезности ответа через изменение структуры.

03:28 Реальные тесты и примеры

Модель успешно справилась с сложными вопросами, несмотря на отвлекающие данные.
Использование метода подкрепления Reinforce для ответов на нестандартные вопросы.
Модель игнорирует несущественные данные и фокусируется на основной задаче.

05:29 Будущее искусственного интеллекта

Модель Lama-3.1 может изменить все, что мы знаем об ИИ.
Стратегия N-Video направлена на установление новых стандартов.
Модель доступна для всех и может изменить многие отрасли.

07:39 Заключение и перспективы

Модель успешно прошла тесты на сложные вопросы.
Модель впечатляет в повседневных задачах и непринужденных беседах.
N-Video создала передовую модель с открытым кодом, которая станет прорывом в ИИ.

Расшифровка видео

Введение: Что такое Nvidia Nemotron 70B?
0:01
[музыка]
0:04
Привет дорогие энтузиасты искусственного
0:06
интеллекта Сегодня мы погружаемся в
0:08
нечто по-настоящему
0:09
революционное NVIDIA только что
0:11
выпустила новую открытую модель Lama 3.1
0:15
neutron с 70 миллиардами параметров И
0:18
поверьте эта штука настоящая мощь эта
0:21
модель не только может соперничать с
0:23
самыми продвинутыми моделями такими как
0:25
gpt 4 и clot 3.5 но и превосходит их во
0:29
многих аспектах это просто невероятно
0:31
только когда казалось что модели с
0:33
закрытым кодом выходят вперёд внезапно
0:35
появляется модель с открытым кодом и
0:37
меняет всю игру Так что же такого
0:39
особенного в модели Lama 3.1 neutron
0:42
Почему она должна вас заинтересовать Ну
0:44
NVIDIA не просто скопировала то что
0:46
делали другие они внедрили уникальную
0:48
технику которая делает эту модель
0:50
особенной они взяли Lama 3.1 в качестве
0:53
основы и улучшили её с помощью обучения
0:58
с подкреплением это позволило е
1:00
превзойти самые передовые модели такие
1:02
как gpt 4 и другие которые казались
1:05
непобедимыми в этом видео Я объясню вам
1:07
гениальный подход благодаря которому
1:09
NVIDIA смогла достичь таких выдающихся
1:11
результатов и покажу как им это удалось
1:14
Теперь давайте погрузимся в самые
Сравнение с GPT-4 и Claude 3.5: Как Nemotron 70B выделяется среди других?
1:15
интересные детали на очень уважаемой
1:17
бенчмарке Arena heart от llm Arena II
1:20
модель Lama 3.1 neutron занимает
1:23
лидирующие позиции но как NVIDIA смогла
1:26
сделать эту модель такой мощной Всё дело
1:28
в их продвинутой модели вознаграждения
1:31
которая оптимизирует ответы ии чтобы они
1:33
лучше соответствовали человеческой
1:35
обратной связи по сути они нашли способ
1:38
обучить ии так чтобы он понимал и
1:41
выдавал именно то что нужно людям Они
1:43
использовали два метода модель бредли
1:44
Терри и регрессионную модель не
1:47
углубляясь в технические детали модель
1:48
бредли Terry сравнивает ответы и
1:50
выбирает лучший а регрессионная модель
1:53
присваивает каждому ответу числовой балл
1:55
на основе таких факторов как полезность
1:58
и точность эти два метода вместе делают
2:01
эту модель невероятно точной и
2:03
интуитивной Конечно возникли
2:04
определённые сложности трудно сравнивать
2:06
ии модели которые обучались на разных
2:09
типах данных но команда NVIDIA нашла
2:12
блестящее решение они разработали набор
2:15
данных под названием Help steer 2
2:17
который заполняет этот пробел комбинируя
2:19
данные из обоих подходов это как иметь
2:22
лучшее из обоих миров системы
2:24
ранжирования и числовые оценки для того
2:27
чтобы направлять ии к созданию лучших
2:29
ответов Так что же всё это значит на
2:31
практике их модель достигла высших
2:33
оценок на бенчмарке reward Bench А когда
2:36
её протестировали с помощью инструмента
2:38
aren Hard Auto она справилась с
2:41
пятьюстами крайне сложными запросами
2:44
которые оценивались с помощью gpt 4
2:46
Turbo звучит впечатляюще правда модель
2:49
Lama 3.1 neutron оказалась в числе
2:51
лидеров во многих категориях Несмотря на
2:54
то что это модель с открытым исходным
2:56
кодом что ещё раз доказывает что
2:57
инновации в области открытого кода могут
Технологические инновации Nvidia: Как работает обучение с подкреплением
3:00
конкурировать с моделями с закрытым
3:02
кодом и даже превосходить их но вот что
3:04
делает всё это ещё более интересным
3:06
производительность модели не
3:08
основывается только на её вычислительной
3:10
мощности NVIDIA выяснила что можно
3:12
значительно улучшить восприятие
3:14
полезности ответа Просто изменяя его
3:17
структуру будь то использование списков
3:19
или полных предложений В некоторых
3:21
случаях это маленькая стилистическая
3:23
настройка может стать разницей между
3:26
хорошим ответом и великолепным хорошо я
3:29
знаю о чём вы сейчас думаете тесты и
3:31
рейтинги — Это здорово но как модель
3:33
работает в реальных условиях ведь это то
3:35
что действительно имеет значение верно
3:37
Ну что ж вот тут начинается самое
3:39
интересное Я задал модели несколько
3:42
сложных вопросов специально
3:43
предназначенных для того чтобы запутать
3:45
даже лучшие модели и был поражён
3:48
результатами Позвольте мне привести
3:49
пример в одном из тестов модель
3:51
попросили выполнить расчёт но в вопрос
3:54
были намеренно добавлены несущественные
3:56
данные чтобы её сбить с толку
3:58
большинство моделей включая Некоторые из
4:01
самых продвинутых справились с этим
4:02
плохо но после того как я просто
4:04
попросил Lama 31 neutron перечитать
4:07
вопрос она сразу дала правильный ответ
4:09
как это возможно некоторые модели такие
4:11
как gpt 4 имеют встроенный процесс
4:14
который используют так называемые шаги
4:17
рассуждения чтобы направить и к
4:20
правильному ответу но иногда всё что
4:22
нужно это чтобы модель сосредоточилась
4:25
на том что именно требуется в вопросе
4:28
Если вы попросите её перечитать вопрос
4:30
Вы часто получите гораздо Более точные
4:32
ответы что насчёт задач которые требуют
4:34
логического мышления я провёл ещё один
4:37
сложный тест основанный на исследовании
4:39
котороя показало что многие крупные
4:41
языковые модели путаются с несущественно
4:44
информацией и что вы думаете модель Lama
4:46
3.1 neutron блестяще справилась с этим
4:49
тестом она смогла игнорировать
4:51
несущественные данные и сосредоточиться
4:54
на основной задаче предоставив точный и
4:57
продуманный ответ но вот настоящий ключ
4:59
NVIDIA использовала метод подкрепления
5:02
под названием reinforce который особенно
5:04
хорош для ответов на нестандартные
5:06
вопросы такие как сколько букв R в слове
5:09
клубника другие топовые модели
5:11
справились с этим плохо но Lama 31
5:13
нетрон посчитала буквы правильно и дала
Бенчмарки и тесты: Результаты и практические примеры
5:16
точный ответ Так что это значит для
5:18
будущего искусственного интеллекта с
5:20
открытыми моделями такими как это
5:22
которые догоняют и даже превосходят
5:24
гигантов с закрытым исходным кодом гонка
5:27
далеко не закончена мы видим больше
5:30
инноваций более совершенные модели и ещё
5:32
лучшие результаты во всех областях и я
5:35
честно говоря с нетерпением жду что
5:37
будет дальше это всё для сегодняшнего
5:39
глубокого погружения Что вы думаете о
5:41
модели Lama 3.1 neutron от NVIDIA
5:45
пробовали ли вы её сами Если да дайте
5:47
знать в комментариях я бы с
5:48
удовольствием узнал о ваших результатах
5:51
Но прежде чем мы закончим Давайте
5:52
поговорим о том Почему эта модель может
5:54
изменить всё что мы знаем об
5:56
искусственном интеллекте стратегия
5:58
NVIDIA заключается не просто в том чтобы
6:00
выпустить ещё одну модель речь идёт о
6:02
том чтобы установить новые стандарты
6:04
представьте себе если больше моделей с
6:07
открытым исходным кодом продолжит
6:09
расширять границы возможного таким
6:10
образом это создаст эффект домина во
6:13
многих отраслях от технологий до
6:15
здравоохранения и образования внезапно
6:18
инструменты ии станут умнее эффективнее
6:21
и доступнее для всех это снизит барьеры
6:23
для входа для многих людей которые
6:25
раньше не имели доступа к передовым и
6:28
моделям и это огромная Победа для
6:30
инноваций знаете что меня больше всего
6:32
вдохновляет это потенциальное будущее
6:34
этой модели подумайте о всех различных
6:37
отраслях которые могут извлечь выгоду из
6:40
такой мощной технологии от творческих
6:42
сфер таких как искусство и музыка до
6:44
технических областей как
6:46
программирование и инженерия ляма 3 В1
6:48
neutron это инструмент который может
6:51
изменить то как мы работаем создаём и
6:54
думаем Представьте что вы сможете
6:57
генерировать гиперреалистичные
6:58
изображения
7:00
всего несколькими запросами или
7:02
программировать сложные системы вдвое
7:04
быстрее возможности безграничны и мы
7:07
только начинаем открывать их и не будем
7:09
забывать о важности приверженности
7:11
NVIDIA к открытому коду эта модель
7:13
доступна не только для крупных игроков
7:15
ею может воспользоваться Каждый кто
7:17
хочет попробовать её или провести
7:18
эксперименты Это значит что всё больше
7:21
людей смогут создавать новшество
7:23
раздвигать границы возможного и
7:25
применять и там где раньше это было
7:28
невозможно независимо от того являетесь
Применение на практике: Как Nemotron 70B может изменить различные отрасли
7:30
ли вы разработчиком художником учителем
7:32
или просто любопытным человеком Lama 3.1
7:35
neutron откроет вам множество новых
7:38
возможностей это как получить суперсилу
7:41
в свои руки хорошо вернёмся ненадолго к
7:43
бенчмарка помните как мы говорили об
7:45
Arena Hard Auto этот инструмент
7:47
тестировал модель NVIDIA не просто с
7:50
помощью простых запросов ему предложили
7:52
500 самых сложных открытых вопросов
7:54
которые можно задать языковой модели и
7:57
модель Lama 3.1 нетрон успешно прошла
8:01
эти тесты по многим категориям
8:03
впечатляет не только то что она дала
8:05
правильные ответы важно то как она
8:07
смогла их представить естественно и
8:10
полезно будь то список подробное
8:12
объяснение или краткое резюме модель
8:14
знала как преподнести информацию в
8:17
максимально удобном для пользователя
8:18
формате теперь некоторым из вас могут
8:20
подумать Ладно тесты так это здорово но
8:23
как эта модель справляется с
8:25
повседневными задачами и ответ да с
8:27
лёгкостью я проверил эту модель на всём
8:30
от непринуждённый бесед до решения
8:33
сложных проблем и она каждый раз
8:35
впечатляли меня однажды я задал ей
8:37
вопрос с кучей несвязанных деталей
8:40
просто чтобы проверить запутается ли она
8:42
и что вы думаете она разобралась с
8:44
отвлекаю информацией и дала мне именно
8:46
тот ответ который я искал Этот уровень
8:49
интеллекта вот Что отличает ляма 3.1
8:52
нетрон от других моделей здесь дело не
8:54
только в огромной вычислительной
8:56
мощности или большом количестве
8:58
параметров это про умение быть умной
Заключение и будущее ИИ: Что означает эта модель для будущего ИИ с открытым кодом?
9:00
эффективной и действительно понимать
9:03
намерения пользователя именно это делает
9:06
эту модель настолько захватывающей В
9:08
итоге NVIDIA сделала что-то невероятное
9:11
совместив передовые техники обучения с
9:14
подкреплением с приверженностью к
9:16
открытому коду они создали модель
9:18
которая действительно является передовой
9:20
в своей области независимо от того
9:22
используете ли вы её для творческих
9:24
проектов технических задач или просто
9:27
для исследования возможностей и и ляма
9:30
3.1 newron станет настоящим прорывом
9:33
понравилось видео тогда подписывайся и
9:35
если хочешь быть в курсе моих новых
9:37
видео не забудь нажать на колокольчик
9:40
увидимся в следующий раз до тех пор
9:42
оставайтесь настоящими
9:45
[музыка]

Таймкоды(пересказ видео)

Расшифровка видео

Похожие записи