DeepSeek-V3: Мощнейший ИИ теперь бесплатно!

Оценили: 24

DeepSeek V3 — это языковая модель будущего, которая уже сейчас задаёт новый стандарт в обработке текста, программировании и переводах. Почему она обходит даже GPT-4 и Llama? В этом видео разбираем, как 685 млрд параметров и оптимизированное обучение за $5,5 млн делают её уникальной. Узнай, как масштабные наборы данных, архитектура MoE и передовые алгоритмы превращают DeepSeek V3 в мощный инструмент для бизнеса и исследований.

Таймкоды

00:00:00 Введение в DeepMind Turing 3

DeepMind Turing 3 — мощная открытая языковая модель от китайской компании DeepMind.
Модель выделяется своей производительностью и эффективностью в задачах, ранее доступных только для закрытых моделей.
Особенно хорошо справляется с математикой и программированием.

00:01:36 Производительность и сравнение

DeepMind Turing 3 получила высшие оценки в популярных бенчмарках.
Модель работает на длинных контекстах до 128 тысяч токенов.
Архитектура модели использует микс шипов и экспертов, что делает её эффективной и экономичной.

00:02:53 Экономичность обучения

Модель использует 685 миллиардов параметров, активируя только 37 миллиардов для обработки одного токена.
Обучение потребовало всего несколько миллионов GPU часов на суперкомпьютере.
Модель тренировалась на 14,8 триллионах тщательно отобранных токенов.

00:04:07 Доступность и тестирование

Модель доступна через чат-интерфейс на официальном сайте DeepMind.
Для разработчиков модель доступна на платформе Hugging Face.
Цены на доступ к модели очень привлекательные: 0.14 доллара за миллион входящих токенов и 0.28 за миллион исходящих.

00:04:57 Инструменты для работы с моделью

Разработчики предлагают инструменты LM Diplo для развертывания и использования модели.
Платформа поддерживает как офлайн, так и онлайн режимы работы.

00:05:22 Реакция сообщества

Модель получила положительные отзывы за производительность, доступность и открытость.
Модель доступна не только крупным компаниям, но и обычным пользователям, что открывает широкие возможности для обучения и бизнеса.

00:05:45 Заключение

DeepMind Turing 3 показывает, что открытые языковые модели могут быть эффективными и доступными.
Рекомендуется попробовать модель для работы с кодом, текстами и творчеством.
Подписывайтесь на телеграм-канал для получения обновлений по искусственному интеллекту.

^{Таймкоды сделпны в Нейросети YandexGPT https://300.ya.ru/v_JuaJRh9v}

Расшифровка видео

0:00
Привет друзья сегодня мы поговорим о
0:01
теме которые в последние месяцы
0:03
буквально взорвала сообщество
0:05
искусственного интеллекта Если вы
0:07
интересуетесь языковыми моделями с
0:09
открытым исходным кодом тем более И
0:11
современными вообще технологиями то это
0:12
видео точно для вас мы вместе разберём
0:15
новую нейросеть deeps версии 3 мощнейшую
0:18
открытую языковую модель разработанную
0:21
китайской компанией dips ai её уже
0:23
называют одним из лучших решений в мире
0:25
искусственного интеллекта как она
0:27
работает чем она выделяется и почему она
0:29
так популярно Давайте разбираться вместе
0:31
кстати пока не забыл если вы хотите
0:33
следить за новостями про искусственный
0:35
интеллект и узнавать о новых технологиях
0:37
раньше всех подписывайтесь на мой
0:39
Telegram канал ссылки в описании и
0:41
где-то здесь ещё появится QR код там я
0:43
регулярно делюсь свежими инсайта которые
0:46
помогут вам быть в курсе всего
0:48
происходящего Ну что готовы поехали Что
0:50
такое dsic версии 3 начнём с основ dsic
0:54
версии 3 — это открытая большая языковая
0:56
модель llm разработанная китайской
0:58
компанией dpc ki у неё есть несколько
1:00
ключевых преимуществ которые делают её
1:03
настоящим конкурентом А как других
1:05
открытых моделей вроде Lama или gpt Neo
1:09
так и закрытых решений таких как gpt 4
1:12
от Open например или GM dps версии 3
1:15
выделяется своей производительностью она
1:17
справляется с задачами которые раньше
1:19
были доступны только для закрытых
1:21
моделей особенно круто она себя
1:23
показывает в математики программировании
1:25
Если вы когда-нибудь пытались
1:27
использовать и для написания кода или
1:29
решения сложных вычислительных задач вы
1:32
знаете насколько важна точность DS
1:34
версии 3 в этом просто на высоте
1:36
производительность и сравнение теперь
1:38
более детально о производительности dsic
1:40
версии 3 а dsic версия 3 получила высшие
1:43
оценки во многих популярных бенчмарках
1:45
которые используются для оценки моделей
1:47
для сравнения моделей и так далее
1:49
например такие тесты как пай Test он
1:51
измеряет насколько эффективно
1:52
искусственный интеллект справляется с
1:54
генерацией текста bbh помогает оценить
1:57
насколько хорошо модель понимает сложные
1:59
задачи mml а это тесты Где оценивается
2:03
общая обученность модели в различных
2:05
дисциплинах от истории до физики
2:07
результаты deic версии 3 действительно
2:10
впечатляют она занимает просто топовые
2:12
позиции Практически во всех категориях
2:14
причём что особенно важно модель
2:16
одинаково хорошо работает на разных
2:18
длинах контекста вплоть до
2:21
128.000 токенов это реально огромный
2:24
объём информации для сравнения у многих
2:26
моделей включая gc4 длина контекста
2:29
гораздо меньше как это удалось
2:31
архитектура модели секрет успеха версии
2:33
3 кроется в её архитектуре она
2:35
использует так называемую ure of experts
2:39
Moi если объяснять простым языком Это
2:41
значит что модель состоит из нескольких
2:43
экспертов небольших подсистем каждый из
2:46
которых отвечает за свою задачу например
2:47
одна Может быть экспертом в обработке
2:50
текстов другая в понимании
2:52
математических задач общее количество
2:53
параметров модели составляет
2:56
685 если я не ошибаюсь миллиардов Но для
2:59
обработке одного токена активируется
3:01
только 37 млрд параметров это делает
3:03
модель очень эффективной она не тратит
3:05
ресурсы впустую а использует только ту
3:07
часть которая реально нужна для задачи
3:10
Кроме того dipsi внедрили уникальные
3:12
технологии такие как mul latent
3:14
Attention mla и dips moe эти
3:17
архитектурные решения позволяют Работать
3:20
быстрее и экономичнее при обучении и
3:23
использовании модели экономичность
3:25
обучения говоря о тренировке модели
3:27
нельзя не упомянуть важную деталь и
3:29
экономичность несмотря на огромный объём
3:31
данных на которых обучали пси версии 3
3:34
компания смогла сократить затраты для
3:36
обучения потребовалось всего несколько
3:38
миллионов GPU часов на суперкомпьютера с
3:41
графическим процессором и h800 это
3:44
кажется большим числом Но на самом деле
3:46
это гораздо меньше чем у других моделей
3:47
с аналогичной производительностью что
3:49
касается данных для обучения тут всё
3:51
тоже очень продумано модель
3:53
тренировалась на 14,8 триллионах токенов
3:56
причём разработчики подчёркивают что
3:58
данные были отобраны Это не просто
4:01
случайные тексты из интернета а
4:02
качественная разнообразная информация
4:05
как протестировать модель и где она
4:06
доступна теперь о том как вы можете сами
4:08
попробовать DPS версии 3 у модели есть
4:11
несколько удобных вариантов для
4:13
использования на официальном сайте dcq
4:16
доступен чат интерфейс похожий на Chat
4:18
gpt в нём есть интересные функции А
4:20
например веб-поиск и режим глубоких
4:23
размышлений Это что-то вроде о для
4:25
разработчиков модель размещена на
4:27
платформе hing Face это значит что что
4:29
её можно скачать и развернуть локально А
4:32
так как это Open Source на henf также
4:34
есть подробные инструкции Так что даже
4:37
новички смогут в этом разобраться Кстати
4:39
если вы уже использовали модели через
4:40
API а то вас порадуют тарифы dps версии
4:44
3 цена за доступ к API очень
4:47
привлекательная всего
4:49
01 долларов за миллион входящих токенов
4:51
и 0,28 за миллион исходящих это на самом
4:55
деле одна из самых низких цен на рынке
4:57
инструменты для работы с моделью для тех
4:59
кто хочет внедрить deeps версии 3 в свои
5:01
проекты разработчики предлагают
5:03
инструменты LM deploy — это гибкая
5:05
платформа для развёртывания и
5:07
использование больших языковых моделей
5:10
она поддерживает как оффлайн режим
5:12
обработки текста Так и работу в реальном
5:14
времени Если вы занимаетесь разработкой
5:16
это может значительно упростить вашу
5:17
жизнь реакция сообщества теперь немного
5:20
о том как на модель вообще отреагировало
5:22
сообщество dips версии 3 получила массу
5:24
положительных отзывов специалисты хвалят
5:26
её производительность доступность Ну и
5:28
самое главное откры Многие считают что
5:30
это одна из лучших открытых моделей
5:32
доступных вообще на сегодняшний день
5:34
особенно радует что EPS версии 3
5:36
доступны не только крупным компаниям но
5:38
и обычным пользователям это открывает
5:40
реально огромные возможности для
5:42
обучения исследований Ну и конечно же
5:44
даже бизнеса Ну что же друзья подведём
5:46
итоги EPS версии 3 — это действительно
5:49
впечатляющая разработка она показывает
5:51
что открытые языковые модели могут быть
5:53
не только доступными но и невероятно
5:55
эффективными Если вы работаете с кодом
5:57
текстами или просто ищете инструмент для
6:00
творчества обязательно Попробуйте её
6:02
Напоминаю что все ссылки на модель и её
6:04
ресурсы я всегда оставляю в описании А
6:06
если вы хотите оставаться в курсе всех
6:08
новостей по искусственному интеллекту
6:10
подпишитесь на мой Telegram канал там Я
6:12
делюсь обновлениями а которые вы Не
6:14
найдёте Больше нигде или по крайней мере
6:17
вы будете первыми кто об этом узнает
6:19
ссылка тоже будет в описании на этом У
6:21
меня всё спасибо что посмотрели до конца
6:23
Ставьте лайк если видео было полезным И
6:25
пишите в комментариях какие темы Вас
6:27
интересуют До встречи в следующих
6:28
выпусках

Таймкоды

Расшифровка видео

Похожие записи