DeepSeek-V3: Мощнейший ИИ теперь бесплатно!

DeepSeek V3 — это языковая модель будущего, которая уже сейчас задаёт новый стандарт в обработке текста, программировании и переводах. Почему она обходит даже GPT-4 и Llama? В этом видео разбираем, как 685 млрд параметров и оптимизированное обучение за $5,5 млн делают её уникальной. Узнай, как масштабные наборы данных, архитектура MoE и передовые алгоритмы превращают DeepSeek V3 в мощный инструмент для бизнеса и исследований.

Таймкоды

00:00:00 Введение в DeepMind Turing 3

  • DeepMind Turing 3 – мощная открытая языковая модель от китайской компании DeepMind.
  • Модель выделяется своей производительностью и эффективностью в задачах, ранее доступных только для закрытых моделей.
  • Особенно хорошо справляется с математикой и программированием.

00:01:36 Производительность и сравнение

  • DeepMind Turing 3 получила высшие оценки в популярных бенчмарках.
  • Модель работает на длинных контекстах до 128 тысяч токенов.
  • Архитектура модели использует микс шипов и экспертов, что делает её эффективной и экономичной.

00:02:53 Экономичность обучения

  • Модель использует 685 миллиардов параметров, активируя только 37 миллиардов для обработки одного токена.
  • Обучение потребовало всего несколько миллионов GPU часов на суперкомпьютере.
  • Модель тренировалась на 14,8 триллионах тщательно отобранных токенов.

00:04:07 Доступность и тестирование

  • Модель доступна через чат-интерфейс на официальном сайте DeepMind.
  • Для разработчиков модель доступна на платформе Hugging Face.
  • Цены на доступ к модели очень привлекательные: 0.14 доллара за миллион входящих токенов и 0.28 за миллион исходящих.

00:04:57 Инструменты для работы с моделью

  • Разработчики предлагают инструменты LM Diplo для развертывания и использования модели.
  • Платформа поддерживает как офлайн, так и онлайн режимы работы.

00:05:22 Реакция сообщества

  • Модель получила положительные отзывы за производительность, доступность и открытость.
  • Модель доступна не только крупным компаниям, но и обычным пользователям, что открывает широкие возможности для обучения и бизнеса.

00:05:45 Заключение

  • DeepMind Turing 3 показывает, что открытые языковые модели могут быть эффективными и доступными.
  • Рекомендуется попробовать модель для работы с кодом, текстами и творчеством.
  • Подписывайтесь на телеграм-канал для получения обновлений по искусственному интеллекту.

Таймкоды сделпны в Нейросети YandexGPT https://300.ya.ru/v_JuaJRh9v

Расшифровка видео

0:00
Привет друзья сегодня мы поговорим о
0:01
теме которые в последние месяцы
0:03
буквально взорвала сообщество
0:05
искусственного интеллекта Если вы
0:07
интересуетесь языковыми моделями с
0:09
открытым исходным кодом тем более И
0:11
современными вообще технологиями то это
0:12
видео точно для вас мы вместе разберём
0:15
новую нейросеть deeps версии 3 мощнейшую
0:18
открытую языковую модель разработанную
0:21
китайской компанией dips ai её уже
0:23
называют одним из лучших решений в мире
0:25
искусственного интеллекта как она
0:27
работает чем она выделяется и почему она
0:29
так популярно Давайте разбираться вместе
0:31
кстати пока не забыл если вы хотите
0:33
следить за новостями про искусственный
0:35
интеллект и узнавать о новых технологиях
0:37
раньше всех подписывайтесь на мой
0:39
Telegram канал ссылки в описании и
0:41
где-то здесь ещё появится QR код там я
0:43
регулярно делюсь свежими инсайта которые
0:46
помогут вам быть в курсе всего
0:48
происходящего Ну что готовы поехали Что
0:50
такое dsic версии 3 начнём с основ dsic
0:54
версии 3 – это открытая большая языковая
0:56
модель llm разработанная китайской
0:58
компанией dpc ki у неё есть несколько
1:00
ключевых преимуществ которые делают её
1:03
настоящим конкурентом А как других
1:05
открытых моделей вроде Lama или gpt Neo
1:09
так и закрытых решений таких как gpt 4
1:12
от Open например или GM dps версии 3
1:15
выделяется своей производительностью она
1:17
справляется с задачами которые раньше
1:19
были доступны только для закрытых
1:21
моделей особенно круто она себя
1:23
показывает в математики программировании
1:25
Если вы когда-нибудь пытались
1:27
использовать и для написания кода или
1:29
решения сложных вычислительных задач вы
1:32
знаете насколько важна точность DS
1:34
версии 3 в этом просто на высоте
1:36
производительность и сравнение теперь
1:38
более детально о производительности dsic
1:40
версии 3 а dsic версия 3 получила высшие
1:43
оценки во многих популярных бенчмарках
1:45
которые используются для оценки моделей
1:47
для сравнения моделей и так далее
1:49
например такие тесты как пай Test он
1:51
измеряет насколько эффективно
1:52
искусственный интеллект справляется с
1:54
генерацией текста bbh помогает оценить
1:57
насколько хорошо модель понимает сложные
1:59
задачи mml а это тесты Где оценивается
2:03
общая обученность модели в различных
2:05
дисциплинах от истории до физики
2:07
результаты deic версии 3 действительно
2:10
впечатляют она занимает просто топовые
2:12
позиции Практически во всех категориях
2:14
причём что особенно важно модель
2:16
одинаково хорошо работает на разных
2:18
длинах контекста вплоть до
2:21
128.000 токенов это реально огромный
2:24
объём информации для сравнения у многих
2:26
моделей включая gc4 длина контекста
2:29
гораздо меньше как это удалось
2:31
архитектура модели секрет успеха версии
2:33
3 кроется в её архитектуре она
2:35
использует так называемую ure of experts
2:39
Moi если объяснять простым языком Это
2:41
значит что модель состоит из нескольких
2:43
экспертов небольших подсистем каждый из
2:46
которых отвечает за свою задачу например
2:47
одна Может быть экспертом в обработке
2:50
текстов другая в понимании
2:52
математических задач общее количество
2:53
параметров модели составляет
2:56
685 если я не ошибаюсь миллиардов Но для
2:59
обработке одного токена активируется
3:01
только 37 млрд параметров это делает
3:03
модель очень эффективной она не тратит
3:05
ресурсы впустую а использует только ту
3:07
часть которая реально нужна для задачи
3:10
Кроме того dipsi внедрили уникальные
3:12
технологии такие как mul latent
3:14
Attention mla и dips moe эти
3:17
архитектурные решения позволяют Работать
3:20
быстрее и экономичнее при обучении и
3:23
использовании модели экономичность
3:25
обучения говоря о тренировке модели
3:27
нельзя не упомянуть важную деталь и
3:29
экономичность несмотря на огромный объём
3:31
данных на которых обучали пси версии 3
3:34
компания смогла сократить затраты для
3:36
обучения потребовалось всего несколько
3:38
миллионов GPU часов на суперкомпьютера с
3:41
графическим процессором и h800 это
3:44
кажется большим числом Но на самом деле
3:46
это гораздо меньше чем у других моделей
3:47
с аналогичной производительностью что
3:49
касается данных для обучения тут всё
3:51
тоже очень продумано модель
3:53
тренировалась на 14,8 триллионах токенов
3:56
причём разработчики подчёркивают что
3:58
данные были отобраны Это не просто
4:01
случайные тексты из интернета а
4:02
качественная разнообразная информация
4:05
как протестировать модель и где она
4:06
доступна теперь о том как вы можете сами
4:08
попробовать DPS версии 3 у модели есть
4:11
несколько удобных вариантов для
4:13
использования на официальном сайте dcq
4:16
доступен чат интерфейс похожий на Chat
4:18
gpt в нём есть интересные функции А
4:20
например веб-поиск и режим глубоких
4:23
размышлений Это что-то вроде о для
4:25
разработчиков модель размещена на
4:27
платформе hing Face это значит что что
4:29
её можно скачать и развернуть локально А
4:32
так как это Open Source на henf также
4:34
есть подробные инструкции Так что даже
4:37
новички смогут в этом разобраться Кстати
4:39
если вы уже использовали модели через
4:40
API а то вас порадуют тарифы dps версии
4:44
3 цена за доступ к API очень
4:47
привлекательная всего
4:49
01 долларов за миллион входящих токенов
4:51
и 0,28 за миллион исходящих это на самом
4:55
деле одна из самых низких цен на рынке
4:57
инструменты для работы с моделью для тех
4:59
кто хочет внедрить deeps версии 3 в свои
5:01
проекты разработчики предлагают
5:03
инструменты LM deploy – это гибкая
5:05
платформа для развёртывания и
5:07
использование больших языковых моделей
5:10
она поддерживает как оффлайн режим
5:12
обработки текста Так и работу в реальном
5:14
времени Если вы занимаетесь разработкой
5:16
это может значительно упростить вашу
5:17
жизнь реакция сообщества теперь немного
5:20
о том как на модель вообще отреагировало
5:22
сообщество dips версии 3 получила массу
5:24
положительных отзывов специалисты хвалят
5:26
её производительность доступность Ну и
5:28
самое главное откры Многие считают что
5:30
это одна из лучших открытых моделей
5:32
доступных вообще на сегодняшний день
5:34
особенно радует что EPS версии 3
5:36
доступны не только крупным компаниям но
5:38
и обычным пользователям это открывает
5:40
реально огромные возможности для
5:42
обучения исследований Ну и конечно же
5:44
даже бизнеса Ну что же друзья подведём
5:46
итоги EPS версии 3 – это действительно
5:49
впечатляющая разработка она показывает
5:51
что открытые языковые модели могут быть
5:53
не только доступными но и невероятно
5:55
эффективными Если вы работаете с кодом
5:57
текстами или просто ищете инструмент для
6:00
творчества обязательно Попробуйте её
6:02
Напоминаю что все ссылки на модель и её
6:04
ресурсы я всегда оставляю в описании А
6:06
если вы хотите оставаться в курсе всех
6:08
новостей по искусственному интеллекту
6:10
подпишитесь на мой Telegram канал там Я
6:12
делюсь обновлениями а которые вы Не
6:14
найдёте Больше нигде или по крайней мере
6:17
вы будете первыми кто об этом узнает
6:19
ссылка тоже будет в описании на этом У
6:21
меня всё спасибо что посмотрели до конца
6:23
Ставьте лайк если видео было полезным И
6:25
пишите в комментариях какие темы Вас
6:27
интересуют До встречи в следующих
6:28
выпусках

Поделиться: