В Чем секрет успеха Deepseek?

Оценили: 17

Пересказ видео

Ожидания и первые шаги

Деси выпустила модели, которые стали популярными в сообществе ИИ.
Пси ко заняла первое место в рейтинге кода, начав с репликации ламы из Мета.

Развитие моделей

В декабре Деси выпустила пси wif стоимостью 6 млн долларов, сравнимую с гпт 40.
Модель R1 показала рассуждение, занимая больше времени, но выдавая более качественный результат.

Ажиотаж и влияние

Модель стала новостью, сравнимой с первыми днями работы чат гпт и stable diffusion.
Открытый исходный код позволил людям запускать уменьшенные версии на своих ноутбуках.

Экономические аспекты

Модель была на 96% дешевле, чем предыдущие лидеры.
Стоимость обучения модели составила всего 120 долларов, что шокировало экспертов.

Технологические инновации

Деси использовала менее мощные графические процессоры, но оптимизировала алгоритмы.
Классические модели, такие как лома 70, требуют больше памяти и ресурсов.

Будущее и перспективы

Вопрос о том, будет ли модель развиваться по пути чат гпт, остаётся открытым.
Открытый исходный код и доступность моделей могут привести к их широкому использованию.

Конфиденциальность данных

Люди не хотят, чтобы Open владел их данными.
Желание конфиденциальности остаётся актуальным.

Проблемы с пс

Люди беспокоятся о данных и их хранении при использовании пс.
Некоторые компании, например, пте, используют гип локально на американских фермах.

Направления развития

Open анонсировал чат ПЦ для правительства, которым пользуются 96 федеральных служащих.
Ожидается четыре типа моделей: супер экспертный, личный, открытые модели для нерегулируемых отраслей и открытый исходный код.

Опасности предвзятости

Важно знать, что внутри моделей и как они работают, чтобы избежать предвзятости.
Статья анрок назвала модели «спящими агентами», так как одно слово из 10 триллионов может изменить их поведение.

Угрозы безопасности

Большинство трансформаторов в США производятся китайскими компаниями, что создаёт угрозу.
В тр интернет создают стек с открытым исходным кодом для регулируемой отрасли, чтобы избежать потенциальных угроз.

Расшифровка видео

0:00
это не стало для вас сюрпризом вы этого
0:01
ожидали или были в шоке думаю это было
0:03
ожидаемо например феврале прошло года я
0:04
сказал что деси одна из моих любих
0:05
компаний в сфере искусственного
0:06
интелекта они взяли изначальную идею
0:07
которую мы использовали стабилити ещё
0:08
одной компание Управляй ШИМ менеджером
0:09
фонда и выпустили потрясающие модели
0:10
думаю когда сообщество искуственного
0:11
интеллекта впервые узнало об этом это
0:12
было гдето летом прошлого года они
0:13
выпустили пси ко который занял первое
0:14
место в рейтинге кода они начали с
0:15
репликации ламы из Мета а затем пошли
0:17
дальше И на самом деле используемые там
0:18
алгоритмы — это те же алгоритмы которые
0:19
они используют сейчас а в декабре около
0:20
месяца назад они выпустили пси wif
0:22
которая стала моделью стоимостью 6 млн
0:23
долларов она сравнялась с гпт 40 и всеми
0:24
остальными моделями тогда она ни с чём
0:26
не сравнялась но мы все думали что они
0:27
разберутся как это сделать И знаете что
0:28
они сделали она обобщила на любую модель
0:29
что произошло казалось что интернет
0:30
звался выходные когда было сделано это
0:31
объявление что так взволновало всех ведь
0:33
модель уже была некоторое время доступна
0:35
Итак была базовая модель это была модель
0:37
эквивалентная ча гпд в декабре и это
0:38
доказало что такие модели можно обучать
0:39
с меньшими затратами следующим шагом
0:40
стала модель R1 которая показывает
0:41
рассуждение Когда Вы печатаете и
0:42
занимает больше времени но выдаёт более
0:43
качественный результат это произошло на
0:44
прошлой неделе Но настоящее ажиотаж
0:46
случился на выходных теперь мама и тётя
0:47
спрашивают об этом и это стало новостью
0:48
NVIDIA тоже об этом говорит я думаю что
0:50
это похоже на первые дни работы чат гпт
0:51
или stable diffusion с изображениями
0:52
когда ответ приходил мгновенно И это
0:53
была новая парадигма когда Open
0:55
выпустила свою модель это было
0:56
потрясающе Но это было похоже на
0:57
использование чат гкт ты задаёшь вопрос
0:59
она отвечает яду потому что они скрыли
1:01
це почку логических рассуждений в случае
1:02
с моделью видно как она думает и решает
1:03
проблему кажется что с тобой
1:05
разговаривает другой человек и чем
1:06
больше людей её использует тем больше
1:07
они видят как она работает и понимают
1:08
что это открытый Исходный код поэтому
1:09
люди берут её уменьшенные версии и
1:10
запускают на своих ноутбуках если бы это
1:12
была просто закрытая модель без цепочки
1:13
рассуждений но с похожими ответами
1:14
такого бы не было если бы выпустила
1:15
модель цепочки рассуждений Я думаю
1:16
такого бы не случилось Они сказали что
1:17
это было сочетание разных фактов которые
1:19
заставили людей задуматься Боже мой что
1:20
это за новая штука и как она работает и
1:21
это ставит под сомнение наше
1:22
предположение потрясающе сили Мы с тобой
1:23
говорили по телефону на выходных и это
1:24
правда это происходит Что ты об этом
1:26
думал когда начинал у меня было две
1:27
мысли Мне нравится что они запустили его
1:28
в день инаугурации как бы говоря новый
1:29
администраци жем и далее и тому
1:32
подобно и вот как работают санкции
1:34
вторая мысль которая пришла мне в голову
1:35
за последние 10 дней это то что мы
1:36
ожидаем де монетизации и поскольку
1:38
возможности этих моделей растут
1:39
метрической прогрессии демонетизация
1:40
тоже должна нас удивить Так что тот факт
1:42
что они смогли это сделать не должен нас
1:43
сильно удивлять как они этого добились
1:45
это открытый вопрос но сам факт что это
1:46
было достигнуто не должен
1:48
удивлять это Невероятно но мы не должны
1:50
удивляться если это окажется правдой
1:52
кажется ктото отметил что это была течки
1:54
из
1:55
лаем бы
2:00
написал свом бло что после анон это
2:01
стане Ной Нор знаете когда выпускает
2:03
бров за день это будет проходить снова и
2:04
снова скорость кото меняются и
2:05
развиваются все
2:11
отрасли это интересно потому что когда
2:13
мы видели что т анонсировали и за 5 у
2:15
него появись мин поте за 2 меся 100 мил
2:17
люди спрашивали Можно ли это повторить и
2:18
ответ да и быстрее Итак Мокра расказать
2:20
Чем именно отличается от4 и других
2:23
моделей
2:30
Сколько денег было потрачено сколько
2:31
человек работало над проектом именно эти
2:32
цифры сделали его таким значимым если бы
2:34
это была просто эквивалентная модель но
2:35
созданная за гораздо меньше деньги время
2:36
она не произвела бы такого эффекта верно
2:38
Да я думаю что это был шок от масштаба
2:39
Итак давайте немного разберёмся
2:41
во-первых это была эволюция чат гпт
2:42
которая внезапно достигла уровня
2:43
медалиста или лучшего программиста
2:44
примерно 1% лучших программистов потому
2:45
что она могла думать дольше это ключевой
2:47
прорыв и теперь он доступен я
2:48
действительно сказал марку чону из Open
2:49
ai что ПС понял что они делают и это
2:51
было примерно так это было в ноябре и с
2:53
тех пор прошло несколько месяца
2:54
во-первых у них была Модель которая
2:55
соответствовала чат а потом они поняли
2:56
Как заставить её думать дольше но
2:57
главное что шокировало людей я думаю это
2:58
то что она была на 96% дешевле програмна
2:59
обеспечение обычно имеет мажу 80% мы не
3:01
знаем сколько берёт Open но у них есть
3:02
огромный парк графических процессов Им
3:03
никогда не приходилось работать в
3:04
стесненных условиях Иногда вы немного
3:05
придирается к цене Особенно потому что
3:07
стоимость одного запроса да для решения
3:08
математической задачи или юридической
3:09
проблемы настолько мала что это почти
3:10
как услуги юриста или врача но это на
3:11
96% дешевле чем то что было номером один
3:13
номер два — это то что это можно сделать
3:14
где угодно а стоимость оригинальной
3:16
модели которая была обучена с помощью
3:17
эволюции составляет всего 120 долларов
3:19
что опять же было шоком для нас в
3:20
прошлом году но в позапрошлом году я не
3:22
помню точную цифру кажется в прошлом
3:23
году Open A потратил 3 млр долларов на
3:24
обучение моделей потрясающе Сколько
3:25
сейчас стоит п были обвинения что у них
3:27
50 таких чиков а не два как у нас при
3:28
обучении они никогда не говорили сколько
3:29
они просто сли что нам Ну для обучения
3:31
Льва течение Д для создания модели
3:32
котора выглядит вот все из на к создавал
3:33
эти модели знают все эти ф соответствуют
3:34
действительности Вот почему реакция была
3:35
такой интересной пому люди говорили го
3:37
боль графиче процессор и скрытых
3:38
графически процессоров и других вещей у
3:39
них есть графически процессоры которые
3:40
называются h800 это как топовый но
3:41
сейчас уже не совсем топовый чик виде но
3:42
с немного уреза ме соединени Так что
3:43
связ между чипами немного медленнее у
3:44
нас была такая же проблема ли я рата в
3:46
Компани где Мы создали один из
3:47
крупнейших суперкомпьютер Клар в мире но
3:48
скорость подключения сети у нас была в
3:49
че ра ниже чем других и мы снова конку с
3:50
крупнейшими компаниями Мы купили одни из
3:51
лучших моделей в мире они написали код
3:52
самого низкого уров что вроде Юда но на
3:54
уровень ниже чтоб преодолеть это они
3:55
буквально выжили из этого всё потому что
3:56
некоторые из них бывшие менеджеры х
3:57
фондов и так далее И если посмотреть на
3:58
каждое из их наведений то это онон ици
4:00
оче интересно наше зрения пому м дест в
4:03
инновациях по Неудивительно по ре
4:05
перехода от исследовани работ вы видите
4:07
такой СК ВД но все фры сход вы видите
4:09
снижение затра думаю них всего 10 чив но
4:11
честно говоря это не больше чем многи
4:12
Сталине порса знаете недавно раз это
4:15
подали как тево США за китам комм
4:20
иль только потол тому чтобы делать
4:22
больше сраз меньшими
4:24
затратами этой приме это
4:28
похоже имею в виду что если у вава есть
4:30
только молоток и много графических
4:31
процессоров то они же мают знания это
4:32
всё равно что приготовить к по давлением
4:33
и сделать его нежным вместо этого ты
4:34
смотришь на такие вещи как улучшение
4:35
даных улучшение алгоритмов повышени
4:36
эффектности Если вы не можете увеличить
4:37
ско потому что у них не было че для
4:38
такой скорости Потому что при переходе
4:39
от графским процессом Вы можете расли их
4:41
и получи больше скорости вместо этого
4:42
они сделали Пать ключевым моментом так
4:43
классические модели — это очень плотные
4:44
модели такие как лома 70 рми параметры
4:46
это 640 млр параметров но только 30 млр
4:47
из них активируются одновременно они
4:48
масштабируется по памяти и Это дешевле
4:50
чем сверхбыстрый крени так что эти
4:51
ограничения думаю действительно являются
4:52
ключевыми и мы снова и снова убеждаемся
4:53
в том что если вам не нужно беспокоиться
4:54
об ограничениях то вы создаёте
4:55
неэффективные модели если тебе
4:56
приходится беспокоиться об эффективности
4:57
то знаеш что необходимость — это главное
4:58
изобретение У меня к тебе два вопроса
4:59
один из них заключается в том Имеет ли
5:00
большое значение тот фак что это
5:01
китайски продукт и компани не спешат вть
5:02
него свою инфор Это вопрос тебе я думаю
5:04
что ответ будет отрицательным потому что
5:05
у него откры иный код и вы можете
5:06
Запусти его локально это правильно ты
5:07
можеш но большинство людей это дела кто
5:08
незнает что проди всеми этими дами верси
5:09
коры ты можеш запускать льно на самом
5:10
деле явля Дополните версиями осной верси
5:12
довольно сложно запустить основную
5:13
версию льно Так что давай разберём с
5:14
этим вопросом Ну знаешь вот вопрос кой
5:15
задавали все пользователи и мои друзья
5:16
был таков Будет ли это происходить по
5:17
тому же пути что к А где на самом деле
5:18
будет находиться ди Ну что же Позволь
5:20
мне вернуться на второе место Когда о
5:21
впервые представил чат гпт у вас были
5:22
все эти компании ма и мы с вами
5:23
обсуждали что многие банки заявили что
5:24
не будут использовать ча ПТ в офисе мы
5:26
не хотим чтобы Open владело нашими
5:28
данными это было связано желанием
5:29
конфиденциальность и это желание всё ещё
5:31
актуально но увидим ли мы то же самое с
5:33
пс когда люди скажут Нет мы не можем
5:34
использовать псе мы беспокоимся о данных
5:35
и о том где они будут храниться Я думаю
5:37
вы видели несколько объявлений например
5:38
по пте объявило что они используют гип
5:39
локально на американских фермах и так
5:40
далее и вы увидите что даже если они
5:41
будут использовать более крупные модели
5:43
это всё равно будет сложно но будут опи
5:44
во-вторых Вы видели как Open анонсировал
5:45
чат ПЦ для правительства с которым
5:46
пользуется 96 федеральных служащих и это
5:48
то направление в котором Всё движется и
5:49
я думаю что у вас будет четыре разных
5:50
типа и супер экспертный и к которому вы
5:51
обращаетесь когда он вам нужен ваш
5:52
личный и Google Apple эти о открытые
5:53
модели такие как DC лома которые полезны
5:55
но нерегулируемых отраслях и открытый
5:56
Исходный код открытый е на основе данных
5:57
Где эти система поддержки принятия
5:58
решений вам нужно знать что внутри них и
6:00
как они работают потому что вы можете
6:00
отравить эти модели предвзятости была
6:02
статья анрок о которой мы уже говорили
6:03
Питер назвал её спящими агентами всего
6:04
одним словом из 10 триллионов слов можно
6:05
превратить модель в зло или полностью
6:06
изменить её поведение потрясающе это как
6:08
бы смешно но факт в том что большинство
6:09
трансфор в США производятся китайскими
6:10
компаниями и никто не знает как они
6:11
управляются это и есть такого рода
6:12
угроза Вена Вы хотите чтобы у нфор
6:14
которы используются в вашем бизнесе тоже
6:15
была такая потенциальная угроза вот Чем
6:16
мы сейчас занимаемся в тр интернет
6:17
создаём стек с открытым исходным кодом
6:19
для регулируемой отрасли

Пересказ видео

Расшифровка видео

Похожие записи