Пересказ видео
Ожидания и первые шаги
- Деси выпустила модели, которые стали популярными в сообществе ИИ.
- Пси ко заняла первое место в рейтинге кода, начав с репликации ламы из Мета.
Развитие моделей
- В декабре Деси выпустила пси wif стоимостью 6 млн долларов, сравнимую с гпт 40.
- Модель R1 показала рассуждение, занимая больше времени, но выдавая более качественный результат.
Ажиотаж и влияние
- Модель стала новостью, сравнимой с первыми днями работы чат гпт и stable diffusion.
- Открытый исходный код позволил людям запускать уменьшенные версии на своих ноутбуках.
Экономические аспекты
- Модель была на 96% дешевле, чем предыдущие лидеры.
- Стоимость обучения модели составила всего 120 долларов, что шокировало экспертов.
Технологические инновации
- Деси использовала менее мощные графические процессоры, но оптимизировала алгоритмы.
- Классические модели, такие как лома 70, требуют больше памяти и ресурсов.
Будущее и перспективы
- Вопрос о том, будет ли модель развиваться по пути чат гпт, остаётся открытым.
- Открытый исходный код и доступность моделей могут привести к их широкому использованию.
Конфиденциальность данных
- Люди не хотят, чтобы Open владел их данными.
- Желание конфиденциальности остаётся актуальным.
Проблемы с пс
- Люди беспокоятся о данных и их хранении при использовании пс.
- Некоторые компании, например, пте, используют гип локально на американских фермах.
Направления развития
- Open анонсировал чат ПЦ для правительства, которым пользуются 96 федеральных служащих.
- Ожидается четыре типа моделей: супер экспертный, личный, открытые модели для нерегулируемых отраслей и открытый исходный код.
Опасности предвзятости
- Важно знать, что внутри моделей и как они работают, чтобы избежать предвзятости.
- Статья анрок назвала модели «спящими агентами», так как одно слово из 10 триллионов может изменить их поведение.
Угрозы безопасности
- Большинство трансформаторов в США производятся китайскими компаниями, что создаёт угрозу.
- В тр интернет создают стек с открытым исходным кодом для регулируемой отрасли, чтобы избежать потенциальных угроз.
Расшифровка видео
0:00
это не стало для вас сюрпризом вы этого
0:01
ожидали или были в шоке думаю это было
0:03
ожидаемо например феврале прошло года я
0:04
сказал что деси одна из моих любих
0:05
компаний в сфере искусственного
0:06
интелекта они взяли изначальную идею
0:07
которую мы использовали стабилити ещё
0:08
одной компание Управляй ШИМ менеджером
0:09
фонда и выпустили потрясающие модели
0:10
думаю когда сообщество искуственного
0:11
интеллекта впервые узнало об этом это
0:12
было гдето летом прошлого года они
0:13
выпустили пси ко который занял первое
0:14
место в рейтинге кода они начали с
0:15
репликации ламы из Мета а затем пошли
0:17
дальше И на самом деле используемые там
0:18
алгоритмы — это те же алгоритмы которые
0:19
они используют сейчас а в декабре около
0:20
месяца назад они выпустили пси wif
0:22
которая стала моделью стоимостью 6 млн
0:23
долларов она сравнялась с гпт 40 и всеми
0:24
остальными моделями тогда она ни с чём
0:26
не сравнялась но мы все думали что они
0:27
разберутся как это сделать И знаете что
0:28
они сделали она обобщила на любую модель
0:29
что произошло казалось что интернет
0:30
звался выходные когда было сделано это
0:31
объявление что так взволновало всех ведь
0:33
модель уже была некоторое время доступна
0:35
Итак была базовая модель это была модель
0:37
эквивалентная ча гпд в декабре и это
0:38
доказало что такие модели можно обучать
0:39
с меньшими затратами следующим шагом
0:40
стала модель R1 которая показывает
0:41
рассуждение Когда Вы печатаете и
0:42
занимает больше времени но выдаёт более
0:43
качественный результат это произошло на
0:44
прошлой неделе Но настоящее ажиотаж
0:46
случился на выходных теперь мама и тётя
0:47
спрашивают об этом и это стало новостью
0:48
NVIDIA тоже об этом говорит я думаю что
0:50
это похоже на первые дни работы чат гпт
0:51
или stable diffusion с изображениями
0:52
когда ответ приходил мгновенно И это
0:53
была новая парадигма когда Open
0:55
выпустила свою модель это было
0:56
потрясающе Но это было похоже на
0:57
использование чат гкт ты задаёшь вопрос
0:59
она отвечает яду потому что они скрыли
1:01
це почку логических рассуждений в случае
1:02
с моделью видно как она думает и решает
1:03
проблему кажется что с тобой
1:05
разговаривает другой человек и чем
1:06
больше людей её использует тем больше
1:07
они видят как она работает и понимают
1:08
что это открытый Исходный код поэтому
1:09
люди берут её уменьшенные версии и
1:10
запускают на своих ноутбуках если бы это
1:12
была просто закрытая модель без цепочки
1:13
рассуждений но с похожими ответами
1:14
такого бы не было если бы выпустила
1:15
модель цепочки рассуждений Я думаю
1:16
такого бы не случилось Они сказали что
1:17
это было сочетание разных фактов которые
1:19
заставили людей задуматься Боже мой что
1:20
это за новая штука и как она работает и
1:21
это ставит под сомнение наше
1:22
предположение потрясающе сили Мы с тобой
1:23
говорили по телефону на выходных и это
1:24
правда это происходит Что ты об этом
1:26
думал когда начинал у меня было две
1:27
мысли Мне нравится что они запустили его
1:28
в день инаугурации как бы говоря новый
1:29
администраци жем и далее и тому
1:32
подобно и вот как работают санкции
1:34
вторая мысль которая пришла мне в голову
1:35
за последние 10 дней это то что мы
1:36
ожидаем де монетизации и поскольку
1:38
возможности этих моделей растут
1:39
метрической прогрессии демонетизация
1:40
тоже должна нас удивить Так что тот факт
1:42
что они смогли это сделать не должен нас
1:43
сильно удивлять как они этого добились
1:45
это открытый вопрос но сам факт что это
1:46
было достигнуто не должен
1:48
удивлять это Невероятно но мы не должны
1:50
удивляться если это окажется правдой
1:52
кажется ктото отметил что это была течки
1:54
из
1:55
лаем бы
2:00
написал свом бло что после анон это
2:01
стане Ной Нор знаете когда выпускает
2:03
бров за день это будет проходить снова и
2:04
снова скорость кото меняются и
2:05
развиваются все
2:11
отрасли это интересно потому что когда
2:13
мы видели что т анонсировали и за 5 у
2:15
него появись мин поте за 2 меся 100 мил
2:17
люди спрашивали Можно ли это повторить и
2:18
ответ да и быстрее Итак Мокра расказать
2:20
Чем именно отличается от4 и других
2:23
моделей
2:30
Сколько денег было потрачено сколько
2:31
человек работало над проектом именно эти
2:32
цифры сделали его таким значимым если бы
2:34
это была просто эквивалентная модель но
2:35
созданная за гораздо меньше деньги время
2:36
она не произвела бы такого эффекта верно
2:38
Да я думаю что это был шок от масштаба
2:39
Итак давайте немного разберёмся
2:41
во-первых это была эволюция чат гпт
2:42
которая внезапно достигла уровня
2:43
медалиста или лучшего программиста
2:44
примерно 1% лучших программистов потому
2:45
что она могла думать дольше это ключевой
2:47
прорыв и теперь он доступен я
2:48
действительно сказал марку чону из Open
2:49
ai что ПС понял что они делают и это
2:51
было примерно так это было в ноябре и с
2:53
тех пор прошло несколько месяца
2:54
во-первых у них была Модель которая
2:55
соответствовала чат а потом они поняли
2:56
Как заставить её думать дольше но
2:57
главное что шокировало людей я думаю это
2:58
то что она была на 96% дешевле програмна
2:59
обеспечение обычно имеет мажу 80% мы не
3:01
знаем сколько берёт Open но у них есть
3:02
огромный парк графических процессов Им
3:03
никогда не приходилось работать в
3:04
стесненных условиях Иногда вы немного
3:05
придирается к цене Особенно потому что
3:07
стоимость одного запроса да для решения
3:08
математической задачи или юридической
3:09
проблемы настолько мала что это почти
3:10
как услуги юриста или врача но это на
3:11
96% дешевле чем то что было номером один
3:13
номер два — это то что это можно сделать
3:14
где угодно а стоимость оригинальной
3:16
модели которая была обучена с помощью
3:17
эволюции составляет всего 120 долларов
3:19
что опять же было шоком для нас в
3:20
прошлом году но в позапрошлом году я не
3:22
помню точную цифру кажется в прошлом
3:23
году Open A потратил 3 млр долларов на
3:24
обучение моделей потрясающе Сколько
3:25
сейчас стоит п были обвинения что у них
3:27
50 таких чиков а не два как у нас при
3:28
обучении они никогда не говорили сколько
3:29
они просто сли что нам Ну для обучения
3:31
Льва течение Д для создания модели
3:32
котора выглядит вот все из на к создавал
3:33
эти модели знают все эти ф соответствуют
3:34
действительности Вот почему реакция была
3:35
такой интересной пому люди говорили го
3:37
боль графиче процессор и скрытых
3:38
графически процессоров и других вещей у
3:39
них есть графически процессоры которые
3:40
называются h800 это как топовый но
3:41
сейчас уже не совсем топовый чик виде но
3:42
с немного уреза ме соединени Так что
3:43
связ между чипами немного медленнее у
3:44
нас была такая же проблема ли я рата в
3:46
Компани где Мы создали один из
3:47
крупнейших суперкомпьютер Клар в мире но
3:48
скорость подключения сети у нас была в
3:49
че ра ниже чем других и мы снова конку с
3:50
крупнейшими компаниями Мы купили одни из
3:51
лучших моделей в мире они написали код
3:52
самого низкого уров что вроде Юда но на
3:54
уровень ниже чтоб преодолеть это они
3:55
буквально выжили из этого всё потому что
3:56
некоторые из них бывшие менеджеры х
3:57
фондов и так далее И если посмотреть на
3:58
каждое из их наведений то это онон ици
4:00
оче интересно наше зрения пому м дест в
4:03
инновациях по Неудивительно по ре
4:05
перехода от исследовани работ вы видите
4:07
такой СК ВД но все фры сход вы видите
4:09
снижение затра думаю них всего 10 чив но
4:11
честно говоря это не больше чем многи
4:12
Сталине порса знаете недавно раз это
4:15
подали как тево США за китам комм
4:20
иль только потол тому чтобы делать
4:22
больше сраз меньшими
4:24
затратами этой приме это
4:28
похоже имею в виду что если у вава есть
4:30
только молоток и много графических
4:31
процессоров то они же мают знания это
4:32
всё равно что приготовить к по давлением
4:33
и сделать его нежным вместо этого ты
4:34
смотришь на такие вещи как улучшение
4:35
даных улучшение алгоритмов повышени
4:36
эффектности Если вы не можете увеличить
4:37
ско потому что у них не было че для
4:38
такой скорости Потому что при переходе
4:39
от графским процессом Вы можете расли их
4:41
и получи больше скорости вместо этого
4:42
они сделали Пать ключевым моментом так
4:43
классические модели — это очень плотные
4:44
модели такие как лома 70 рми параметры
4:46
это 640 млр параметров но только 30 млр
4:47
из них активируются одновременно они
4:48
масштабируется по памяти и Это дешевле
4:50
чем сверхбыстрый крени так что эти
4:51
ограничения думаю действительно являются
4:52
ключевыми и мы снова и снова убеждаемся
4:53
в том что если вам не нужно беспокоиться
4:54
об ограничениях то вы создаёте
4:55
неэффективные модели если тебе
4:56
приходится беспокоиться об эффективности
4:57
то знаеш что необходимость — это главное
4:58
изобретение У меня к тебе два вопроса
4:59
один из них заключается в том Имеет ли
5:00
большое значение тот фак что это
5:01
китайски продукт и компани не спешат вть
5:02
него свою инфор Это вопрос тебе я думаю
5:04
что ответ будет отрицательным потому что
5:05
у него откры иный код и вы можете
5:06
Запусти его локально это правильно ты
5:07
можеш но большинство людей это дела кто
5:08
незнает что проди всеми этими дами верси
5:09
коры ты можеш запускать льно на самом
5:10
деле явля Дополните версиями осной верси
5:12
довольно сложно запустить основную
5:13
версию льно Так что давай разберём с
5:14
этим вопросом Ну знаешь вот вопрос кой
5:15
задавали все пользователи и мои друзья
5:16
был таков Будет ли это происходить по
5:17
тому же пути что к А где на самом деле
5:18
будет находиться ди Ну что же Позволь
5:20
мне вернуться на второе место Когда о
5:21
впервые представил чат гпт у вас были
5:22
все эти компании ма и мы с вами
5:23
обсуждали что многие банки заявили что
5:24
не будут использовать ча ПТ в офисе мы
5:26
не хотим чтобы Open владело нашими
5:28
данными это было связано желанием
5:29
конфиденциальность и это желание всё ещё
5:31
актуально но увидим ли мы то же самое с
5:33
пс когда люди скажут Нет мы не можем
5:34
использовать псе мы беспокоимся о данных
5:35
и о том где они будут храниться Я думаю
5:37
вы видели несколько объявлений например
5:38
по пте объявило что они используют гип
5:39
локально на американских фермах и так
5:40
далее и вы увидите что даже если они
5:41
будут использовать более крупные модели
5:43
это всё равно будет сложно но будут опи
5:44
во-вторых Вы видели как Open анонсировал
5:45
чат ПЦ для правительства с которым
5:46
пользуется 96 федеральных служащих и это
5:48
то направление в котором Всё движется и
5:49
я думаю что у вас будет четыре разных
5:50
типа и супер экспертный и к которому вы
5:51
обращаетесь когда он вам нужен ваш
5:52
личный и Google Apple эти о открытые
5:53
модели такие как DC лома которые полезны
5:55
но нерегулируемых отраслях и открытый
5:56
Исходный код открытый е на основе данных
5:57
Где эти система поддержки принятия
5:58
решений вам нужно знать что внутри них и
6:00
как они работают потому что вы можете
6:00
отравить эти модели предвзятости была
6:02
статья анрок о которой мы уже говорили
6:03
Питер назвал её спящими агентами всего
6:04
одним словом из 10 триллионов слов можно
6:05
превратить модель в зло или полностью
6:06
изменить её поведение потрясающе это как
6:08
бы смешно но факт в том что большинство
6:09
трансфор в США производятся китайскими
6:10
компаниями и никто не знает как они
6:11
управляются это и есть такого рода
6:12
угроза Вена Вы хотите чтобы у нфор
6:14
которы используются в вашем бизнесе тоже
6:15
была такая потенциальная угроза вот Чем
6:16
мы сейчас занимаемся в тр интернет
6:17
создаём стек с открытым исходным кодом
6:19
для регулируемой отрасли

