НАУКА ДЛЯ ВСЕХ / ЮРИЙ КАШНИЦКИЙ, КАЛИ НОВСКАЯ

Пересказ видео

пересказ первых 40 минут

В этом видео обсуждается открытая и закрытая наука, а также влияние искусственного интеллекта на обе эти области.

Основные моменты:

Традиционная научная модель:
    Научные статьи публикуются в рецензируемых журналах, издаваемых крупными издательствами, такими как Elsevier.
    Рецензирование статей осуществляется бесплатно учеными-добровольцами.
    Доступ к статьям в таких журналах, как правило, платный, что ограничивает доступ к научным знаниям.
Проблемы традиционной модели:
    Высокая стоимость публикации статей.
    Медленный процесс рецензирования.
    Непрозрачность процесса рецензирования.
    Ограниченный доступ к научным знаниям.
Открытая наука:
    Статьи публикуются на открытых платформах, таких как arXiv, где они доступны бесплатно всем.
    Сообщество ученых осуществляет валидацию статей через комментарии и обсуждения.
    Открытая наука делает научные знания более доступными и способствует более быстрому обмену информацией.
Искусственный интеллект:
    ИИ может использоваться для автоматизации задач рецензирования и валидации статей.
    ИИ может помочь в обнаружении плагиата и фальсификации данных.
    ИИ может использоваться для создания новых инструментов для научных исследований.
Опасения:
    Использование ИИ в рецензировании может привести к снижению качества статей.
    Алгоритмы ИИ могут быть предвзятыми, что может привести к дискриминации в науке.
    Использование ИИ может привести к потере рабочих мест для ученых-рецензентов.

В целом, открытая наука и искусственный интеллект имеют потенциал сделать науку более открытой, доступной и эффективной. Однако важно учитывать потенциальные риски и проблемы, связанные с использованием этих технологий.

В дополнение к вышесказанному:

Автор видео, Юрий Кошница, является специалистом по машинному обучению и сторонником открытой науки.
Он отмечает, что 60% мировой науки финансируется корпорациями.
Он считает, что институты репутации, такие как arXiv, играют важную роль в открытой науке.
Он призывает к более широкому использованию открытых платформ и инструментов с ИИ в научных исследованиях.

Это лишь краткий пересказ основных моментов видео. Для более подробной информации рекомендуется посмотреть полное видео.

https://gemini.google.com

Расшифровка видео

0:00
с
0:07
[музыка]
0:56
друзья Добрый вечер с вами рубрика Cop Left и здесь мы разговариваем о том как
1:02
технологии и искусственный интеллект влияет на нашу жизнь а сегодня у нас
1:07
очень интересная тема для разговора мы сегодня поговорим про открытую науку закрытую науку и как обычно
1:14
искусственный интеллект как они друг на друга влияют а гость у нас сегодня Юрий
1:20
кошница А наверное один из самых известных Дета саентистом в русскоязычном пространстве А теперь не
1:27
только в русскоязычном а принципал Machine Learning resch издательства
1:32
научного Эльвир а также создатель открытого курса по машинному
1:38
обучению Юра привет привет Таня привет всем
1:43
слушателям Спасибо что так представила что я добавлю Да по титулам
1:49
наверное ничего но да последние 4 года довольно глубоко копнул в науку в разных
1:57
е проявлениях и скорее вот Круг науки всё что вы могли слышать про Эльвир ну
2:03
наверное можно добавить дисклеймер то есть вот представили дальше я компанию буду называть компания или паблишер
2:10
потому что хочется чуть-чуть по-честному если мы говорим про вызовы для науки то не
2:15
обсуждать издателей как было бы странновато при этом называть имя работодателя всё время не очень хочется
2:21
то есть пусть звучит как издатель или паблишер Ну и наверное вовремя Таня ты
2:27
меня выловила потому что я в общем-то ухожу скоро из компании впереди Новые
2:33
приключения но это не значит что я буду что-то плохо говорить про своих коллег естественно я думала это добавит остроты
2:39
к нашей сегодняшней беседе но будем ходить по лезвию скажем так это гото
2:45
Замечательно Это замечательно Ну вот в нашем нашей рубрике Я бы так сказала мы
2:52
раньше поднимали вообще в целом уже разговор про науку и начинали об этом
2:57
говорить с точки зрения всё больше там открытости данных открытого доступа
3:03
вопросов лицензирования Давай может быть мы начнём вот с какого-то короткого
3:09
интро так скажем исторической справки короткой Да как вообще сейчас устроен
3:15
научный процесс и каково место вот издательств типа эльзевир там scopus Web
3:21
of Science в этом процессе Угу Да пожалуй стоит признать что это
3:28
такая поле что есть несколько крупных издателей паблишера которые выпускают
3:35
много статей и сейчас как я могу на это изнутри посмотреть Это довольно сложный
3:41
процесс то есть там ну большого издателя типа эсра несколько тысяч человек
3:46
вовлечены в этот процесс и это такой прямо длиннющий пайплайн назовём его и
3:53
конечно популярная критика Ну зачем всё это нужно Если есть при принты если есть
3:58
архив кто не слышал это проект корнел университета в общем где можно выложить
4:05
свою статью и она сразу доступна с таким ограничением конечно что она не
4:15
рецензировать такой реч скажем так в виде черновиков которые потом в какой-то момент превращаются в
4:21
статью критика популярная наверное надо что-то на неё ответить Я тут опять же никого Защищать не буду просто немного
4:28
другой взгляд такой инсайдерский предоставлю А наверное так в целом ковид вот будет
4:36
такой характерным будет характерным периодом показать все плюсы минусы открытой науки и конкретно
4:43
серверов при принтов потому что с одной стороны в ковид мы увидели небывалый
4:48
всплеск принтов в частности на сервисе мед архив медицинский медицинская версия архива
4:57
и с одной стороны это конечно сделал на не бывало доступной То есть можно было
5:03
видеть все эти десятки тысяч статей в неделю конкретно про ковид и у всех к ним был доступ с другой стороны доступ
5:10
также есть у журналистов у ведущих Вот таких стримов и у всех далёких от науки
5:17
более далёких чем Татьяна естественно и конечно же это привело к феномену называемому ими
5:28
ко более того получают огласку и вот э сообщить корректно о том что при
5:37
принты – это не научно верифицированные знания Но вот это не сразу работает грамотные журналисты Конечно уже в этом
5:43
разобрались Но вот особенно было заметно во время ковида что много таких вещей
5:49
которые дезинформировать они распространялись в том числе через архив в сервера
5:54
А и И вот именно в ковид можно было судить о плюсах минусах э архива и может
6:01
Я тут немного просто добавлю прокомментируй какую добавленную стоимость могут давать издатели как бы
6:06
при всех недостатках Ну вообще-то представьте это такая лавина
6:12
знаний которые надо как-то проверять то есть основной принцип науки что должен быть коллега знакомый или в целом
6:19
какой-то учёный который в общем-то проверит а не фигню ли ты написал в некоторых узкоспециализированных
6:26
дисциплинах это может буквально человек в мире который просто разбираются в этой
6:32
области и одна из функций издателя – это они поддерживают вот такую огромную сеть
6:38
а учёных то есть они ВКонтакте с людьми которые могут в общем-то рецензировать статьи сейчас немного
6:45
отдельный вопрос Да тоже очень дискуссионный кому из этих людей платить почему Там рецензентам не платят мы
6:52
дойдём наверное в дискуссии до читерства и связанных вопросов вот попробуем копнуть почему не получается рецензент
6:59
там платить и почему за это тоже сыпется критика это вопрос очень интересный особенно на нашем канале дадада Вот Но
7:08
вот пока без этого не получается без верификации знаний без проверки но в общем никаких оснований доверять просто
7:14
буковка написанным на ПДФ в общем-то нету и есть эксперименты когда от этой
7:20
схемы пытались отказаться пытаются экспериментировать с форматом вот довольно популярный журнал и решил
7:29
провести эксперимент и публиковать всё что есть в общем-то вместе с рецензия и
7:35
по сути финального вердикта нету И вот это отвергаем ли мы статью или принимаем
7:42
ли мы её такого вердикта и не выносят и это как бы уже на рассмотрение аудитории
7:47
читатель сам решает видит статью видит комментарии рецензентов и в итоге
7:53
опирается на институт репутации и в общем-то покаже
7:59
проваливается по крайней мере никаких революций в процессе там рецензирования и издательства он не привнёс Угу Ну я
8:07
вот может быть от себя по пару слов добавила любой учёный особенно учёный в
8:12
области компьютерных наук Когда написал свою научную работу и хочет ей
8:18
поделиться с сообществом предстаёт перед некоторым выбором а по сути он может для
8:23
начала отнести статью на открытую площадку например так называемый архив
8:29
где он получит скорее всего некоторое внимание со стороны сообщества А может и не
8:35
получит статью можно представить там сразу буквально через несколько дней она
8:40
уже будет в общественном доступе и скорее всего под открытой лицензией как правило там можно выбрать И большинство
8:46
из опций которые предлагается выбрать это какая-то из лицензий Creative comms а то бишь открытая использование по
8:54
крайней мере там с ограничениями может быть для научных целей тем не менее ти
8:59
научный процесс как правило там со врем Карла Поппера он подразумевает что у нас
9:05
есть верифицируемость фальсифицируемость и у нас вот есть некоторая подробная
9:11
валидация экспериментов которые описаны чего сообщество В общем-то не всегда
9:17
делает как правило классическая схема когда в этом
9:22
участвуют некоторые специальные люди у которых стоит задача проверить отвадить
9:27
каждый из этапов экспериментов Эти люди называются
9:33
рецензенты и как правило эту работу по рецензия занимает Ну назначает либо
9:39
крупные издательство издательство журналы либо это рецензирование в рамках
9:45
крупных конференций надо сказать что наверное в рецензирование в рамках крупных
9:50
конференций оно здесь осуществляет основную грязную работу потому что современные объёмы о которых мы говорим
9:58
это с статей в год которые выкладываются на архив по крайней мере вот в области
10:04
компьютерных наук Там искусственного интеллекта это там ну 50.000 примерно в год Я думаю я не ошибусь если я дам
10:11
такую примерную оценку А как правило всё это действительно плохо
10:21
отваливается через фильтр крупнейших конференций остатся на
10:26
архиве е более маленькая струйка из этого идёт куда-то в крупные журналы и
10:32
идёт дальше Вот в рецензируемые журналы потому что а некоторые наверно научный Престиж А
10:38
может быть некоторые обязательства по грантам от авторов будут требовать чтобы они опубликовали в рецензируемой
10:45
издательстве которое в своём в свою очередь уже Вот
10:51
а управляется некоторым вот более крупным изданиям как эльзевир Web of
10:57
Science или что-то ещё в таком духе а для меня вопрос наверное вот здесь
11:03
интересный вот такой когда мы говорим о том где в этой схеме появляются деньги а
11:10
ну финансирование научной работы так скажем Да как правило вся работа по
11:15
лицензированию и валидации она бесплатная как в случае с архивом так и
11:21
в случае с другими площадками в том числе даже платными журналами я рецензию
11:26
что-то постоянно ни разу не платили Скажу честно я с этого ничего не заработала
11:34
а моральное удовлетворение разве что а от реджект плохой статьи ты был ревью ер
11:42
номер два я думаю да меня наверное второй ставит это такой мем есть в научной среде что первая рецензия
11:49
неплохая А вот вторая всегда её ставит что она построже получается А да Ну вот всё-таки как так выходит что
11:59
издательства при этом берут деньги причём они берут деньги именно за
12:04
публикацию статей за то чтобы они вот провели рецензию и решили опубликовать всё-таки статью почему это устроено
12:11
именно вот так да Ну тут наверное можно ремарку
12:16
сделать что это в конечном счёте э на наши с вами деньги на деньги налогоплательщиков То есть если вот эти
12:24
либо подписки либо по новой модели APC article publishing cost вот стоимость
12:30
опубликования статьи если она покрывается университетом или правительством Ну по сути надо понимать
12:36
это на наше с вами деньги то есть это стоимость вообще этого развлечения
12:42
что мы можем заниматься наукой я пра поднял цифры сегодня был удивлён что примерно
12:47
60% мировой науки финансируется корпорациями Я что-то думал меньше Я думал что это в целом университетами и
12:55
государствами Но вот помимо корпораций по сути следующий Кто оплачивает науку – это мы
13:02
с вами и тут не такая уж Большая разница подписывается ли университет на э
13:08
какую-то на какую-то серию журналов то есть платит ли он подписку либо оплачивает каждую статью по отдельности
13:13
вот как в более современной схеме а то есть в конечном счёте это всё равно на деньги налогоплательщиков
13:19
а действительно очень много критики в адрес издательства за эти сверхприбыли Но может просто так уже то есть Принимая
13:27
да всю критику и скажем так не давая конкретику наверное
13:33
можно примерно Описать как это выглядит со стороны издателя вот я недавно общался с издателем это по-английски
13:41
Editor журнала Cell Press да то есть у Эльвира есть два таких флагманских и довольно всё ещё обособленных журнала
13:48
это группа sell и lunet вот мы ездили в командировку Южную Африку с товарищем
13:56
значит из Press и Ну он примерно рассказывал о том из чего его Работа
14:02
состоит Ну вот Представьте он там занимается микробиологи и даже его там какой-то узкой частью я наверное не буду
14:09
сочинять но какая-то из ветвей там третьего или четвёртого уровня в секции
14:15
микробиологии представить жизнь вот такого учёного Вот Нам повезло с архивом Да что Facebook там Мета запускает там
14:21
статью и сразу есть огромное сообщество там сотни тысяч людей сразу по сути могут верифицировать и понять стои или
14:29
нет И по сути такой институт репутации очень неплохо работает в компьютер Science ML Но если вы в какой-то под
14:37
области микробиологии и у вас там ну не буду преуменьшать Ну ладно ну несколько допустим тысяч специалистов в вашей
14:44
области или даже мой там диссер по теме анализ формальных понятий которые там
14:49
алгебра под ветка теория решёток под ветка там какие-то порядки галуа и вот э
14:54
ещё подо область анализ формальных понятий где даже Интернациональная конференция это ВС те же 15 знакомых лиц
15:02
вот если вы в такой области то дальше вопрос стоит Ну во-первых то что делают
15:07
издатели это отсеять шлаг да там ну то есть откровенно плохие статьи и вообще в
15:16
популярных таких престижных журналах типа всей группы да то есть вот стате чтото на тых
15:25
конферен и Ну коне не Парадокс но надо понимать что
15:31
когда ты оплачиваешь статью её публикацию по сути 90% из всего этого
15:37
это оплата тех статей Или точнее работы издателей по отсе всего остального
15:42
мусора Да как вот поисковики в Интернете для нас отсева кучу всякого непотребства
15:48
и всяких там 99 да И сколько 99 процентов всех сайтов которые в общем
15:54
людям нельзя показывать также редакторы в общем-то работают а чтобы отсеивать ну статьи
16:02
которые не дотягивают по уровню конечно там 3/4 из них это сразу desk reject то есть это работает примерно как УВ с
16:09
резюме Я полагаю примерно правило 6 секунд по диагонали пробежался Если
16:14
видишь что ну совсем вообще не дотягивает так скажем то сразу отсекают
16:19
и так немного старомодно это называется desk reject то есть как бы как вот он стол вот там стопка статей и прямо
16:26
скидываешь со стола это мусор вот – дальше остальная статей – это вот из них
16:33
надо отобрать лучший Ну и часто там приходится обратиться к кому-то из издателей там коллег Из соседнего
16:38
журнала собрать там консилиум по брейнсторминг
16:59
Ну условно на зарплате Вот то есть это тут определённые расходы на это дело есть
17:05
Вот Но конечно это да не совсем объясняет все сверхприбыли издательств
17:12
за которые они критикуют Можно ли сказать Вот рассматривая как бы такой
17:18
процесс верификации научного знания что усилия организованного сообщества в
17:25
том числе те которые собираются вок они по сути делают Ту же самую работу по
17:33
рейтингу и отсе вот наиболее качественных публикаций которые Ну вот в
17:38
предыдущей схеме делают как раз
17:44
издательство Частично Да и скорее в таких популярных областях как Коте
17:50
Science опять же да нам тут повезло где условно Есть трафик как производящий то есть люди пишущие статьи так и
17:56
потребители которые вот все Все мы кто играется с кодом пытается что-то
18:01
запустить достать датасет И к сожалению такой человеческого ресурса а тем более
18:07
на бесплатной основе и на голом энтузиазме Вот его не хватает
18:13
чтобы убедиться что каждая статья найдёт своих рецензентов и тем более на такие
18:19
очень узкие темы Ну вот то же та же тема моего дие анализ формальных понятий Ну
18:24
как всё есть 20 человек в мире Ну ладно может быть нми 100 кто может хотя бы
18:30
даже копнуть и прод дальше там введение и вот к сожалению да без этого формата с
18:37
издателями и рецензента ты не обеспечить найдёт свои там три
18:43
рецензии Ну по крайней мере эксперимент и он потихоньку
18:50
проваливается то есть на голом институте репутации выехать не
18:55
получается я сечас подумала интересно ты упомянул о том что
19:01
60% всех платежей осуществляет по сути корпорации Да ну или какие-то компании
19:08
которые оплачивают публикацию статей А если мы говорим о том что существует издательство в том числе
19:16
благодаря там таким схемам финансирования как Гранты невозвратные инвестиции и так далее получается что в
19:23
науке всё больше и больше часть занимает какая-то вот B2B бизнесов Да по сути
19:28
издательство – это частный бизнес А и корпорации которые оплачивают публикацию статей тоже частный бизнес Ну я честно
19:36
говоря я жил со своими басами Мне казалось что это всё в основном За счёт государства университетов потом чарити
19:43
Да благотворительность самые известный наверное мелинда и Билл гейс Foundation я буквально сегодня прочитал
19:49
что Опа оказывается 60% в корпорациях Но это наверное Как считать надо вникать понятно что если Мета обучает модельку
19:57
За какие там бюджеты реалистичные за сотни миллионов долларов может быть если
20:03
это учитывать то вот 60% денег они в в корпорациях тут надо вникать в
20:08
методологию но просто э корпоративная доля науки в том числе в финансовом выражении она выше чем мне казалось
20:17
м да я думаю что это действительно какая-то новая оценка и очень интересно за тем Проследить как она была получена
20:25
безусловно я знаю что именно в в сфере компьютерного интеллекта когда мы
20:30
говорим о том сколько процентов всех исследований являются независимыми сейчас то есть получены условно в рамках
20:38
работы людей на кафедре без корпоративного заказчика то по всему
20:43
миру это число где-то колеблется в районе 10% да то есть всё остальное так
20:50
или иначе подвязали привязано к грантам ны
20:59
мощности которые уже оплачены тоже были компаниями Интересно как бы Будет ли
21:06
кто-то Может быть я не знаю как это устроено в Китае сейчас там где наверное
21:11
там Эльзи We of Science как бы это не их целевая аудитория Да мне интересно будет
21:17
ли развиваться какая-то Параллельная схема при которой можно сказать по старинке финансирование науки в основном
21:25
происходит со стороны государства но в таком случае проду рецензирования тоже может в
21:31
общем-то оплачиваться в рамках государственных каких-то структур
21:37
реалистично ли это ну вполне Я наверно поправлю тут вполне в Китае представлены Да
21:45
и of Sci есть тако все понимают что это важный рынок Ну Китай Это такая большая
21:50
головная боль для тех же редакторов для всех там
21:58
просто какая-то невероятная лавина вот этого шлака с которой надо что-то делать И вот если по говорим ещё сейчас про
22:05
фрот то вот это всё тоже в основном из Китая хотел было Индию приплести Ну частично Индия конечно да и Россия
22:12
частично но просто отдельно стоит Китай Нет конечно китайский рынок он очень большой
22:18
его все осваивают и как-то ищут место под солнцем если говорить про финансирование
22:26
то Ну сейчас так не сильно много то есть кажется что
22:32
это ВС ещ велика роль государства и соответственно все стандарты по
22:38
публикациям каких-то журналах из белого списка но тут интересно посмотреть как
22:44
будет меняться будут меняться требования тоже если посмотреть с точки зрения
22:51
финансирования вот
22:58
меценаты да то есть богатые люди с хорошими намерениями финансируют науку в таких важных областях как
23:07
эпидемиология медицина в общем смысле и понятно что раз они финансируют они могут свои требования выдвигать и они
23:14
конкретно продвигают свою платформу открытую платформу для публикации статей
23:20
и сейчас даже нельзя подава наль овать э
23:28
за публикацию статей Где бы то ни было Если ты деньги получил там от Била и Линг
23:35
и понятно что это такой Челлендж для традиционных издательств и вот
23:41
Единственное что сейчас вот это финансирование оно укладывается вот остальные 10% то есть 60% по крайне ре
23:48
что на Википедии сегодня прочитал что-то я думал что роль Боно 60% ко
23:59
20 университеты 10 правительство то есть вот эти 30 вместе это как всё
24:04
налогоплательщики и ещё 10% уже длинный хвост как правило это благотворительность вот сюда же ребята
24:10
как мелинда и Билл гейс Foundation Ну вот здесь интересно посмотреть потому что они конечно начинают свои требования
24:15
выставлять и например даже взять просто требование что любой научный результат
24:21
полученный в ходе там грантов Да в ходе проектов которые
24:27
финансируются геми они должны быть в открытом доступе супер Разумное требование и понятно что это уже Немного
24:34
меняет рынок Ну и в целом издатели тоже движутся в этом направлении там да несмотря на всю критику объективно там
24:41
по цифрам доли Open Access они растут там конечно сложные кучерявые схемы что
24:47
Open они там самые разные бывают Gold Green какие-то там ещ Silver то есть не все прямо так вот доступ много журналов
24:54
е комбинированной какой-то схемой там частично списочный частично Open Access
25:00
Но несмотря на все минусы Да есть колоссальный плюс то что эта схема в конечном счёте позволяет
25:07
простому
25:20
отвлечённая долларов или Евро вот опять же чтобы покрывать там все вот
25:26
эти стаи бы это всё равно дико дорого Да ну есть Паше издатели которые держат эти
25:34
цены на минимуме Ну такой вот прямо себестоимость Это примерно по евро Ну и
25:40
так по Иронии Я недавно опубликовал статью в qss это группа редакторов которые
25:48
откололась отра и вот они как раз возмущены были
25:55
высокими этими цеми на публикацию стате как раз держат на минимуме вот эти APC
26:00
То есть у них Это где-то 1500 евро но в целом для да попробуй объясни своей бабушке Почему ты публикуется и за это
26:07
должен ещё заплатить это конечно Парадокс Да я даже себе не могу это объяснить я так скажу Ну то есть мне
26:14
понятен процесс который ты описываешь но вот так для зрителей я скажу да что по сути вот учёный который хочет
26:21
опубликовать статью даже после того как она уже отрендерить
26:28
несколько тысяч долларов чтобы его статья была принята не просто в журнал
26:33
она была в открытом доступе А чтобы люди могли её прочитать бесплатно за это надо
26:39
заплатить а соответственно если я автор такой статьи мне обязательно нужно найти
26:46
какую-то аффилиации которая мне это оплатит Да компания или университет а
26:52
кто-то какой-то вот аффилированная организация которая заплатила бы это а
26:58
либо самому найти такие деньги а что конечно наверное ущемляет в некотором
27:04
роде вот индивидуальных каких-то независимых исследователей А поэтому и доля их такая маленькая Ну и они все
27:11
идут конечно на открытые площадки говоря про требования про открытый результат
27:17
наверное м я хочу плавно перейти к следующей теме поскольку уже много мы
27:24
говорили про там финансирование а всё-таки открыт научного результата А
27:30
как таковое требование достаточно новое раньше его не было основная конкуренция
27:36
происходит с открытыми площадками в которых э сообщество осуществляет по сути всю валидацию и получается
27:43
популярные статьи которые не проходили многомерная в журналах тем не менее
27:50
получили и цитирование и авторы получили высокий индекс хирша и там много раз
27:58
вот если говорить о том что мы хотим с помощью этих данных например
28:06
акселерон интеллект Да потому что мы хотим учиться на качественных данных
28:12
объективно Можем ли мы это сделать на открытых источниках или сейчас можно сказать
28:18
что наиболее вот ценные золотые качественные научные данные а это только
28:25
издательство да Это хороший
28:32
вопрос наверное строгий ответ тут никто не даст то есть по-хорошему надо обучить какую-то супер крутую новую GT5 на всех
28:41
открытых данных Да и вторую версию на этих же данных плюс там или We of Sci и сравнить Но конечно
28:49
все понимают что данные это это золото данные в инте Тае приго для обучения
29:00
дубли данных просто дубликаты данных они вредят качеству и конечно так если
29:06
посмотреть за активностью бите и всех компаний которые обучают самые мощные мки Они активно
29:15
охотятся за новыми данными лично ездит там лицензирует
29:20
какие-то датасеты покупает лицензию
29:26
что т какую-то це имеет довольно низкую оказывается Вот Но тем не менее Google
29:32
значит платит И даже если заст
29:38
последить сейчас тоже цензури сам себя что из этого публич информации что нет но в общем он тоже активно ищет новые
29:45
домены новые источники данных юридический научный Какие ещё данные бывают
29:54
поэтому паб понимают что у них в руках уникальные данные и они конечно должны
30:01
помогать помогать Новым Новым моделям если есть задача
30:07
собственно хорошо решать научные задачи и они также Паше также понимают что вот
30:14
такой битех Скорее всего в какой-то момент к ним придёт и предложит деньги
30:19
за лицензирование этого контента
30:28
на на своих данных финансовых но вроде как они это не очень удачно сделали там не
30:44
дотронулись в компании тоже с этим экспериментируют а то есть можно ли на своих данных То есть даже не трогая
30:51
никакой не рейдят никакие публичные данные Можно ли обучить модель которая как бы вообще не лицинию не врёт и
30:58
всегда опирается только на научные
31:06
рецензировать как тоже G5 не смтт ли все наработки одним махом и Особенно
31:12
учитывая что и Open очень интересуются научными возможностями
31:19
моделей Вот но безусловно Да вот большой корпус
31:25
верифицированных научных знаний это й ресурс и но ещё одна причина наверное по
31:31
которой издательство так вот не отом в один момент завтра Хотя многие им это
31:37
так желают Ну вот Это большой вопрос для меня потому что При всём том что мы ждём
31:45
больших успехов от gpt 5 и gpt 6 и там ссоры в открытом доступе Мне кажется что
31:51
всё больше внимание к тому на чём всё-таки Open учится и Насколько это всё получено
31:58
легальным путём с не нарушенным копирайта А в то время как у стартапов кажется
32:06
проблем с этим немного меньше Да и мне кажется что идёт в некотором роде
32:11
какая-то Олимпиада с астероидами когда все пытаются понять А как можно как можно больше данных
32:18
любых получить и посмотреть что получится а я не знаю про Мистраль конкретно у
32:24
меня никакой закрытой информации нет поэтому я только слухи из Твитера буду воспроизводить Да что у них во многом
32:32
успех их языковых моделей связан с тем что они пошли и
32:39
стали адаптировать в свои пайплайн такие корпуса которые в строгом понимании
32:46
сейчас считаются пиратскими Да в целом очень много наверное
32:55
дискуссий вокруг того а можно ли вообще м считать это в строгом смысле
33:02
пиратством Да как как нам быть когда у нас многих источников в легальных
33:09
изданиях вообще не представлено теперь А очень много м уникальных источников и
33:16
ресурсов в том числе которые являются основой ссылок Википедии постепенно
33:23
теряется из баз данных и Ну я думаю что ты это даже лучше меня в целом считается
33:30
что постепенно там есть вот какой-то процентов 12 по-моему всех научных работ
33:36
у которых есть э код издательский абн они потерялись их их нет просто они
33:44
представлены меньше одного раза не задокументировано больше да и в этом
33:49
смысле пиратские библиотеки которые делают работу по агрегации любыми
33:55
способами вообще всех знаний которые доступны у них постепенно покрытие научных
34:02
источников становится больше чем у издательств с этой точки зрения как бы
34:08
интересно какой подход победит экстенсивный который будет брать всё что
34:14
можно взять и потом Попробуйте докажите либо интенсивный Давайте возьмём золотые
34:21
работы Эльвира там из Open Access или там какие-нибудь самые лучшие вообще
34:27
научные работы на которой больше тысячи цитирований там за последние годы и там будем учиться только на них вопрос
34:35
открыты и очень интересно посмотреть на самом деле как как это произойдёт да Безусловно и конечно Тут вопрос
34:44
пиратство сейчас пересматривается под новым углом и у юристов полу появилось полно
34:51
работ наверно новые даже специализации внутри юриспруденции коне т смотреть Да
34:58
за openi и как он будет судиться с Гуглом защищая сору которая Ну скорее
35:03
всего на юбе обучена вот да Тоже самое с эси виром и конечно вот ну тут сейчас
35:09
будем полезу уходить то есть понятно что пиратского контента много Понятно что
35:15
так вот по обывательский начинание вообще попытаться сохранить во-первых то что
35:21
уже опубликовано выложить в открытый доступ то что там значит за за пей волом
35:28
и кажется да что прорыв в науке если мы говорим о научных агентах неважно на они
35:36
основаны или нет то для таких научных агентов Ну наверно нужны
35:41
источники побогаче чем просто Википедия то есть в том числе и научные базы но
35:47
тут можно сказать что у of
35:52
Sci из контента Да по разным характеристикам
36:00
там не только верифицированные научные знания Да но и даже такие мелочи
36:07
как да то есть понять что вот этот Ким Это не тот Ким А вот этот да то есть
36:13
смочить всех там авторов с их профилями и там корректно распознать ссылки на фнв
36:19
Да значит чтобы агентства которые заплатили денег за какие-то какой-то реч за это получили
36:25
Ну какое-то признание Вот то есть хва качеством данных но по охвату scopus – это далеко не крупнейшая база и тут уже
36:33
ну прочие открытые источники кажется крупнее уже прямо на порядок Ну Google Scher по крайней мере
36:40
он берёт масштабом но не качеством самого
36:46
индексируемой ML моделька которая значит предсказывает данный документ это вообще научный он
36:53
или нет и дальше краулер работает и индексирует в общем-то примерно всё в интернете что похо науку Поэтому да
36:59
Google не буду врать сколько там миллионов или сотен миллионов там статей сейчас но есть источники конечно крупнее
37:06
из копса и Да и то что ты упомянула isbn db это Ну больше акцент там Кажется на
37:13
книги Да именно у книг но это сейчас по-моему у них цель оцифровать вообще
37:19
Вот это архив Анны Да оцифровать вообще всё все книги которые были напечатаны в истории очень глобальная задача Ну и
37:26
где-то они сейчас какой у них там процент сейчас 12 по-моему да около 12 да да ну есть куда
37:34
стремиться есть Вот ты упомянул Google schar на самом деле
37:42
Вот и качество в одном предложении э в связи с этим наверное вопрос Вот у меня
37:48
даже есть такая история о том как в Google скоре каждый автор А может себе в
37:54
профиле добавить любую научную статью и добавить себя как соавтора А это для
38:00
меня было некоторым открытием потому что я думала что там есть хоть какая-то верификация может быть что они должны
38:06
проверять это Но вот оно работает как-то вот на доверии к пользователям А у меня есть даже история про одного не очень
38:14
здорового человека который периодически Вот у него было обострение и он заходил и чужие статьи себе добавлял у него был
38:20
огромный индекс цитирования у него был огромный индекс хирша ни одну из этих статей он не писал на самом
38:28
а и из Google скора его как бы убрать было очень тяжело авторства вот Какие
38:33
способы ещё завысить искусственно Доверие к своей работе да
38:40
завысить качество публикации Ты знаешь потому что наверное ну скажем прямо
38:46
издательство – это напрямую организации которая в качестве заинтересованы
38:53
Да сейчас время всяких кулстори про про читерство наверно По горячим следам
39:01
можно поо обсуждать вот эти фразочки которые проникли в научной статьи
39:07
например введение статьи опубликованной даром
39:14
начинается там очевидно значит ответил или что-то
39:20
переписал опять
39:27
е вошь эту фразу например
39:34
gole да у него есть классная фича это поиск по полному тексту да то есть по
39:39
всему тексту статьи а не только там по аннотации и в общем ты найдёшь таких фраз сейчас ну сотни если даже не
39:47
тысячи начинаешь глазами смотреть Ну там люди рут ответо в
39:56
табли очевидно человек читерил и как-то там использует gpt внутри Авира мы да сейчас это тоже
40:03
расследуем понятно что это такая виральность произошла это и в Твиттере и
40:09
в линне медр resch integrity значит там прилетело Семь или восемь входящих Да от
40:15
всяких самых топовых менеджеров типа Объясни что происходит Вот пока мы в
40:21
нашем контенте видим только единичный случаи когда это проходит конкретно с той статьёй что произошло это
40:28
драфт статьи уже приняли Вот это произошёл там всё нормально и дальше
40:33
где-то из вот этих сторонних значит там пос после принятия статьи там куча ещ
40:39
процессов когда её переписывают там язык исправляют Вот это C подгоняют статью
40:44
под формат журнала и вот на этом этапе значит кто-то там gpt использовал и это так финальной версия осталась безусловно
40:51
не снимает ответственно издателя Но это вот где-то не автор терну ктото
40:57
использовал gpt там на стороне Вот и в целом более глобально Да если наконец на
41:04
твой вопрос та отвечать какие варианты читерства есть их очень много тут Конечно же наукометрия да и не
41:13
наукометрия даже а такой нездоровый акцент на хирш
41:19
рейтинги университетов и и прочее эпи сейчас не будем подбирать Да но в
41:25
общем корреляция между успехом учёного и его разными метриками скажем так она
41:30
конечно породила нездоровую гонку вот эту publish То есть ты либо публикуется
41:35
либо тебе надо на миску риса зарабатывать уже где-то в
41:41
индустрии конечно качество изза этого сильно страдает и появились целые организации Paper meals их называют
41:47
которые в общем-то помогают тебе опубликовать Ну любой шлаг То есть ты платишь деньги иногда довольно хорошие и
41:54
в зависимости от квартиля журнала который тебе гарантирует это может достигать Ну там нескольких
42:00
даже тысяч евро организаций таких много последнее
42:05
время развилось конечно там опять же да цифры Мы точно не знаем примерно по
42:12
некоторым оценкам такие скорее посни палец и на ветер да то есть это где-то 2% всей науки затрагивает и большинство
42:19
из них в Китае но разм признакам вид такие они в Росси Моск
42:27
publ значит да говорят что у них сеть рецензентов во всех топовых универах
42:32
мира они их там перечисляют там в том чи даже stanford M э и в общем тебе
42:37
гарантируют публикацию и вот такие объявления они как правило распространяются в телеграме в в инсте
42:44
Ну и WeChat само собой прямо рассадник такого бизнеса Честно говоря я никогда не думала когда я получала значит спам
42:52
на почту о том что опубликуйте свою статью в издательстве там в журнале ВАК
42:57
там или рин что у них потом офис mus Сити это как-то уж очень жирно звучит
43:02
честно говоря Ну там у них офис не издательства журнала Конечно а там вот
43:07
это такая прослойка такая организация которая помогает тебе опубликовать в
43:13
общем-то любой реч независимо от Его качества Ну что в мо си даже в науке
43:26
правильно закидывать в хорошие журналы но придумали такую схему как продажа авторства То есть статья принимается и
43:32
дальше там хоп уже после принятия вагончик из 10д Новых авторов откуда не
43:37
возьмись и Ну вот мы командой сидим и вот такие фичи всякие строим думаем Ну
43:43
мы занимаемся научным антифрод если пафосно говорить то конечно чтобы это вычищать науку от
43:49
такого шлака Но если не пафосно то конечно таким организациям надо как-то противодействовать
43:55
и Ну вот это Да продажа мест в
44:06
статьях Я видел несколько мидов Да что я Чутка
44:19
подвисают Очень популярный бизнес Вот именно продажа авторства вот один такой
44:24
признак который в общем-то в принципе любые издатели могут взять Да сравнить списочек авторов там в начале
44:32
когда статья только прилетела списочек авторов когда статью приняли и списочек авторов уже в опубликованной версии всё
44:39
это сравнить Но кажется что это могут все делать есть тут не нужна сильная Science экспертиза Да чтобы на один
44:45
такой сигнал посмотреть вот вот но уже уже по одному такому признаку можно в
44:51
общем-то неплохо такие бизнесы вычленять
45:00
война брони и пушки да то есть тут читеры они становятся
45:08
куда изощрённые что
45:18
мне понял да то есть это сейчас м интересно время
45:27
правило они уже опираются на какие-то сетевые эффекты например издатель
45:32
журнала он в деле да то есть там его ему занесли взятку и он будет выбирать там
45:39
своих рецензентов из своего какого-то Круга подельников Вот и такие вещи уже
45:46
чуть сложнее детектировать То есть тут нужно подключать анализ соцсетей смотреть на коэффициент кластеризации
45:53
Като графа издателей и рецензентов Ну это уже совершенно не так тривиально
45:59
как просто посмотреть на списочек авторов и увидеть что хоп в статье попались Ну там максимум было 120
46:05
авторов откуда не возьмись Вот и тут если вернуться к
46:10
деньгам то Наконец вот в последнее
46:17
время за этот вопрос взялись
46:25
основательно издателю гарантирует что то что мы публикуем это действительно валидный реч и как
46:32
гарантировать его ну и что целостность наверно да по-русски то есть в конечном счёте это научный такой антифрод
46:39
и Web of Science начал вот что делать у них тоже аналитическая группа ри вей которая
46:46
занимается Ну примерно тем же что я с командой на работе они начали смотреть
46:52
вот на такие на такое подозрительное поведение у них самые основные признаки это вот
46:59
манипуляция с цитатами с цитированием да то есть например вот такие вещи тоже в
47:05
принципе обнаружить смотришь на списочек процитировать В текущей статье да И
47:12
вдруг видишь что там там 13 из 20 ссылок они там про
47:18
одного они цитируют одного у или там двох
47:28
когда ты по сути оплачиваешь раскрутку своего индекса хирша да то
47:34
есть там ребята в сговоре можно условно попасть в некоторую базу данных и там твои статьи будут цитировать в контексте
47:42
или там в не контекста Неважно как и вот такие манипуляции цитированием это вот то на что смотрит й и дальше они если
47:51
видят обт
47:58
пот наше исследованию и если журнал не то его выкидываю системы то есть
48:06
индексируют из журнал теряет там свой Ифа и ну по
48:11
сути в него уже новые статьи не прилетают и вот таким образом Вилли Это
48:16
довольно большой паблишер который купил другого
48:25
мелкого мил вот изза мусорных таких журналов и
48:31
mdpi ещё один паблишер который известен прямо с супер скажем так фри вольным отношением
48:37
к качеству статей и у них там самое быстрое время рецензирования и решений но они тоже несколько миллионов уже
48:43
потеряли Вот на этом де индексирование из Web of Science и Да вот таким образом
48:50
можно что пришли деньги даже в такую область как основан на репутации потому что
48:57
мы например с нашим прототипом библиотеки она ещё даже не в продакшене она Ну вот мы смотрим где-то на 15
49:04
сигналов и пока это такой пинячи код который может на любом масштабе статей
49:09
там вплоть до миллиона посмотреть на некоторые вот такие признаки Ну вот один я назвал изменения авторства дальше
49:17
Вот признаки вида подозрительно быстрые рецензии Да там в течение дня или двух
49:24
Хотя обычно это занимает меся В общем мы с нашей библиотекой уже
49:31
сумели защитить там четыре журнала Эль свирских то есть вот уже внезапно Деньги
49:42
[музыка]
49:47
пришли уже We of Science там действительно они
49:58
Я думаю что может быть юри сейчас попробует перезайти чтобы мы
50:08
побу да Ну тем не менее достаточно интересно вот для меня если честно такие
50:14
суммы это новости И это действительно очень интересно как это устроено на самом деле При том что очень большое
50:22
количество труда коне пря скажем бесплат вобще в построении научной репутации
50:30
наверное в целом правильно что оно так устроено Да потому что я сейчас
50:38
подумала Юр знаешь о том что может быть если бы ещё и рецензентам всё оплачивали
50:44
А как Насколько больше могло бы быть возможностей для фрода Честно
50:53
говоря да но проблема Проблема Кох на не смот сегодня люди которые делают
50:59
карусели цитирования потому что это была полезная информация для них Ну я пока Да
51:06
ничего такого не рассказываю из секретов как мы с ними боремся Но это супер да Увлекательная тема Я немного
51:13
дислоцироваться
51:21
[музыка]
51:28
Это замечательно как как зовут Мадонна Пусть пока повесит да Ну на самом деле говоря про
51:35
донаты друзья у нас уже очень много вопросов вы всё ещё можете задать вопрос
51:41
с донатом все донаты пойдут на поддержку по делу Бориса Юрьевича ко горлиц Борис
51:47
не террорист Давайте потихонечку переходить к вопросам А может быть ещё что-то до
51:54
расскажем в связи с вопросами пото что их много вопрос первый донатом а Ждёт ли
52:02
нас гражданская война искусственных интеллектов во всех областях где они будут применяться
52:08
А и не всем бы этого хотелось Юра что ты думаешь Ждёт ли нас
52:16
гражданская война искусственных интеллектов так Ну это мы забега да в какое-то утопическое или антиутопический
52:26
В каком-то смысле я буду вольно трактовать этот вопрос Да там не в формате терминаторов и реальном
52:32
физическом воплощении но в каком-то виде война искусственных интеллектов уже происходит то есть это любая война вот
52:38
этой брони и пушки даже то что я сегодня описывал Да это всё равно алгоритмы
52:43
против алгоритмов финансовые рынки это меня вот
52:49
понравился такой Взгляд со стороны Да мы обсуждаем искусственный интеллект и как-то Ну у нас такой бас что мы сразу
52:55
представляем себе учения алгоритмы Да вот в нашу трактовку А в каком-то смысле финансовый рынок сам по себе это тоже
53:01
огромный искусственный интеллект Да там кто-то чихнул на Гаваях или кто-то выпустил финансовый отчёт об успехах
53:07
компании э сивир и каким-то образом это влияет на такую огромную махину и понятно что на этом рынке полно агентов
53:14
то есть таких уже прикладных искусственных интеллектов которые пытаются это это всё подвинуть в нужную
53:20
сторону и В каком-то смысле это уже происходит Ну Будет ли нас ждать прямо гражданская война
53:27
давайте я буду предельно честен Я понятия не имею любые такие спекуляции их отсекаю на корню Ну вот у меня тут
53:33
близок подход Джереми ховарда вот эти все собираются учёные голосуют когда там
53:40
нас ожидает через 30 лет или чере 50 Да никто не знает любые у на просто Нет данных чтобы это говорить предсказывать
53:47
Ну либо тоже самое кстати кун говорил
53:53
[музыка] то есть мы стоим перед таким эверестом и
53:59
где-то за ним достижение agi да или вот то что сейчас нас ту спрашивают Да когда
54:04
там будут искуственный интеллекты воевать То есть это где-то вот там за горой но мы понятия не имеем Будет ли
54:11
там ещё гора как на Марсе в 27 км И сколько их ещё нам надо преодолеть мы
54:16
видим перед собой только первую гору и никаких вообще абсолютно данных чтобы
54:21
что-то здесь предсказать Ну наверное такой вялый и осторожный ответ в итоге
54:26
Да ну вот ещё один вопрос тоже не совсем по теме Sun на днях прикрутили профили
54:32
пользователей и раздавали по 500 кредитов Как скоро по-вашему музыкальный бизнес отреагирует ждут ли нас
54:38
забастовки музыкантов и суды за неправ намер использование музыкальных фрагментов для обучения Нейро Сити Ну я
54:45
могу в принципе это взять коротко этот вопрос чтобы мы сразу там
54:50
перешли к вопросам тоже больше по теме в целом сечас очень больш внимание тому
54:57
насколько правомерно используются данные Я думаю что для стартапов среднего размера и
55:04
большого размера это уже совершенно а то что называется de Breaker Да как бы
55:11
иметь возможность пройти какой-то даже внешний аудит доказать что данные были
55:17
взяты легальным путём а для СУ я думаю это будет очень важно
55:23
слишком крупные стартапы такие как Open и анрок они иногда вот в рамках судебных
55:29
разбирательств позволяют себе очень интересные формулировки такие как что соблюдать это всё было бы экономически
55:36
нецелесообразно А что меня вводит так скажем в экстаз
55:41
потому что я считаю что как бы капитализм здесь как бы пожрал сам себя данные были взяты в рамках копирайта
55:49
неправомерно и выплачивать роялти тоже никто не хочет по-моему это прекрасная ситуация очень интересно как она
55:56
разрешится для музыкального бизнеса она тоже будет новой Ну я думаю что это суды
56:01
нас ждут Ну в этом году 100% доказать точно также это будет очень сложно как и в случае с учились ли Open на юбе и так
56:10
далее ну глядя Да если добавить Глядя на то что происходит со stability ai
56:16
художниками и дизайнерами можно точно ожидать того же самого музыкаль индустрии и учитывая
56:22
что Это наверно первый шаг впечатляющий то конечно нас тоже ожидают
56:28
и забастовки и суды
56:35
безусловно пользователь Стас Ай как не просто спрашивает нас Всем привет
56:41
смотрели вы сериал разделение Севен как вам сама идея И возможно ли такое Как вы
56:46
относитесь к отчуждению авторских прав разработчиков в крупных компаниях Почему
56:51
по Вашему мнению крупные финансовые корпорации идут в искусственный интеллект например Сбер выпускает свои умные
57:01
устройства Я не знаю ты смотрел сериал Я если ткнуть примерно в любой сериал то с
57:07
очень большой вероятностью его не смотрел потому что я почти не смотрю сериалы
57:13
и Судя по твоей реакции ты тоже Таня не смотрела Так что можно либо попросить уточнить В чём там была
57:19
мысль пой к СМУ вопросу отчуждение авх пра разработчиков в компаниях Ну то есть
57:26
не авторских прав а авторские права передаются Да если ты пишешь код за зарплату Это не твой код к сожалению это
57:32
так если ты неправомерно что-то за ол то там по крайней мере американская
57:37
судебная практика это засудить за упущенную выгоду и Можно потом очень
57:43
много лет работать бесплатно Ну это реальный случай Почему
57:48
крупные финансовые корпорации идут в искусственный интеллект скорее всего просто потому что у
57:55
них хорошая возможность туда пойти есть некоторая большая доля свободных Денег
58:00
которые просто другие не могут себе позволить соответственно они могут развиваться в сторону монополии быстрее
58:06
всех и захватывать новый рынок Я думаю это основная мотивация Я наверное да
58:15
перетянут Вопрос авторского права в науке Если говорить о публикации статей
58:20
он очень интересный в опять-таки ЛМ эпоху когда
58:26
частично наука может поддерживаться искуственным интеллектом я вот даже сейчас произношу
58:33
эти слова Я насколько до появления Да насколько мы сами все мощи и говорить фу
58:39
называть грек искусственным интеллектом А сейчас уже как-то не стыдимся Да как Ну действительно это некий прикладной искусственный интеллект и понятно что в
58:45
ближайшее время он нам будет помогать и с такими механическими процедурами
58:52
Как там сбор данных в общем на самых разных э и даже сейчас уже Мы видим что есть
59:00
следы того что GP участвует в написани статей вот дальше были приколы что gpt
59:07
добавляли автором Ну издательства были против и приняли все
59:13
эти законодательную базу ну или там регуляции чтобы вс-таки не называть со
59:18
автором статей Но это такой философский вопрос действительно если агенты так их нам
59:26
м агенты участвуют в написании статей то кому
59:31
принадлежит авторское право да первый вопрос во-вторых стоит ли нам сразу
59:37
банить такие статьи или если мы видим разумную статью с новыми идеями с нормально проведёнными экспериментами то
59:43
в общем-то неважно она написана человеком или вот этими м агентами вот так что это
59:50
тут скорее вопросов сечас больше чем ответов Ну и так ть по касательно мы прошлись по теме
59:59
Можно ли вообще понять статья человеком
1:00:04
и или какими-то более современными короткий ответ что
1:00:11
Нет наверно иллюстрирующий пример тут попытался выпустить свой детектор и
1:00:17
они по-честному признали что вообще зада
1:00:26
на математике и физике вдруг пытаемся что-то На социологию обобщи то общем-то все эти классификаторы ломаются и Open
1:00:33
по честному зарепортил что у них там при ограничениях на точность там там
1:00:39
разумный 97% полнота у них падает до 26% и там в бинарной классификации Они
1:00:45
по-моему породили 58% что очень скудно но вот они честно
1:00:51
об этом заявили и подтвердили что задача сложная
1:00:56
пришлось им Под шумок убрать свой классификатор видимо репутационное значит Бумеранг прилетела но тем не
1:01:03
менее куча стартапов Да которые рекламируют 99% качества распознавания
1:01:08
статей точнее Вот это gpt детекции и пока это всё довольно неубедительно То
1:01:14
есть пока честный ответ что мы не знаем И вот даже посадить людей и
1:01:20
разметить какие-то статьи Ну допустим чтобы там проверить эти детекторы Ну вот Представьте насколько это сложная задача
1:01:27
то есть взять и даже сформулировать правила вот этой разметки Вот ребята Это тексты написанные людьми
1:01:34
А это текст написаны gpt вот даже вот такие правила придумать Это довольно сложно то есть интуитивно понятно что
1:01:41
тексты gpt они грамотные написаны вот по если смотреть на английский они длинные
1:01:47
душные какие-нибудь там словечки
1:01:52
типа вот Но как-то взять это пока собрать и сделать работающий детектор что-то не получается ну и ещё следующий
1:02:00
философский виток если в Инне в интернетах ваших скоро все тексты будут gpt
1:02:06
генерировать следующего поколение м если мы даже не умеем отличать человеческие тексты от
1:02:12
тишев и Ну это тоже подкрепляет вот э важность разговоров про новые источники
1:02:18
данных ну и в том числе всякие научные базы Ну да по сути мы так хорошо
1:02:24
научились человеческую реч тепер мы не можем уже нормально
1:02:31
отличить что в общем-то наверно говорит больше качестве нашей речи Да это такой
1:02:39
философский виток он затрагивает не только вот этот Аспект А даже в широком смысле оценка самой
1:02:48
языковой модели большой
1:02:56
поч Я не знаю на сколько процентов накидку 90% мы доверяем gt4 то есть
1:03:01
автоматическая проверка там решение задачи тональности то есть ну просто доверяем А4 Ну в каком-то из определений
1:03:10
слабого интеллекта Наверно это уже слабый искуственный интеллект То есть можно ему доверить Там оценку моде
1:03:16
получается тут некий зач тат да то
1:03:26
Ну да чисто из моей практики больше всех гпт 4 любит свои собственные ответы это
1:03:33
всегда очень хорошо видно У нас есть ещё несколько вопросов с донатами значит
1:03:39
сотрудник спрашивает Расскажите как дела ВФ Как развивается и
1:03:51
R вопро по
1:03:56
в России но я уже 5 с по лет не в России и та как я понимаю
1:04:03
тоже что Таня что мы можем рассказать про рин Ну я с большим удовольствием
1:04:09
Читаю на самом деле заметки по наукометрия вообще в России и есть
1:04:14
несколько крупных авторов которые про это пишут там в частности там Иван Лив
1:04:20
регулярно раньше публиковал заметки
1:04:26
что ну есть известные проблемы которые сохраняются и они в общем-то глобальные То есть то что сегодня Юра называл И
1:04:34
относительно мельниц вот каруселей цитирования как они называются И
1:04:39
относительно продажи авторства это всё совершенно универсальные проблемы
1:04:45
которые у них у всех вот есть есть жулики глобального масштаба есть жулики
1:04:51
там условно более мелкого пошиба У некоторых из них как мы тепер знаем даже в Сити есть офис теперь я лично этого не
1:04:59
знала Вот а в целом наверное А это
1:05:05
хорошо что есть свой собственный индекс который позволяет подсветить например
1:05:11
узкоспециализированные журналы у которых Ну так уж получается очень часто что там
1:05:16
а научная традиция там локализовано допустим в России да Ну так или иначе а
1:05:23
такой журнал э не будет иметь скорее всего хорошую позицию относительно международных
1:05:29
индексов цитирования Но может иметь очень хорошую позицию в рамках ринс и рнф почему
1:05:36
нет и я думаю что в этом смысле такого будет только больше а хотелось бы тем не
1:05:45
менее чтобы списки не очень сильно друг от друга отдаляюсь например список
1:05:50
рекомендованных журналов ринс чтобы он всё-таки пересекался хоть как
1:05:57
крупными сами путанно хорошими журналами мировыми и так Дале Ну да я наверно тоже
1:06:05
тут добавлю что в целом Это благо и если посмотреть тоже на широкую проблему
1:06:11
упомянутую что многое в науке завязывается на метрики
1:06:16
рейтинги то конечно пытаются с этим бороться
1:06:25
известен как раз своим движением за открытую науку и они там кажется в ПМ году выпускали манифесто которое в
1:06:33
общем-то рекомендует чуть меньше внимания уделять индексу хирша и рейтингам университетов и как-то чуть
1:06:40
больше уделить внимание тому что вообще-то да Наука – это не только английский
1:06:46
который пишут Да люди белокожие мужики из Золотого миллиарда вот вообще дест
1:06:56
которые надо тоже как-то учитывать и поэтому если вы исследуете как мой старший брат какую
1:07:02
медицинскую помощь могут получить мигранты в России там из из СНГ то Ну
1:07:09
наверное с этой темой чуть сложно попасть в международные журналы там на английском проще на русском
1:07:15
опубликоваться и в целом Ну Чем в целом да такие
1:07:21
локализованные базы статей индексы они
1:07:27
наоборот ЕС все будем конкурировать за места в двух десятках журналов со статьями на
1:07:34
английском это ведёт только к деградации науки к Ну это даже сравнит с олигополией
1:07:42
уже с точки зрения тем подаваемых тем для Ча то есть есть набо тем которы
1:07:51
бутт деши рецензентов и есть всё остальное
1:07:57
типа изучение Как там мигранты помощь получают в России на что ты ни денег не получишь ни карьеру не построишь Да если
1:08:04
публикации будешь пытаться проталкивать в список золотых журналов Ну в общем
1:08:11
наверное там при всех сложностях да при всех минусах это конечно благо иметь
1:08:17
такие авторитетные каталоги национальные а не только вот эти of и прое глобально
1:08:24
вот прям вопрос очень на похожую тему аноним спрашивает Был случай когда
1:08:29
рецензент потребовал процитировать в статье его работу чтобы он пропустил Какие ещё есть способы накрутки
1:08:35
цитирования И зачем они нужны индекс хирша так сильно влияет на приём на работу или выделение
1:08:42
НТА Какие ещё трюки есть Ну да что мы видим это разные вариации вот этого
1:08:48
cation действительно
1:08:54
Рен свои статьи либо статьи своих соавторов либо договариваться там с другими внутри своей картели Давайте
1:09:01
типа мы будем друг другу это самое Да помогать Вот и вместе мы процитирую нашего Султана
1:09:08
Как говорится познаем радость взаимного цитирование да потом смотришь графы там
1:09:14
два журнала вот куча статей там вершины в графе это статьи и они тут как-то вот на сквозь друг друга цитируют то есть
1:09:20
примерно все статьи из одного журнала цитируют примерно все из другого вот то как-то это можно распознать Но конечно
1:09:27
сложно но из таких мелких трюков Они кажется поняли что фамилию указывать там или ссылки doi
1:09:34
Да вот этот ссылочки на doi на идентификатор статьи не очень здорово
1:09:40
пихать в комментарий да рецензента то есть это распознают они там начинают
1:09:47
изощряться какие-то айдини условно там Pi вот эти какие-нибудь другие айдини
1:09:53
они указывают порой видишь в кота хоп такой списочек рекомендую процитировать вот эти там 20 статей и
1:09:59
там идут сплошные айдини Но если вбить в Гугле то они находятся потому что это вот это Pi например
1:10:07
Это как ну короче это тоже айдини статьи уже опубликованный вот то есть это один трюк
1:10:14
когда просто в комментарии рецензент в своём комментарии просто указывает статьи которые стоит процитировать Потом
1:10:21
тоже самое делают издатели они даже делают е более например допустим у нас
1:10:28
чистые ответы рецензентов Там абсолютно легитимные условно два апта один reject
1:10:35
а издатели потом всё это агрегирующие
1:10:49
[музыка]
1:10:55
и в прочих урв В общем тоже чтобы кому-то из своих друзей помогать Ну это любопытно я не знала что
1:11:03
там на каждом этапе ещё добавляется рекомендация к цитирования да да но это
1:11:08
уже чуть сложнее конечно распознать Вот и понятно что все эти как они называются
1:11:14
Editor decision letters это всё куча текста информации которые там тоже так Элементарно
1:11:19
не не доберёшься до неё Вот но да это вот наверно такие популярные трюки Ну в
1:11:26
конечном интересно люди се отдают Отт что вообще-то ну как бы если ты нагадил
1:11:33
и это осталось опубликовано то покуда цифровой След твой жив тебя в общем-то
1:11:38
выведут на чистую воду Ну может быть и Инженерная культура там среди паров или даже среди этих
1:11:45
открытых инициатив Инженерная культура будет расти Да и сейчас
1:11:54
полно очень полезную Рату делают они тратят свободное время на то чтобы распознавать читеров и вот таких
1:12:01
детективов Да их очень много и Ну кажется что читеры не очень отдают себе отчёт в том что в общем-то рано или
1:12:06
поздно кто-то построит этот Граф взаимодействий Да рецензентов и издателей и увидит что товарищ ваша
1:12:14
как-то очень подозрительно высокая вы как-то в эпицентре всех этих кругов вот у нас есть отдельный мифический герой
1:12:25
Да и хирш наращивает но он в эпицентре просто всех этих картелей и как рецензент и как издатель и как автор То
1:12:32
есть он во всех трёх ипостасях умудряется со всеми как-то договариваться Да ну условный диссернет
1:12:38
вы делаете по сути примерно Да да да ну от себя хочется добавить что по-моему
1:12:45
самый [музыка]
1:12:55
их все потом цитируют пишите обзоры это честно и это полезно тем более составление обзоров
1:13:02
уже более-менее автоматизировано вот такие тузы как S ai или scs ai они Да
1:13:08
как раз по короткому промпто уже тебе подоб обзор довольно длинный и со ссылочка с легитимными ссылочка то есть
1:13:14
там уже retal aug Generation а не просто МКА да то есть и обзоры более-менее это уже такой
1:13:23
решённый вопрос Ну частично дела Ну кстати если тут можно коротенько
1:13:28
посоветовать хорошую тузу то это connected papers это ресурс где можно вбить название статьи и она нарисует
1:13:35
тебе Граф похожих статей вот для погружения в область для такого обзора это очень удобно Можно побегать по этому
1:13:41
графу посмотреть похожие известные статьи очень много сегодня назвали
1:13:47
ресурсов Я думаю что мы прямо соберём это отдельным постом как-то может быть в telam канале Роко условно это опубликуем
1:13:53
просто чтобы они не потерялись пользователь vw спрашивает
1:13:59
Спасибо за Стрим вопрос может заезженный но всё же как бу тренировать модели
1:14:04
Когда закончатся или сильно сократятся датасеты в силу их исчерпания и прорыва дамбы с контентом сгенерированный самим
1:14:10
A можно расширить тренировать маленькие модели на контенте сгенерированный
1:14:16
большими моделями Я думаю пока е
1:14:23
вопрос да в NLP он не решён то есть в вот в computer Vision там есть
1:14:30
аугментации в общем-то это синтетические данные да берём изображение по-разному его коверкает поворачиваем играемся с
1:14:37
контрастом и довольно известно что синтетические данные очень хорошо помогают и аргументация – это даже
1:14:43
наверное такой классический пример но есть куда более интересные автопилоты обучают Уже прекрасно на синтетических данных можно
1:14:50
погрузить автопилот в тот же mcraft или какой-нибудь абсолютно синтетический мир и довольно неплохо обучать в NLP Мне
1:14:59
кажется это ещё нерешённый вопрос то есть да тут у нас аналог синтетических данных – это gpt генерирование данные
1:15:05
которые вроде бы ничуть не хуже человеческих Но вот их как-то использовать пока не научились пока сигнал скорее такой что они мешают
1:15:12
обучению хороших ЛМ и а уж тем более NLP аугментация – это вообще скорее из мира
1:15:17
гла где ты там заменил слово на синонимы вроде добавил похожее предложение Но в
1:15:23
конечном счёте это можно смело завить это не очень-то работает ну чтобы там затащить N п Первый знак после запятой
1:15:29
Может в таком контексте это работает а так чтобы стабильно хорошо повышать качество В задачах Ну пока не
1:15:36
видно достоверной информации что это помогает Так что мне кажется тут много Реча возможно в том числе для gpt Да
1:15:44
если вы идёте на PHD и у вас нету десятка 000 GPU как у меты или
1:15:51
сколько они там планируют в общем да воз е 300 на подходе да то есть если
1:16:00
вы популярный блогер наве кажется видел такой блог у чип ху или как произносится
1:16:06
фамилия в общем да популярная такая бедных скажи так Для нас Для всех у кого
1:16:13
нету хорошая тема что как бы нам использовать синтетические данные Можем ли мы действительно
1:16:19
как-то Уша сгенерирован Ну я не знаю пока Хороший
1:16:26
ответ на этот вопрос пока кажется мы это не умеем делать и Да действительно хороший вопрос но тут я верю Э я пока я
1:16:33
гулял по собеседования очень долго и героически выиграл со счётом 216 вот а
1:16:40
и собеседован се я в том числе со snorkel ai и вот мне кажется у мне их подход э близок в общем-то компаниям на
1:16:48
практике может быть и не нужны эти Foundation Models Да колоссальные с триллиона Ну сколько по слухам у Open
1:16:54
1,8 триллиона параметров а корпорациям скорее нужны модельки которые будут хорошо работать на их конкретных данных
1:17:01
на их наборе там дети двадцати или сотни прикладных вот этих downstream задачах и
1:17:07
в общем-то можно поэтому дистиллировать неплохо или использовать часть вопроса была да про
1:17:14
передачу знаний от больших моделек к маленьким Да в целом вот это дистилляция она прекрасно работает и ну там у снор
1:17:22
есть ещё пара инженерных трюков Где в общем-то ответы можно вот этих
1:17:29
больших ответы таких моделей можно использовать как слабый сигнал или как они их
1:17:35
называют можно ответы больших моделей использовать и на них уже обучать маленькие модельки плюс ещ дистилляция
1:17:42
квантизация в итоге мы получаем мелкие и мощные модельки Ну и довольно убедительно показывает что такими
1:17:48
трюками можно прикладных задачах
1:17:55
теми же самыми Роберта в которых там сколько 100 млн параметров а не Вот Эти миллиарды или триллионы так что в
1:18:02
маленькие модельки верим и кажется что в это верит и комбинатор там они выпускают
1:18:09
такие подборки тем в которые они верят и там Кажется под номером 20 идт идут как
1:18:14
раз кастомные вот такие маленькие заан модельки в каждую Корпорацию там в
1:18:21
каждый дом Да ты хорошо помнишь этот список Ну я помню вот этот Двадцатый пункт
1:18:27
остальные я вряд ли прокомментировал Вот уже коротко отвечали Ну вот быстренько ещё раз
1:18:34
наверно скажем штангенциркуль спрашивает читал что частотность отдельных специфических фраз в публикациях выросло
1:18:41
что указывает на использование чат gpt так ли это И можно ли распознать сгенерированный текст статьи плохо ли
1:18:48
что текст статьи сгенерировано ведь нормально если кот пишет Код Да наверно
1:18:53
Тут стоит да чуть подробнее про эту тему во-первых Да довольно смешно и
1:19:02
можно там попкорном наблюдать за такими инициативами как у у кого это было уры да у когда Они пытались запрещать gpt
1:19:10
генерировать поржать потому что ну детекторов вообще-то не существует может быть есть люди там верят что у них есть
1:19:17
там свой детектор Но пока я довольно много покол эту тему видел довольно много Берков
1:19:25
по те Одно маленькое выиграли в общем пока ско не ковырял э
1:19:31
теще убедился что у кого-то Существует такой детектор и поэтому запрещать геней
1:19:37
контент Ну довольно глупо в этом плане довольно разумно поступил и прочие агенты коты тоже их
1:19:45
можно называть они их разрешается ис
1:19:54
и там прочие даже словари Ну там Google Translate В каком-то смысле это тоже да ai который тебе помогает улучшать текст
1:20:02
если использование Gram или Google Translate не надо Объявлять дисклеймер
1:20:09
про это делать то Вот пока требуется что требуется дисклеймер То есть если вы использовали gpt для улучшения именно
1:20:14
текста именно языка в статье просят об этом сделать дисклеймер для других целей
1:20:20
использовать gpt Ну формально нельзя опять же между строк читаем что никто не
1:20:26
проверит но Согласно вот этим au guidelines для других целей нельзя
1:20:32
использовать gpt но в улучшении качества языка Я вижу только плюсы конечно сколько-то вопросов
1:20:39
Это тоже поднимает вот ли тоже в бэнде сейчас будет использовать gpt и получается рли вроде
1:20:45
минимально редактирует текст но уже тоже с помощью LM тогда вот такая серая зона
1:20:51
как бы надо об этом Объявлять или нет но я я согласен с штанген циркулем Да что в
1:20:58
общем-то вреда в этом не так много вроде бы и Ну текущие текущие полиси они
1:21:04
разрешаются только язык улучшать но в в ближайшем будущем опять же вот если нам gpt Если копай вот такие
1:21:12
научные будут сильно улучшаться и мы станем намного более эффективными с помощью этих копай тов но я лично в этом
1:21:19
не вижу плохого ничего Остаётся только опять Как и во всех таких областях
1:21:24
разработать юридическую базу для этого да и ну и какие-то попутно пытаться решать философские вопросы что нам с
1:21:30
этим делать Ну то что это влияет на продуктивность однозначно то есть с кодом Мне кажется это есть тролли Да
1:21:37
которые хотят набросить на это всё и там
1:21:43
заскриптовано на самом деле Да по объективные данные показывают что
1:21:48
производительность улучшается кажется это все кто пробовал большинство людей кто пробовал согласиться и то же самое
1:21:54
будет с научными копай Тами просто берёшь просишь проанализировать дасе
1:22:00
погонять какие-то там статистические тесты подогнать свой pv Да чтобы
1:22:06
преодолеть порог в 005 и опубликовать лучше не подгонять конечно но но агенты
1:22:13
научатся это делать да Ну Вот наверное это в широком смысле поднимает вопрос
1:22:19
Если мы действительно в скором времени получим акселерацию науки да Да и очень
1:22:25
сильное усиление эффективности нашего научного труда готовы ли мы в целом к
1:22:31
этому и готовы ли существующие процедуры валидации там верификации научного
1:22:37
знания Да у нас уже сейчас в целом бутылочное горлышко относительно пропускной способности несчастных не
1:22:44
оплачиваемых рецензентов на крупных конференциях и в журналах А если мы
1:22:49
говорим о кратном увеличении пусть даже качественных работ полученных вот с помощью та инструментов это открытый
1:22:57
вопрос что нам дальше с этим делать это ну если да бедных
1:23:02
рецензентов упомянуть это мы сами тоже да я тоже
1:23:08
рецензируемые какая это боль но я в этом плане если выбирать между пессимистом и
1:23:14
оптимистом Да ладно не будем затрагивать проблемы Да светлого будущего или наоборот
1:23:20
ства но мне кажется В каком-то смысле оптимист есть Я верю в развитие
1:23:26
технологий Мне кажется что вот такой научный Агент уровня там GT ну скажем
1:23:33
прорыв уровня ссоры Да только в научной области он случится и как вот мы сейчас доверяем gt4 чтобы разме тональность
1:23:41
новостей да О биткоине также мы будем доверять научным агентам следующего поколения ревью статьи Почему нет тут
1:23:49
Конечно супер опять жно 100 разговори
1:23:55
A мы понимаем что мы не хотим Агента который будет принимать статьи только там на основе Да там регалий цвета кожи
1:24:02
и всего прочего Скорее всего он конечно унаследует все те же басы которые и так существуют у человеческих кожаных
1:24:09
рецензентов а этих этих Басов очень много и они довольно известны но в этом тут у меня сомнений
1:24:17
нету Можно даже посмотреть когда это произойдёт мы начнём рецензирование доверять научным агентам Ну в начале в
1:24:25
экспериментальном режиме смотреть Что за этим будет происходить но принципиально Я не вижу Большой разницы да если мы
1:24:31
доверяем gpt 4 оценивать нашу мку как она там не токси Лим в поддержке то почему бы не доверять
1:24:39
рецензирование хотя бы отбрасывание вот этого абсолютного тр Вот это хотя бы такой классификатор сделать То есть это
1:24:46
мне кажется немного нас освободит Отт про Для более творческих
1:24:52
за статей которые будут отклоняться на
1:24:57
стадии тоже таким образом очень сильно вырастет поэтому это вот в некотором смысле такая проблема какой-то некоторый
1:25:05
уроборос Да но в целом Я думаю что если её разложить
1:25:10
на отдельный составляющий Да там верификацию фактов отдельных
1:25:20
перепроверка некоторых гуманитарных работ кажется что можно уже сейчас
1:25:27
собрать с некоторыми орехами какой-то такой
1:25:36
процесс ещ есть немножко мимо крокодил говорит хотел задать умный вопрос но ничего не придумал поделюсь радостью мой
1:25:42
друг защитил диссер по физике плазмы едет за границу работать в стартапе по
1:25:48
термо пово ите длях А для
1:25:56
поздравляем друга и поздравляем друга да Виктор Кантер спрашивает какие
1:26:03
компании посоветуете для рча надоело прикладные задачи решать Ну тот самый Виктор Кантер то
1:26:11
привет большой компании для Ча Ну может я поделюсь ПМ
1:26:24
буду короче учитывая всю историю вокруг Авира для меня это
1:26:30
был серьёзный выбор идти туда или нет ну на Когда уже изнутри на это всё смотришь
1:26:36
и выбираешь для себя скажем так хорошие задачи например resch integrity то это
1:26:42
вот так внезапно оказался самым классным опытом в карьере безусловно по интересности проектов вот
1:26:49
особенно resch inte то есть на удивление вот оказалась
1:26:55
очень хорошим местом для того чтобы заниматься и индустриальными проектами и наукой и ну и просто вокруг очень много
1:27:03
умных людей Ну умных да и с PHD это не одно и тоже Но скажем так много и умных
1:27:08
людей и людей с PHD то есть в целом Наука и Академия очень уважаю в компании
1:27:14
и это было прям таким приятным опытом битех и
1:27:22
прох среднего разме нуно Мне кажется Э примерно везде есть свой r&d Вот и
1:27:29
конечно понятно Facebook Мета со своими ресурсами это один уровень Реча Но даже
1:27:35
в компаниях типа кредита э куры и прочих Ну как мне кажется если не заниматься
1:27:43
r&d то вас ждёт судьба кодека и тут Таня
1:27:49
наверное с пониманием относится к этой проблеме вот с тем что происходит в снапе
1:27:55
Ну скажем так за право делать надо воевать
1:28:01
Но скажем делать да но
1:28:06
особенно Ну скажем так надо себе находить хороших друзей среди топ-менеджеров чтобы убеждать других
1:28:13
топ-менеджеров некий Да некий процент иро
1:28:26
то есть в честном виде как с коком который Ну если упрощать то разорился в один день когда появилась Цифровая
1:28:31
фотография примерно тоже понимают битех и поэтому Amazon Google охапками скупают
1:28:37
всякие стартапы которые квантовыми вычислениями занимаются Ну проще купить стартап и потом посмотреть что с ним
1:28:44
будет Ну я немного копал в эту тему там вот ну очень хорошо стилни сделали квантовый компьютер очень
1:28:52
специфически для решения задач там минимизации гамильтониан да то есть это очень узкая задача Они заявили что у них
1:28:59
там тысячи кубив Хотя State of the тогда был там деся десяток или 20 но кто их
1:29:06
там Купил В итоге D Wave IBM Да их реши по-моему Google их в итоге купил на
1:29:11
всякий случай вот большие компании это и компании с хорошей технической э
1:29:16
культурой они это понимают но в компаниях второго эшелона наверное надо отстоять своё право заниматься r&
1:29:24
но я в частности это очень активно делаю и другим советую и я чуть-чуть рулил в
1:29:31
общем вопрос был где ещё заниматься чем но Тань может ты что-то добавишь
1:29:37
мне всегда нравится компании среднего размера в которых так скажем руководство
1:29:44
само имеет отношение непосредственное к исследованиям и руку к не приклады знат
1:29:49
примерно о ЧМ идт речь Почему это важно Это
1:29:54
очень коммерчески успешные истории по этой же причине я бы сказала что мне в
1:30:00
этом смысле больше всего нравится стартап который занимается во
1:30:06
многом тоже большими языковыми моделями но пишет статьи про безопасность
1:30:12
искусственного интеллекта про потенциальные изменения в обществе которые нас ждут и занимается Ну более
1:30:19
так скажем долгосрочным планированием чем это требуется для срочных коммерческих решений помимо этого я
1:30:27
большой фанат антро где тоже Прямо скажем кор команда
1:30:34
вся Ключевая откололась из Open и занимается в Очень большом
1:30:41
проценте своей занятости проблемой безопасности и нивелирования
1:30:47
потенциальных рисков если положить руку нард Мне кажется что из вож задач пусть даже там
1:30:56
есть и прикладные Но это наверное самая важная задача которую можно вообще придумать в области искусственного
1:31:01
интеллекта и люди занимаются прямо ей очень завидую сильно хорошо А если чуть челленджа
1:31:09
подкинуть А что делать с медициной производством то есть такими
1:31:15
областями где кажется что выхлоп огромный потенциальный но понятно
1:31:21
что вся среда не айтишная и все процессы скажем так выстроены годами и
1:31:26
десятилетиями так что ну в общем слегка скептически Все смотрят на новшество я
1:31:32
прекрасно понимаю инженера на который стоит перед огромным станом каким-нибудь
1:31:37
стали литейным вот э Махина не знаю 20 на 40 мтро или каковые реальные размеры
1:31:43
и вдруг приходит какой-то жда про станки Да даже не Можешь прикинуть размер
1:31:50
станка Ты даже не знаешь каких они размеров мому Человек со штанге циркулем да и с
1:31:57
ключом занимался этим всю свою жизнь прекрасно понимает ВС подноготную и тут этот задрот подштанника пришёл и говорит
1:32:02
что эта машина сломается через 2 недели Потому что его моделька так предсказала и Ну до первого раза когда она не
1:32:10
сломалась В общем этот очкарик погуляет по заводу потом его
1:32:15
выгонят Ну в общем да если посерьёзнее то кажется что
1:32:20
потенциал огромный Но вот туда е очень проникают проникает и Ну если вылить на
1:32:28
исходный вопрос то есть Стоит ли пытаться заниматься ресм если ты ну скажем да работаешь на на заводе
1:32:37
Ну там заводы же понятно могут быть мы имеем какую-то картинку там завода в голове но на самом деле там тоже
1:32:42
технологии уже и даже в сельском хозяйстве что ты Таня
1:32:48
думаешь я думаю что некоторые области чи к тому чтобы их так скажем
1:32:56
как это принято говорить ратил искусственный интеллект и Это скорее хорошо По крайней мере области которые
1:33:02
ты назвал в начале это медицина в первую очередь ну также ещё часто там всё что
1:33:08
касается легальных дел там юриспруденции судебной системы и так далее Мне кажется
1:33:14
чтобы очень важно чтобы проникновение искусственного интеллекта там было если оно будет постепенным самым проверенным
1:33:22
самым м чтобы аудит был жесточайший потому что как мы знаем всегда есть
1:33:30
очень большой Соблазн сделать побыстрее сделать вот наколдовать метрики какие-то
1:33:36
выбрать Да там что-то недо проверить в других областях от этого
1:33:41
ничего не случится Да в областях где там кто-то сочинение пишет с помощью ch5
1:33:48
цена ошибки не высока в других областях цена ошибки гораздо выше и там должна
1:33:53
быть возможно и другая ответственность совершенно Угу Ну я наверное тоже тут
1:33:59
ещё добавлю такой возможно трюизм но если человек занимается какой-либо
1:34:06
областью То есть он тот самый subject META Expert в какую-то области и поверх этого он ещё освоил Machine Learning
1:34:14
имеет представление то здесь потенциальный выхлоп сильно выше и Тоже самое касается
1:34:20
дисциплинарных исследований Вот мой брат например довольно там известный в Твиттере демо и
1:34:27
Ну он меня пытался привлечь в демографию я вот что-то ленюсь То есть я не знаю
1:34:32
высокомерно прозвучит или нет но мне интересно следить за тем что делает то есть Вари в этом как первом дивизионе
1:34:40
для меня что-то Аля демография Ну я не скажу что второй дивизион но я не хочу окунаться в среду где я
1:34:48
будуй мака
1:34:53
я буду наоборот очень много чего изучать узнавать от других машин леров Но если
1:34:59
всё-таки сделать такой Квантовый скачок в другую область то выхлоп может быть колоссальный Ну например в демографию
1:35:05
приходят Да люди Ну демография может для тех кто сравнивает её с психологией или
1:35:10
считает что это гуманитарная наука это вовсе не так то есть демография – это анализ данных то есть там те же
1:35:16
статистические методы и в общем-то это переплетено там завязывается на вопросы экономики и вот в ковид особенно
1:35:24
выстрелили демографы которые просто умеют делать прогнозы Да и по смертности и по экономическому влиянию
1:35:31
происходящего и в конечно счёте они умеют консультировать аж правительство И в общем Когда в демографию приходят люди
1:35:38
с образованием компьютер Science ну там это просто видно мой там брат умеет это показывать какие методы они предлагают
1:35:44
там совершенно новые взгляды прорывные там модели модель Как взять предсказать
1:35:51
корректно смертность ско людей Завра в Росси вот там люди с техническим
1:35:58
образованием помогают и конечно Огромный потенциал если и Ма притащить и в
1:36:03
общем резюмируя ещ Да можно делать реч в
1:36:09
междисциплинарных исследованиях и тут потенциал огромен Пока ещё мне кажется это не
1:36:15
очень Протона дорожка потому что ну вот почему-то ребята типа меня не хотят ити в демографию а хотят пость Вт
1:36:22
самы с людьми у которых там глаза горят и изучать новые штуки в искусственном
1:36:28
интеллекте Главное чтобы Как говорится местраль объединились с антром и не получился
1:36:35
мизантропик за это мы и выпьем да последний вопрос наверное аноним
1:36:42
спрашивает а а нет не последний предпоследний А подскажите есть ли смысл
1:36:48
брать для обучения м материалы из статей и книг выпускаемых сдам производи
1:36:54
небольшими сообществами по интересам и если материалы этих сообществ будут достаточно валидные то Могут ли
1:37:00
возникнуть проблемы со стороны
1:37:06
права так Ну наверное первый вопрос как масштабировать доступ к к Сату да то
1:37:13
есть Ну наверно наверное имеется в виду что как бы многие сада са не против чтобы его включили на моей практике
1:37:20
наоборот когда я работала там в нацкорпус русского не было ни единого случая когда кто-то
1:37:27
написал Удалите мою книгу из нацкорпуса А было много случаев когда люди больные
1:37:32
графомания присылали говорили моё произведение срочно надо включить в Национальный корпус русского языка как
1:37:39
бы да Ну вопрос наверное вот как легально определён сам издат Да
1:37:45
вот с издательствами там более-менее Всё понятно у них есть там юрист чтобы это
1:37:51
всё оформить SM наверное там как минимум просто сохраняются все права у авторов текста и
1:37:58
нет какого-то ещё юрлица отдельного которая бы имела какие-то дополнительные
1:38:05
права поэтому здесь Наверное точечные должны быть какие-то договоры что конечно мешает
1:38:11
масштабируемости Прямо скажем вот это прямо как в корпусах очень часто происходит да то есть очень сложно
1:38:18
собрать полностью легальный там национальный корпус русского языка это огромная работа потому что с каждым там
1:38:23
конкретно надо вот работать Ну я наверно смотря на Советский плакат изза твоей
1:38:29
спиной Я наверно представил сам из даты в таком прямо Советском смысле что это там что-то подпольно публикуется и это
1:38:36
ещё надо оцифровывать наверное в широком смысле и архив можно назвать сам из датам да то есть сервис где ты можешь
1:38:42
сам что-то опубликовать но и есть целые такие издательства То есть просто веб-сайт куда ты можешь повесить свою
1:38:49
ФКУ и рту Пир от пользователей какие-то донаты получать если в таком более
1:38:54
широком смысле смотреть на са dat Ну наверное тут Да надо просто смотреть на лицензию Можем ли мы это использовать
1:38:59
для обучения тут Таня собаку съела в этом всём наверное лучше прокомментирует
1:39:05
но Отвечая на вопрос да Безусловно и мы начинаем Да как бы
1:39:11
исчерпывает дотянуться и до таких условно книжек опубликованных самостоятельно на каких-то
1:39:17
сервисах их использовать ну наверное там есть качественный материал который может помочь опять-таки
1:39:23
конечная цель что мы хотим улучшить да то есть хотим ли мы в целом Foundation
1:39:28
Models таким образом улучшить Ну может быть и нет может быть там в каких-то книжках на таких сайтах Не так уж много
1:39:35
уникальной новой информации в сравнении даже с википедие или с корпусами книг но я почти уверен что будут
1:39:45
пытаться Дотянуться до любых корпусов и новых источников тек данных до которых
1:39:51
только можно дотянуться Да я наверное дам вредный здесь совет если очень хочется вот чтобы
1:39:57
данные включили достаточно просто в текстовом формате их выложить под открытой лицензией на github и авторы
1:40:04
крупных больших языковых моделей даже не будут знать Но это уже будет включено так или иначе в их обучающую выборку
1:40:12
А давайте да последний вопрос короткий аноним спрашивает Юрий сеол читаешь
1:40:21
силою читаю Да хоро парень знаем такого Да подписывайтесь на Telegram
1:40:28
канал Юрия ссылку оставили в описании к видео а Telegram
1:40:34
канал Да и в чат тоже Мы пришлём везде пришлём Telegram канал слышна тоже пишет
1:40:40
много про новости было у нас тоже в предыдущих рубриках про ai safet А ну
1:40:48
что друзья у нас был такой прям сегодня очень содержательный Стрим
1:40:53
Спасибо огромное Юра Спасибо что задержался даже там с нами чуть подольше Отвечая на все вопросы
1:41:00
а мне было очень интересно Сегодня я надеюсь что и нашим читателям и слушателям тоже соберём обязательно все
1:41:09
там ссылки которые упоминались сегодня выложим отдельным постом наверно пару слов в назидание
1:41:17
учёным Ну во-первых да мне пришлось Тут прямо как в ковидные времена перебраться в спальню В поисках хорошего интернета
1:41:24
наверное в заключение я ещё раз покажу существо Я не знаю вы там донаты
1:41:32
остановили уже или можно ещё полять донатов Ну ладно О Боже
1:41:37
Да кстати мы тут все вроде увлекаемся пробили Да теори вероятности во-первых у
1:41:45
меня был Royal flash в покере вероятность о к полумиллиона кажется Причём я там только один человек мог это
1:41:52
оценить там мы какую-то девушку обучали покеру только самим правилам она даже не могла это оценить А вот это существо
1:41:58
слови рак там какой-то вероятность тоже один к полумиллиона чуть ли не такая же
1:42:04
да или там 500.000 И благополучно выжила бегает Ну в общем это тост что ли
1:42:09
получился за жизнь не Ну ладно на самом деле напутствие что касается Реча Да
1:42:17
использования Ну напутствие быть добросовестным да то есть Gen ai можно использовать конечно
1:42:25
ну кто запретит но в хороших целях То есть если вы улучшается свой язык таким образом Если вы придумали как
1:42:31
автоматизировать ED expl или всякие мелкие улучшения типа
1:42:38
форматирования латех там этих таблиц с помощью gpt кстати шикарно работает Да конечно Используйте понятно что у вас
1:42:45
никто за руку не поймает никаких детекторов ещё нету И в общем с благими намерениями если Это улучшает
1:42:51
продуктивность вот мы говорили про ту самую акселерацию науки то почему бы нет
1:42:56
ну и надо держать руку на пульсе понятно что скоро Ну мы всё-таки ожидаем Да от
1:43:02
скорее от Open или от других стартапов Ну таких прямо прорывных научных решений
1:43:07
когда Ну прямо вот действительно очень большая часть нашей работы будет автоматизирована но в остальном что не
1:43:15
гонитесь этой за покупать статьи не надо Ну не буду
1:43:21
такие тривиально говорить подтверждает Да код код подтверждает и
1:43:28
Да мне кажется тут как и с написанием кода в целом надо следить как агенты эти
1:43:33
улучшаются и смотреть Что появляется для науки я тут верю всё-таки в хорошее
1:43:40
будущее Тем более что такая альтернативная точка зрения на все на весь этот Чите Да на весь этот фрод
1:43:46
научный что Ну ладно люди там решают какие-то свои задачи нужна тебе э несчастная публикация Да чтоб там ты
1:43:53
закрыл Като в свом Ну ладно опубликовал ты в общем-то не так уж много вреда это
1:43:58
нанесло То есть может быть даже масштаб этого масштаб влияния всего этого читерства может быть он
1:44:07
преувеличенно всё на пут В общем быть на стороне добра и держать руку на пульсе
1:44:13
Да и можно ещё выкладывать статьи в открытый доступ вот Решайте сами как это делать платно бесплатно возможности все
1:44:20
есть Спасибо Огромно Всем нашим зрителям за вопросы
1:44:25
Обязательно оставляйте комментарии к этому видео и до встречи Всем пока
1:44:31
счастливо

Поделиться: