10 глупых вопросов СПЕЦИАЛИСТУ ПО МАШИННОМУ ОБУЧЕНИЮ И АНАЛИЗУ ДАННЫХ

Новый гость “10 глупых вопросов” – руководитель отдела машинного обучения и анализа данных сервиса “Яндекс.Еда” Роман Халкечев. Мы задали Роману глупые вопросы об обучении машин, способах предсказания спроса, аналитике и получили на них умные ответы.

Расшифровка видео

машинное обучение это про то что посмотреть на какие-то исторические данные и научиться предсказывать в будущее мы считаем что машина вот это
0:11
стало действительно искусственным интеллектом научилась решать задачу так же как человек если мы можем показать картинку задать любой вопрос машине
0:18
который можно задать человеку и машина ответить на этот вопрос так же как человек и на самом деле часть задач машина уже сейчас умеет решает лучше чем
0:24
человек хочешь узнать больше о современных и интересных профессиях но боишься задать глупый вопрос мы зададим
0:32
все глупые вопросы профессионалам за тебя они расскажут как съесть на самом
0:37
деле ты смотришь 10 глупых вопросов меня
0:43
зовут роман халке chef я работаю руководителем отдела машинного обучения анализа данных индекс еды с одной
0:55
стороны нет другой стороны да почему нет потому что все-таки машина и обучения
1:02
пока что не на таком уровне чтобы захватывать мир ходить отбирать
1:07
одежды у людей что-нибудь творить создавать совершенно новое чего машина никогда не видела пока что уровень
1:14
искусственного интеллекта или машину обучение такой чтобы идеально синтезировать речь идеально распознавать
1:21
звуки и видеть а с другой стороны да потому что общая идея общая концепция такая же история про то что человек
1:29
познает как-то мир обучается вот и перекладывает эту идею эту концепцию на
1:34
машины соответственно мы хотим научить машину решать задачи которые умеет решать человек например распознавать
1:41
изображение распознавать звук классифицировать как нибудь изображение и так далее поэтому в целом я на есть
1:48
такого не произойдет но каждый день миллионы людей работают над тем чтобы
1:54
машин становился умнее и умнее чтобы появился такой терминатору словно есть разные области науки которые так или
2:02
иначе изучаю компьютеры какие-то вычисления и так далее есть там какая-то большая область называется компьютер
2:08
сайнс или компьютерные науки по русски в этой области есть много разных областей ну под областей вот одна из них
2:15
это машинное обучение есть еще много других смежных областей этом да это сайнс она да это наука
2:23
данных есть там алгоритмы какие-то вот и есть какое-то подмножество
2:28
алгоритмы в какое-то под множество подходов который называется искусственный интеллект во многом так
2:34
это стало называться благодаря скорее людям из журналистики вот которые
2:40
пытались каким-то человеческим образом объяснить о чем вообще математики программисты и
2:47
разработчики занимаются наверное искусственным интеллектом называется к
2:53
это какой-то какая-то область машинного обучения на стыке там алгоритмов анализа
2:58
данных и так далее которое так или иначе на самом деле пытается решить задачи
3:07
которые решают человек вот я до этого говорил про распознавания изображений а
3:13
вот есть там область который называется компьютерное зрение вот это там может
3:18
сказать часть искусственного интеллекта что такое вообще зрение зрение это
3:23
некоторый способ распознавать объекты и понимать что что
3:29
что это за объекта до идентифицировать их и примерно 25 процентов нашего мозга каким-то исследованиям они занимаются
3:37
тем что распознает что находится вокруг нас мы получаем основную информацию в благодаря зрению вот есть компьютерное зрение
3:43
компьютерное зрение это про то чтобы показать какой-то машине какому-то компьютеру картинку и попросить сделать
3:50
то же самое а давай распознаем здесь людей 2 и распознаем здесь какие-то дома и решим там еще ряд каких-то задач и вот
3:57
считается что машины научиться решать задачу так же как
4:03
человек да если пройдет такой тест тьюринга это некоторые некоторой абстракция которая заключается в том что
4:11
мы считаем что машины вот это стало действительно искусственным интеллектом научилась решает задачи такой человек
4:16
если мы можем любой вопрос задать машины показать картинку задать любой вопрос машине который можно задать человеку и
4:23
машина ответить на этот вопрос так же как человек и на самом деле часть задач машина уже сейчас умеет решать лучше чем человек
4:30
например есть такая знаменитая задачка про распознавания пород кошек и собак на
4:35
картинке и прямо сейчас качество алгоритмов уже которые есть написаны она
4:41
сравнима с качеством человека то есть иногда я машин даже лучше распознаёт породу кошки чем человек нейросеть
4:51
сокращу это сокращенно от нейронная сеть давайте чуть подробнее что это такое
4:56
значит в нашем мозгу значит есть такие
5:01
штуки которые называются нейроны нейроны это некоторые объекты у которых который
5:06
на самом деле состоят из двух частей аксон и и дендриты что это такое там я очень слабо
5:12
разбираюсь в медицине но есть некоторая аналогия представьте что это такой шарик у которого есть какой-то хвостик этот
5:19
хвостик подключён к другим таким же шариком и каждый нейрон может по значит
5:24
создавать какой-то сигнал и передавать его по вот этой вот поэтому хвостику есть так представляет получается
5:31
некоторая сеть до из шариков в соединенных воз тиками ну и на самом деле наш мозг довольно плохо изучены мы
5:36
понимаем что примерно он работает так какие-то части нашего организма там и не знаю там мы получаем глазами какую-то
5:44
информацию извне значит слышим ушами получен который информацию из нее не создают некоторые
5:50
сигналы эти сигналы накапливается в этих неровных а дальше передаются по этим хвостиком и таким образом мы решаем
5:57
разные задачи и в какой-то момент значит был придуман алгоритм значит 1 1
6:04
mercedes так называемом персептрон розенблат а вот который по своему устройству да по своей схеме
6:12
был очень похож на эту самую нейросеть в этом алгоритме есть некоторый набор нейронов что называется и
6:18
и и связи между ними все это представляет из себя некоторые не рассеять принято называть который на вход обычно подается некоторое описание
6:25
объекта это может быть картинка например мы просто подаем картинку набор пикселей каждый пиксель а там какое-то число
6:31
целое натурально и мы получаем такой вектор значит набор чисел и дальше мы
6:37
как-то значит с этими числами что-то делаем эти вектора складываем и умножаем применяем
6:42
некоторые нелинейные преобразования а на выходе нам нужно ответить на вопрос например на этой картинке изображена кошка или собака вот и у нас есть набор
6:49
фотографий которые мы разметили прямо попросили людей вот скажите вот на этой фотографии кошка или собака и мы из если
6:55
мы знаем ответы вот мы пытаемся этот алгоритм обучить таким образом чтобы когда мы ему покажем
7:01
картинку он бы отвечал это кошка или собака для тех фотографий для которых нам известен ответ этот алгоритм
7:08
пытается это научиться делать некоторым математическим способом а дальше есть 2 частью всего этого это
7:14
применение этого алгоритма мы натренировали вот эта нейросеть или этот алгоритм а дальше мы берем
7:19
какие-то новые фотографии про которые нам неизвестны на ответ что тут изображено подаем на вход этой нет сети
7:25
и не рассеять пытается угадать предсказать что же здесь изображена кошка или собака в целом вся эта
7:31
конструкция называется нейросеть и это некоторая подобласть машинного обучения [музыка]
7:37
смотря кому если человек хочет заниматься машинным обучением то было бы
7:45
неплохо чтобы он умел считать и это на самом деле не единственное что нужно уметь потому что на самом деле еще
7:50
некоторое время назад когда учился я например в университете в университетах не рассказывали ничего про машинное
7:57
обучение я учился таком классическом факультете математики вот и в целом занимался
8:05
математикой сейчас понятное дело уже в университетах есть прям целый курс и машинного обучения обычно это даже
8:10
начинает происходить с довольно раннего этапа тачек на втором курсе и вы уже
8:16
чему-то учит на самом деле машины обучение это не только про уме считать вот это некоторый стык нескольких
8:22
разделов там можно подискутировать и и наверное считать что нужны разные
8:30
навыки вот но в целом я считаю что машины обучения это право первых математику а именно статистику и теорию
8:37
вероятности потому что это те области которые чаще всего применяется часть чаще всего нужны второе это про
8:43
алгоритмы и на самом деле программирование потому что сейчас есть такое огромное количество данных как
8:50
правило в компаниях что какими-то простыми способами грубо говоря там в excel и очень трудно что-то
8:57
сделать и как правило если хочешь заниматься каким-то анализом данных или тем более машинным обучением нужно уметь писать какой-то код обрабатывать эти
9:03
данные обучат какие-то алгоритмы и 3 я бы сказал что машинное обучение это немного про искусство чем вообще пользователь видит когда открывает наше
9:10
приложение на самом деле он видит если он откроет в центре москвы огромный набор ресторанов их там примерно 300 штук в
9:17
округе и на самом деле это некоторый ступор водит когда открываешь в приложении потому что непонятно как эти
9:23
рестораны пользователю показать этот огромный список понятно что есть некоторые рестораны
9:29
которые пользовались к рейсу понравится а есть некоторые которые не понравятся им не нужно их показывать наверху
9:35
задача такая и что мы можем использовать для того чтобы ее решить мы можем использовать какие-то опять же
9:40
исторические данные мы знаем что пользователь обычно заказывает из вот этих ресторанов или что пользователь в
9:46
целом любит заказывать суши пиццу или бургеры in 1 основе каких-то предпо чтение пользователя мы можем научиться
9:52
ранжировать это называется или сортировать упорядочивать весь набор ресторанов чтобы в самом верху показать
9:58
наиболее релевантные пользователю чтобы не заставлять его тратит там 20 30 минут на то чтобы выбрать пролистает нужно ему
10:04
ресторан и вот эта задача ранжирование есть некоторые исторические данные мы знаем что-то про пользователя и теперь у
10:10
нас есть новые новая сессия то есть пользователь открывает приложение есть некоторый набор ресторанов задача в
10:17
том чтобы взять эти исторические данные обучиться и научиться ранжировать новые рестораны это тоже задач машинного обучения вот
10:23
этаких на самом деле огромное количество которые решаются в яндексе 2 когда перед тобой стоит задача
10:29
например научиться опять же ранжировать
10:34
рестораны в яндексе де то тебе нужно имеющиеся у тебя данные до имеющиеся информацию про то что человек
10:41
выбирал что заказывал превратить в числа вот это в чистом виде как правило творческий процесс то есть ты должен
10:48
подумать о какие общие факторы важны человеку ну понятно ему важна цена да и ты можешь описать заказа человека
10:55
там покинуть средним чеком вот а что еще наверное тип блюд а вообще говоря человеку может быть важно есть картинка
11:02
у блюдо или нет да не которые открывают видят что в меню практически нет картинок и не не выбирают эти блюда и
11:08
блюда с картинками один там гораздо больше популярны а если у нас есть картинка то какие факторы важны но
11:14
наверное цвет картинки а может быть нужно просто всю картинку взять там все пикселя и грубый рез
11:20
кормить алгоритм а вообще задача ранжирования ресторанов осложняется тем что у нас больше 15
11:26
тысяч партнеров на нашей платформе партнеров я имею ввиду ресторанов совершенно разной кухне и там есть и грузинская кухня и марокканская
11:33
итальянская и русская и так далее и нам нужно как-то из этого всего множества ресторанов для
11:39
пользователя с учетом его некоторых предпочтений с учетом его истории заказов выбрать то что нужно именно ему
11:46
подобрать ему максимально релевантную персональную выдачу чтобы ему было легко во всем этом
11:52
многообразии разобраться понять чего он хочет и наконец заказать поэтому тут
11:57
очень много творчества и bus безусловно огромное количество каких-то фундаментальных знаний в математике в
12:02
программе и рование в алгоритма на самом деле на
12:10
первый взгляд в яндекс яндексе да довольно простой сервис человек открывает приложение выбирает из списка доступных ресторанов
12:17
вокруг заходит в один из ресторан выбирают такие блюда он хочет заказать нажимаем заказать а после этого мы
12:24
привозим этот заказ но на самом деле если рассматривать систему в целом то это довольно большая система в которой
12:31
есть во первых наши пользователи да это которые размещают заказы во вторых рестораны которые эти заказы принимают и
12:38
в-третьих курьера ну и давайте рассмотрим одну из задач которые нужно решать в тот момент когда создался заказ
12:43
самое первое что нам нужно понять это кого из курьеров попросить этот заказ
12:48
выполнить на какого курьера назначить этот заказ это первое а второе в какой момент времени это сделать ну вот если
12:54
подходить к этой задаче очень просто да первое что приходит на ум а давайте
12:59
найдем ближайшего курьера к ресторану и в тот момент когда создан заказ назначим заказ на этого курьер этот
13:05
курьер придет в ресторан получит блюда и отнесет человеку вот ну и вот на самом деле какое-то время ровно так это у нас
13:11
работала но затем мы стали вообще анализировать и вообще происходит в
13:18
яндекс еде и заметили что если взять время которая курьер у нас работает скажем вот он вышел работать на смену на
13:24
шесть часов то 40 процентов времени этого из шести часов курьер сидит в ресторане и дожидается когда приготовит
13:31
заказ и в этот момент мы поняли что вообще говоря когда нам пришел заказ нам
13:36
нужно не сразу назначать курьера а каким-то образом понять в какой момент назначить курьера так чтобы он пришел
13:42
когда ресторан уже приготовить это блюдо то есть приводить курьера не в самом начале а к моменту конца готовки и вот
13:48
довольно простая идея но сразу возникает вопрос а как определить сколько ресторан будет готовить ту или иную корзину
13:54
понятно что если там есть три стейка то это одно время а если такой простой я не
13:59
знаю супчик пюре или салатик это может быть совершенно другое время и вот в этот момент на помощь приходит машинное
14:05
обучение машинное обучение мы ему можем сказать что вот у нас был набор каких-то блюд до набор каких-то
14:12
корзин и ресторан вот столько времени и готовил машин на это посмотрит обучаться да поэтому это называется машинное
14:19
обучение и затем мы будем показывать новую новую корзину этому алгоритму и
14:24
алгоритм основываясь на исторических данных по пытается предсказать а сколько будет готов к вот этого самого вот этих
14:30
самых брат вот этого самого набора машинное обучение это про то что посмотреть на какие-то исторические данные и научиться предсказывать
14:36
в будущее и значит чем мы сделали мы обучили такой алгоритм который по набору
14:41
блюд предсказывать сколько и по ресторану какому-то конкретному потому что для разного ресторана это может быть
14:47
по разному и на самом деле для разного момента времени да там понятно что в обед в ресторане запарка и там какие-то
14:54
блюда могут готовятся дольше а скажем какие-то там ранние утренние часы меньше и мы начну научили машину предсказывать
15:01
нам вот есть конкретный ресторан есть конкретное время есть конкретная корзина сколько она будет готовиться в
15:08
только мы научились это делать если у нам поступает новый заказ мы предсказуем сколько ресторанного будет готовить и
15:13
дальше уже определяем в какой момент назначить курьер это одна из задач которые можно решить с помощью машинного
15:19
обучения этот алгоритм на самом деле можно применять не только для этого можно например человеку показать а через сколько ему примерно доставят заказ ведь
15:26
мы знаем сколько будет готовить и мы знаем по маршрутизатору грубо говоря по навигатору сколько чего
15:32
начать курирует безусловно доставка ним а для нас не может быть бесплатные потому что я выполняю человек который мы
15:37
должны заплатить и мы знаем значит расстояние которое человек проходит время которое он тратит на это и исходя
15:44
из этого исходя из некоторых ставок которые получают курьер в городе
15:49
рассчитывается цена при этом вы могли заметить что в разное время цена может
15:54
быть разной в какое-то время там она чуть выше какое-то время она ниже и этот любимый вопрос моих друзей какого черта
16:02
сейчас дороже может быть это связано с тем что у меня и фонтаны на андроиде
16:07
будет дешевле да это все неправда значит сразу скажу модель телефона не имеет значения
16:13
расскажу что имеет значение в общем вообще яндексе да это такой marketplace что это значит это значит что у нас есть
16:20
спрос и предложение спрос это как я говорил до этого наши пользователи которые размещают заказы на по сути это
16:26
заказы а предложение этой рестораны и курьеры которые значит наши партнеры которые
16:33
работают доставляет наши закат и нам важно чтобы значит спрос некоторым
16:38
образом соотносился с предложением чтобы его удовлетворяли потому что если спроса будет слишком много то мы не сможем
16:43
доставлять заказы мы будем их отменять мы будем сильно опаздывает приводить остывшую еду и это
16:49
будет плохим сервисом для пользователей и наоборот если предложение будет
16:55
слишком много и не будет хватать спроса то на всех заказов не хватит курьеры в
17:00
итоге расстроится и уйдут нибудь работе и на самом деле мы всё время стараемся балансировать спросом и предложением мы
17:06
у нас есть некоторая такое предсказание опять же которым мы делаем с помощью машинного обучения этого самого спроса
17:12
сколько у нас будет заказов в этом районе в этот конкретный час и дальше мы понимаем а сколько нам в целом
17:17
нужно курьер чтобы удовлетворить этот спрос но разумеется машинное обучение
17:23
не всегда работает на сто процентов не всегда на с точностью до заказа мы можем это предсказать это связано с разными
17:28
факторами это может быть например изменения погоды пошел дождик и реально у нас люди стали больше заказывать
17:34
потому что они отменили свои планы пойти в ресторан решили посидеть дома заказать еду домой и на 30 процентов у нас вырос
17:42
спрос на 30 процентов больше заказов дальше встает вопрос что с этим делать да мы можем взять и начать
17:47
значит все заказы все равно принимать вот но понятное дело что мы их все не
17:53
вывезем и либо мы эти заказы отменен в какой-то момент через 20 минут когда
17:59
поймем что курьер не находится либо мы очень сильно опоздаем на час либо привезем там остывшую еду и люди
18:06
расстроятся вот поэтому мы используем другой способ срезания спроса да не так
18:12
что просто приняли заказ сказали у все окей мы вам привезем а потом отменили или опоздали на час мы начинаем повышать
18:18
цену ну это классический такой способ срезать спрос и значит имя некоторая
18:24
эластичность спроса по цене мы начинаем повышать цену и те люди
18:29
которым ну которые могут воспользоваться альтернативным способом до приема пищи и
18:35
которым прямо сейчас это неважно они не заказывают а те люди которые действительно день рождения нужно
18:40
отметить и иначе полевая сколько это стоит они у нас закажут почему это важно потому что
18:45
по нашим исследованиям люди гораздо есть к метрика возвращаемся клиентов до
18:52
рита яншин это у нас называется у людей и нам важно чтобы люди возвращались к нам пользоваться нашим сервисом и мы
18:58
видим что рецепшен гораздо выше гораздо выше возвращаем а в случае когда мы
19:03
скорее подняли цену и человек заказал дороже или вообще не заказал в этот раз заказал чуть попозже когда спрос спал
19:09
чем если мы приняли заказ отменили привезли слишком поздно я и человек вообще от нас
19:14
ушел и расстроился ровно поэтому мы вынуждены иногда поднимать цену чтобы сделать так чтобы спрос
19:21
начался относиться предложения
19:27
как вообще делаются приложение которое использует машинное обучение так или иначе или какие-нибудь данные здесь есть
19:33
два разных способа как правило приложение это некоторый интерфейс это некоторый такой фронт-энд который
19:39
видит уже человек и на самом деле приложение она и запускается на мобильном телефоне и мобильный телефон
19:46
он сейчас уже мобильный телефон довольно мощные да наверное сейчас мобильный телефон такой штраф какое то время когда
19:52
там мы мы летали на луну у нас были меньше мощности во всем во всей ракете но в целом какие-то сложные большие
19:58
алгоритмы конечно же не применяются в на устройстве да это происходит на
20:04
удаленном сервере то есть обычный человек открывает приложение вот ну тоже примеры индекс еды мы хотим решить какую
20:13
нибудь задачу и показать человеку какую-нибудь рекомендацию до
20:18
рекомендацию блюд на основе каких-то исторических данных его заказов на основе данных которые есть у нас про
20:24
других пользователей на него похожи и это на самом деле действительно довольно большие данные которые просто память
20:29
телефона не поместится а если ты еще захочешь их как-то обработать это может занять какое-то продолжительное время человек понятно не стоит заставлять
20:36
ждать поэтому как правило все вычисления происходят на удаленном сервере вот и это довольно быстро это занимает меньше
20:43
нам 500 миллисекунд вот а уже ответ да уже какая-то подборка рекомендации
20:49
пересылается на устройство и показываться человек но бывают на самом деле какие-то приложения которые
20:55
выполняются прямо на устройстве когда это может быть понадобится во первых тогда когда какая-то функция телефона
21:03
должна действовать и в отсутствие интернета или когда есть какие-то сенситив данные которые мы не хотим
21:09
передавать на удаленный сервер например если у вас есть там какой-нибудь мобильный телефон допустим
21:15
iphone или бизнесом samsung в них сейчас такая очень классная функция есть который
21:20
позволяет с помощью фейса иди разблокировать телефон очень важно сделать так чтобы этом от отклик был
21:26
максимальный у этого алгоритма и в этот момент нам не подходит вот это вот связь
21:32
по интернет очень просто интернета может не быть тем телефон захочется разблокировать поэтому какие-то алгоритмы специально оптимизируют для
21:38
того чтобы они работали на телефоне ускоряют их делаю так что по нему потребляли меньше памяти и так далее на
21:47
самом деле вроде такой смешной вопрос хочет смотреть поставить двойку провести
21:53
воспитательную беседу но вопрос очень глубокий потому что на самом деле регулярно машина плохо учится вот и
22:00
никогда не получается с первого раза сделать так чтобы задача решалась очень хорошо с нужным
22:06
порогом качества и так далее я даже на собеседовании когда ко мне приходят ребята таки
22:12
заниматься машинным обучением часто спрашиваю вот представь что у тебя есть
22:18
какая-то определенная задача ты значит обучил некоторую формулу некоторый алгоритм и он плохо работает что будешь
22:23
делать вот но на самом деле вопрос такой очень глубокий и широкий потому что это может происходить по
22:30
разным причинам и первое это нужно определить а в чем может быть причина того что он плохо учится причина может
22:36
быть например в том что те данные на которых мы этот алгоритм очень они плохо
22:41
собран и неплохие давних есть ошибки и так далее это вполне часто-часто кейс
22:46
вот потому что данные значит источники данных могут быть разной предположим с данными все нормально может оказаться что данных
22:53
недостаточно просто чтобы машина научилась что-то хорошо предсказывает работ каким достаточным качеством
22:58
данных на самом деле нужно очень много зависимости от задачи в зависимости от сложности этой задачи и уровня качества
23:06
которое нам нужно это может измеряться там от десятков тысяч примеров до каких-то размеченных данных тех же
23:13
фотографий до на самом деле миллионов и чтобы определить достаточно данных или нет есть понятные какие-то конкретные
23:18
способ дальше ошибка может быть в том что мы просто не верный алгоритм выбрали и значит из множества алгоритмов просто
23:25
это задачи нужно решать как-то иначе и как правило это уже некоторый опыт это некоторая
23:31
экспертизы человека который это задача занимается то как по данным epa задачи и по метрике которые мы оптимизируем
23:38
подобрать нужный алгоритм дальше может быть ошибка буквально там человеческий фактор в значит в коде какой-нибудь бак
23:46
чего-нибудь мы неправильно написали код и предсказываем не то что на самом деле нужно или как-нибудь неправильным
23:54
образом алгоритм используем такое тоже часто встречается и значит для этого нужно посмотреть на код внимательно
24:00
поискать ошибки какие-то тесты возможно написать и так далее ну и на самом деле
24:06
последнее что может происходить это просто ну задача может быть на данном этапе развития человечества нерешаемой
24:12
вот просто ну не можем мы достаточным уровнем качества решить эту задачу обучить машинное обучение справляться с
24:19
ней и это тоже нормально очень важно понимать про машинное обучение что никогда не бывает алгоритмов которые на
24:27
сто процентов правильно решают задачу и есть несколько подходов к тому чтобы с этими ошибками
24:33
жить и существовать во первых можно там заранее подумать о какого рода
24:39
последствия будут у таких ошибок и предусмотреть какие-нибудь так называемый fall back и это называется
24:46
значит в индустрии ну грубо говоря какой такой план б вот предположим значит совершенно неадекватно себя ведет
24:52
алгоритмы предсказывать что-то непонятное ну давайте тогда там что если мы не уверены до как правило
24:59
машина выдает как некоторые отверстия которые вечности не будем значит машиной значит это делать а предложим человеку
25:06
это решит но давайте на комнате примере бы steam мы распознаем текст когда
25:11
человек фотографирует свой этом кредитную карточку чтобы привязать приложению оплатить там обслужи индекс
25:18
еду одна из задач машина обучение это просто распознать текст который написан вот и мы можем какой-то текст распознает
25:23
достаточно уверенность а где то мы можем быть не уверены и в этом случае мы можем предусмотреть такой план б
25:29
если мы не уверена давайте просто человек попросим ввести или попросим еще раз его поднести который насчитывает
25:34
фотографию вот это один из способов но разумеется никогда невозможно предусмотреть все ошибки которые могут
25:40
быть и тут такое дело что если ты внедрил свой бизнес или в свое приложение где-то какой-нибудь алгоритм
25:48
да там какой-нибудь не рассеять какой-нибудь градиентный гус-ting но там любая машина мучения нужно понимать что
25:53
эта машина обучение навсегда с тобой если поменяется мир изменится природа
25:59
данных которые поступают на вход может что-то начать ночь на сбоить может что-то сломаться и нужно это понимать
26:04
нужно всегда иметь мониторинге на это чтобы максимально быстро отлавливать такие ситуации и вносить какие то правки
26:11
в алгоритм для того чтобы хранить данные которых на
26:17
самом деле с каждым днем становится все больше и больше это уже некоторым терабайт и петабайты данных ли этого мы
26:23
яндексе ну и на самом деле большинство компаний используют это большие сервера какие-то большие дата-центры это центр
26:29
можно использовать например покупая используя услуги
26:35
пользуясь услугами каких нибудь компании вроде amazon облака так называемый дата-центра amazon
26:43
google клауд на самом деле даже тоже индекс делает yandex облака умела я свои облака вот а можно строить свои
26:49
дата-центры облака это такая метафора дата-центры на самом деле то есть то что мы называем облакам мы называем не что
26:56
некоторые компьютер некоторые вычислительные мощности которые находятся не но вот этом физическом устройстве за которым я сейчас пользуюсь
27:02
а где-то далеко но мне кажется основная проблема которая
27:10
возникает у взрослых людей это даже не то что они как не понимают как как этим
27:15
пользоваться как это работает и так далее вот как правило проблема в том что не всегда
27:21
интерфейс довольно понятен не всегда человек в пожилом возрасте не очень
27:27
острым зрением может видеть чего chef приложений описано как подписаны кнопки в целом для этого
27:34
разной компании там применять разные техники проводят какие-то unix исследования населения как они там
27:41
продуктом пользуются каким-то вот и подстраиваться под них могу привести пример такого да это driving
27:49
подхода да это время походов когда мы смотрим на некоторые данные про то как пользователи используют просить за
27:56
тавтологию наше приложение и затем улучшаем продукт дело его более удобным для меня стал шоком когда я понял что
28:04
большинство людей когда открывает приложение яндекс такси вообще не двигают .
28:11
а то есть точка в которой нужно вызвать такси а просто сразу же нажимает заказать то есть если как-то это это вот
28:18
красненькая штучка наше приложение называется пин вот и человек совершенно
28:23
не перемещает его в этот момент мы поняли что на самом деле у геолокации дал gps а есть некоторая погрешность
28:30
если совсем не перемещать вот этот пин то машина может приезжать не туда и
28:35
многие люди от этого страдают потом занят водители пытаются на эти водители и так далее вот и мы поняли что на самом
28:41
деле нам опять же опять таки нужно предсказывать а вот человек открыл приложение в это время примерно в этом
28:47
месте а куда ему поставить этот пин чтобы машина приехала туда где он на самом деле находится и когда мы поняли
28:53
что половина людей там примерно 50 процентов пользователей вообще не двигаю этот пин мы начали решать задачу такого
29:00
авто притягивание то есть притягиваем точку какой-то удобной точке посадки где в этой окрестности этот конкретный
29:06
человек уже садился либо если он отсюда никогда не уезжал какие-то другие люди отсюда обычно выезжают и
29:12
делаем ровно так воскресенье на самом
29:20
деле мне кажется что ничем не отличается от любого разработчика
29:26
из дизайнера и так далее я чуть больше работаю в такой войти структуре поэтому
29:34
там про другие индустрии говорить не могу но в целом наверное отличие в том что как правило поскольку довольно
29:40
творческие это творческие люди творческой работы у них там связанная с каким-то мыслительными процессами и там
29:48
сложными алгоритмами компаниям важно чтобы задачи во время сходились и и делались а на самом деле в какое время
29:54
человек ими занимается не столь важны порой для того чтобы решить ту или иную задачу просто вдохновение нужно вот и
30:01
как правило в таких индустриях нет какого-то четкого распорядка дня что в этом в 9 нужно быть
30:08
на работе в шесть вечера нужно уйти обычно это гибкий график в нашей компании это так что ну рекомендуется с
30:15
12 до 6 точного из офиса работать потому что есть какие-то встречи просто потому что иногда проще дойти до
30:21
человека и с ним за две минуты что-то обсудить чем делать это в переписке которые затянется там на два дня а так в
30:27
целом то есть человек комфортно приходить к одиннадцати вот и или работать там до одиннадцати вечера
30:33
то это не проблем совершенно [музыка]
30:40
я надеюсь никогда но я точно знаю что будет происходить то что на самом деле
30:47
уже много раз мы видели будет происходить автоматизация вот есть огромное количество некоторого рутинного
30:54
труда которым прямо сейчас занимается человек и на самом деле который можно
30:59
автоматизировать и значит поручить человеку что они более интеллектуально что более творческая топ чего пока не
31:06
умея делать машина и такое я думаю будет происходить вот на самом деле уже происходит целом я думаю так что машины
31:12
будут делать нашу жизнь интереснее потому что избавит нас от необходимости заниматься каким-то рутинными делами
31:19
стоят в очередях делать какой то супер простую примитивную работу которую мы
31:25
все занимаемся еще один пример применения машинного обучения этом в магазине да давайте расскажу например
31:31
яндекс лавке что это такое во первых это сервис который там совсем недавно появился ему еще меньше года этот такие
31:38
магазинов которые не нужно ходить из которых можно заказать доставку какого-нибудь товара кефир хлеб зубную
31:46
пасту и тебе его привезут в течение пятнадцати двадцати минут какие задачи
31:51
вообще стоят в яндекс лавке который можно решать с помощью некоторых алгоритмов с помощью
31:57
анализа данных с помощью мыши на обучение приведу пример следующие задачи у нас есть какие то значит индекс лавке
32:04
это такие склады в которых хранятся продукты товары и так далее ну и на самом деле как и любому ритейлеру нам
32:09
нужно понимать о какой ассортимент у нас на должен быть она какой ассортимент будет спрос и сколько этого ассортимента
32:15
в самом вас закупить при этом это задача довольно сложная потому что есть много ограничений давайте начнем с того какие вообще
32:22
метрики какие какую функцию мы оптимизируем самом деле мы оптимизируем две функции мы хотим чтобы а когда человек открывал
32:29
в приложении у него был максимально доступен весь ассортимент то есть доступность чтобы не было такого что там
32:35
яблоки закончились кефир закончился молоко закончилось и b при этом мы хотим чтобы у нас был было минимум списание
32:41
чтобы не было такого что мы закупили товар и 30 процентов мы его не раскупили и мы его списали разумеется что это 2 в
32:48
некотором смысле противоречите противоречащие задачи чтобы оптимизировать доступность нам нужно по максимум всего закупать что
32:55
всегда все было на полках а значит нашего склада а чтобы уменьшить списание
33:00
нужно по минимуму всего закупать чтобы уж точно все купили именно здесь приходит на помощь машинное обучение у нас есть некоторые исторические данные
33:07
как покупали тот или иной товар и мы на основе него можем на самом деле предсказать вперед в эту словно в
33:13
понедельник такой-то недели такой-то лавки в таком-то районе с учетом таких то пользователей сколько у
33:20
нас купят каждого товара и исходя из этих данных мы можем уже планировать закупки а ещё у нас есть много разных
33:26
ограничений у нас есть ограничения по бюджету мы не можем закупить там всего на миллионы тысячи рублей и вот а потом
33:34
на самом деле носить ограничение по складу до невозможно хранить бесконечное количество товаров а ещё у
33:40
нас есть ограничение по минимальному кванту закупки да нельзя купить скорее всего нельзя там например там 15
33:47
неккер софтом минимальная поставка по 50 а это уже влияет на списание если мы слишком много купим там и значит срок
33:54
годности пройдет у сникерса возможно не так быстро но каких не скоро порчи товаров быстро а ещё у нас есть
33:59
ограничение по поставщикам до которые не моментально по начинаешь ему хотенью поставляют
34:05
закупки поэтому и такой сложный процесс закупок в котором огромную роль на самом
34:10
деле играет машинное обучение которое нам предсказывает спрос на каждый товар и уже исходя из этого предсказания мы
34:15
планируем закупки мы планируем поставки этих товаров и дальнейшее продаж или если взять кредитам тоже яндекс такси то
34:24
раньше как выглядел вызов такси да ты звонил по телефону диспетчер связывался узнал твой адрес
34:30
связался с таким набором таксистов предлагал им выполнить эту поездку вот и нам примерно 30 40 минут в зависимости
34:38
от города ты ожидал машину потом ты пытался вина ити она куда-то не туда
34:43
подъехала вот сейчас есть удобное приложение ты открыл его разместил заказ и там в москве например там со средним
34:51
время ожидания там 3-4 минуты приехала машина почему то происходит абсолютно автоматически алгоритм
34:56
понимает какой водитель ближе находится он водителя удобнее на значит заказ среднем по системе чтобы
35:03
время ожидания была маленькая мы там человек показывает некоторую карту и он
35:08
может ориентироваться по ней видит где находится он где машины и так далее и на самом деле и в экономит время вот мне
35:14
кажется что одна из важных вещей которые алгоритмы которые проникают нашу жизнь
35:20
это просто экономя нашего времени и освобождение нас от какую-то ожидании чего нибудь от рутинных задач и
35:27
так далее
35:35
сейчас есть огромное количество онлайн-курсов да то есть если вы не получали профильное образование в
35:40
университете то всегда можно открыть любую площадку с онлайн образованием и почти наверное там окажется какой-нибудь
35:47
курс в этом видении в машинное обучение о ней россии эти компьютерные зрения
35:52
таки под ключевые слова по которым можно искать можно взять ту же курсору посмотреть там там много разных полезных
35:59
лекция от ведущих университетов или от ведущих компаний можно взять какие-то
36:04
платные курсы этом практикумы и так далее вот это прокат самообразование про
36:09
онлайн про то что можно делать условные из дома из любой точки мира есть понятное дело разные университеты если говорить про
36:17
москву то наверное топ университетов по выпускникам коты занимаются машинным
36:23
обучением там в компании также в том же яндексе наверное это и мгу факультета мехмат или
36:29
вмк это физтех безусловно вот это вышка
36:35
вышки есть замечательный факультет компьютерных наук которым я учился на котором много курсов если вы уже не
36:41
студент и не школьники не можете выбирать но все равно хотите поучиться оффлайн то они в онлайне там общаясь с
36:49
преподавателем то сейчас есть огромное количество каких-нибудь курсов при университетах вот как правило они там
36:55
платные но есть и бесплатные куда можно походить ну и наверное мое любимое
37:00
учебное заведение в котором я тоже учился эта школа анализа данных такой вечерняя школа при индексе двухгодичной
37:06
в которой может поступить абсолютно любой человек с абсолютно любым бэкграундом который сможет сдать экзамен в эту школу вот мы такие занятия 3 раза
37:13
в неделю по вечерам в офисе индекса которым обучают многим вещам связанных с
37:19
анализом данных с машинным обучением [музыка] на самом деле зависит от уровня конечно
37:26
же от ну какой-нибудь человек который только что закончил вуз и пришел на
37:32
стажировку небольшую компанию наверное он может зарабатывать ну уж точно рассчитывать на 60 тысяч рублей в месяц
37:39
до на самом деле практически потолка нету вот можно ставить
37:45
директором падает ассаинт в крупной компании технологичное вроде там яндекса каком-то
37:53
касперского или какой нибудь компания на бирже торгует это алгоритмы пишет и получить там очень большие деньги там
38:00
миллионы рублей в месяц карьерный рост
38:06
заключается значит в следующем есть несколько ступеней есть там стажировка приходишь в
38:14
индустрию ты ничего не знаешь про бизнес и скорее там мешки то в теории алгоритмы
38:20
обучать после стажировки человек обычно становится таким junior да это сантис
38:25
там что называется такой младший разработчик который уже имеет какой-то опыт возможно еще не совсем эксперт вот
38:34
но уже какие-то простые задачки решать может если мы где composer uid после этого на человек набирается опыта
38:40
опыта становится таким medlock от ким уже средненьким специалистом который уже
38:45
и понимает данные и может формулировать задачи и переформулировать ее из того
38:51
что нужно бизнесу в термины машинного обучения в термина какой-то математики после этого как правило в компаниях есть
38:56
разветвления можно расти как эксперт становиться там сеньорита сантис там да
39:01
и так далее а можно смещаться чуть в сторону руководства начинает видеть
39:06
команды этот чуть другая роль вот потому что оно подразумевает чуть меньше
39:12
программирование чуть меньше решения задач и чуть больше кого-то управления целеполагания декомпозиции задач я такой
39:19
классический трек такой кот моментом либо супер эксперт либо хорошего говорить самое классное что
39:29
есть в нашей профессии это то что машина обучение абсолютно универсальна его можно применять к абсолютно разным
39:35
областям можно работать в яндексе заниматься поиском и по запросу находить нужные сайты в интернете можно пойти в
39:42
банк задачи решать задачу кредитного скоринга и предсказывает какой
39:47
вероятностью человек вернет кредит чтобы принимать решение выдавать его или нет можно пойти на производство получать
39:53
данные с датчиков которые делают бензин и понимать что сейчас что-то пошло не
39:59
так и нужно какой-то вещества добавить вот наверное самое классное что на самом
40:05
деле если у тебя какие-то фундаментальные знания про алгоритмы про математику тут и придя в любую индустрию там за
40:11
полгода погрузившись чуть больше предметную область уже можешь достаточно хорошим качеством решать задач это круто
40:19
[музыка] никогда не задумывался в терминах бесит есть есть что то что наверное не
40:26
нравится не нравится это то что иногда ты занимаешься какую-нибудь задача
40:32
и она может быть там чисто исследовательской ты проводишь какое-то небольшое исследование на тему того в
40:38
общем можно ли эту задачу решить какими способами и так далее и даже с каким-то качествам и и решаешь но потом
40:44
оказывается что ну внедрить это совершенно не получается по какой-то причине либо по причине того что пока что это
40:51
дар вот достаточно медленно и там вычислительных мощностей нету либо по причине того что она самом деле бизнесу
40:57
нужно чуть-чуть по-другому и ты сам начале сделал ошибку это мне не совсем
41:02
ту задачу решал а рядышком задачу вот такое бывает такое бывает наверное в каждой индустрии что ты что-то дела на
41:09
потом это ушло в стол
41:14
мне кажется что очень важно если начинаешь специалист это найти комьюнити
41:21
вот не пытаться изучить все самому обязательно найти людей которые могут
41:27
это делать с тобой вот и общаться [музыка]
41:34
машины обучения классно [музыка]

Поделиться: