Лучшее место для практики в data science – Kaggle: Что это и зачем он вам.

В этом видео расскажу о таком сайте как kaggle. Что это, зачем он вам и как начать, все это вы узнаете в ролике. Это лучшее место для практики в data science.

Расшифровка видео
0:00
привет дорогие друзья каждому
0:02
начинающему dat ass on this то
0:04
необходима практика но иногда и просто
0:06
негде взять
0:06
а без опыта работы на реальными
0:08
проектами вам не предложат работу ни
0:10
одна компания конечно можно сделать под
0:12
проект
0:12
но если делать в одиночку достаточно
0:14
скучно и можно быстро его забросить и в
0:17
этот момент к вам на помощь приходит
0:19
сайт cable
0:19
сейчас я вам расскажу что это такое чем
0:22
он может быть вам полезен и как на нём
0:23
стартовать поехали к вел эта платформа
0:25
для соревнований между data so in this
0:27
to me то есть организаторы дают вам
0:29
какую-то задачу и вы с тысячами других
0:31
коллег пытаетесь выбить наилучшие
0:33
показатели метрики на предоставленных
0:35
вам данных победители получают денежные
0:37
призы как правило вот недавно было
0:39
соревнование где за первое место давали
0:41
500000 долларов не плохо правда то есть
0:43
по участков соревнований вы получаете не
0:46
только опыт работы над реальным проектом
0:48
но еще и шанс выиграть денежный приз
0:50
по моему сплошные плюсы почему же когда
0:53
они множество других сайтов подобных ему
0:55
можете спросить вы но во первых kaggle
0:58
самый крупный из них и во-вторых на
1:00
кабеле есть очень хорошая инфраструктура
1:01
для получения реальных навыков работы
1:03
над проектами новичками давайте об этом
1:05
немножко поподробнее во первых на кегли
1:08
я система public корнилов еще называют
1:11
ноутбуки то есть любой участник
1:13
а как правило это специалисты со всего
1:15
мира может выложить свое решение в
1:17
открытый доступ и вы можете его
1:19
посмотреть посмотреть какие-то техники
1:22
почерпнуть какие-то знания навыки ловкие
1:25
так далее и все это впитать в себя вот
1:28
такой образовательный момент во вторых
1:30
это очень дружелюбный форум там отвечают
1:33
на вопросы новичков без сарказма без
1:35
троллинга в общем если какие-то вопросы
1:36
есть обязательно туда пишите вам ответят
1:39
в третьих это соревнования то есть
1:40
соревновательный дух может подталкивать
1:43
вас мотивировать работать дальше и не
1:45
забросить и соревнования на середине 4
1:48
на кабеле есть и небольшие курсы которые
1:50
помогут вам во первых разобраться как
1:53
работает сама платформа во вторых
1:54
повторить необходимые навыки которые
1:56
необходимы вам для решения соревнований
1:59
но курсы достаточно поверхностные
2:01
поэтому если вы хотите по ним именно
2:03
изучать эти темы то и вам этого не
2:05
рекомендую только для повторения
2:06
есть конечно несколько минусов этот сайт
2:08
полностью на английском языке
2:09
причем достаточно такой непростой язык
2:11
где
2:12
очень много применяют термин а в
2:14
каких-то научных и иногда с этим нужно
2:16
разобраться даже если у вас хороший
2:17
уровень языка но чем не повод собственно
2:19
подтянуть английский не правда ли во
2:21
вторых это все-таки соревнования здесь
2:23
участвуют такие титаны прямо с
2:25
кремниевой долины людей со всех стран
2:27
мира поэтому конечно выиграть очень
2:30
сложно вам для этого нужно очень много
2:32
знаний
2:32
очень много сил нужно приложить в
2:36
третьих что немаловажным вам нужно очень
2:38
много вычислительных ресурсов иметь
2:40
конечно в google к лобби можно победить
2:42
но это скорее исключение будет не надо
2:44
расстраиваться на как лесу система
2:46
поощрительных призов топ 10 процентов
2:49
решений получают так называемой медальки
2:50
которые тоже котируется многих
2:52
работодателей особенно золотые и
2:54
серебряные но помните в первую очередь
2:55
мы с вами сюда пришли за получением
2:59
знаний и навыками работы над проектами
3:00
они за победой но не переживайте они
3:03
тоже
3:03
вам придут со временем третий минус что
3:06
накал нужно приходить все таки уже с
3:08
каким-то бэкграундом вам необходимо
3:10
закончить несколько курсов под это со ин
3:12
су
3:12
чтобы вы не зашли в конь публичный
3:14
ноутбук и так его все сложно ничего не
3:16
понимаю биться головой будете огниво
3:18
сидеть пытаться построчно разбираться
3:20
но это будет очень эффективно я
3:22
рекомендую сначала пройти какие-то курсы
3:24
а затем уже приходить на ковер и
3:26
быстренько свежей головой все это дело
3:29
разбирать так давайте теперь далее
3:31
расскажу как стартовать на своем первом
3:33
соревновании на игле кстати числа 2002 7
3:36
я проведу прямую трансляцию на канале
3:37
где мы разберемся еще поподробнее как ли
3:41
я отвечу на ваши вопросы а также мы на
3:43
примере одного из соревнований пройдемся
3:45
шаги которые я расскажу в этом видео а
3:46
также разберем какой-нибудь публичный
3:48
kernal с билайном также у нас будет
3:51
розыгрыш
3:52
который я анонсировал в телеграме так
3:53
что жду всех обязательно отметьте что
3:55
всем все советы это основаны на моем
3:57
личном опыте поэтому если вы можете
3:59
дополнить их как-то то обязательно
4:01
носить комментариях это будет очень
4:02
полезно и мне и всем остальным
4:03
подписчикам и так вы закончили парочку
4:05
курса под это сансу и решили прийти
4:07
покорять cable
4:08
зашли на сайт увидели какое-то
4:10
соревнование которое вам понравилось и
4:12
думаете как же к нему подступиться я
4:15
выделяю 6 шагов которые вам необходимо
4:17
пройти и первый шаг это полностью
4:20
изучить всю информацию которую вам
4:22
предоставлен организаторы об этом
4:23
соревновании
4:24
где это можно посмотреть у каждого
4:27
соревнования есть вкладка где
4:29
соревнования описывается где указаны
4:32
какие то там timeline и evolution и и
4:36
так далее в общем это все нужно
4:37
обязательно изучить например
4:39
соревнование house price is заходим
4:42
дискрипшн
4:43
и видим что здесь написано что отличное
4:47
соревнования для тех кто только стартует
4:49
в машинном обучении вам нужно
4:51
предсказывать цену дома по каким-то
4:53
другим его параметрам все в принципе
4:57
максимально короткое описание все просто
4:59
и понятно таки она все отлично мне это
5:01
нравится я смогу это решать мне будет по
5:03
приколу если вам соревнование не
5:06
нравится уже на этом этапе я рекомендую
5:07
его поменять потому что ну через из-под
5:09
палки конечно решать тяжеловато будет
5:11
итак мы разобрались с описанием теперь
5:14
нужно исследовать данные какие нам дают
5:17
организаторы заходим во вкладку дейта и
5:20
видим что у нас здесь дано несколько
5:22
сисви табличек с тестовыми tray нами
5:25
данными и видим что у нас здесь очень
5:28
много параметров дома там количество
5:30
квартир каком районе находится и есть
5:32
колонка в которой есть цена дома
5:34
именно ее мы и будем предсказывать нашим
5:37
соревнований на тестовых данных окей
5:39
разобрались у нас задачи регрессии все
5:41
понятно можно переходить к шагу 2 на
5:45
втором шаге нам необходимо изучить
5:47
какая метрика заданной организаторами
5:50
которая будет собственный результатом
5:52
наших и потуг давайте посмотрим опять же
5:55
в соревнованиях all спросить какая
5:57
метрика предлагается для этого переходим
5:59
опять же в овервью и во вкладку
6:03
evolution здесь мы видим что наша
6:08
метрика в этом соревновании рут минску
6:10
р-р
6:11
по этой метрики будут оцениваться наш
6:12
результат ее лидер борде собственно чем
6:15
это нам полезно во первых из-за выбора
6:18
метрики зависит какой пост-процессинг
6:19
нам сделать после наших вычислений как
6:22
лучше всего оптимизировать эту метрику
6:24
какую функцию потерях до выбрать чтобы
6:26
оптимизировать эту метрику например
6:28
римас е можно напрямую оптимизировать
6:31
помощью
6:31
лосса м с.е. это очень удобно и поэтому
6:34
я рекомендую использовать именно его во
6:36
время лишь
6:37
нет соревнования разобрались с метрикой
6:39
3 что нужно сделать теперь мы заходим
6:42
публичной ноутбуки ищем какой-нибудь за
6:44
like an eternal с идеей это инженеринг
6:47
data analysis
6:48
с помощью него мы можем более подробно
6:51
ознакомиться с нашими данными посмотреть
6:53
есть ли у нас кита выбросы
6:55
как у нас разметка вообще хорошая
6:57
нехорошая может быть я здесь баланс
6:59
класса вот это все необходимо изучить
7:01
чтобы знать потом как с этим бороться и
7:03
на именно на этом этапе мы принимаем
7:05
решение как мы будем во лидировать на
7:08
наших данных это на самом деле один из
7:10
ключевых моментов каждом соревновании
7:11
потому что правильно выбранная валидация
7:14
поможет вам не переобучаться на leader
7:17
board об этом надо подробнее сказать
7:19
гербарт на кгс состоит из двух частей из
7:22
публичной части из приватный во время
7:24
соревнования нам доступны только
7:25
публичная часть как правило составляет
7:27
где-то половину от всех от всех данных
7:30
то есть 50 на 50 иногда разное
7:33
соотношение это неважно но финальный
7:35
расстановка сил будет считаться именно
7:38
на приватном лидер бортик который нам
7:39
недоступен
7:40
именно поэтому мы доверяем нашей
7:42
валидации они лидер барду
7:44
именно на него можно переобучить а потом
7:47
напревать и в лететь вниз и поверьте это
7:49
очень неприятная пару раз такой летал
7:51
вот многие грн мастера даже говорят есть
7:54
такая пословица у них трасты архиве
7:56
если ваш скор на валидации хороший но на
7:58
лидер борде у вас результат ну хуже да
8:01
чем лучшая модель то это далеко не
8:03
значит что эта модель не стоит выбирать
8:04
вино на шаге 4 мы наконец-то строим наш
8:07
байт line опять же открываем публичные
8:09
кернел и смотрим какие то там есть
8:11
дедлайны читаем пытаемся разобраться как
8:14
что работает и потом на их основе
8:17
пытаемся написать свой собственный
8:19
не просто копируем и как на когда еще
8:22
делают в форт кернел не просто копируем
8:25
а именно пишем сами иногда подглядываем
8:29
в какие-то публичные это будет много
8:31
болезни затем когда мы написали наш
8:34
дизайн получили 1 скорбно лидер борде
8:37
уже на основе него мы начинаем
8:39
наращивать какие-то там техники
8:40
применять что-то пробовать
8:43
экспериментировать и улучшать улучшать
8:44
улучшать наш score чтобы попадать потом
8:47
в медальки и
8:48
расти на лидер борде пятый пункт
8:50
пользуйтесь публичными терминами и
8:52
дискуссиями то есть форумом обязательно
8:55
перед и после того как вы написали bass
8:57
line изучите очень подробно форум там
8:59
обычно оставляют огромное количество
9:01
идей которые можно попробовать и других
9:03
соревнований просто на личном опыте люди
9:05
пишут и вы я вам рекомендую выписывать
9:09
эти все идеи какой-нибудь google таблицу
9:11
и потом пробовать у себя и отмечать что
9:13
зашло что не зашло опять же эти можно
9:15
делиться на форумах то есть такое
9:17
общение между участников соревнования
9:19
опять же передает во-первых дружелюбную
9:20
атмосферу во вторых вы можете общаться с
9:23
дантистом по всему миру делиться
9:25
знаниями это тоже очень круто на мой
9:27
взгляд ну опять же эти все приемчики
9:29
идеи могут улучшать ваш скорбные
9:30
дирборне так что надо этим пользоваться
9:32
ну и наконец шестой шаг чтобы добиться
9:34
успеха и получить высокий score попасть
9:37
медальки и так далее вам необходимо
9:38
надеяться не только на публичные кернел
9:41
а дискуссии и немножко удачи конечно но
9:44
вам нужно очень много экспериментировать
9:45
пробовать какие-то уникальные идеи
9:47
которых не озвучивали на форуме например
9:50
и также очень очень много самообладание
9:54
выдержки потому что решение как иногда
9:56
бывает
9:57
загоняет бы фрустрацию ничего не
9:59
получается с корни растет гол все нафиг
10:02
а соревнования вот но строительный дух
10:04
когда вы заняли не знаю сегодня вы 1 200
10:07
месте проснулись с утра уже на 300 100
10:10
человек смести лодки болин сейчас я вас
10:12
обратно всех давай там что-то решать
10:14
какую-то технику использовал все там и
10:16
гасит поменял в общем что то сделал да
10:20
то есть это все таки пинает очень сильно
10:22
работать я по себе знаю еще одна
10:24
неплохая техника это обучать много
10:26
разных моделей а потом их объединять в
10:28
ансамбль
10:28
например просто усреднить их результаты
10:31
и это тоже часто повышает ваш score ну
10:34
об этом я думаю подробнее поговорим на
10:36
стриме и так эти же когда вы пройдете
10:38
есть шесть шагов причем шестой шаг он
10:40
самый длительный как вы понимаете то
10:42
есть соревнования идет примерно месяц и
10:44
три первые пять шагов вы проходите ну за
10:46
недели 2 наверно первые а потом
10:48
остальное все время уделяйте этому шагу
10:51
то есть экспериментируйте пробуйте
10:52
экспериментируйте пробуйте и так далее я
10:55
ставлю еще в описании несколько ссылочек
10:57
на видосы которые тоже я думаю будут
10:59
полезны пока глуп спасибо что
11:01
или это видео до конца ставьте лайк если
11:03
это вам видео понравилось ну и до новых
11:05
встреч

Поделиться: