Как НА САМОМ ДЕЛЕ работают и «думают» нейросети?

Как компьютер и нейросети понимают смысл слов, не заглядывая в словарь? В новом выпуске мы разбираемся, как устроен Word2Vec — культовый алгоритм word embeddings, который перевёл язык в цифры и открыл дорогу современным LLM‑моделям (ChatGPT, Gemini, Claude и др.).

*Прямая ссылка на видео https://www.youtube.com/watch?v=lQN3_OJvNRc
**Пересказ видео сделала нейросеть https://300.ya.ru/

Пересказ видео

00:00:04 Введение в Word2Vec

  • Обсуждение возможности компьютеров работать со словами и их смыслом.
  • Вопрос о том, что такое смысл слова.
  • Упоминание о толковом словаре как источнике определений слов.

00:01:02 Эксперимент с контекстом

  • Пример с неизвестным словом «тегвинью» и четырьмя предложениями о нём.
  • Вывод о том, что контекст помогает определить смысл слова.

00:02:22 Анализ контекстов

  • Подстановка различных слов в предложения для определения их соответствия контексту.
  • Примеры с «вином» и «тортильей».

00:03:56 Определение близости слов

  • Идея о том, что близкие по смыслу слова совпадают в большинстве контекстов.
  • Пример с «кошкой» и её контекстом.

00:05:48 Автоматическое определение контекстов

  • Использование орфографического словаря для расчёта вероятностей встречаемости слов в контекстах.
  • Обновление словарей на основе анализа больших объёмов текстов.

00:08:27 Пример с «королём» и «королевой»

  • Вычитание словарика для «мужчины» из словарика для «короля» и добавление словарика для «женщины».
  • Определение, что результат близок к слову «королева».

00:10:34 Заключение

  • Word2Vec как поворотная веха в обработке естественного языка.
  • Упоминание о других механизмах в современных моделях NLP.
  • Призыв оставаться на канале и ждать следующих выпусков.

Расшифровка видео

0:00
[музыка]
0:04
Всем привет. Сегодня мы с вами на
0:06
пальцах попробуем разобраться с тем, как
0:08
Word to работает под капотом. Напомню
0:10
основную идею. Компьютеры умеют работать
0:12
с числами, а нам бы хотелось, чтобы он
0:15
работал со словами, а в идеале не только
0:17
со словами, но и со смыслом этих слов.
0:19
Но здесь возникает вопрос: а что же
0:21
такое смысл слова? А на бытовом уровне
0:24
ответить можно было бы так. У нас есть
0:26
толковый словарь, где есть определение
0:28
каждого слова, да, где для каждого слова
0:30
написано, а что же оно значит? А можно
0:33
ли мм без этого попытаться как-то
0:36
определить смысл, найти смысл слова?
0:38
Оказывается, что да. А мы сейчас с вами
0:41
проведём небольшой
0:42
эксперимент. Для этого я снова обращусь
0:45
к, надеюсь, вам уже известному сайту
0:48
Елены Войта. Вот. А ссылку на него я
0:50
оставлю, можно будет зайти посмотреть.
0:51
Но вот сейчас мы с вами пройдёмся по
0:53
основным пунктам. Мм. И я надеюсь, что
0:56
вам станет понятнее, как же Wordвек
0:58
устроен под капотом. Итак, давайте
1:00
перейдём к
1:02
демонстрации. Соответственно, нам надо
1:04
понять, а можно ли аа понять смысл
1:08
слова, если у нас нет толкового словаря.
1:11
Как это можно было бы сделать? Вот тут
1:12
есть небольшой эксперимент. Собственно,
1:14
нас спрашивают, знаете ли вы, что значит
1:16
слово, ну, пусть будет тегнью. Я не
1:18
знаю, как оно читается. Надеюсь, что вам
1:20
тоже это слово неизвестно. Но как можно
1:22
было бы понять? Допустим, у нас есть
1:24
четыре предложения. А здесь на
1:26
английском я для вашего удобства
1:28
переведу. Те, кто английский знает,
1:29
собственно, можете читать сразу с
1:30
экрана. А у нас, соответственно, бутылка
1:33
этого самого тестгвинь стоит на столе.
1:36
Все любят этот тесвиньо. Тесвиньо делает
1:41
вас пьяным, и, соответственно, мы делаем
1:43
тесгвинью из кукурузы.
1:46
Вот, зная только это, да, зная, что это
1:49
слово встречается вот в таких
1:50
контекстах, встречается в таких
1:52
предложениях, можете ли вы предположить,
1:54
что это слово значит? Может, поставить
1:57
на паузу и подумать, но в целом я думаю,
1:59
что уже многие придут вот к этому
2:01
выводу, что тесвиньо — это некоторый
2:04
алкогольный напиток, который делается из
2:06
кукурузы. Обратите внимание, мы
2:08
совершенно не знаем определение этого
2:11
слова. Оно нам неизвестно, но мы знаем,
2:13
в каком контексте оно встречается, да?
2:15
То есть, если есть некоторый контекст,
2:17
который нам известен, то мы можем
2:19
догадаться, а что это за слово такое?
2:22
Аа, собственно, давайте посмотрим, да,
2:24
вот здесь пример. Есть четыре таких
2:26
предложения, которые, мм, это слово
2:30
могут определить. А мы можем попробовать
2:33
подставить различные слова вот в эти
2:35
пропуски вместо тесвинью и посмотреть,
2:37
удовлетворяет это слово этому
2:39
предложению или нет. Есть четыре
2:42
варианта, пять вариантов, да, в этом
2:45
примере, в этой демонстрации.
2:47
Собственно, Тесньо удовлетворяет всем
2:49
четырём, которые у нас здесь есть. И
2:52
дальше есть некоторое количество слов,
2:54
которые либо удовлетворяют, либо не либо
2:56
не удовлетворяют отдельным словам,
2:58
отдельным предложениям. Например, вино
3:01
удовлетворяет первым. Можно сказать, что
3:03
бутылка вина стоит на столе. Все любят
3:05
вино и вино делает вас пьяным. Но,
3:07
соответственно, вино не делается с
3:09
кукурузы, да, поэтому трём
3:10
удовлетворяет, четвёртому не
3:11
удовлетворяет. Контекст на самом деле, а
3:15
не контекст, смысл оказывается, что
3:16
достаточно близкий у винагвини, но не
3:19
полностью совпадающий.
3:21
Ещё интересный вариант с тортильей, да,
3:23
это такие лепёшки из мексиканской кухни.
3:26
Соответственно, здесь у нас
3:28
бутылка с тортильей никак не сочетается.
3:31
Тортилий не делает вас пьяным, но при
3:33
этом можно сказать, что все любят
3:34
тортили и тортили делается из кукурузы.
3:37
И вот, соответственно, есть ещё какие-то
3:38
примеры. Вы можете поставить абсолютно
3:40
любое слово и попытаться определить, а
3:43
для каких из этих четырёх предложений
3:46
это слово будет удовлетворять. Возможно,
3:48
вы найдёте вариант, что для всех,
3:50
возможно, что только для некоторых. И
3:52
теперь смотрите, а отсюда какой мы можем
3:54
сделать интересный вывод. Когда у нас
3:57
есть некоторое количество контекстов, мы
3:59
можем понять, а какие слова по смыслу
4:02
могут оказаться близкими, а какие могут
4:03
быть далёкими, да? То есть слова,
4:06
которые в контекстах совпадают, да? То
4:08
есть вот для контекстов выполняются и
4:11
одно, и другое слово, они по смыслу
4:13
близкие, как вот, например, тесвинью и
4:15
вино. А вот, например, моторное масло,
4:18
оно, соответственно, дальше находится,
4:20
несмотря на то, что в каких-то
4:21
контекстах эти слова могут одинаково
4:24
употребляться. Если у нас таких
4:26
контекстов большое количество, то мы,
4:29
соответственно, уже близкие по смыслу
4:30
слова будем получать рядом, а далёкие
4:33
будет, соответственно, у нас далеко
4:35
расположены. А близость имеется в виду,
4:38
по какому количеству контекстов эти
4:40
слова будут соответствовать.
4:42
Соответственно, давайте посмотрим, что
4:44
мы из этого будем получать. Мы можем
4:47
себе представить любой текст, и контекст
4:50
этого слова будем определять из слов,
4:53
которые вокруг него находятся. Возьмём
4:55
пару слов до, возьмём пару слов после.
4:58
Это условность. Ширину контекстного окна
5:01
вы можете задавать любым. Это может быть
5:03
там два слова влево, два слова вправо,
5:05
может быть 10 слов влево, 10 слов вправо
5:07
и так далее. Немного симметричными,
5:09
несимметричными. Для данного примера
5:11
значения не имеет. Но для простоты,
5:13
собственно, здесь на демонстрации у
5:15
Елены указано, что мы берём какое-то
5:17
центральное слово, и контекст — это два
5:19
слова до него, два слова после него. Мы,
5:22
собственно, можем видеть, что каждое
5:24
слово будет определяться некоторым
5:27
контекстом или влиять на некоторый
5:30
контекст. Соответственно, вот, например,
5:32
если мы возьмём слово кошка, да, то
5:35
контекст, который мы для него будем
5:36
рассматривать, это получается милое
5:38
серое с одной стороны, и с другой
5:40
стороны, соответственно, играет в Да,
5:42
само предложение я вижу там милую серую
5:45
кошку, играющую в саду. А что мы с этим
5:49
можем сделать? Мы можем попробовать
5:51
автоматически для большого количества
5:53
текстов посчитать контексты, то есть вот
5:57
слово, и вместо его определения мы можем
5:59
посчитать, а в каких контекстах это
6:01
слово
6:02
употребляется. А как это будет
6:03
выглядеть? Мне нужен будет некоторый
6:06
словарь всех допустимых для меня слов. А
6:09
мы можем взять условно орфографический
6:11
словарь. А в этом орфографическом
6:14
словаре может быть там, ну вот 150.000
6:16
слов. Например, там в орфографическом
6:18
словаре русского языка там от 140 до
6:21
200.000 слов в зависимости от издания.
6:25
Ну, возьмём, пусть будет 150.000 слов.
6:27
Дальше, что я хочу сделать для каждого
6:30
слова из вот этого нашего
6:32
словаря? Я хочу определить ещё один
6:35
словарь и посчитать, а вот это слово,
6:39
насколько вероятно будет встречаться с
6:41
другими из них.
6:43
Вот для каждого слова у меня появится
6:45
ещё один словарик, и там я расставлю
6:49
числа такие вероятности. Насколько
6:51
вероятно встретить слово, ну, например,
6:54
кошка, да? Вот давайте мы к кошке
6:56
придём. Насколько вероятно увидеть слово
6:58
кошка с словом милый? Увидеть слово
7:02
кошка рядом со словом серый, увидеть
7:05
слово кошка рядом со словом играет. И
7:08
вот, соответственно, все 150.000 слов у
7:11
меня здесь написаны. И для кошки,
7:13
собственно, для каждого слова у меня
7:15
будет указана некоторая вероятность, как
7:17
часто я эти слова рядом могу увидеть.
7:20
Да, например, со словом там моторное и
7:22
там моторное масло я вряд ли кошку
7:25
близко буду часто видеть. А со словом,
7:27
например, там милое, скорее всего, я там
7:29
довольно часто буду кошку встречать, да?
7:32
То есть мне вот для каждого слова надо
7:34
составить ещё один точно такой же
7:36
словарик из 150.000 слов. И,
7:39
соответственно, для каждого из них я
7:40
буду писать, как часто я эти слова рядом
7:43
встречаю. Но это, собственно, всё можно
7:46
сделать автоматически. А чуть-чуть
7:48
математики не пугайтесь, да, сейчас мы
7:50
это быстренько перелиснём. Но смысл в
7:52
том, что я могу посчитать, насколько
7:55
часто эти слова друг с другом будут
7:58
встречаться. И дальше, когда я прогоняю
8:01
тексты, берём огромные тексты Войну и
8:05
мир, Анну Каренину, учебник по
8:09
математике, по литературе, неважно, да?
8:11
То есть все, всю Википедию, которая
8:12
есть, берём все тексты, которые у нас
8:14
имеются, и для каждого слова мы будем
8:18
этот словарик обновлять. Если это слово
8:21
рядом встретилось, его число, его
8:24
вероятность я немножечко буду
8:26
увеличивать, если а при этом у всех
8:29
остальных слов буду немножечко
8:30
уменьшать. При этом что получится? Когда
8:33
я все тексты, которые у меня доступны,
8:36
прогоню, у слов, которые рядом со словом
8:40
кошка встречаются, будут какие-то
8:43
вероятности. У всех остальных слов будут
8:45
очень низкие вероятности. Да. И,
8:47
собственно, вот это вот
8:49
распределение слов, которые рядом с
8:51
кошкой встречаются, я и буду считать его
8:54
определением. Соответственно, как с этим
8:55
дальше можно работать? Мы приходим м к
8:58
примеру король минус мужчина плюс
9:01
женщина равно королева. М если вы вдруг
9:04
этого примера не слышали, то,
9:05
собственно, посмотрите видео, да? И что
9:07
мы получаем? У нас есть такой словарик
9:09
для короля. Из него мы вычитаем словарик
9:13
для мужчины. У нас опять же, да, это
9:15
точно такой же словарь на 150.000 слов,
9:18
из которого мы вычли числа. То есть мы
9:20
из чисел, которые соответствуют как
9:22
конкретному слову, вычитаем числа, потом
9:26
прибавляем а словарик, который относится
9:28
к женщине. И таким образом у нас
9:30
появляется ещё один какой-то словарь. И
9:33
дальше мы начинаем искать, а к какому же
9:35
слову он ближе всего. И оказывается, что
9:38
он очень близок к слову королева. А вот
9:42
так. На самом деле это такое
9:43
видеодополнение к предыдущему видео.
9:46
Если вы его не смотрели, то посмотрите.
9:48
А если вы его уже посмотрели, то,
9:50
собственно, можете заново поиграть в ту
9:52
викторину, о которой я там говорю. И я
9:54
уверен, что примеры для вас заиграют
9:57
немножко по-новому, да. И если где-то у
9:59
вас возникали вопросы: «А почему же
10:01
ответ такой, а не другой, вы можете
10:03
подумать, что в текстах, на которых
10:06
модель Wordek обучалась, у нас,
10:09
соответственно, распределение слов, оно
10:12
было вот таким. И именно поэтому у нас
10:14
получилось, а, получился тот вариант,
10:16
который получился. Здесь стоит сразу
10:19
оговориться,
10:20
что World to VC — это, конечно,
10:23
поворотная веха в NLP, в Natural
10:26
Language processing, да, в обработке
10:28
естественного языка. Но если мы говорим
10:29
про современный LLM, то а под капотом
10:32
там лежат немножко другие механизмы. На
10:35
самом деле можно сказать, что они
10:37
концептуально похожи, но о них подробнее
10:40
мы поговорим в следующих выпусках.
10:43
Оставайтесь с нами на канале. Надеюсь,
10:45
вам было интересно и чуть более понятно.
10:47
Ставьте лайки, пишите комментарии. Почти
10:49
на все а я отреагировал. Собственно,
10:52
будем рады видеть вас в следующих
10:54
выпусках нашего подкаста.

Поделиться: