Семинар «Математические основы искусственного интеллекта»
Пересказ видео
пересказ первых 30 мину
В видео рассматривается задача машинного обучения, где необходимо по заданным данным построить модель, которая будет предсказывать значения некоторой функции.
Автор статьи сначала формулирует общую постановку задачи, а затем переходит к более узкому вопросу: выбору пространства функций, в котором будет строиться модель.
- Постановка задачи: Имеется множество обучающих данных, где для каждого объекта известны его характеристики (X) и значение функции для него (Y).
Цель: построить модель, которая по новым значениям X будет предсказывать значения Y.
Модель должна быть статистической, т.е. не зависеть от конкретных значений обучающих данных. - Выбор пространства функций: Линейные функции: простейший подход, когда модель представляет собой линейную комбинацию входных переменных.
Нейронные сети: более сложный подход, где модель состоит из взаимосвязанных слоев нейронов. - Сравнение подходов: Линейные функции:
Преимущества: простота, интерпретируемость результатов.
Недостатки: ограниченная гибкость, неспособность хорошо аппроксимировать сложные функции.
Нейронные сети:
Преимущества: высокая гибкость, способность хорошо аппроксимировать сложные функции.
Недостатки: сложность, “черный ящик” (не всегда понятно, как работает модель). - Жадный алгоритм: Один из методов построения модели в пространстве функций.
Работает пошагово, добавляя в модель функции, которые дают наибольшее улучшение качества предсказаний.
Доказано, что для некоторых классов функций жадный алгоритм дает оптимальное (или близкое к оптимальному) решение. - Система Хаара: Пример пространства функций, для которого жадный алгоритм дает оптимальное решение.
Используется для сжатия данных, например, изображений.
Заключение:
В статье представлены основные идеи машинного обучения, методы построения моделей и их сравнительный анализ. Автор делает акцент на важности выбора пространства функций, от которого во многом зависит качество модели.
Дополнительно:
В тексте также упоминаются другие методы построения моделей, например, основанные на тригонометрических полиномах.
Автор отмечает, что нейронные сети, несмотря на свою сложность, стали очень популярными в последнее время благодаря их высокой эффективности.
Видео может быть полезено для тех, кто хочет начать изучать машинное обучение, а также для специалистов, интересующихся выбором пространства функций для своих моделей.
Расшифровка видео
0:00
Добрый вечер дорогие коллеги если посмотреть на название то
0:05
это немножко такое может быть провокационное название ели альтернатива
0:10
нейронным сетям но в большей части я буду говорить о том чему нейронные сети
0:18
являлись альтернативой то есть Понятное дело что люди работали в этом направлении уже давно И вот там за
0:25
десятки лет конечно изобрели много чего я коне не пытаюсь и не буду пытаться
0:32
объяснить но главная моя цель состоит в следующем что сначала я Дамм просто
0:38
постановку задачи Это так или иначе э задача связаная с машинным обучением а потом сформулирую Что такое нейронная
0:45
сети Ну чтобы вы представляли с чем мы будем сравнивать а потом буду вести речь об одном из направлений которое играет
0:53
важную роль можно сказать фундаментальную роль и в нейронных сетях и вот в том что люди делали до того
1:00
в частности например сжатие информации или как и и так далее и это
1:06
продемонстрировано очень простых с моей точки зрения очень простых примерах Вот
1:11
Ну а потом уже в конце если останется время можно будет порассуждать и может быть и обсудить какие-то вопросы Скорее
1:19
философские чем математические Ну давайте сразу будем
1:24
двигаться постановка задачи эту постановку задачи может быть в таком
1:30
виде но очень близком фактически каждый из докладчиков на этом семинаре
1:35
использовал поэтому здесь будет всё просто но тем не менее я её Как
1:40
говорится подробно сейчас обсужу А в дальнейшем Когда я буду говорить о вопросах
1:46
приближения вот эта постановка задачи использоваться Не будет она сейчас использоваться будет только как
1:51
мотивировка то есть если кто-то не проследит В чём состоит суть вот этой постановки то ничего страшного
1:57
дальнейшее можно будет понимать и без этого значит ну постановка состоит в
2:03
следующем что как мы должны смоделировать вот Как
2:10
моделировать ту реальность ту действительность которую мы изучаем и вот это математическая
2:16
постановка Ну так будем говорить это статистическая чисто Как говорится не параметрическая статистика тоже
2:22
предполагаем что исходно Ува множества
2:28
и ходят наши данные То есть это то что на входе потом у нас некий так сказать
2:36
чёрный ящик а на выходе у нас получаются вот элементы из Ирека для простоты считаем что на выходе числа на выходе
2:42
числа значит можно это рассматривать Так что X приходит некая функция там у нас
2:48
зарыта так сказать в этом ящике и она выдаёт X это да самая простая постановка
2:53
но можно так не считать можно считать что на каждый входящий X Вот этот чёрный ящик он даёт Y с какой-то вероятностью
3:00
вот ну и тогда получается некое распределение и вот мы считаем что там есть некое распределение Вот это ро
3:06
распределение это вот этих точек X которые и мы хотим теперь
3:14
находить Ну это я на следующем слайде покажу У нас есть какие-то данные на которых мы как бы
3:20
обучаем и вот этот хотим понять что же там в этом чёрном ящики им предсказывать на оних
3:28
дам Что будет в этом чёрном ящике
3:34
что нет пока нет F не дано это просто определение некое F взяли от x А вот мы
3:41
хотим вот эти с помощью вот этой F То есть это как бы психологически тоже Мы хотим всё-таки найти некую функцию
3:48
которая будет описывать вот это вот явление как от x до и то есть чёрный
3:54
ящик Мы хотим описывать некой функции Вот это наша Как говорится цель как это делать ну здесь Ну вот в первую очередь
4:01
с функци с этим с распределением ро связывается функция функция регрессии то есть вот
4:08
это ро Ну это просто вот условно матожидание ну здесь это некие самые
4:14
простые Как говорится пояснение но суть состоит в том что нам не дано это мы не
4:20
знаем но мы предполагаем что там есть некоторая распределение и данные приходят из этого
4:27
распределения Независимо Вот это в прочем очень важное предположение и в дальнейшем это будет использоваться
4:32
потому что на практике может этого и не быть но например Лично я не знаю работ
4:39
Где бы это всерьёз изучалось когда распределение зависимое То есть когда есть корреляция и так далее То есть это
4:45
пока вот так значит Ну вот дальше если смотреть Вот давайте сразу посмотрим Ну это тут как говорится пояснение сразу
4:51
посмотрим вот сюда значит что мы за что мы боремся то есть мы предполагаем что вот даны вот какое-то количество данных
4:59
то есть Вот это нам известно что поступил X ИТ на вход а вышел Y ИТ Вот
5:05
это мы знаем что там произошло мы не знаем Но вот это мы знаем И вот на основании вот этих их и их Мы хотим мы
5:14
хотим найти некую функцию которая будет хорошо приближать вот эту ро которая там
5:20
была И вот на самом деле ошибка приближения нам естественно её измерять
5:26
Вот в такой вот Вот в такой в таком виде чит сейчас пока Это не так важно но важно то что данных у нас фиксированное
5:35
количество то есть точек И на основании этих м точек мы это сейчас называется
5:40
это мы хотим обучить систему так чтобы она хорошо
5:46
предсказывала неизвестно Ничего неизвестно какой пример
5:53
жизнен Ну как ну это вот все примеры которые вот есть в жизни любой возьми
5:59
это будет Вот вот скажем Ну Face Face вот приходит человек Вот случайно
6:05
то есть вот взяли там есть некие данные вот мы предполагаем что человек вот приходит Вот у него такое лицо а из них
6:12
у нас выбрал миллион фотографий известно что например вот этот человек ну скажем классифицировать что это человек
6:18
например он нет Ну я не буду говорить там белый или чёрный это тут не надо Как говорится никакой система но например
6:26
вот то или это то есть что-то какие-то конкрет вот ВС вот на основании тех что миллиона
6:33
есть они классифицируют что-то делают программа составлена теперь приходит новая
6:38
фотография Новое лицо они по этому лицу говорят что да это вот это ну или например стандартно кошки и собаки Вот
6:45
классифицировали теперь новая фотография приходит на этой фотографии либо кошка либо собака а это уже классифицирует вот
6:52
вот вот это
6:59
распределены вот фотографии там миллионы А вот на каких-то фотографиях кошка на
7:04
каких-то собака и так далее и так далее Вот это ро пото что X – это вот ну можеш смотреть это X это некий
7:11
Вектор – это некий Вектор Я вот просто раз 10 это всё слушал никак не могу как в жизни-то всё это все эти меры задаются
7:21
Ну вот Ну вот Ну вот так Ну ясно Лано Не ну тут можно и по-другому как угодно е
7:28
из примеров таких скажем надо тебе пробурить и найти нефть вот пер случайно
7:35
То есть фактически ты сам можешь выбирать случайно или или или кто-то выбрал случайно где уже пробурили и они
7:41
знают вот там например вот с такой вероятность Ну такое количество скажем или Ну вероятность того что там есть нет
7:47
Вот такая там такая там такая вот ты в конечном числе точек получил эти данные Теперь ты на основании этого конечного
7:53
числа точек должен понять вот бурить в том месте в другом или не бурить Если будешь бурить то Какая вероятность того
7:59
что там будет это вот ещё один из примеров то есть таких Ну фактически всё попадает в эту схему в этом Как
8:05
говорится и всё и дело Но что здесь важно Вот на это я хочу обратить внимание потому что будем двигаться
8:11
именно в этом направлении важно здесь следующее что так или иначе ну вот это
8:16
может быть на предыдущем слайде надо показать что для того чтобы найти вот эту хорошую функцию которая нам нужна
8:23
нам нужно будет минимизировать некую ошибку Ну либо такую либо когда P ра дво
8:30
почему-то то есть мы будем находить функцию как решение некой оптимизационной
8:36
задачи и вот теперь встаёт вопрос почему же оптимизировать Если речь идёт об
8:43
оптимизации По всему пространству это одна задача если по какому-то классу это совсем другая задача Чем проще класс тем
8:49
лучше и понятно что Конечно мы захотим брать такой класс или такое В смысле
8:58
такого вида эти функции бы относительно хорошо приближали бы функции опять-таки какого-то другого
9:04
класса то есть вот этот вопрос встаёт очень естественным образом Ну он всегда вставал но часто на него люди внимания
9:11
не обращали а говорили вот задача такая мы начинаем например берём полинома там берём то берём всё не объясняя Почему
9:19
именно это делается Вот сейчас я на этом обостряют шаг сознательно упрощаем
9:27
множество этот оптимизатор Ну вот как теперь выбирать это множество Вот это задача и
9:34
там есть разные разные аргументы разные критерии Как выбирать Ну вот я сейчас буду об
9:40
одном из них говорить то есть вот это на этом слайде Вот это написано значит что
9:45
то есть изначально мы хотим сказать то есть классически это было чтобы под пространство мы выбирали просто линейное
9:50
подпространство фиксированной размерности и дальше мы как говорится с ним работали и действительно многие
9:56
вопросы вот этого машинного обучения они доведены там до до конца просто в явном
10:01
виде написано как решать задачу и так далее а но вот это первый пункт который
10:06
здесь есть это вот как выбирать вот это вот эти элементы скажу сразу что параллельно
10:12
здесь две задачи на самом деле и я буду обсуждать их более-менее где даже может быть вторую в большей степени чем первую
10:19
то есть конечно мы имеем в виду вот эту задачу машинного обучения но как параллельно можеш смотреть следующую
10:25
задачу и вот это будет Борис Сергеевич намного Как говорится прозрачнее что вот есть скажем какая-то картинка
10:32
есть какой-то образ А мы теперь хотим эту картинку сущности не уменьшив качество
10:39
хотим сократить её сохранение информации наме в 100 раз вот как это делать то
10:45
есть как вот представлять это ну это сжатие Как говорится информации то есть вот это Это как говори параллельно В
10:51
каком-то смысле может быть в большей Степе
10:59
нужно сразу же как говорится иметь в виду и понимать что в первую очередь значит как вот выбирать эти элементы
11:06
один из моментов и Об этом я буду более подробно говорить это выбирать их на на
11:11
основании каких-то физических соображений то есть вот из физических соображений надо вот это выбирать а
11:18
другой вариант – это вот эти neal net которые фактически используется везде и как универсально и никакого особенного
11:25
по крайней мере физического смысла который там скрыт Я например не знаю вот Ну вот в это другие вопросы в общем
11:32
будем двигаться Потихоньку как это решать алгоритмически Ну и так далее вот ещ вопросы как это можно сделать и
11:39
реализовать Ну давайте двигаться чтобы сравнивать и чтобы видеть что вот у нас
11:45
есть И что сейчас очень популярно и что мы потом будем обсуждать то что я буду обсуждать Это намного более простые
11:50
схемы наиболее намного более простые но тем не менее Вот давайте нам
11:56
с этого Что такое нейронные сети значит ну первый шаг – Это самый простой который
12:03
изучается давным-давно это называется нейронная сети с одним с одним слоем то
12:09
есть ну или по-другому приближение такими функциями обычно называется Вот уже и тогда называлось нейронная сети
12:15
или это близко к этому Rich approximation но там немножко шире значит что это такое Давайте посмотрим
12:20
какой физический смысл того что здесь написано вот это одна функция значит видно что у этой функции два параметра
12:27
Омега – это вектор и B – это Константа А значит когда вот это всё равно чему-то
12:33
фиксированному А Сигма – это функция от одной переменной то это означает что X принадлежит некой гипер
12:40
гиперпространство правильно Ну или гиперпк я буду говорить для простоты То есть это плоская волна То есть
12:46
фактически Вот в этой задаче Мы хотим приближать данную функцию какую-то Т
12:52
такими плоскими волнами можно это делать нельзя это уже другой вопрос но вот это Это как говорится постановка
13:00
теперь дальше двигаемся А теперь мы говорим и вот это вся суть вот этих
13:05
нейронных сетей что привело по-видимому к такому успеху которым сейчас эти нейронные сети пользуются в приложениях
13:12
мы говорим Теперь мы давайте это будем усложнять то есть от первого слоя будем переходить дальше И вот это тут написано
13:19
довольно подробно но давайте я скажу но во-первых надо выбрать вот эту сиг функцию это вот вот она тут написа это
13:27
все яма знат значит Ну будем просто обозначать что некая функция H А вот
13:32
теперь как мы это делаем как мы размножаем как говорится параметры то есть предыдущем было только два
13:38
параметра Вектор Омега и число b А сейчас мы говорим мы эти параметры
13:44
которые задают вот эту нейронную сеть Мы в качестве параметров будем выбирать N матриц вот они здесь написаны и вот N п
13:53
Вектор знат Что это такое Ну матри что мы будем делать это надо Вот сюда посмотреть то есть мы будем
14:05
итеративный вообще говоря но мы её применяем по координатно Вот это тут
14:11
написано то есть к вектору мы её применяем по каждому элементу и вот тут
14:16
написан столбец получается столбец То есть это получается некая функция которая зависит от x а потом мы можем
14:23
это ировать то есть вот этот ве процесс от слоя к слою мы переходим таким образом есть
14:29
построили предыдущий Y -1 теперь следующий Мы берм точно также как линейную
14:35
операцию то есть умножаем на Матрицу на некоторую плюс вот Этока Ну и точно также как там по координат применяем и
14:42
последний шаг последний шаг то есть на этом шаге я бы сказал так что Что мы делаем мы просто добавляем параметров то
14:51
есть добавляем себе гибкости есть вот эмп
14:58
это последнем шаге мы всё-таки берём линейную комбинацию то есть здесь вот получились какие-то функции вот эти Y НТ
15:04
А вот теперь мы берём ещё линейную комбинацию правда здесь э Линейная комбинация фиксирована то есть S – это
15:10
размер вот этих матриц которые участвуют вот этой То есть получается весьма сложная конструкция весьма сложная
15:17
конструкция Но как оказалось достаточно гибкая для того чтобы вот с этими
15:22
параметрами со всеми с матрицами и с этими
15:31
параметры вот тут вот тут это вот тут опять это всё написано значит это это
15:36
это матри не Вот первая Матрица она вот такого специального размера потому что
15:42
мы идём от вектора который мерный и переводим его в смер а потом вот вот вот все параметры здесь
15:49
перечислены значит конечно встаёт естественный вопрос скаже Это в конечном
15:54
ито будем чтото оптимизировать пому оп
15:59
под подмножество или какое-то многообразие такое по которому было бы удобно
16:06
минимизировать оптимизировать но пока мы эту задачу Как говорится не будем рассматривать сечас
16:13
Пойдём смотреть просто Какие бывают другие Какие бывали до этого другие подмножества которые использовались для
16:19
этих целей зна первый самый простой может быть на МВО так подробно
16:24
остановлюсь это скажем бы тригонометрические полино то есть вот сигнал есть сигнал И вам нужно этот
16:30
сигнал Как говорится изучать Ну что вы делаете Ну спектральный анализ этого сигнала очень естественный Ну и в этом
16:37
смысле очень естественные функция это вот такие то есть где это будет это тут написано у меня как целая часть Но это
16:43
для простоты А так конечно это может любая быть частота и вот со СД Ну и более об боле то есть в этом
16:51
смысле вот каждое слагает
16:57
Кози Стой и вот мы их потом комбинируем ещ очень важно хочу подчеркнуть что во
17:03
всей той идеологии которая существовала фактически вот до
17:10
эти это что приближение строилось как Линейная комбинация вопрос состоял в том
17:15
что откуда брать эти элементы как их брать и так далее но всегда это была Линейная комбинация сейчас это уже не
17:22
совсем также линея комбинация Нона играет не такую ю роде
17:29
можно не останавливаться что вместо тригонометрической системы конечно это классический вариант мы можем
17:34
рассматривать любую ортонормированном ну там уже другой физический смысл конечно но во всяком
17:39
случае это одна из простых схем теперь другой момент на котором вот мы немножко
17:45
сложнее это уже будет но но в принципе новая Как говорится новае размера здесь
17:52
откроется то есть уже система будет не базисом система будет переполненная значит что это за система Это очень
17:59
хорошо известная система называется система габора значит что тут написано то есть по сути здесь сначала стоит вот
18:06
это Это как гармоника правильно То есть это определённая частота Но кроме того мы её домново на такой множитель который
18:14
как вы видите зависит от x Ну X – это можно считать время и он имеет вот такую
18:19
форму то есть грубо говоря он вырезает там конечно он не нулевой от минус
18:25
бесконечной до плюс бесконечной но по сути он вырезает то есть вот то что здесь написано И если мы разложим скажем
18:32
сигнал музыкальный сигнал музыку вот по таким функциям это будет примерно тоже самое что нотная запись то на нотах вы и
18:39
пишете Какая частота И как долго она должна длиться Вот это и есть функция гора но это уже это уже не минимальная
18:49
система это уже переполненная система то есть с ней уже работать в этом смысле Дава да
18:58
здесь отмечаю что вот второй вопрос значит это вот если мы выбрали какую-то систему
19:04
и договорились что будем приближать как я уже сказал скажем линейными комбинациями чего-то вот чего мы можем
19:10
достичь для конкретной функции или там для конкретного класса функции и так далее Вот это здесь и написано то есть
19:17
самое лучшее что мы можем достичь это скажем вот так называемое член нае приближение это вот то что написано
19:22
здесь то есть мы минимизируем для фиксированной функции минимизируем и коэффициенты и минимизируем по тому
19:29
множеству из которого выбираются эти эти элементы приближающие то есть вот это то что я
19:36
сейчас не касаюсь той теории которая была там сотни лет продолжалась и это
19:42
Линейная теория когда мы приближали частными Сумы и так далее и так далее Я сейчас буду говорить о том что ну
19:48
более-менее последние там 20-30 лет развивалось активно это нелинейное приближение вот такие вот ну или там
19:55
разреженные spim далее это вот как раз ти типичный пример таких
20:02
приближений Значит теперь Ну это уже более формально как тут написано Я это быстренько Как говорится проско Ну тут в
20:09
баном пространстве в любом если у нас есть какой-то набор функций вот и это
20:15
следующий шаг после системы габора потому что в системе габора это была специфическая но всё-таки переполненная
20:22
система так вот оказалось что вот на этом пути вот как я сказал если мы приближаем линейными комбинациями и вот
20:28
такие члены то по существу Вопрос закрыт то есть мы всё разобрались мы поняли что
20:34
надо делать как надо делать и при том это всё можно применять для любого словаря Для любой системы функции D ну
20:41
поэтому тут можно и писать Вот такой общности что вот есть произвольная система и вот если d Вот это Сигма MD
20:49
это обозначает множество член элементов по этой системы по этой системе Ну то
20:54
есть в общем всё тут как говорится естественно и оде наилучшего приближения
21:00
ленного оно ну такое же как я уже давал но только здесь для произвольной системы для произвольной системы то есть вот это
21:07
я отмечу здесь момент что система Сейчас может быть и произвольная и произвольно то есть в том числе Например
21:13
можно вернуться к этим нейронным сетям и если вы помните там была Линейная комбинация на последнем шаге А можно
21:20
сказать что давайте теперь вот те элементы которые которые там стоят по тем параметрам мы их все соберём в одну
21:26
систему и назовём это словарём и будем уже по ней что-то такое делать это уже будет не просто Но тем не менее
21:33
в принципе это вот в эту схему тоже будет укладываться теперь дальше Следующий
21:39
вопрос А как теперь это всё реализовывать то есть вот что ну мы
21:45
написали это Сигма м наилучшие член но уже тогда люди понимали Сейчас может
21:51
быть к этому по-другому относится но в то в те времена там 20-30 лет назад когда вычислительные возможности были не
21:57
такие как сейчас то есть уже например Заниматься тем что вот что такое формальное член нае приближение
22:03
наилучшее значит вы должны взять все подмножество размерности M и по каждому
22:08
из них решить оптимизационные задачу по каждому из них э задача несложная но выбрать это уже получается
22:14
экспоненциальное количество этих множеств значит интерес был в том чтобы строить какие-то алгоритмы которые
22:21
намного проще чем вот такой перебор и оказалось что такие алгоритмы можно строить Вот Первое что я продемонстрирую
22:29
но это очень естественная постановка вот если у нас система сейчас уже нен то есть не переполненная а обыкновенная В
22:35
смысле как Базис вот что там Может быть там идея очень простая и это называется вот такой-то пороговый жадный алгоритм
22:43
то есть что мы делаем если это Базис мы пишем разложение А теперь переставляем
22:49
коэффициенты вот в таком убывающем порядке то есть всегда это можно сделать
22:54
если Базис потому что они стремятся к нулю Ну если Базис нормированный Как там написа то тогда это ВС Моть ВС и теперь
23:00
После этого мы строим приближают вот таким образом вот таким образом заметим
23:06
сразу что для каждой функции вот этот набор вот этих элементов из базиса он
23:12
может быть свой это понятно правильно он будет свой Вот Но тем не менее Вот вот
23:18
некий такой некий такой этот алгоритм причём это алгоритм простой не надо т
23:25
минимизировать по подмножества просто вот Выра коэ
23:30
значит Ну вот как теперь сравнивать как мы говорили что вот этот один алгоритм другой алгоритм насколько он хорош насколько он эффективен Ну тут
23:37
естественный критерий это сравнивать с наилучшим Ну либо так это самое лучшее Ну такое редко когда достигается либо
23:44
вот так чуть-чуть послабее либо может быть с этой константой G которая зависит от это ещё хуже Но тем не менее Вот
23:51
разные такие варианты значит что здесь можно бы в
23:56
каком направлении здесь можно двигаться вот здесь ну здесь более-менее тоже уже
24:01
разобрались что и как Ну просто продемонстрирую вам в каком плане вот
24:07
эта теория доведена до определённого завершения чем она была мотивирована
24:13
потому что вот в конце как раз 30 лет назад Чуть даже больше появилось И тогда это было очень популярный метод
24:19
приближения основанный на так называемых появились системы и по этим
24:25
системам было очень естественно и тогда это было сразу Понято Что именно приближать Вот так члено То есть если у
24:32
вас есть функция какая-то вы её хотите сжать Ну вот изображение например то Разложите по выберите наибольшие
24:38
коэффициенты и это будет хорошее Хорошее приближение но и стоял вопрос а можно ли
24:43
как-то это подругому улучшать вот скажем делать не такое приближение а какое-то
24:48
другое но вот оказалось что для многих WS Вот это вопрос как раз вот этот
24:53
жадный алгоритм он даёт как раз то что нужно вот ну там появилось определение гриде базиса это вот оно написано то
25:00
есть если если вот этот жадный алгоритм он даёт оптимальное по порядку наилучшее
25:07
члено приближение то Вот это и жадный алгоритм оптимально для каждого элемента не какого-то класса ничего а для каждого
25:14
элемента значит ну здесь это просто замечание что на самом деле там в определении там нам Мы ещё так сказать
25:21
говорили что существует перестановку Но на самом деле это неважно потому Для любой перестановки это будет так вот ну
25:26
это ладно я не буду на это Вот пример Вот пример такой как говорится
25:31
классический пример это все я думаю знают система Хара система – это простейший пример этих И на самом деле
25:39
это типичный пример этих В каком смысле типичный То есть если брать одномерное
25:45
то все разумные системы они эквивалентны системе ха если
25:52
строго в этом смыс этония
25:58
будет в теореме но я думаю что на системе Хара я не буду тут так много останавливаться то есть вот оно формальное определение Но это система
26:05
Хара всем хорошо известно так вот оказалось следующее что система Хара Ну
26:12
а как Следствие на самом деле и все вот эти системы что эта система обладает вот
26:19
таким вот свойством таким неравенством но а это как раз то неравенство которое у нас есть в определении гриди базиса то
26:25
есть оказалось что система хара одномерная одномерная система Хара Ну го как следствие все которые эквивалент этой
26:33
системы они все То есть все системы они все оказались грибами То есть это было
26:39
обоснование того что на практике Люди так и делали никто Как говорится подругому и не делал Но вот это было
26:45
обоснование что ничего другого И не надо искать вот этот алгоритм он как говорится самый хороший но ЕС
26:54
будем рири что она не является грисом но я для
27:01
завершения давайте я тут одну ещё теорему это просто определение эквивалентности здесь ничего Как
27:06
говорится интересного нет Вот Но а здесь определение свойств базиса одно
27:14
определение – это Базис безусловный Вот это написано то есть если мы умножаем на какие-то коэффициенты плюс-минус единиц
27:22
то любой Такой оператор Он ограничен Ну ограничен равномерно Ну там он автоматически был бы равномерно неважно
27:28
не в этом дело сечас то есть вот это безусловный Ну там другие есть определения но сейчас говорю тоже
27:34
неважно и есть другое ещё определение что Базис демократический опять-таки Это не так важно сейчас смотреть что есть
27:40
некое определение Вот как вот можно определить что есть демократически это значит для любых
27:46
наборов индексов PQ одинаковых норма вот такой суммы с коэффициентами единиц
27:52
здесь это важно с коэффициентами единиц они все примерно одинаковые вот некая Константа D так вот оказалось это такая
27:59
получилась интересная теорема видите старая уже 25 лет с Сергеем коняги мы
28:05
доказали такую теорема что Базис гриди тогда и только когда он когда он безусловный и демократический то есть
28:11
вот это некая характеризации безусловно это вот тот который можно
28:17
менять знаки как угодно и норма от этого сильно не меняется Вот то есть это
28:22
безусловно или порядок тоже самое или порядок безусловно это оче си улови
28:28
прочем безусловный Базис потому что например тригонометрическая система безусловный Базис только когда P равно
28:33
двойке и такие вот Но вот vs – это безусловная система все WS безусловная
28:39
система Они между прочим там многомерность на одну минуту если брать
28:45
просто тензорное произведение одномерных то есть функция от одной переменной
28:50
потом функция от другой переменной и брать тензорное произведение то это всё равно будет безусловная система но гриди
28:56
басом уже не будет потеряет демократичность вот такого вот ну
29:02
ладно Ну давайте дальше двигаться значит вот я уже сейчас стал говорить про
29:08
другие системы которые вот скажем тригонометрическая это очень такой интересный пример в этом смысле Но вот
29:13
на этом примере Мы немножко перейдём к другим тоже алгоритмам более продвинутым
29:19
чем вот этот пороговый алгоритм что если взять тригонометрическую систему ну тут
29:24
обычное стандартное определение здесь неважно одномерное многомерное просто вот тригонометрическая
29:30
система Ну и тут это фактически повторение того что я уже говорил Как определить наилучшее приближение Но вот
29:36
конкретно для тригонометрической системы Здесь всё очень ясно тогда оказывается следующее что мы
29:43
опять тот же самый ставим вопрос выбираем наибольшее коэффициента То есть у нас алгоритм тот же самый этот
29:49
пороговый и сравниваем С наилучшими приближения и Вот оказывается что вот такое неравенство что-то мы можем
29:55
доказать но как видите здесь дополнительный множитель Степе
30:02
ничего нела во константу едини написать а если
30:07
отличается от двойки то уже всё надо платить это более того это не улучшает
30:15
есть примеры но это замечание что улучшить нельзя Вот это сте улучшить нельзя тогда вста
30:29
строить приближение сравнимое с наилучшим оказывается есть И вот это тут
30:35
сейчас как раз самый Как говорится интерес вот сейчас начинается ЧНУ вот я это
30:41
формулируйте эти Как находить вот эти гармоники такие что вот наилучшее приближение тригонометрическое было бы
30:48
сравним с наилучшим члено и фактически ответ Ну тут этот
30:55
ответ Если вы сечас будете его читать за этим будет какая-то мистика понимаете
31:00
почему вот с какой стадии что это мы делаем тут оказывается Так ну для ра между двойкой бесконечностью то что мы
31:06
делаем смотрите когда у нас был этот пороговый гриди алгоритм Значит мы
31:12
выбирали просто с самого начала переставили все коэффициенты по убыванию и всё и потом их вот выбирали как надо а
31:19
здесь же мы делаем Это пошагово сча вы боэ потом мы
31:26
получаем с остатком мы делаем вот такую процедуру вот смотрите если FN -1 – Это остаток то мы рассматриваем вот такую
31:33
функцию вот такую функцию То есть когда P равно двойке когда P равно двойке
31:38
например это и есть сама же функция F -1 Но если P уже отлично От двойки то это
31:44
некая другая функция и уже у этой функции у новой функции Мы выбираем наибольший коэффициент фурье
31:50
и уже его используем и так далее То есть Ну это чисто алгоритмически в принципе
31:56
это как говорится не Биг дел это не что-то такое сложное это пожалуйста это всё можно сделать но сейчас в дальнейшем
32:02
будет видно почему это так появляется Откуда это взялось Вот но оказывается что это даёт достаточно хороший
32:09
результат но для того чтобы сформулировать дальнейшее вот мне понадобятся некоторые такие тут
32:14
определения Но какие-то из них я уже и вводил эти определения но всё-таки давайте для повторения что вот теперь
32:21
словарь вот интересно посмотреть вот на это что Вот мы с любым словарём мы связываем симметрично то есть делаем и
32:27
плюс для того чтобы определить Вот это такой обобщенный онный акта то есть для
32:35
симметричного это просто актар вот а для исходного это обобщенный акта то есть
32:41
вот это а11 это фактически это обобщен То есть это выпуклая оболочка элементов
32:46
вот этого вот здесь мыра между пром действительно Бано пространство
32:58
Ну теперь опять же Член это уже тоже определяли это как говорится ещ раз тут повторяется но Давайте пойдём дальше Вот
33:05
я сейчас хочу определить алгоритм вот реализацией которого является вот то что было написано там
33:12
про выбор коэффициентов рь у тригонометрических функций там вот было F -1 потом на модуль F – 1 в степени p –
33:20
2 и так далее вот сейчас будет некий общий алгоритм который определяется для произвольного словаря D то есть есть
33:28
Бано пространство там есть словарь D и вот мы по этому словарю D определяем вот как этот алгоритм должен работать нам
33:35
Дана функция F и вот ну элемент F и как по нему строить там понадобится вот то
33:40
что называется нормирующие функционала Ну это хорошо известно всем что такое нормирующий функционал Но это тот
33:46
который Почему о нормирующий Почему так и называется что нормирующий потому что на функции он даёт норму а его норма
33:53
равна единице То есть это он самое большое что может сделать это вот на самой функции
33:59
Ну если это гильбертово пространство то это просто сам элемент делённый на его норму Вот это будет нормирующий Ну в
34:06
смысле нормирующий функционал с этим связан Так ну это всё понятно теперь
34:12
дальше ещё понадобится что в этом оказалось что вот эта характеристика она очень простая характеристика конечно для
34:17
матовых пространств Но вот в тех вопросах о которых я буду говорить она играет фундаментальную роль и это
34:23
называется модулем гладкости модулем гладкости то есть ну это фактически Если
34:29
Вы посмотрите на это определение что здесь написано берутся элементы X и Y с единичной
34:34
сферы А теперь на единичной сфере берётся некий параметр у и строится
34:40
вторая разность поэтому это называется гладкость то есть модуль гладкости Ну вот берётся супремум поэтому то есть ну
34:47
на сфере мы берём это классическое понятие тут в общем хорошо известно Вот Но нам будет
34:54
важно чтобы это было всё-таки равномерно гладкое пространство бы от у вот так вот снилось понятно что просто из свойств
35:01
нормы Оно всегда меньше либо равно модуля у А вот это тоже дополнительное
35:06
требование небольшое но дополнительное требование Вот теперь сам алгоритм Вот
35:13
давайте посмотрим на этот алгоритм Вот это самое как говорится интересно это тоже жадный
35:19
алгоритм но он посложнее почему посложнее Потому что в случае базиса мы
35:25
с каждой функцие ставить каждой функции в соответствие последовательность коэффициентов
35:32
однозначно однозначно здесь же у нас какая-то система которая переполненная
35:39
может быть Какая угодно то есть никакой последовательности коэффициентов Априори
35:44
мы приписать этой функции не можем то есть мы должны действовать как-то Вот алгоритмически Но вот как действовать
35:50
вот этот алгоритм описывает значит что мы делаем Ну это так сказать
35:55
индуктивно Ну предположим еем с предположим что мы уже построили
36:02
остаток F – тогда мы Для этого остатка вычисляем нормирующий функционал то есть
36:11
тот который Как говорится выбирает саму функцию То есть как бы он самый близкий к этой функции и теперь выбираем из
36:19
всего этого словаря выбираем элемент тот который самый близкий самый
36:26
близкий вот ну не самый близкий здесь мы ещё слабый параметр этот пишем Т но по сути берём вот этот супремум то есть вот
36:33
этот супремум означает что мы выбираем из элементов словаря тот элемент который
36:39
вот В смысле вот этого применения нормирующее функционала самый близкий к
36:45
остатку то есть геометрическая суть этого состоит в следующем что вот у нас остаток вот здесь где-то а мы теперь из
36:52
Всех элементов словаря выбираем тот который ближе всего что очень естественно потому что ясно что надо его
36:58
использовать и приближать теперь следующий шаг это
37:03
определяем под пространство то есть мы до этого выбрали
37:10
Ф12 и так далее Вот на этом этапе мы выбрали м То есть у нас получилось м элементов мы теперь составили под
37:16
пространство Ну то есть натянули там же у нас как вы помните Да наилучшим м членом приближение то есть мы брали
37:23
наилучшее приближение по какому-то под пространству натянуто на эти элементы вот эти мы сечас нашли и потом сейчас
37:29
будем Вот это м брать как наилучшее приближение Ну или чебышовка проекция на вот этот на этот Фея поэтому
37:37
мы этот алгоритм называем слабый чебышовка
37:47
мы выписываем вот таким вот образом вот таким вот образом Вот это слабый гриди чебышовка
37:58
То есть как видите его реализация конечно она сложнее чем реализация вот того порогового Но даже вот если мы его
38:05
станем применять в случае базиса или в случае минимальной системы то результат будет другой не такой как от порогового
38:13
и более того вот сейчас приведу результат для тригонометрической системы Ну поскольку тут вся эта теория она
38:20
строится для действительных Бах пространств то тут надо рассматривать тригонометрическую систему тоже
38:25
действительную не комплекс это всё равно понятное дело Но но здесь для для строгости надо сказать что вот
38:32
рассмотрели действительную тригонометрическую систему и тогда оказывается что справедлива Вот такая
38:38
вот теорема Вот теперь давайте на эту теорему посмотрим и как говорится сравним с тем что у нас уже было Вот
38:45
если бы мы здесь применяли пороговый гриди алгоритм то вот этот
38:51
остаток бы от порогового нужно было бы ну здесь бы у нас было м никакого логарифма бы не было но здесь бы в
38:58
дополнение к этому ещ стоял бы дополнительный множитель в степени Вот это HP то есть 1/2 ми 1/5 по модулю ну
39:05
здесь P больше двойки поэтому 1/2 ми 1п здесь ничего нет здесь одна Константа
39:11
Единственное чем мы жертвуем Это что вместо у нас здесь стоит m l то есть мы должны сделать больше
39:18
итераций но в общем-то не намного больше всего в Log есть практически тоже самое
39:23
и добиваемся того же самого порядка луше для и это по тригонометрической системе
39:31
то есть ну это по-прежнему некая такая загадка почему тут так получилось вот то есть например аналогичный результат для
39:37
P Мень дво доказать мы не можем там что-то получается но но не такое то есть
39:42
вот это уже показывает что вот в этих вопросах нелинейного приближения то есть
39:47
есть разные алгоритмы и вот это такой гриди алгоритм тоже который вот для конкретной системы для
39:53
тригонометрической он себя показывает очень хороо но он и в лом совсем
39:58
алгоритм неплохой Вот Но это уже так сказать комментарий и я вот сейчас
40:04
сформулирую одну из теорем и потом её обсудим и более-менее на этом будем
40:10
завершать вот смотрите первый же вопрос который встаёт В общей постановке вот
40:16
смотрите что у нас у нас есть произвольно Бано пространства в НМ
40:22
произвольная система и мы хотим изучать скоро сходи чего-то можно просто
40:28
сходимость изучать но я сейчас про это не буду говорить просто прокомментируй что оказывается что вот этот чебышовка
40:40
вот как я там определял что ро от у это о маленькое у если вот это есть Только
40:46
это Больше ничего не надо то сходимость всегда будет всегда Неважно какая
40:52
система лишь бы это был лишь бы это был словарь то есть надо чтобы она была полна то есть совпадало со всем
40:58
пространством но это понятно без этого ясно что не будет ничего а вот этого уже всего достаточно А сейчас мы ещё
41:04
интересуемся скоростью сходимости потому что ну это как бы будет отражать вопросы
41:09
стабильности и так далее и так далее Ну как определять понятно что если мы
41:14
произвольную берём функцию то гарантировать никакую скорость сходимости мы не можем это тут можем
41:20
сравнивать вот как мы делали до этого писать то что называется неравенство ли бега что алгоритм для каждой функции
41:26
даёт так приме наилучшее это очень сильный такой результат но здесь мы
41:31
этого на это как говори не рассчитываем Но тогда надо определить классы Ну вот опять возвращаемся тому же
41:39
само той же самой ситуации с которой я начал пространство X произвольная система произвольная вот как класс
41:45
определять но оказалось и это некая удача конечно оказалось что вот эти классы которые я
41:53
это это для них мы можем что-то гарантировать Ну давайте посмотрим что
42:00
мы можем гарантировать значит Ну вот в этой ситуации мы рассматриваем вот как
42:05
там было написано До этого что это ну можно можно вот такие рассматривать но можно и более общее То есть когда вот
42:11
эти Т каты это помните там параметры слабости То есть когда мы берём супремум
42:17
а потом умножаем его на что-то и хотим найти элемент который этому удовлетворяет То есть это более слабые условия и оказывается следующее Давайте
42:24
смотреть с конца то есть мы оцениваем ошибку Ну давайте сейчас на вот этот
42:30
член посмотрим к этому вернёмся через минуту значит это сумма вот этих Т ках но если например 1/2 то здесь стоит
42:37
сумма которая равна Ну грубо говоря по порядку и это в степени едини на P где
42:43
это связано с Q То есть если Q равно дво то это тоже равно двойке значит в
42:50
противном случае оно зави это вот оно здено
42:58
я сейчас это пояс то есть мы гарантируем некоторую не очень Может быть быструю но
43:04
на это и рассчитывать конечно не приходится такую степенную но мы гарантируем степенную скорость
43:10
сходимости Теперь давайте смотреть для чего мы гарантируем Но первый момент
43:15
Давайте посмотрим Просто вот как здесь написано что вот что у нас есть у нас есть некая исходная
43:22
СФУ ито гаем что вот так то есть что вот это
43:30
принадлежит Вот это считайте ра это сечас неважно что принадлежит вот этому
43:37
Вот этому обобщенному акта То есть если в этой теореме положить большое Рав то
43:44
есть понятно что выполняться это будет потому что тогда просто можно взять рам нулю то тогда оказывается для всех фуго
43:57
вот такую скорость сходимости То есть если мы берём и знаем заранее что наша функция принадлежит вот
44:03
этому обобщенному октаедр то мы гарантируем что вот это обобщённый ну
44:08
слабый чебышовка опять-таки если Q равно двойке то здесь
44:15
M в степени – 1/2 теперь Зачем все вот эти тут Эпсилон Ну вот теперь интерпретируем это с такой
44:23
точки зрения то на следующем слайде это будет более подробно но я просто уже скажу
44:28
Теперь мы говорим мы же хотим построить такой алгоритм это был чей пункт в тех вопросах которые я оставил чтобы
44:33
алгоритм был устойчивый не только давал какую-то погрешность хорошую но ещ и устойчивый значит как мы это понимаем
44:40
устойчиво зде мы тепер говорим так предположим изначальный Ну опять-таки пусть ра для просо изначальный элемент
44:47
это вот это то есть некий элемент
44:57
измеряем F которая это как говорится такая возмущенная то есть
45:03
такая то есть зашумленные F Ну зашумленные вот на это си вот мы говорим
45:08
что вот мы его измеряем вот F который мы измеряем это вот этот и применяем наш
45:14
гриди алгоритм к этому F к зашумленные что всё равно в конечном итоге ну этот
45:22
заун это отличается меньше либо равно чем на то есть в этом смысле тут понятно что если си большое то Тут
45:30
ничего мы не получим Но если си маленькое то вот Это говорит о том что мы находим приближение оно же
45:38
приближение и F оно же и приближение F оно приближение очень хорошая и
45:44
стабильная то есть шум в этом смысле не влияет То есть как видите здесь максимум из 2 э то есть далеко это всё равно не
45:51
уходит то есть остаётся около того заумный это сейчас я тут в более
45:58
конкретном так сказать виде написано что Ну вот как тут ещ другой момент Но я это
46:03
уже обсуждать не буду что можно из-за того что там э оценка и для F и для F из вот этого обобщенного Ара
46:12
можно там интерполяционные рассмотреть под пространство но это не будем говорить сейчас но суть того что я вот
46:17
сейчас хочу сказать и подчеркнуть это вот то что я там подвал что для
46:24
заного элементари же хорошо как и
46:30
исход но теперь Давайте немножко времени осталось немножко так сказать Вот это
46:36
сравним и значит ещё в двух словах значит то что я рассказал это очень
46:42
Такой узенький путь который народ прошёл за 20-30 лет вот в этой теории сжатия
46:50
информации Гри приближения и так дале дале ивы момен
46:55
подчеркну везде во всех вопросах приближение строилось как Линейная
47:00
комбинация если в старые времена это была было просто линейное подпространство то как говорится Вот
47:07
новизна которая была вот эти последние 20-30 лет это нелинейное приближение это
47:12
уже такие разреженные приближения то есть мы могли выбирать любые элементы заданной системы и тем не менее в этой
47:18
постановке дошли более-менее до конца то есть для произвольных словарей для
47:24
произвольных пространств Ну более менее что-то Как говорится
47:29
получается сейчас же мы сталкиваемся вот с этими с neural networks вот как здесь
47:35
быть что здесь известно и вот тут ну у нас были несколько докладов и скажем вот
47:40
Дмитрий Яровский он рассказывал о том как эти нейронные сети можно использовать чтобы в точности
47:46
представить функции и тогда же было замечено в обсуждение нагла что конечно
47:52
это будет если так и можно сделать то это всегда очень неустойчиво Ну и так далее То есть много таких
47:58
вопросов Конечно потом тоже было ясно что если это применять то параметры уходят на бесконечность без этого ничего
48:05
не сдела но вот если стараться как-то скомбинировать например вот те подходы которые существовали и с тем что сейчас
48:12
есть Например можно поставить вопрос таким образом Ну давайте возьмём эту нейронную сеть Ну так как вот я в начале
48:18
определял И заранее скажем
48:28
численные параметры по моду меньше едини тогда понятно что такими функциями мы
48:34
представить каждую функцию не сможем сможем только приблизить А тут скажем что пусть это теперь будет словарём А мы
48:40
будем теперь приближать линейными комбинациями Ну понятно что Ну понятно
48:46
из того что я рассказал что можно буде всегда приблизить и даже можно будет гарантировать какую-то скорость
48:55
сходимости но тем не менее мы не обойдём Вот это вопрос оптимизации потому что в
49:01
гриде алгоритме там жно написать супремум применение Ну линейного линейного линейного
49:08
функционала нормирующее функционала но тем не менее его надо применить Ну например если это скажем в гильбертовом
49:15
пространстве то это будет просто скалярное произведение это будет интеграл но вот если по этому пути идти
49:21
сразу же вот у меня тут это написано вот где-то конечно было бы замечательно что
49:26
Было бы очень здорово если бы построить какую-то параллельную В каком-то смысле теорию вот для этих для neal networks Ну
49:34
например вот для те кто занимается Алим это оче естественный вопрос но это Неве ничего
49:40
это Неве скажем вот берм эти функции вот из net говорю Пусть параметры
49:46
зафиксированы меньше по модулю меньше единиц берм какую-то линейную комбинацию какие надо строить хорошие рные формулы
49:55
как их интегрировать непонятно Ну конечно можно применять Монте Карло и так далее но мы знаем что
50:02
в многомерном случае очень часто можно для каких-то классов предъявить
50:15
детерминизма Вот численным интегрированием вот этих функций
50:25
нероли бы бы очень интересно но я в это не очень-то верю но может быть что можно
50:30
было бы доказать что-то Вроде вот этих неравенств для бега для нейронных сетей то есть мы применяем вот гриди алгоритм
50:37
вот такой вот чебышовка
50:56
В каком-то смысле отказываемся от построения
51:19
приближающегося что альтернатива состоит в том что надо брать Всё лучшее если
51:24
есть такая возможность из того что было до и по крайней мере то что было до оно даёт некий Как говорится некое
51:31
направление некий такой Маяк Как говорится куда можно двигаться но удастся ли туда продвинуться Это большой
51:36
вопрос Ну пожалуй я на этом закончу
51:43
Спасибо Владимир Николаевич Большое спасибо за интересный доклад у нас время
51:51
вопросов Есть ли вопросы а вот есть Есть вопрос
51:59
покаже чисто математических определений а Фрей – это тоже самое что у вас здесь присутствовало или фрейм – это другой
52:06
термин Ну я поясню рейм это это уже вообще говоря переполненная
52:14
система здесь же в части доклада Как я понимаю вы рассматриваете именно переполнен систему как раз таки когда
52:19
алгоритм ИТ переполненной сист вот это
52:25
вот просто не фрейм Наверное нет Ну ещё раз давайте про фреймы значит фреймы там
52:31
разные бывают но например самый простой пример если взять две Орто нормированные
52:37
системы и объединить Вот это получится фрейм то есть она переполненная вот ну
52:42
там это своя теория и там на самом деле вот в гином пространстве любой фрейм вот так можно представить но это была
52:48
Великая проблема там всё сейчас не буду Говорина зн и далее это одна из формулировок нфа
52:57
но интересно вот что что Конечно мы можем для фреймов а для фреймов
53:02
поскольку Эта система переполненная там уже единственного разложения нет но там есть разложение которое считается
53:08
каноническим то есть ну оно также считается как для нормированного система просто вот и тогда можно конечно там
53:15
определить вот пороговый гриди алгоритм Исходя из этого то есть вот каноническое разложение взяли и определили тогда там
53:21
всё более менее идт также как вот вле
53:28
они же будут относиться как ки бази куда более в этом смысле простые
53:35
системы Если вы несколько объедините вот тогда уже получится фрейм то есть это немножко разные такие системы значит но
53:42
вот если Теперь мы станем к фрейму применять наши общие алгоритмы это
53:47
система переполненная то есть Можем применить этот
53:56
мы доказали теоремы общие Вот как я сформулировал там при общих словарях там всё доказали но получить улучшение в
54:04
предположение что это фрейм мы не можем то есть вот Хотя конечно оно должно быть
54:09
где-то какое-то но как это получить непонятно то есть в этом смысле Вот там ещё есть много Как говорится простор для
54:17
деятельности то есть на таком очень абстрактном уровне много доведено до конца и Понято Но вот в промежутке То
54:24
есть когда вот наме вять доказать нежно ли там например доказать неравенство или бега или ещё что-то это никто не знает
54:30
Потому что Оказывается уже слишком сложно Потому что сам алгоритм очень нелинейные и проследить что там
54:36
происходит очень бывает сложно так ещё вопросы
54:44
да всё-таки может немножко разовьёт ну допустим есть у нас какие-то новые
54:51
адаптированные квадратурные формулы вот для этих функций которые у нас
54:57
вот что дальше А дальше Вот если это есть это это было бы прекрасно Потому
55:03
что если это есть то тогда вот Мы возвращаемся К
55:09
определению жадного алгоритма и вот смотрим сюда Ну это всё
55:15
здесь в баном пространстве Но если пространство гильбертово то тогда как я сказал Этот
55:22
функционал нормирующий это просто можно взять саму функцию F денно на норму этой
55:27
функции То есть фактически нужно будет брать скалярное произведение и А что
55:33
скалярное произведение например V2 это интеграл То есть если мы можем делать это численно то тогда мы уже как
55:40
говорится в игре у нас как говорится Мы в бизнесе и тогда мы можем Всё это всё это просматривать и
55:46
просчитывать конечно Тут вопрос что одно дело мы сумели хорошо интегрировать сами
55:52
функции а другое дело надо интегрировать функцию умноженное на что-то Ну как
55:58
правило это уже так можно Ну я просто хочу сказать что последние буквально 10 лет вот тут
56:04
Прогресс вот в таких квадратурный формулах которые используются вот для
56:12
совместно это рациональных аппроксимации например там с общими знаменателями Вот
56:19
вот то что идёт от аппроксимации эрмита под вот это вот новый класс квадратурный
56:25
формул и и они как раз вот хорошо ещё применяются вот когда у вас есть RGB
56:31
сигналы Вот вот такое вот как будто у вас три штуки Таких вот и вот эти новые квадратурные формулы хорошо работают Вот
56:38
может быть здесь тоже что-то вот которое не ну надо вот по чётче посмотреть и
56:44
сформулировать задачу формул вот применительно к сетям
56:49
это могло бы быть вообще реша Бель Конечно Потому чтом уже пошло бы пошло Конечно потому что тамм её може
56:55
сформулировать
57:06
пори изначально это усложняет проблему Да конечно что-то там Можно я думаю
57:15
сделать ещ вопрос скоре не вопрос неко замечание
57:26
можно считать что это свёртка с каким-то ядром Они же как раз Как используются в свёрточные неровных сетях и по этой
57:32
причине в моём понимании как раз-таки неродная сеть просто-напросто своей большой глубиной и с учётом что у нас лю
57:41
является вот этой самой а функции активации то на самом деле она просто-напросто подбирает Базис Ну то
57:47
есть а это сложно может так пояснить но нуно как бы получается что в итоге она в
57:53
итоге строит тот самый Базис про который может вы и говорить она строит вот как-то таким хитрым образом
58:00
Ну вы знаете я бы это прокомментировал немножко по-другому то есть У меня
58:05
скорее представление вот какое вот смотрите вот эти два направления так будем говорить вот это классическое так
58:11
будем говорить когда мы знаем что например у нас функция Ну например просто картинки вот мы знаем что
58:18
картинки и по этим картинкам вот мы хотим подстроить хороший словарь который бы эти картинки хорошо
58:25
прибл там есть там они очень хорошо Очень хороши например для бэкграунда там
58:31
для всего то есть там уже известно для чего они хороши но например вот то что называется картинки Эти cartoons то есть
58:36
ну как мультипликативные то есть там вот такие то уже там вы плохие Ну ничего
58:42
народ там построил там ещё что-то построили То есть в принципе тут шло развитие То есть подстраивать под свой
58:49
класс картинок что я хочу сказать что если есть какие-то физические черты
58:55
конкретные под них подстраивать свои словари под них подстраивать свои словари но у моё впечатление от вот этих
59:03
EP Learning вот этих neural networks что здесь преимущество состоит в том
59:09
что систему и не стараются подстроить под какие-то физические свойства наоборот она она она так сказать
59:18
реагирует только на распределение совершенно неважно откуда оно взялось потому что все эти картинки всё это вот
59:24
X – это вектор какое-то распределение Какое не надо нам знать это и не нужно но это
59:31
распределение и вот эта система работает откуда они взялись эти векторы либо это
59:36
картинки были там с кошечками собачками либо ещё откуда-то из медицинских каких-то это неважно а система Всё равно
59:42
работает поэтому в этом смысле вот эта универсальность она так сейчас и это как говорится Ну производит впечатление Я
59:51
думаю что вот это тут ключевой момент так ещё
59:57
Можно вопрос пожалуйста вот когда мы раскладываем на линейную комбинацию чего-нибудь У нас очень часто есть
1:00:03
физические смысл этих коэффициентов Например если мы раскладываем по
1:00:08
синусоида то это у нас Спектр и это энергия там каждый синусоиды когда мы
1:00:14
раскладываем вот на такие избыточные словари если у нас возможность посчитать энергию если у нас есть система которая
1:00:20
раскладывается на линейные коэффициенты и система которая раскладывается вот по такому базису Можем ли мы е
1:00:27
энергии Ну понимаете Здесь вопрос такой конечно ну первый Я
1:00:33
сначала скажу про вот физический смысл так сказать что Ну конечно даже когда
1:00:38
они редан там даже специальный термин существовал до сих пор существует что есть вот у вас переполненная система
1:00:45
тогда Каждый элемент он назывался фи то есть черта некая то есть вот мы знаем что тот который у нас будет элемент он
1:00:53
обладает какими-то чертами вот нам нужно установить Ну вот устанавливаем вот разные алгоритмы существуют и так далее
1:01:00
а теперь то что касается энергии Если что называется в лоб напрямую Ну то конечно Что такое энергия Но это будет у
1:01:06
вас модуль в квадрате если функция интеграл и так далее Вот это конечно можно почитать другое дело Как посчитать
1:01:12
по коэффициентам это уже Вопрос более серьёзный Но опять-таки если это всё в гильбертовом пространстве Ну вот пишете
1:01:20
если для этих элементов написали матрицу грамма и через неё Всю энергию посчитаете но
1:01:26
конечно интересный вопрос Вот именно в физическом смысле и вот это это ключевой
1:01:32
момент это ключевой момент и вот здесь ну что тут сказать может быть не
1:01:40
отвечаю уже на ваш вопрос а просто один шаг ещё дальше то конечно в какой-то момент люди стали понимать что часто мы
1:01:48
и не можем вложить какой-то физический смысл Вот например Данные есть но это больше было в том разделе который
1:01:54
называется развива Данные какие-то есть а что делать Какой словарь использовать
1:02:00
как с этим действовать было непонятно Но тогда там развилась такая наука
1:02:06
появилась как построение оптимального словаря для представления
1:02:11
вот этих данных то есть есть би это очень сложная задача но есть бита А мы
1:02:16
хотим эти би представить наиболее таким компактным наиболее экономным пум с помою Вот таких ленных приближений для
1:02:24
этого стро словарь за можно решить на практике используется
1:02:29
это такое направление активно но там уже Конечно мы никакой структуры никакой физического смысла Как говорится
1:02:35
гарантировать не можем Что есть то
1:02:41
есть Спасибо может быть ещё один
1:02:50
вопрос Спасибо такой вопрос вот э теория
1:02:55
как-то связа с градиентным бустинга пото что кажется что вот градиентный бустинг как-то ближе вот к этой технике к общей
1:03:02
идеологии чем нейронные сети а ну вот на практике это очень популярный алгоритм и
1:03:09
то есть ну в реальных задачах очень часто используется и его структура она в каком-то смысле ближе потому что там в
1:03:15
нём есть какая-то квази линейность У меня есть идея вот такой гриди аппроксимации идея выбора какого-то
1:03:23
специального базиса Вот и кажется что это что-то что довольно близкое но при
1:03:29
этом есть существенные отличия вот как мне кажется скажем использование деревьев обычно используется деревья и в
1:03:35
результате вот этот Базис по которому мы раскладываем он получается состоящим из таких кусочно постоянных функций что не
1:03:41
очень эффективно вот ну если ели какие-то результаты
1:03:47
которые позволяют вот эту технику использовать для градиентного бустинга может как-то его улучшить или понять как
1:03:53
он работает нет спасибо Это очень как говори Хороший вопрос но на него нужно будет пару минут
1:04:01
на ответ да конечно то есть на первое что вот то что это связано с градиентным
1:04:07
спуском это напрямую потому что нормирующий функционал Да нормирующий функционал это
1:04:14
и есть нормирующий функционал это по существу есть производ производно гото но это как раз говорил про бустинг
1:04:22
градиентный бустинг тный бустинг а дадада да я понял
1:04:27
Нет ну я сейчас про градиентный спуск Ну потом сейчас к этому да да а бустинг – это очень близкий это тоже это как говорится тоже гриди там соображение но
1:04:35
Давайте я вот эту разобью мысль потому что это тоже интересная вещь то по существу вот этот то что мы
1:04:43
нормирующее ри то есть мы ищем куда говорится но здесь вот отличие от и это
1:04:50
вот эта вся наука оно потом была развита в направлении то есть здесь что мы делаем у нас норма то есть мы хотим
1:04:58
минимизировать норму Ну норму можно в какой-то степень возвести и так далее А можно теперь взять Любую выпуклую
1:05:03
функцию на банком пространстве и стараться что-то оптимизировать но оптимизировать вот здесь уже Мы будем
1:05:11
только таким способом что мы будем идти по направлению вот тех элементов которые
1:05:16
нам даны в словаре то есть ну это Если сравнивать с градиентным спуском то есть градиентный спуск так ска классический
1:05:23
есть координатный градиентный спус когда мы идм по координатам А можно как
1:05:29
говорится сделать вот такой вот градиентный спуск с по словаря то есть вот это можно делать Постовая и там вот
1:05:36
в этой общей теории на баковых пространствах что-то получается теорема есть там всё то есть в этом смысле это
1:05:42
это вполне Как говорится развито это вполне Как говорится Разумное направление Ну а то что касается вот
1:05:49
этого бустинга в целом это тоже тако это фактически тоже самое то есть то что они делают гриде это то что они делают
1:05:56
бустинг это по существу вот ну в другой форме там много всяких греди алгоритмов существует по существу это очень близкие
1:06:03
вещи Да ну вот на практике Я не видел чтобы кто-то использовал бустинг без деревьев например
1:06:10
вот вот вы Как вы рассказываете Базис может быть любой как бы правильно более-менее Ну то есть есть разные
1:06:17
возможности обычно все используют деревья это же результаты теоретические
1:06:23
Да а на практике когда на это это также точно так же как и SS и так далее То
1:06:28
есть Так вот мы говорим выбираем самые большие коэффициенты но на практике когда люди
1:06:33
начинают это делать они начинают делать так то есть выбирают пачку выбирают что-то потом дальше идут по и идут по
1:06:40
деревьям То есть это деревья тут так как говорится это это уже элемент практической реализации это безусловно
1:06:47
Да это конечно хорошо спасибо Хотя говорю можно делать и в лоб поскольку
1:06:52
сейчас вычислительные возможности таковы что тут можно и без деревья
1:06:59
наше время истекло Большое спасибо Владимир Николаевич очень интересный доклад Да у нас маленькое объявление
1:07:07
следующее заседание у нас попадает между майскими праздниками и решили всё-таки
1:07:12
не проводить потому что мало людей ожидается Так что получается через раз
1:07:20
ну не через раз через два раза через раз чере то есть д второго
1:07:26
22 мая будет же конференция посвященная
1:07:31
девяносто летию института А этот д второго то есть ну
1:07:37
фактически мы пропускаем одно просто одно пропускаем восьмого А дальше
1:07:43
идт Ну в рамках конференции Мы тоже ждём доклад Владимира
1:07:49
Николаевича тные отделы в томс про ного
1:07:56
интеллекта это всё будет транслироваться это будет в понедельник 13
1:08:02
мая спасибо всё спасибо вам