Генетика и нейросети: новая эра в биологии | Ольга Кардымон

Оценили: 13

Современные языковые модели научились анализировать и генерировать текст, помогая нам в работе, творчестве и коммуникации. Но что, если их способности можно использовать не только для обработки человеческой речи, но и для понимания «языка жизни»? Ведь природа с нами разговаривает на своем языке, зашитом в последовательностях «букв» ДНК и считанных с них белков.

На лекции обсудим, какие принципы работы современных нейросетей применимы к биоинформатике и как их адаптируют для изучения сложных биологических данных. Разберемся, как ИИ может ускорить разработку лекарств, найти причины заболеваний и даже предложить новые подходы к редактированию генома.

*https://www.youtube.com/watch?v=wGP_mDsacQs
**https://300.ya.ru/v_MNHqmltn

Таймкоды

00:00:00 Введение

Оля, биолог по образованию, работает в институте искусственного интеллекта.
Имеет несколько образований: зоолог, медицинский генетик, менеджмент в здравоохранении, би-информатика.

00:00:27 Популярность ИИ

ИИ широко используется в text-generation, генерации картинок и робототехнике.
В биологии и генетике ИИ применяется недавно.
Причины популярности: новые математические алгоритмы, мощные видеокарты, огромные наборы данных.

00:01:24 Технические достижения

Видеокарты 2022 года сопоставимы по мощности с суперкомпьютерами 2004 года.
Появление баз данных секвенированных геномов.

00:02:27 Языковые модели

Примеры моделей: ChatGPT, GigaChat, Яндекс.
Обсуждение языковых моделей для ДНК.

00:03:01 Обучение моделей

GPT-3 обучался на большом объёме данных.
Геном человека содержит 3,3 миллиарда пар оснований.

00:04:44 Проект «Геном человека»

Проект стартовал в 1999 году, первая версия генома вышла в 2009 году.
В 2017 году версия была улучшена, в 2022 году объявлено о «полном» геноме.

00:05:57 Структура генома

Гены составляют около 2% генома, кодируют информацию о жизни.
98% генома ранее считались «мусорной» ДНК.

00:07:15 Генетический код

Генетический код реплетен только для кодируемой части генома.
98% генома не подчиняются чёткому генетическому коду.

00:08:09 Рекомендации

Не рекомендуется заниматься ИИ в биологии без знания биологии.

00:08:20 Ядро клетки и генетический код

Ядро — главный компонент клетки, где хранится генетический код ДНК.
ДНК организована в хромосомы, которые выглядят как клубочки.
Для считывания ДНК и синтеза белка необходимо, чтобы определённые участки ДНК были открыты.

00:09:12 Работа геномной машины

Белки взаимодействуют с последовательностями ДНК для синтеза РНК и белков.
Отсутствие свободного пространства вокруг ДНК означает отсутствие гена и считывания информации.

00:09:35 Структура гена и регуляторные элементы

Ген начинается с промотера, с которым взаимодействуют молекулы, запускающие процесс считывания.
Инхансеры и транскрипционные факторы усиливают работу промотера.
Сайленсеры блокируют работу промотера, а тандемные повторы и транспазоны могут мешать считыванию.

00:10:33 Различия в экспрессии генов

В каждой клетке организма одна и та же последовательность ДНК, но регуляторные элементы работают по-разному.
Это объясняет различия в функциях клеток: мозг, сердце, печень, почки.

00:11:33 Пример экспрессии гена MHC7

Ген MHC7 активно экспрессируется в клетках сердца, но не в клетках мозга.
Ген SLC1A3 экспрессируется в клетках головного мозга, но практически не экспрессируется в клетках сердца.

00:12:47 Методы изучения экспрессии генов

Биохимические эксперименты измеряют активность известных участков генома.
Биониформатический подход сравнивает последовательности у разных организмов, выявляя консервативные участки.
Методы редактирования генома позволяют вносить мутации и изучать их влияние на клеточную активность.

00:15:39 Ограничения данных и нейросетевые модели

В 2021 году было доступно менее 7% данных по биохимическим маркерам для разных типов клеток человека.
Модель Dipsity предсказывала некоторые результаты, но оставались вопросы к её точности.

00:16:13 Введение в проблему

Google попытался применить архитектуру Берты к геному человека.
Модель требует дополнительной настройки для решения конкретных задач, например, поиска промотеров в клетках дрозофил.
Результаты оказались крайне неудовлетворительными.

00:17:13 Начало работы над собственной моделью

Команда решила создать собственную языковую модель для ДНК.
Необходимо было учесть биологическую логику и особенности генома.
Датасет включал три миллиарда букв, но разделение на предложения было сложным из-за отсутствия смысла в геноме.

00:18:10 Подходы к токенизации

Рассматривались различные подходы к токенизации: от одного нуклеотида до кемеров.
Математики предложили использовать модель для выделения смысловых токенов.
Биологи указали на ограничения использования генома человека для других видов.

00:19:06 Обогащение датасета

Датасет обогащён мутациями здоровых людей и геномами разных видов.
Модель GenaLM/GinaBP токенизирует 512 токенов, что ограничивает длину последовательности до 4500 букв.

00:20:41 Проблемы с длиной последовательности

Биологи отметили, что 4500 букв недостаточно для анализа регуляторных элементов.
Архитектура BigBird позволила увеличить длину последовательности до 36 000 букв.

00:21:56 Задачи, решаемые моделями

Модели предсказывают промоутеры, инхансеры, сайты сплайсинга и полиоллионирования.
Эти задачи важны для медицинских генетиков и понимания работы генов.

00:24:01 Сравнение моделей

Модели с большими последовательностями работают лучше, чем с маленькими.
Некоторые языковые модели превосходят стандартные биоинформатические подходы.
Важно учитывать оправданность использования нейросетевых моделей.

00:24:57 Ограничения моделей

Модели плохо предсказывают девелопмент-инхансеры по сравнению с классическими подходами.
Хаус-кипинг-инхансеры лучше поддаются анализу моделями.

00:25:47 Конкуренция и развитие

В 2021 году появились новые модели, включая модель Стэнфорда и модель N. Видео.
Команды продолжают развивать свои модели и делиться результатами.

00:26:18 Языковые модели для генома

Обсуждаются три языковые модели для генома, которые пока не нашли широкого применения, но показывают свою эффективность.
Упоминаются разработчики Юра и Вениамин, которые внесли значительный вклад в создание этих моделей.

00:27:12 Белковые языковые модели

Объясняется, что белковые языковые модели проще в использовании и существуют благодаря компании AlphaFold.
Подчёркивается важность трёхмерной структуры белков для их взаимодействия.

00:28:10 Прорыв в предсказании структур белков

Описывается соревнование CASP, где программы предсказывают структуры белков.
Программа AlphaFold 2 в 2020 году достигла высокой точности предсказания структур, что стало прорывом в биотехнологической отрасли.

00:29:10 Трудности экспериментального получения структур белков

Объясняются сложности экспериментального получения трёхмерных структур белков: необходимость создания кристаллов и их сканирования.
Подчёркивается, что AlphaFold 2 позволяет доверять предсказаниям структур.

00:30:06 Структура белков и языковые модели

Объясняется структура белков: алфавит из 20 аминокислот, вторичная структура альфа-спираль и бета-слой, третичная структура и четвертичная структура.
Отмечается, что белковые языковые модели проще в обучении благодаря доступности данных.

00:32:20 Проекты с вакцинами

Описываются проекты с группой из Гамалеи, включая предсказание мутаций вируса и оценку необходимости локдауна.
Поднимается вопрос о предсказании патогенности мутаций и необходимости новых вакцин.

00:34:29 Иммунный ответ и антитела

Объясняется механизм взаимодействия антител с антигенами на примере спайк-белка коронавируса.
Указывается на важность открытой конформации белка для связывания с антителами.

00:35:16 Модель SEMA и гликаны

Описывается модель SEMA, которая предсказывает связывание антител с белками.
Подчёркивается влияние гликанов на взаимодействие антител с белками, что влияет на эффективность вакцин.

00:37:04 Вторая версия модели

Упоминается использование модели Saprot для предсказания тримерных структур.
Обсуждается необходимость учёта влияния гликанов на эффективность вакцин и разработку моноклональной терапии.

00:37:11 Введение модуля гликозилирования

Введён модуль, связанный с гликозилированием, для более точного предсказания ипитопов.
Модель доступна в веб-интерфейсе и используется учёными.
Компания Nova Zymes объявила приз в 25 тысяч долларов за модель, предсказывающую стабильность ферментов в зависимости от мутаций.

00:38:04 Подготовка к соревнованиям

Команда начала подготовку к соревнованиям перед Новым годом.
Использовались компетенции по обучению и использованию трансформеров.
Задача оказалась сложной из-за физических аспектов мутаций, влияющих на стабильность белков.

00:39:04 Проблемы с датасетом

Модель не работала на датасете соревнований Kaggle, хотя на других датасетах показывала хорошие результаты.
После публикации правильных результатов команда заняла низкие места.
Победитель соревнования использовал датасет, не учитывающий биологические закономерности.

00:40:04 Публикация модели

Модель опубликована в информатическом журнале и имеет веб-интерфейс.
Название модели «Простата» стало внутренней шуткой, которая привлекла внимание.
Статья хорошо цитируется, несмотря на первоначальные шутки.

00:42:03 Модель «Про Флюин»

Модель «Про Флюин» создаёт дизайн нового белка со свойствами лизоцима.
Использовалась языковая модель Progen на основе трансформера.
Получено около тысячи искусственно синтезированных белков, пять из которых показали свойства лизоцима.

00:44:34 Перспективы использования языковых моделей

Языковые модели могут заменить ручной перебор структур белков.
Настройка моделей на конкретные задачи позволяет получить результаты быстрее.
Специалисты по дизайну белков могут перейти к использованию языковых моделей для ускорения процесса.

00:44:55 Протеин-дизайнер и модель Димы

Протеин-дизайнер решает множество задач, его тестируют частями.
Модель Димы направлена на диффузию белков.

00:45:14 Структура белков и обучение моделей

Белковая структура сложна, включает химические соединения и углы.
Модели обучаются на каркасах белков, игнорируя радикалы.
РФ-Диффужн обучается на координатах атомов, а не на плоских изображениях.

00:46:10 Генерация новых белков

РФ-Диффужн генерирует новые белки, понимая естественные структуры.
Пример: симметричный белок для транспортной функции антигенов.
Возможность создания вакцин против нескольких паразитов.

00:47:10 Достижения Дэвида Бейкера

Дэвид Бейкер получил Нобелевскую премию за дизайн белков.
Модели РФ-Диффужн генерируют инсулиновые блокаторы.
Создание белка, блокирующего токсин кобры, подтверждённое на мышах.

00:48:11 Ограничения РФ-Диффужн

База данных РФ-Диффужн ограничена 212 тысячами белков.
Для реального синтеза новых белков требуется обучение по тексту и 3D-структурам.

00:49:09 Модель Димы и её особенности

Модель Димы генерирует белки по тексту.
Предсказывает регионы айдиара, которые выполняют полезные функции.
Айдиара — неструктурированные ниточки, помогающие исследовать внутренние части белков.

00:50:05 Будущее медицины

Инструменты на основе ИИ будут создавать новые белки, формируя медицину.
Ожидается, что это произойдёт на нашем веку.

Расшифровка видео

0:00
А меня зовут Оля, со мной можно на ты, так даже проще. Я по образованию биолог изначально я закончила МГУ биофаг. А
0:08
более того, я изначально зоолог, а потом ещё много-много лет училась на медицинского генетика, на, а, менеджмент
0:15
в здравоохранении и на биинформатику. У меня несколько образований. А работаю я
0:20
на сегодняшний день уже четвёртый год руководителем группы Биинформатика в институте искусственного интеллекта
0:26
Айри. Вот кратко про бэкграунд. И, собственно, тема, которую я хочу
0:31
рассказать, это она достаточно новая. Вот искусственный интеллект, там по отношению к тексту, картинкам, к, я не
0:37
знаю, там, к работотехнике давно уже используется, да? То есть мы там пользуемся чать GPT, пользуемся разными
0:43
голосовыми помощниками, и всё кажется понятно. Есть текст, задаём вопрос, нам что-то генерирует, там ответ какой-то
0:50
или просим нарисовать картинку, и всё рисуется. Вот с биологией, с генетикой
0:56
это не так давно начало использоваться. И, собственно, вот мы тоже стоим, моя группа стоит у основания. А, но почему
1:02
вообще языковые модели и искусственный интеллект стал так популярен последние годы? И тут надо сказать, а, ну, в целом
1:10
три стандартных пункта. Первое, у нас появились, а, новые математические алгоритмы. Ну, я имею в виду в первую
1:16
очередь такую архитектуру, как Трансформер, на которой как раз все GPT модели обучаются. А у нас появились видеокарты.
1:24
Вот если мы сравним какую-нибудь GPU видеокарту 2022 года, а по мощности, она
1:30
будет сопоставима суперкомпьютером 2004 года. 2004 год — это год, когда я школу заканчивал. То есть для меня это вообще
1:36
вчера, честно говоря. Вот. А поэтому прорыв, конечно, серьёзный. Ну и,
1:42
соответственно, у нас появились огромные наборы данных. А понятно, что есть там
1:48
Википедии, а есть куча оцифрованных архивов, а там куча электронных
1:53
библиотек там и прочее, прочее. Но с точки зрения генетики биологии, то я, конечно, в первую очередь говорю про
1:59
базы данных, там, секвенированных геномов, секвенирование. Сколько биологов? Давайте так, чтобы я понимала,
2:05
каким языком говорить. Нормально. Половина, да? Ну а хорошо, попроще. Ну,
2:10
в общем, появились прочтённые, расшифрованные геномы. Они собираются в базы данных. базы данных с каждым годом,
2:16
а сильно увеличиваются в своём количестве, и на них уже становится возможным тренировать какие-то модели,
2:23
даже там делать претренированные модели. А два логотипа известных
2:29
моделей, которые генерируют текст чат GPT. Соответственно, в России популярен гигачат и Яндекс, кстати, тоже
2:36
чат Яндекс GPT популярно. И генерация картинок мажорни Кандински. Это вот то,
2:43
что я в какой-то момент просто поставила. Ну, мужчину вы все знаете, это, конечно же, не Кандинский, но модель почему-то Кандинского использует
2:49
эту картинку себе как аватар модели. Почему, не знаю, увижу разработчиков,
2:54
спрошу. А давайте поговорим про языковые модели для
3:00
ДНК. А вот я нашла цифры для GPT3. На чём обучалась, на каких объёмах, э, в
3:07
токенах GPT3 модель. И в целом здесь вот источники перечислены с количеством
3:14
токенов. И есть там какие-то загадочные букс 1 и букс 2. Да, никто не знает, что в них полностью зашифровано, но тем не
3:21
менее достаточно большой объём данных, на которых третий GPT обучался. У всех
3:26
остальных, кто обучает, тоже есть какая-то своя градуировка, на чём обучают из GPT модели, но какой-то объём
3:33
данных скрывается и на этом якобы играет у кого сильнее, у кого лучше. Вот когда мы говорим слово токен по отношению к
3:40
тексту, к языковым моделям, то чаще всего токен — это слово. Ну, то есть там
3:46
декабрь 31, 1993, запятая точка, things — это token.
3:52
А, соответственно, а буквы — это вот количество букв в этом предложении. Но а
4:00
геном человека, да, он у нас не обладает словами, он обладает алфавитом в четыре
4:06
буквы только А, Т, Г, С. Эти четыре буквы, соответственно, непонятно, как
4:12
как образуются слова, предложения, те же книги, да, соответственно, разделы, главы, то, на чём, а, изначально
4:19
языковые модели базируются. А вот если геном человека в 3,3 млрд букв
4:25
распечатать, то это вот первая версия собранного генома человека, то получается у нас 130 книг размером шрифт
4:32
4, соответственно, 78.000 страниц. Вообще, с точки зрения обучения языковой модели, это большой датасет. На нём уже
4:40
можно делать хорошую языковую модель. А 3, млрд пар оснований.
4:47
Когда я сказала про первую версию генома человека, то это та первая версия, которая которой завершился проект Геном
4:53
человека. Он стартовал, по-моему, в девяносто девятом году, 10 лет собирали, в 2009 выдали первую абсолютно неполную
5:01
версию с большими промахами, с кучей ошибок, но тем не менее её и по сей день
5:06
используют. В семнадцатом году эту версию генома чуть-чуть улучшили, пересмотрели, соответственно, сделали
5:12
выравнивание, соответственно, а она тридцать восьмая. И только в двадцать втором году Science и все известные нам
5:19
журналы написали, что мы наконец-то якобы полностью собрали геном
5:26
человека. А почему я с таким немножко скептицизмом? Потому что когда начинаешь общаться с ребятами, которые его
5:31
собирали, они, конечно, тебе сразу говорят: «Оль, ну ты знаешь, там такие дыры, которые, ну, блин, ну вот никаким
5:37
никакими технологиями не закрыть, поэтому всё равно он не полный». Полный он только для прессы. Но тем не менее,
5:42
что имеем, то имеем. последней версии генома человека, полностью собранного, расшифрованного относительно полностью,
5:49
2022 год. А перед тем, как я дальше буду искусственный интеллект вводить на эти
5:54
геномные данные, надо ещё несколько понятий обсудить. Вот наш геном человека, 3,3 млрд пар оснований. И вот,
6:02
а максимум 2% по разным данным, цифры варьирует. Ну, там кто-то полтора
6:07
говорит, кто-то говорит два. Это наши гены. Вот этот вот маленький кусочек.
6:13
А, и в наших генах, собственно, кодируется та информация, которая дальше
6:19
определяет всю нашу жизнь. Соответственно, какого цвета у нас глаза, как работают наши мышцы, болеем мы чем-то, не болеем. А, ну, в общем,
6:26
всё, есть у нас аллергии, нет у нас аллергии. Абсолютно всё, а, кодирует дальше белки, обслуживающие,
6:31
соответственно, структуры, которые обслуживают наш организм. Это всего лишь 1,5% генома. Вот эти 98% очень долгое
6:38
время вообще считало, что это мусорная ДНК, она не нужна. И многими лабораториями даже по сей день, когда
6:45
делают секвенирование генома, вот эти 98% говорят, что их не интерпретируют, просто вырезают и всё. И разговаривают
6:51
только о 2%. Ну, так все, да, кажется. Вот я
6:56
всегда сравниваю с мировым океаном, который у нас изучен на 5%. Ну, океанологи тоже мне говорят, что я
7:03
позитивно смотрю на мировой океан, потому что они тоже говорят, что не больше там полутора-двух. Но вот если
7:09
спросить чат GPT, он говорит пять. Ну хорошо, пообщаемся с чатами GPT. А,
7:15
хорошо. Значит, а чуть-чуть школьный курспомним. А в школе нам рассказывали,
7:21
что у нас есть в геноме ДНК. С ДНК там в процессе, а, э, ладно, с ДНК считывается
7:29
РНК. СРНК. Дальше у нас появляется тот или иной белок. И, соответственно, если
7:35
мы посмотрим на эту схему, то тут сразу, соответственно, РНК у нас по три буквы РНК даёт нам какой-нибудь белок. Вот это
7:41
название белков, соответственно. А генетический кодплетин. Вот это правило,
7:46
оно только для кодируемой части. 98% нашего генома вообще непонятно по каким
7:53
правилам существует. То есть там нету вот такого чётко кодированного истории, там есть другое. Но вот вот код
8:00
генетический в том школьном варианте, в котором нам преподают, его нет. Опять же, да, снова, извините, не
8:06
искусственный интеллект, а простая биология. Я вообще не рекомендую заниматься людям, которые не знают биологию, искусственным интеллектом в
8:13
биологии, потому что, ну, какие-то странные вещи начинают открывать коллеги.
8:19
Аа, ну правда честно, можно открыть последнюю конференцию по искусственному интеллекту, сразу видно, где есть в
8:24
команде биолог, а где нету. Вот, вот публикуют всё, что не попаде, но зато математически
8:30
красиво. А значит, э вид внутри ядра. Ядро — это, соответственно, главный
8:36
компонент нашей клетки. В нём хранится наш генетический код, наше ДНК. И вот ДНК — это не текст в буквах, в книжках,
8:42
которые, да, я вам показала на первых слайдах, распечатанный, а вообще-то там, э, он хранится там в хромосомах, которые
8:48
состоят из хроматина. И вообще это всё вот такими вот образно нарисованными клубочками расположено. То есть оно всё
8:54
смято, но как-то сделано. Но чтобы с нашего ДНК считалась молекула РНК и из
9:00
неё дальше получился белок, а вот этот участок ДНК должен быть открыт. Вот
9:06
отсюда вот где-нибудь считывание не будет идти. Эту стену вам не запачкаю,
9:11
надеюсь. Вот. А потому что нужно, чтобы к нашем последовательности ДНК подплыли
9:17
другие белки, которые обеспечат именно этот синтез. Так работает наша геномная машина. Если этого свободного
9:23
пространства нет, здесь нет гена. Если здесь нет гена, здесь нет считывания информации. Если нет считывания
9:29
информации, то этот участок не кодирующий. Соответственно, какую он функцию несёт, под
9:34
вопросом. А и вот, собственно, схематически, как работает наша геномная машина. Вот он пустой этот участок,
9:41
который я вам показала в ядре, да, соответственно, находится вот наш хроматин, который расплетён. зелёненьким
9:47

это те последовательности нашего гена, с которого будут считываться молекулы РНК. Всегда ген начинается с участка,
9:54
который называется парамотор. Именно с ним взаимодействуют а молекулы, запускающие процесс считывания. Промотор
10:01
может взаимодействовать с энхансером. Просто так напрямой они не взаимодействуют. Есть та, которые
10:06
говорят крайне редко. Есть обычные транскрипционные факторы. Ещё одни молекулы обеспечивают это всё. Есть
10:12
молекулы, которые есть участки, которые называются сайленсеры. Они наоборот блокируют работу
10:18
промотора. А есть, соответственно, тандемные повторы, которые тоже могут
10:23
встраиваться а в наш геном и мешать считыванию правильной молекулы. Есть раципазоны, это вообще участки, которые
10:30
способны перемещаться по нашему геному. И всё, все эти элементы, вот я их чуть-чуть назвала, просто чтобы не
10:37
загружать эту геномную машину, они всевсевсе влияют на работу наших генов.
10:42
Но при этом, а стоит помнить всегда, что в каждой клетке
10:50
нашего организма один и тот же текст, одна и та же последовательность ДНК. Это
10:56
понятно, да? То есть у нас геном один и тот же в каждой клетке. Тогда почему из одной клетки у нас получается клетка
11:02
головного мозга, а с другой клетки клетка сердца? Или почему у нас там из одной клетки, а,
11:08
получается печень там, а с другой клетки получается, а там
11:14
почки. Оно получается ровно потому, что вот все эти регуляторные элементы, вот
11:20
эти вот энхансеры, да, соответственно, соленицеры, промотеры как-то расположены там внутри, не внутри, соответственно,
11:26
открытость хроматина, они в разных клетках нашего организма по-разному работают. Этот слайд, соответственно,
11:32
демонстрирует. Я просто взяла мой любимый ген Мих7, который очень часто встречается, поломки в нём очень часто
11:37
встречаются у больных с кардиомеопатиями различными. И ген, который очень активно работает в клетках головного мозга. Вот
11:45
эти столбики называются экспрессия генов. Экспрессия, соответственно, это сколько с одного гена вырабатывается
11:51
молекулы РНК. Соответственно, с этого количества РНК там дальше вырабатывается столько такое количество белка. Ну,
11:56
некоторо там относительно большое, маленькое, соответственно. И вот если мы посмотрим здесь внизу не видно, но мы
12:02
видим, что большая экспрессия, высокая экспрессия генамих семь у нас в клетках, соответственно, а сердечные артерии,
12:10
аорты, соответственно, всё, что связано с мышцами сердца, вот оно7. И при этом Хсем совершенно не
12:18
экспрессируется в клетках Brain, да, соответственно, головного мозга. Ну, то есть прямо столбиков нету. И обратно,
12:25
соответственно, а те клетки, которые отвечают за проведение нервного импульса, они кодируются геном SLC 1A3 и
12:33
экспрессируются. Вот они видно, что высокие столбики в клетках головного мозга и совершенно их не видно.
12:39
Практически нету экспрессии. Совершенно чуть-чуть. Ну, какую-то моторную функцию надо поддерживать в клетках
12:46
сердце. Понятно пока, да? Или уже уже уже тормозить? Всё о’кей, поехали.
12:54
Как раньше вообще вот, ну, хорошо, мы знаем, что, соответственно, в каждой нашей клетке ДНК считывается по разному,
13:01
вырабатывается разное количество белков с каждой клетки, по-разному формируются наши, соответственно, а, мышцы, мозг,
13:09
печень, почки, всё, что угодно. Как это проверяется? А, ну, первое, что в голову
13:14
приходит — это, конечно же, мокрым экспериментальным путём измеряется биохимическая активность. Но никто
13:19
никогда не берёт весь геном 3,3 млрд букв, да, и, соответственно, весь начинает мерить. Это слишком дорого,
13:24
слишком долго, дорого, непонятно на какие участки там, соответственно, делать эксперименты, как проверять. То
13:30
есть только только известные а к функционированию участки таким образом проверяются, что возможно здесь будет
13:36
активность. Дальше, соответственно, получают результат этой активности и заносят в базу данных. Вот, например,
13:41
код, наприме, в которой говорится, что сердечная клетка, а, взрослого человека,
13:47
участок там с такой-то буквы по такой-то номер, а, наблюдается там открытый хроматин или наблюдается, я
13:55
не знаю, там сайты отстицилирования, ну, какая-то, в общем, эпигенетическая активность. А второе, что делают
14:01
биинформатики — это берут какие-то последовательности у разных организмов, накладывают друг на друга и смотрят.
14:07
Если последовательности у разных организмов плюс-минус одинаковы, они называются консервативны. И эти участки
14:14
эволюционно очень значимы. Это означает, что в этих участках что-то происходит важное. И, скорее всего, эти участки
14:19
активные. Но если они меняются у разных видов, соответственно, никакой эволюционной консервативности здесь нету. И здесь мутации абсолютно
14:26
безопасные. И, скорее всего, эти участки, ну, какой-то такой прямо суперактивной функцией не обладают.
14:32
А это бинформатический подход, соответственно, и такой тоже известный современно генетический подход — это
14:39
методы редактирования генома. Ну, здесь нарисованы клетки дрожжей. Соответственно, там той же технологией
14:45
Крис проказ 9 можно вносить мутацию в известную, а, геномную область и смотреть, вот эта мутация убьёт ту
14:51
активность, которую мы хотим, клеточную или не убьёт. Ну, там на бактериях такие же эксперименты делают, на мышечных
14:58
культу клетках мышечных культур, соответственно. А, но опять же мы берём, соответственно, небольшой кусочек,
15:04
определённый тип клеток. И такие все данные мы накапливаем уже просто годами,
15:10
десятилетиями. И толку, что мы их накапливаем десятилетиями, не очень много, потому что в 2021 году мы,
15:18
кстати, взяли базу данных НКCд и хотели по этой базе данных построить нашу первую нейросетевую модель на основе
15:25
свёрточных сетей, а которая выглядит там приблизительно результат, который должен выглядеть как табличка, тип клетки,
15:33
эпигенетически разные маркёры, которые там открыты, закрытый хроматин будет, считывания не будет, и, соответственно,
15:38
есть активность или нет. и думали, что база данных это покроет нам, ну, хотя бы там половина известных типов клеток на
15:45
разные маркёры. Оказалось, что мы имеем на сегодня на тот в 2021 году, на тот день, а, меньше 7% данных по разным
15:53
биохимическим, а, белковым молекулам для разных типах клеток организма человека. То есть это очень изученный организм. То
16:01
есть мы ничего не знаем. Вот прямо точка. А ту модель, которую мы обучили, она называлась дипте. Она в целом как-то
16:08
что-то нам предсказывала, но вопросы к ней всё равно оставались. И в двадцать первом году, а
16:15
стало очень интересно, потому что компания Google, а уже зная архитектуру Берты и тоже архитектура на основе
16:22
трансформеров математическая, на вход который подаётся текст, а на выходе, соответственно, будет
16:27
ответ на вопрос, который из этого текста вы хотите получить, там предсказание следующего слова или какая-то генерация ответа. решили попробовать сделать такую
16:34
же архитектуру, просто подставив не текст, а геном. Геном человека, там одной из первых выборок. И на выходе,
16:41
соответственно, здесь, конечно, ответ вы прямо не получите. Они предлагают делать, а дополнительную задачу,
16:47
дополнительную под настройку системы под вашу задачу. Например, если вам надо найти промоторы в клетках дрозофил, то,
16:55
соответственно, вы делаете на эту предобученную модель ещё один слой
17:00
модели, в котором спрашиваете, есть ли в моей последовательности промотер или нет, и она уже будет вам отвечать. И
17:07
оказалось, что эта история работает, но очень плохо. Вот прямо крайне плохо. Мы
17:13
в двадцать первом году это увидели, порадовались и решили, что, ну, если у кого-то плохо, то у нас будет хорошо. Мы
17:18
же амбициозны, мы же все такие умные. А, ну понятно, что мы не Google, поэтому,
17:25
но тем не менее у нас была возможность взять, а, взяться за задачу обучить свою языковую модель для ДНК. И своя языковая
17:32
модель для ДНК, конечно же, начинается с того, что ты сразу начинаешь думать и осознавать, где а где вот этот подход
17:40
математический в лоб неправильный, где есть биологическая логика, которую надо обучить модель. Ну и первое, что
17:46
понятно, что весь текст 3,3 млрд букв — это наш там датасет, на котором мы учимся. Дальше нам, конечно же, надо
17:52
осознавать, где есть предложения. Поделить их в геноме невозможно, мы не знаем смысла. Поэтому, а, начали
17:59
пробовать рандомно делить, а, подбирая разные длины, ну, вот 500.000,
18:04
соответственно. А пара оснований нуклеотидов букв рандомно выбирали для каждого предложения, последовательно их
18:11
объединяли и получили так называемые документы. Вот такое налого с текстом мы сделали. Ну а дальше, что такое токен?
18:18
Мы не знаем, что такое токен. И здесь может быть разные подходы. Мы можем
18:23
взять один нуклеотид и думать, что он у нас будет токи. Ну как одно слово или запятая, да, например, пусть будет один
18:28
нуклеотид. Но с точки зрения биологии один нуклеотидм вообще ничего не даёт. Он даже даже тройку не собрать там,
18:35
чтобы какую-то аминокислоту получить и биохимические тоже. Ну нуклеотид. Ну ну
18:41
хорошо. Поэтому этот подход мы сразу зачеркнули. Вот одна именно кислота в белке, как текст, да, это имеет смысла,
18:47
нуклеотид не очень. Второй подход — это кимеры. То, что Google сделал. Они просто взяли там 3чеп букв, по-моему, до
18:55
шести кимеров и просто вот так вот рамками сдвигали и обучали и, соответственно, киммерами принимали за
19:01
токены. Но правильно делать, на самом деле, в тот момент нам подсказали, как математики, они сказали, что есть
19:07
отдельные модели искусственного интеллекта, которые обучаются на тексте выделять смысловые токены. И мы в тот
19:15
момент как бы их послушали и использовали а бипиет и токинизацию.
19:20
Сейчас чуть попозже покажу её. Включились биологи. То есть математику мы посмотрели, сделали сравнение.
19:26
Включились биологи, сказали: «Хорошо, мы возьмём геном человека, стандарт генома человека». Но с чего мы взяли? что
19:31
какой-то стандарт одного генома человека нам сможет рассказать что-то про другого человека. Ведь это искусствено собранный
19:38
геном человека. Или, э, почему мы считаем, что наш геном вообще будет универсален для других видов? Почему мы
19:44
с геномом человека будем решать задачи на гномах там мышей и дрозофил? Почему это должно работать? Ну, конечно, не
19:51
должно. Поэтому первое, что мы сделали, это взяли из базы данных гномат а
19:56
мутации здоровых людей и обогатили ими датасет. Ну и, соответственно, ещё вот
20:01
этот вот список организмов разных видов, чьи геномы были в базах данных задепонированы, открыты, тоже подмешали
20:08
в наш детасет для обучения. Соответственно, модель, которая целое семейство модели, которую мы создали,
20:14
называется Gen LM или джина. Аа значит БПE токинизация. 512 токенов у нас
20:22
получилось благодаря этой БПЕ токинизации. Это означает, что мы можем взять максимум длину
20:27
4.500 букв, помните, да? 3-3 млрд букв. То есть это вообще крохи. 4.500 букв мы
20:36
можем взять а в изучении нашим трансформером.
20:42
И тут надо рассказать, что вот это нас очень огорчило, потому что математики в этот
20:48
момент порадовались, потому что что-то получается, какие-то задачи мы начали решать биологические, молекулярные, а
20:55
биологи сели и сказали, что это вообще ерунда, потому что есть у нас вот эти вот петельки сворачиваются разным
21:01
образом. Если у нас есть элементы, которые регулируют действие наших генах, работу наших генов на большом расстоянии
21:07
от самого гена, то 4 с пося букв это расстояние просто может не увидеть. Вот
21:13
мы расплели, да, и, соответственно, ну, маловато, надо как-то увеличивать. И когда начали думать, как,
21:21
э, увеличивать, а, нашли, а, архитектура
21:27
Bigбрn. Она вот я не помню чья. Ну, тоже кого-то из больших американских компаний. У них есть, а, матрица
21:34
внимания для, а, трансформера, в которой есть такой разрозненный spars
21:39
attтенtion, соответственно, по-разному токены друдинги и токены друг на друга смотрят. И таким образом нам удалось
21:45
увеличить последовательность до 36.000 букв. Это тоже очень мало. Результат так
21:50
себе, но лучше пока нету, как бы вот что есть.
21:56
А табличка просто сравнение тех языковых моделей, которые мы научили. Они все
22:01
лежат в открытом доступе, их можно м скачать, использовать для своих задач.
22:07
А, но, наверное, интересно всё-таки, какие мы задачи для этого делаем и что нам это как бы дальше обещает. Ну, и
22:12
что? Ну, обучили мы как бы эти языковые модели. Ну, первое, что мы можем делать
22:17
и сравнились с другими нашими конкурентами — это предсказывать промотеры. Почему это важно? Потому что,
22:23
а, вот сейчас, например, из фармкомпании поступают заказы на предсказание активных проморов. Не просто, что вот
22:30
эта последовательность, да, по каким-то алгоритмам там вот биологи знают, что есть там та-то последовательность, да, которая маркёр. Вот не только та-то
22:36
последовательность определяет активный а промоутер. Есть и другие,
22:41
соответственно, чередования бук, которые трансформер видит и знает, а биологи до них дошли спустя там годы экспериментов,
22:48
а трансформер уже просто выдаёт и говорит: «Это это будет промотером». А здесь будет начинаться активный ген. Вот
22:54
это очень важная задача, которая в целом языковые модели сейчас решают. У дрозофила научились искать энхансеры.
23:00
Тоже одна из базовых задач, по которым мы сравнивались. То есть это места, которые усиливают работу нашего гена.
23:07
Нашли как определять открыты, закрытые хроматины и активные сайты, связанные с
23:13
другими регуляторными белками. А важная задача для медицинских генетиков
23:18
предсказывает сайты сплайсинга. Это места, где у нас идёт срезание внутри гена ненужных участков, когда РНК
23:25
получается. Если в этом месте происходит мутации, здесь может быть неправильно считан белок, в дальнейшем развиваться
23:32
генетическое наследственное заболевание, которое очень сильногощает жизнь пациенту. А, ну и, соответственно,
23:39
предсказание полиадоленилирования, ну, это такая уже больше для биологов задача, которые знают, что это такое. В
23:45
общем, кому-то надо в узкой практике это использовать, используют. На всякий случай напоминаю, зачем это
23:50
всё надо, потому что кажется, что такое сложной молекулярной биологии, что это, а потому что это всё регулирует, регулирует работу наших генов и дальше,
23:57
соответственно, наши белки. Здесь на этом слайде даже
24:03
неинтересно показывать, что там в нашей модели там лучше, чем берт первый. Да, естественно, мы для этого и делали, чтобы он был лучше. А здесь интересно
24:09
посмотреть на то, что мы делали модели с разными инпутами, с разной длиной последовательности. И чем меньше, вот,
24:16
то есть наша гипотеза биологическая о том, что чем меньше модель получает на вход последовательность ДНК, тем хуже
24:21
она работает, она верна. Вот, пожалуйста. Соответственно, тёмныйзелёный — это большие,
24:26
соответственно, последовательности, 16.000 пар оснований, а светло-зелёный — это маленькие последовательности. Ну,
24:32
как бы разница колоссальная. Аналогично задачам по
24:37
профилированию хроматина, но это разные задачи. И тут интересно, что некоторые
24:42
языковые модели на базе трансформеров работают лучше, чем стандартные бинформатические подходы, да, когда там
24:49
в лоб берёшь маленький готовый датасет и начинаешь сравнивать э математическими алгоритмами между собой разные
24:54
последовательности, а какие-то вообще не работают. И поэтому
24:59
как не математик, а биолог, я как бы говорю, что вот если вы используете, то убедитесь, что этот подход действительно
25:06
оправдан. Не всегда нейросетевые модели, а могут лучше работать, чем классические
25:12
алгоритмы. Вот, например, энхансеры, когда предсказываются у дрозофилы, есть
25:18
houseскипинг, инхансеры — это те энсеры последовательности, которые встречаются в каждой клетке, а, мушкидрозофилы. А
25:25
есть, соответственно, те энсеры, которые девелопмент инхансеры, которые отвечают только работают только в тех клетках,
25:31
которые отвечают за развитие организма. И вот, соответственно, вот эти developмент энсеры вообще не умеем
25:37
предсказывать по сравнению с классическими подходами. А вот хаускипинг, который постоянно работают,
25:43
вроде как модели работают. А не мы одни такие умные в
25:49
двадцать первом году оказались. В двадцатом, соответственно, Динейберт показал свою модель, а в двадцать
25:56
первом, соответственно, американская академия выложила, вернее, даже не выложила, а просто написала письмо, что
26:01
вот вот SPS attention можно на геноме использовать. Там даже нету этой модели в открытом доступе, но мы просто по по
26:07
статье а переобучили, поняли, что что это такое. Ну а дальше одновременно с разницей там в 2 недели в месяц
26:14
выкладываем мы Стнфорд и Nvidia свои модели. А слайд немножко устарел. Сейчас
26:20
ещё есть три модели языковые для генома, но, к сожалению, в этой части лекции я
26:27
не могу вам рассказать что-то такое интересное, что эти модели там как-то спасли чью-то жизнь или сделали новое
26:33
лекарство или ещё что-то. За этим будущее. Поэтому я всегда про эти моделеры рассказываю, потому что, ну,
26:38
как бы ещё никто не научился их толком использовать, но при этом они как-то работают и показывают свою
26:45
эффективность. В общем, фармкомпания уже начинает делать заказы на какие-то свои разработки. два разработчика из нашей
26:50
команды, из нашего института, Юра и Вениамин, которые, собственно, главные разработчики этих моделей. Я просто их
26:55
всегда показываю, потому что не я такая умная, а вот есть вот два мальчика, доктора наук, которые гораздо умнее
27:01
меня, и они положили больше усилий в эту модель, чем чем я. Ну и всё можно
27:06
скачать, соответственно. Я думаю, что этот слайд можно будет отправить и статью, и код, и всё остальное.
27:13
Вторая часть лекции поинтереснее, потому что белково-языковые модели гораздо
27:18
проще, давно существуют. А благодаря компании Альфафол Кто-нибуд
27:24
знает, что такое Альфафолт? Все знают, да? Знаете, да? Отлично. Кто не знает,
27:29
давайте так. Так, 1 2 3чека рассказываю. А значит, э, а вот есть текст, да,
27:36
соответственно, с который вот с ДНК считали текст РНК и дальше с этого текста РНК по три буковки собрали белки.
27:43
Тоже отдельный текст. А сейчас пока залипаете, соответственно, как раз как
27:48
раз будет предыстории, что такое альфафолт. А значит, вот этот текст для белков, а он в линейном виде,
27:55
соответственно, вроде как описан двадцатью буквами. Алфавит из двадцати букв. Но белки вот текстово тоже ничего
28:01
между собой не значит. Важно, как они в 3D-структуре собраны, потому что наши белки взаимодействуют с собой нелинейно,
28:08
а вот разными карманами, которые здесь есть, да. Соответственно, разные атомы на концах наших белков их стабилизируют,
28:15
растягивают. Если там садится антитело, оно садится в определённое место этого белка. И чтобы предсказать 3D структуру
28:21
белка с шестидесятых годов, семидесятых было соревнование, которое называется,
28:27
а, Касп, соответственно, когда а белковые люди, которые занимаются партоомикой, а делали различные
28:34
математические модели, кто лучше предскажет тот белок, тех, которого даются на
28:39
соревнования. И всегда это было плохо до
28:45
2020 года ковидного года, вернее, в 2019 году был
28:50
проблешло в нужное направление, а в 2020 году на соревновании Капка программа
28:56
Alpha 2 а предсказала, соответственно, белок с
29:01
точностью с очень высокой точностью, я не помню, там больше 80% было. И это стало понятно, что это прорыв. Это
29:07
просто вот революция биотехнологической отрасли. Если мы умеем предсказывать по тексту структуру белка, то мы дальше
29:14
можем с этой 3D-структурой начинать работать. Почему мы не можем 3D-структуру получить экспериментально?
29:20
Потому что, чтобы сварить белок, а нужно сделать сразу его кристалл. Чтобы
29:25
сделать кристалл, нужно правильные руки. Это на самом деле самое важное, потому что денег там хоть как-то найдём, но это
29:31
дорого, ну как бы найдём. Но вот правильные руки, которые не повредят. вот маленькую молекулу белка нужный и
29:37
дальше этот кристалл нужно правильно отсканировать э получить его рентгенструктурный анализ соответственно
29:44
и вот это уже конечно дорого долго и вообще в мире мало кто умеет делать поэтому вся история про получение
29:50
3D-структуры белков таких какими они должны быть а она вообще многолетняя и
29:57
когда появился фафол 2 стало понятно что кажется мы можем доверять этой программе давайте проведём аналогию
30:05
такую же, как с ДНК. Что у нас является алфавитом нашего текста в белках? Ну, это как раз вот, как я уже сказала, 20
30:11
букв, да, соответственно, 20 аминокислот. Это наш алфавит, соответственно, ДНК здесь 20. А слова
30:20
здесь уже интереснее. Это вот вторичные структуры, это альфа-спираль и бетаслой.
30:25
Наши аминокислоты, когда собираются в последовательности, они делают наш
30:32
белок, соответственно, там либо бетаслоем, либо альфа-спиралем. Есть ещё в другую сторону закрученные. Ну, в общем, упрощаем. Две самые популярные
30:41
размерности. Предложение в нашем тексте — это уже некоторая структура, которая
30:46
собирается из этих бетаслоёв и альфа-спиралей, да? Это может быть глобула, это может быть мембранный
30:51
белок, который встраивается в мембраны клеток, это может быть фибриллярный белок, с которого, соответственно,
30:57
образуются фибрилы в наших мышцах и и там многое другое. А вот если уже а
31:04
предложение между собой как-то ещё сложнее, это редко бывает, то образуется четвертичная структура, ну, например,
31:10
антитело. Это считается там, а, более сложный организационный уровень белка.
31:18
И с белковыми языковыми моделями всё гораздо проще, потому что после прорыва альфафолда просто, ну вот каждый
31:25
математик считал нужным взять и обучить свою языковую модель, потому что, э,
31:30
белковых текстов много, они короткие, они лёгкие, там десятки, сотни видеокарт
31:37
тебе не нужны, ты в целом можешь там белково-языковую модель обучить там на одной-двух хороших видеокартах. Ну и как
31:43
бы у всех такая вот типа эйфория. вдруг я сейчас вот побежу, э, команду, которая
31:49
сделала фафолт, и снова буду хайповать как гениально учёные на весь мир. Поэтому вот небольшой список, который
31:56
модели, которые используются. А на сегодняшний день мы больше всего любим в нашей группе ЕСМ, семейство моделей, они
32:03
разноуровневые есть. А и все задачи, которые мы решали, мы решали, собственно, с использованием ESM
32:09
семейст. Если это не поверите, но это Facebook сделал. То есть Facebook в какой-то момент сел и сказал, что типа у
32:15
нас теперь есть биологи, и мы будем обучать языковые модели для белков. А
32:20
дальше начну рассказывать про интересные просто проекты, которые у нас были. В двадцать первом году появляется наша группа, а и первое, что делают — это
32:27
меня ведут в Гомалеи, знакомят это с академиком Лагуновым, с Гинсбургом и со
32:33
всеми нашими разработчиками спутника. И почти в приказном порядке, соответственно, говорят, что нужно
32:39
дружить. Оля, нужно дружить. И они как бы сидят такие мокрые биологи,
32:45
микробиологи говорят: «Типa искусственный интеллект, что я, говорит, а я биолог, как бы, ну, я бинформатик,
32:50
конечно, но я вот ещё сама не понимала, куда искусственный интеллект засунуть к к вакцинам». И мы начали брейнстормить,
32:57
а, с группой из Гомалей, с разработчиками вакцины, с Денисом Юрьевичем Лгуновым. И у нас
33:05
было много задач от там, естественно же, там обучить модель, найти, какая следующая мутация будет в геноме вирус.
33:11
Ну, самое адекватно, ну да, очевидное просто вирус мутирует, а нужно ли будет сажать людей на локдаун? Будет ли эта
33:17
мутация патогенной или это мутация будет лёгкой и никакого экономического эффекта
33:22
не будет? Новая вакцина не нужна и прочее, прочее. Ну вот такие вопросы бытовые, а стояли, поднимали. И мы
33:29
сделали очень много разных задач. Кстати, про мутацию могу сказать, что мы обучали модель, и у нас получилось, что
33:35
мы предсказываем следующую мутацию и уже готовились осенью два, какой там
33:41
получается первого года подавать статью, что мы все штаммы, которые
33:47
были, по-моему, заканчивая дельты, предсказали, а, но тут появился амикрон.
33:53
И, в общем, амикрон никто не мог предсказать. И мы, конечно, поняли, что никакая модель вообще в живом мире такие
34:01
события, которые могут быть как чёрные лебеди в геномах микроорганизмов, конечно,
34:07
предсказать не могут. Ну вот что мы смогли, значит, а с сайт, который слайд, который просто показывает, как у нас
34:13
вырабатывается иммунный ответ, да, соответственно, есть всегда некий антиген, то есть это белок, на который у
34:18
нас в организме вырабатываются антитела. Но при этом надо понимать,
34:24
что у коронавируса это спайк белок, белок. Он находится на поверхней клетке
34:30
вируса, на поверхности клетки вируса, и взаимодействует, соответственно, с антителом не весь белок, а определённой
34:36
его областью. В данном случае это рецептор банди домен — это RBD домен синеньким цветом, обозначено на слайде.
34:43
Вот. А, соответственно, у антитела тоже есть определённая область, которая будет связываться с нашим белком. То есть это
34:49
не то, что оно на другое налипло и всё. Нет, там тонкая настройка, тонкие работы зелёненьким антитела, которые там в
34:55
определённом месте садятся. Ну и чтобы совсем уже добить эту историю, так просто тоже антитело не сядет. Надо,
35:01
чтобы белок открылся, потому что вот этот рбедидомен, он существует в закрытой и в открытой конформации. Вот так он как ведуза плавает.
35:08
Соответственно, нужно поймать в открытой конформации, чтобы он, а, закрылся, открылся и тогда сесть на антитела.
35:15
Задача. Вот у нас есть РБИДИДОН, и нам надо найти, где на нём, в каких участках
35:21
будут садиться антитела, а где при появлении новой мутации антитела не будут связываться. Ну, просто исчезают
35:27
контакты, соответственно, и не происходит эффективное связывание. Предсказать это, соответственно, модель искусственного интеллекта. А подумали,
35:34
подумали, скачали все базы антигентела, которые были на то время в открытом доступе, а и обучили, а как раз ESМ
35:42
первые трансформерную модель языковую на э на этих датасетах. Модель назвали Сёма,
35:49
соответственно, а она на вход у нас принимала как текстовые значения, так и
35:54
3D-структуры. Соответственно, дальше на выходе у нас была последовательность, которым цветом
36:01
показывалось, является ли место связыванием с антителом или не является. Но и на 3D-структурах эта модель
36:07
работала лучше, потому что всё-таки 3D-структура внесёт в себе больше информации, чем текстовая для белков. И
36:13
всё хорошо работало, а пока не пришли не не сели биологи, смотрите, внимательнее.
36:19
То есть мы сразу обрадовались математическим скаром показателем, а потом вселе начали вспоминать, что вообще это вообще это на белках всегда
36:25
есть гликаны. Всегда. А гликаны — это такие сахара, и они как вот видите, вон здесь как кустики нарисованы. Вот если
36:32
место а красненьким выделено, это место, куда садятся антитела. Если на нём будут
36:37
вот эти вот гликаны, то антител просто физически не может присоединиться. И даже если там есть эпитоп, то
36:44
взаимодействие с антителом не произойдёт, вакцина работать не будет. Всё, всё очень просто. Соответственно,
36:49
модель должна ещё предсказывать, а есть ли вот в этом месте гликан или нет. Если гликана здесь нет, это питоп можно
36:56
дальше использовать для разработки, соответственно, какой-нибудь моноклональной терапии. Ну и вторая, соответственно,
37:03
версия нашей модели. Мы уже использовали другой ESM, использовали для 3D-структуры модель, которая называется
37:09
сапро. ввели модуль, связанный с гликозелированием, и, собственно, начали
37:16
более точно и аккуратно предсказывать эпитопы, в том числе с учётом этих гликанов. Модель находится в
37:22
веб-интерфейсе, в открытом доступе, ею пользуются, скачивают, цитируют, спрашивают. В общем, оказался полезная
37:29
штука. Свободно от от знакомств и приказов дружить время, мы
37:37
играем в разные, соответственно, предсказательные кагл соревнования. Ну
37:42
вот, например, компанияes объявила 25.000 долларов приз за модель, которая
37:49
будет предсказывать стабильность их ферментов в зависимости от мутации. На
37:54
самом деле, это было очень смешно. Уже дело было к Новому году. А, и ребята такие говорят: «Оль, ну, как бы
37:59
праздники всё равно делать нечего, давай модель обучим». Мне-то всегда есть чем праздники делать. Но я говорю: «Вы
38:06
можете обучать, там время есть, но я как бы хочу Новый год с семьёй, там
38:11
отдыхать, винишко попивать в Грузии где-нибудь». В общем, они говорят: «Оль, 25.000 долларов». Ну, это как-то Ну ладно,
38:19
ребят, 25.000 долларов, это уже интересно. Вот. А, ну, в итоге вот под
38:24
под Новый год скачали, соответственно, эту задачу, зарегистрировались командой. Естественно, в наших руках уже
38:30
компетенции по обучению, по использованию предобучных трансформеров. Взяли датасет. И вот
38:37
сколько мы не бились, соответственно, над решением задач, почему нам столько новых архитектур придумали? Мы уже
38:42
статью начали писать свою научную, как решать эту задачу. Уже что только не делали вообще. Ну вот сколько мы не
38:48
бились, не бились, а оказалось, что это физика, соответственно, мутация просто может расправлять белок, соответственно,
38:54
он становится нестабильным. А а может наоборот стабилизировать его в правильном положении, да, неважно, в
39:01
общем, это для учёных, соответственно. Вот. Ну, в общем, сколько не бились на этом датасете, который был на
39:07
соревнованиях Кагл, а наша модель не работала. При этом задача она такая известная во всём мире. Есть под неё
39:14
датасеты, публикации, как разные учёные её пытались решать вот именно для биотехнологических компаний. Мы эти
39:20
датасеты качаем, понимаем, что модель-то работает, цифры хорошие, решаем лучше, чем вот вот видите, куча созданных
39:26
моделей на тот момент. А вот на кагловском датасете не работает. В общем, э пока ш соревнование, мы где-то
39:32
были там в призовых местах, ну не 25.000 долларов, соответственно, но где-то мы неплохо смотрелись. Как только
39:38
соревнование закончилось, они выложили правильные, открыли правильный датасет, соответственно, выложили результаты, мы
39:44
куда-то вниз скатились. А 25.000 долларов заработал китаец, который говорит, что я один раз на угад что-то
39:50
простое запустила и и выиграла. Мы начали смотреть их датасет. Оказалось, что они взяли свой фермент, разрезали
39:55
пополам, не обращая внимания ни на какие биологические закономерности. Никогда в жизни так модель нельзя обучить,
40:00
соответственно, подставляя мутацию. Усё равно всегда будут разные результаты. И соревнование оказалось полным рандомом.
40:07
А праздники жалко, но модель у нас есть, опубликована, соответственно, в хорошем
40:12
бинформатическом журнале КУ1. Есть веб интерфейс, тоже пользуется, цитирует. Не зря время провели, в
40:18
общем. Да, модель, кстати, называется Простата. И тут отдельная история, а
40:23
просто чтобы это, чтобы поменьше грузить вас. А вот есть Павел Страшнов, да, у нас вот в авторах. Вот пишем статью уже,
40:31
вот всё уже последние там выводы переписываем уже, как как, ну, чтобы
40:36
понятно людям было. А, и Паша подходит ко мне, говорит: «Оль, а почему никто не обсудила
40:43
название?» А я такая: «А что у нас с названием?» Ну, там все там думают, как модели писать, чтобы всё понятно было.
40:48
Он говорит: «А что, никто не прочитал?» И мы действительно, мы статьёй писали почти месяц. Никто ни разу не прочитал,
40:54
что Паша назвал статью Простата про Instability Assessment Using Transformer. Это была внутренняя шутка
40:59
групповая, которую мы в итоге что-то так посмеялись и решили, что если месяц он так живёт, давай пропустим и посмотрим,
41:05
что это будет, что дальше будет. Идеально для кликбейта. А идеально для кликбейта. Так и оказалось. Дальше я,
41:12
соответственно, после того, как мы сразу выложили на биоархив, э, перед перед тем, как в журнал за засабмитить. И
41:18
буквально на следующий день я просто уже делала ребятам скриншоты с Твиттера, с Фейсбука, со всех статей, что типа эти
41:25
русские должны учить английский язык, они не знают, что такое простата там.
41:31
Потом кто-то пишет, что да нет, the same, везде, как бы всё понятно. Ну и кто-то в итоге там пишет, что, ребята,
41:37
не просто гении акронимов там. Ну, в общем, тоже статья хорошо цитируется. Паша расстроился, но потом был дико
41:44
доволен, потому что каждый раз про Пашу ти рассказываю. Вот. Так что вот так вот получилось. Хорошая модель, хорошая
41:50
статья, уже не лучшая, правда, на сегодняшний день, потому что после нас ещё вышли целый ряд на новых
41:55
архитектурах, но тем не менее работает. Вот есть а профлют, да,
42:00
соответственно. А сейчас я ещё раз покажу эту картинку. Ну, пока посмотрите. Профлён,
42:06
соответственно, это модель, которая делает дизайн нового белка, обладающего
42:11
свойством лизоци. Лизоцим — это такой лёгкий антибиотик, который есть у нас в слюне, например. А и а лизоцим, как
42:20
действует? Он разрушает клеточные стенки бактерий. А что сделали коллеги? Они
42:26
использовали языковую модель Проген, которая тоже на основе трансформера. И дальше её фантюнили настраивали на
42:33
семейство разных белковых активных соединений. И вот в какой-то момент они
42:38
показали, что они могут, соответственно, показать, а, семейство лизоцим, вот как здесь, засунуть, соответственно, в
42:44
прогеноязыковую модель. И дальше на выходе они получили порядка тысячи, а,
42:49
искусственно синтезированных белков, а, якобы со свойствами лизоцимов. А теперь внимание, джекпот называется модель для
42:56
тех, у кого есть деньги. Они эти тысячи, соответственно, моделей начали проверять сразу там дешёвыми экспериментами. Сотню
43:02
там отправили на более дорогие эксперименты, на два сделали криста кристаллы белка и, соответственно, там,
43:08
по-моему, пять полили клеточные мембраны и сказали, что пть из тысячи у них работает. И тем не менее, несмотря на
43:14
то, что такой выход, эти пть из тысячи реально искусственно синтезированные, ранее не существовавшие природе белки со
43:21
свойствами лизоци. Работает, работает. Победители не судят.
43:27
А это на самом деле важно, потому что это означает, что надо работать дальше
43:32
над этой темой. А вот если бы мы говорили, что белок —
43:37
это картинка, можно было бы использовать какого-нибудь там майджорни или кондинского и просто вот так вот
43:43
генерировать белки, соответственно, вот приблизительно как на этой картинке, там сделать столько-то альфа-спирали, столько-то бетаслоёв, через столько-то
43:49
там, не знаю, поворотов, углов, и такая вот плоская картинка бы у нас получилась. Но нет, белок — это сложная
43:57
3D-структура. А есть такие специалисты, как дизайнеры белков. Это люди, которые
44:04
сидят. Нет у нас тут протендизайнера ни одного. Это люди, которые просто имеют невероятную усидчивость. Эгда
44:11
впечатляюсь этим. И они могут сидеть с одной структурой белка годами, с одной белковой молекулой и перебирать каждую
44:18
буковку, каждый угол в этой буковке, чтобы улучшить свойство этого белка. там на сколько там на 5% максимум. То есть
44:25
вот сидят и вручную на компьютере перебирают. Вот моя как бы задача в моей
44:31
группе, соответственно, они на меня обижаются, но очень любят. Я их очень люблю. Я им говорю: «Ребята, прекратите это делать. Есть языковые модели, и все
44:37
ваши задачи, для которых вы перебираете по одной буковке, можно сегодня начать уже решать языковыми моделями. Не надо
44:44
каждую букву перебирать. Обучите, притренируйте там датасет, сделайте настройку на свою задачу. Вы получите
44:50
результат гораздо быстрее. там, ну, месяц работы максимум. Аа, и сейчас у нас уже есть,
44:57
соответственно, вот протедизайнер, который решает очень много разных вопросов. Мы просто его частями выдаём,
45:03
проверяя, насколько хорошо он выдаёт а разные задачи. А вот Дима — это модель,
45:09
которая направлена на диффузию белков. А просто немножко в сторону. Это
45:15
картинка, которая показывает, что вообще вот вот белковая структура, она сложная. Вот есть разные там группы.
45:21
Соответственно, химические соединения, определённые углы, под которыми должны быть радикалы друг от друга повёрнуты.
45:28
Вот когда математики обучают модели, они обучают на каркасах. Они просто вот эти все радикалы отрезают и говорят, что это
45:34
неважно. Будем учить, соответственно, на каркасах белков, потому что, ну, датасет меньше, легче и вроде какой-то результат
45:39
есть. Это неправильно. Правильно делать полную структуру. А вот есть RF diffusion. По факту диффузионные модели
45:47
RF diffusion учат так белки, но он на вход берёт не не картинки вот плоские,
45:53
соответственно, которые можно скачать из интернета, а берёт координаты координаты атомов, то есть ровно вот эти вот а
46:02
все вот эти вот, соответственно, позиции, да, соответственно, какой угол, как где атомы под каким углом друг
46:09
друга, на каком расстоянии относятся. И, соответственно, эта модель, выучивая вот эти координаты, понимает, как как
46:15
выглядят естественные белки вообще в природе, которые существуют, и таким образом может диффузий сгенерировать
46:21
новый несуществовавший ранее белок. И вот на этой картинке появляется красивый
46:27
симметричный белок, который может выполнять транспортную функцию различных
46:33
антигенов в организм нашего наш организм. То есть можно делать вакцину нескольких валентностей, то есть против
46:38
нескольких паразитов, да, соответственно. одинсантиметричный а белок может нести в себе там, не знаю, там антигены от
46:44
ковида, от гриппа и ещё от чего-нибудь, потому что он там идеально правильной формы и вроде как и должен быть
46:50
иммуногеном. А вот здесь, представьте себе, тут такой синенький инсулиновый рецептор, серенький, а на нём такой
46:58
белые-белые точечки, шум-шум-шум, а потом появляется связывающий белок с инсулиновым рецептором. И вот коллеги из
47:05
института дизайна белков, которые под руководством Дэвида Бейкера, Дэвид Бейкер в этом году
47:11
получил Нобелевскую премию как раз за дизайн белков. Это тот самый Нобелевский лауреат. А, соответственно, вот как раз
47:17
сделали модели R diffusion, которые генерирует, в том числе инсулиновые, а,
47:23
блокаторы. Это вообще новая эра в создании а препаратов, которые, конечно,
47:29
надо дальше валидировать и показывать. И этот год у меня начался с того, что в первых же цифрах января, в самом начале
47:35
выходит ещё одна статья группы Дэвида Бейкера, где они говорят, что с использованием RF Diffusion они сделали
47:43
новый белок, который блокирует токсин кобры. То есть это белок, который
47:49
является противоядиным. Доказали, сделали и кристалл структуры и на на
47:55
мышке, которую сразу подсунули кобры, потом достали, соответственно, она не сожрала, всего лишь укусила. Она мышка,
48:02
в общем, после введения этого белка выжила и прекрасно себя чувствовала. Говорят,
48:07
работает. По-моему, круто было
48:15
бы, если бы мы ещё кое-что знали. А вот база данных, на которых обучался
48:22
RF Diffusion, 212.000 белков. В целом они потом начали ещё UNIPO под вторую
48:28
базу 251 млн. белков. Но если, соответственно, мы посчитаем линейно, у
48:33
них длина последовательности, да, длина текста одного — это 600 аминокислот, 600 букв. Вот если мы а
48:40
посчитаем, соответственно, сколько потенциально может быть а разных белков,
48:46
то цифр гораздо больше. Это означает, что коллеги, а впускают одну важную
48:52
вещь, что вот это это показывает возможности. Но если мы говорим про
48:58
реальные синтез новых белков, которые будут обладать функциональной активностью, свойствами, вообще-то надо
49:05
учить модель диффузии по тексту и дальше её приводить 3D-структуры. Это гораздо больше
49:10
возможности нам открывает и потенциал для новых лекарств. И тут спасибо
49:16
большое Дмитрию Ветрову. Я знаю, что он в Белграде тут с вами тоже читал лекции. Вот мы с ним дружим и в какой-то момент
49:22
с ним сели, начали бренстормить и решили обучить модели текстовой генерации, которую в честь него и назвали Дима, а
49:30
который генерирует белки по тексту. Я ничего сейчас вам не покажу, потому что
49:35
мы не проверили, а на мышках кобри не подсовывали, ндимы не вытаскивали и не
49:41
знаем, насколько это будет работать. Но тем не менее у нас получаются осмысленные белки уже с нашей моделью. И
49:48
главное, что удалила слайд, но неважно. И главное, что мы, в отличие от RF diffusion можем предсказывать такие
49:54
регионы, которые называются ID. Они такие неструктурированные ниточки простые, а они очень много полезных
50:01
функций выполняют, когда нужно залезть вглубь какого-нибудь белка. То есть никогда вот плотные структуры не залезут. А вот эти вот ниточки, они
50:09
могут иметь значительную роль. Собственно, а я фанат Дэвида
50:15
Бейкера и всё равно это признаю. и не только из-за RF Diffusion и других его программ, за что он получил но
50:21
библейскую премию. Вот он, конечно, говорит, что аа инструменты на основе искусственного интеллекта а будут делать
50:29
новые белки, которые, конечно же, трансформируют нашу медицину. Я думаю, что это будет даже на нашем веку
50:35
достаточно скоро. Спасибо большое. Буковки тоже здоровье.
50:41
[аплодисменты]

Таймкоды

Расшифровка видео

Похожие записи