Генетика и нейросети: новая эра в биологии | Ольга Кардымон

Современные языковые модели научились анализировать и генерировать текст, помогая нам в работе, творчестве и коммуникации. Но что, если их способности можно использовать не только для обработки человеческой речи, но и для понимания «языка жизни»? Ведь природа с нами разговаривает на своем языке, зашитом в последовательностях «букв» ДНК и считанных с них белков.

На лекции обсудим, какие принципы работы современных нейросетей применимы к биоинформатике и как их адаптируют для изучения сложных биологических данных. Разберемся, как ИИ может ускорить разработку лекарств, найти причины заболеваний и даже предложить новые подходы к редактированию генома.

*https://www.youtube.com/watch?v=wGP_mDsacQs
**https://300.ya.ru/v_MNHqmltn

Таймкоды

00:00:00 Введение

  • Оля, биолог по образованию, работает в институте искусственного интеллекта.
  • Имеет несколько образований: зоолог, медицинский генетик, менеджмент в здравоохранении, би-информатика.

00:00:27 Популярность ИИ

  • ИИ широко используется в text-generation, генерации картинок и робототехнике.
  • В биологии и генетике ИИ применяется недавно.
  • Причины популярности: новые математические алгоритмы, мощные видеокарты, огромные наборы данных.

00:01:24 Технические достижения

  • Видеокарты 2022 года сопоставимы по мощности с суперкомпьютерами 2004 года.
  • Появление баз данных секвенированных геномов.

00:02:27 Языковые модели

  • Примеры моделей: ChatGPT, GigaChat, Яндекс.
  • Обсуждение языковых моделей для ДНК.

00:03:01 Обучение моделей

  • GPT-3 обучался на большом объёме данных.
  • Геном человека содержит 3,3 миллиарда пар оснований.

00:04:44 Проект «Геном человека»

  • Проект стартовал в 1999 году, первая версия генома вышла в 2009 году.
  • В 2017 году версия была улучшена, в 2022 году объявлено о «полном» геноме.

00:05:57 Структура генома

  • Гены составляют около 2% генома, кодируют информацию о жизни.
  • 98% генома ранее считались «мусорной» ДНК.

00:07:15 Генетический код

  • Генетический код реплетен только для кодируемой части генома.
  • 98% генома не подчиняются чёткому генетическому коду.

00:08:09 Рекомендации

  • Не рекомендуется заниматься ИИ в биологии без знания биологии.

00:08:20 Ядро клетки и генетический код

  • Ядро — главный компонент клетки, где хранится генетический код ДНК.
  • ДНК организована в хромосомы, которые выглядят как клубочки.
  • Для считывания ДНК и синтеза белка необходимо, чтобы определённые участки ДНК были открыты.

00:09:12 Работа геномной машины

  • Белки взаимодействуют с последовательностями ДНК для синтеза РНК и белков.
  • Отсутствие свободного пространства вокруг ДНК означает отсутствие гена и считывания информации.

00:09:35 Структура гена и регуляторные элементы

  • Ген начинается с промотера, с которым взаимодействуют молекулы, запускающие процесс считывания.
  • Инхансеры и транскрипционные факторы усиливают работу промотера.
  • Сайленсеры блокируют работу промотера, а тандемные повторы и транспазоны могут мешать считыванию.

00:10:33 Различия в экспрессии генов

  • В каждой клетке организма одна и та же последовательность ДНК, но регуляторные элементы работают по-разному.
  • Это объясняет различия в функциях клеток: мозг, сердце, печень, почки.

00:11:33 Пример экспрессии гена MHC7

  • Ген MHC7 активно экспрессируется в клетках сердца, но не в клетках мозга.
  • Ген SLC1A3 экспрессируется в клетках головного мозга, но практически не экспрессируется в клетках сердца.

00:12:47 Методы изучения экспрессии генов

  • Биохимические эксперименты измеряют активность известных участков генома.
  • Биониформатический подход сравнивает последовательности у разных организмов, выявляя консервативные участки.
  • Методы редактирования генома позволяют вносить мутации и изучать их влияние на клеточную активность.

00:15:39 Ограничения данных и нейросетевые модели

  • В 2021 году было доступно менее 7% данных по биохимическим маркерам для разных типов клеток человека.
  • Модель Dipsity предсказывала некоторые результаты, но оставались вопросы к её точности.

00:16:13 Введение в проблему

  • Google попытался применить архитектуру Берты к геному человека.
  • Модель требует дополнительной настройки для решения конкретных задач, например, поиска промотеров в клетках дрозофил.
  • Результаты оказались крайне неудовлетворительными.

00:17:13 Начало работы над собственной моделью

  • Команда решила создать собственную языковую модель для ДНК.
  • Необходимо было учесть биологическую логику и особенности генома.
  • Датасет включал три миллиарда букв, но разделение на предложения было сложным из-за отсутствия смысла в геноме.

00:18:10 Подходы к токенизации

  • Рассматривались различные подходы к токенизации: от одного нуклеотида до кемеров.
  • Математики предложили использовать модель для выделения смысловых токенов.
  • Биологи указали на ограничения использования генома человека для других видов.

00:19:06 Обогащение датасета

  • Датасет обогащён мутациями здоровых людей и геномами разных видов.
  • Модель GenaLM/GinaBP токенизирует 512 токенов, что ограничивает длину последовательности до 4500 букв.

00:20:41 Проблемы с длиной последовательности

  • Биологи отметили, что 4500 букв недостаточно для анализа регуляторных элементов.
  • Архитектура BigBird позволила увеличить длину последовательности до 36 000 букв.

00:21:56 Задачи, решаемые моделями

  • Модели предсказывают промоутеры, инхансеры, сайты сплайсинга и полиоллионирования.
  • Эти задачи важны для медицинских генетиков и понимания работы генов.

00:24:01 Сравнение моделей

  • Модели с большими последовательностями работают лучше, чем с маленькими.
  • Некоторые языковые модели превосходят стандартные биоинформатические подходы.
  • Важно учитывать оправданность использования нейросетевых моделей.

00:24:57 Ограничения моделей

  • Модели плохо предсказывают девелопмент-инхансеры по сравнению с классическими подходами.
  • Хаус-кипинг-инхансеры лучше поддаются анализу моделями.

00:25:47 Конкуренция и развитие

  • В 2021 году появились новые модели, включая модель Стэнфорда и модель N. Видео.
  • Команды продолжают развивать свои модели и делиться результатами.

00:26:18 Языковые модели для генома

  • Обсуждаются три языковые модели для генома, которые пока не нашли широкого применения, но показывают свою эффективность.
  • Упоминаются разработчики Юра и Вениамин, которые внесли значительный вклад в создание этих моделей.

00:27:12 Белковые языковые модели

  • Объясняется, что белковые языковые модели проще в использовании и существуют благодаря компании AlphaFold.
  • Подчёркивается важность трёхмерной структуры белков для их взаимодействия.

00:28:10 Прорыв в предсказании структур белков

  • Описывается соревнование CASP, где программы предсказывают структуры белков.
  • Программа AlphaFold 2 в 2020 году достигла высокой точности предсказания структур, что стало прорывом в биотехнологической отрасли.

00:29:10 Трудности экспериментального получения структур белков

  • Объясняются сложности экспериментального получения трёхмерных структур белков: необходимость создания кристаллов и их сканирования.
  • Подчёркивается, что AlphaFold 2 позволяет доверять предсказаниям структур.

00:30:06 Структура белков и языковые модели

  • Объясняется структура белков: алфавит из 20 аминокислот, вторичная структура альфа-спираль и бета-слой, третичная структура и четвертичная структура.
  • Отмечается, что белковые языковые модели проще в обучении благодаря доступности данных.

00:32:20 Проекты с вакцинами

  • Описываются проекты с группой из Гамалеи, включая предсказание мутаций вируса и оценку необходимости локдауна.
  • Поднимается вопрос о предсказании патогенности мутаций и необходимости новых вакцин.

00:34:29 Иммунный ответ и антитела

  • Объясняется механизм взаимодействия антител с антигенами на примере спайк-белка коронавируса.
  • Указывается на важность открытой конформации белка для связывания с антителами.

00:35:16 Модель SEMA и гликаны

  • Описывается модель SEMA, которая предсказывает связывание антител с белками.
  • Подчёркивается влияние гликанов на взаимодействие антител с белками, что влияет на эффективность вакцин.

00:37:04 Вторая версия модели

  • Упоминается использование модели Saprot для предсказания тримерных структур.
  • Обсуждается необходимость учёта влияния гликанов на эффективность вакцин и разработку моноклональной терапии.

00:37:11 Введение модуля гликозилирования

  • Введён модуль, связанный с гликозилированием, для более точного предсказания ипитопов.
  • Модель доступна в веб-интерфейсе и используется учёными.
  • Компания Nova Zymes объявила приз в 25 тысяч долларов за модель, предсказывающую стабильность ферментов в зависимости от мутаций.

00:38:04 Подготовка к соревнованиям

  • Команда начала подготовку к соревнованиям перед Новым годом.
  • Использовались компетенции по обучению и использованию трансформеров.
  • Задача оказалась сложной из-за физических аспектов мутаций, влияющих на стабильность белков.

00:39:04 Проблемы с датасетом

  • Модель не работала на датасете соревнований Kaggle, хотя на других датасетах показывала хорошие результаты.
  • После публикации правильных результатов команда заняла низкие места.
  • Победитель соревнования использовал датасет, не учитывающий биологические закономерности.

00:40:04 Публикация модели

  • Модель опубликована в информатическом журнале и имеет веб-интерфейс.
  • Название модели «Простата» стало внутренней шуткой, которая привлекла внимание.
  • Статья хорошо цитируется, несмотря на первоначальные шутки.

00:42:03 Модель «Про Флюин»

  • Модель «Про Флюин» создаёт дизайн нового белка со свойствами лизоцима.
  • Использовалась языковая модель Progen на основе трансформера.
  • Получено около тысячи искусственно синтезированных белков, пять из которых показали свойства лизоцима.

00:44:34 Перспективы использования языковых моделей

  • Языковые модели могут заменить ручной перебор структур белков.
  • Настройка моделей на конкретные задачи позволяет получить результаты быстрее.
  • Специалисты по дизайну белков могут перейти к использованию языковых моделей для ускорения процесса.

00:44:55 Протеин-дизайнер и модель Димы

  • Протеин-дизайнер решает множество задач, его тестируют частями.
  • Модель Димы направлена на диффузию белков.

00:45:14 Структура белков и обучение моделей

  • Белковая структура сложна, включает химические соединения и углы.
  • Модели обучаются на каркасах белков, игнорируя радикалы.
  • РФ-Диффужн обучается на координатах атомов, а не на плоских изображениях.

00:46:10 Генерация новых белков

  • РФ-Диффужн генерирует новые белки, понимая естественные структуры.
  • Пример: симметричный белок для транспортной функции антигенов.
  • Возможность создания вакцин против нескольких паразитов.

00:47:10 Достижения Дэвида Бейкера

  • Дэвид Бейкер получил Нобелевскую премию за дизайн белков.
  • Модели РФ-Диффужн генерируют инсулиновые блокаторы.
  • Создание белка, блокирующего токсин кобры, подтверждённое на мышах.

00:48:11 Ограничения РФ-Диффужн

  • База данных РФ-Диффужн ограничена 212 тысячами белков.
  • Для реального синтеза новых белков требуется обучение по тексту и 3D-структурам.

00:49:09 Модель Димы и её особенности

  • Модель Димы генерирует белки по тексту.
  • Предсказывает регионы айдиара, которые выполняют полезные функции.
  • Айдиара — неструктурированные ниточки, помогающие исследовать внутренние части белков.

00:50:05 Будущее медицины

  • Инструменты на основе ИИ будут создавать новые белки, формируя медицину.
  • Ожидается, что это произойдёт на нашем веку.

Расшифровка видео

0:00
А меня зовут Оля, со мной можно на ты, так даже проще. Я по образованию биолог изначально я закончила МГУ биофаг. А
0:08
более того, я изначально зоолог, а потом ещё много-много лет училась на медицинского генетика, на, а, менеджмент
0:15
в здравоохранении и на биинформатику. У меня несколько образований. А работаю я
0:20
на сегодняшний день уже четвёртый год руководителем группы Биинформатика в институте искусственного интеллекта
0:26
Айри. Вот кратко про бэкграунд. И, собственно, тема, которую я хочу
0:31
рассказать, это она достаточно новая. Вот искусственный интеллект, там по отношению к тексту, картинкам, к, я не
0:37
знаю, там, к работотехнике давно уже используется, да? То есть мы там пользуемся чать GPT, пользуемся разными
0:43
голосовыми помощниками, и всё кажется понятно. Есть текст, задаём вопрос, нам что-то генерирует, там ответ какой-то
0:50
или просим нарисовать картинку, и всё рисуется. Вот с биологией, с генетикой
0:56
это не так давно начало использоваться. И, собственно, вот мы тоже стоим, моя группа стоит у основания. А, но почему
1:02
вообще языковые модели и искусственный интеллект стал так популярен последние годы? И тут надо сказать, а, ну, в целом
1:10
три стандартных пункта. Первое, у нас появились, а, новые математические алгоритмы. Ну, я имею в виду в первую
1:16
очередь такую архитектуру, как Трансформер, на которой как раз все GPT модели обучаются. А у нас появились видеокарты.
1:24
Вот если мы сравним какую-нибудь GPU видеокарту 2022 года, а по мощности, она
1:30
будет сопоставима суперкомпьютером 2004 года. 2004 год — это год, когда я школу заканчивал. То есть для меня это вообще
1:36
вчера, честно говоря. Вот. А поэтому прорыв, конечно, серьёзный. Ну и,
1:42
соответственно, у нас появились огромные наборы данных. А понятно, что есть там
1:48
Википедии, а есть куча оцифрованных архивов, а там куча электронных
1:53
библиотек там и прочее, прочее. Но с точки зрения генетики биологии, то я, конечно, в первую очередь говорю про
1:59
базы данных, там, секвенированных геномов, секвенирование. Сколько биологов? Давайте так, чтобы я понимала,
2:05
каким языком говорить. Нормально. Половина, да? Ну а хорошо, попроще. Ну,
2:10
в общем, появились прочтённые, расшифрованные геномы. Они собираются в базы данных. базы данных с каждым годом,
2:16
а сильно увеличиваются в своём количестве, и на них уже становится возможным тренировать какие-то модели,
2:23
даже там делать претренированные модели. А два логотипа известных
2:29
моделей, которые генерируют текст чат GPT. Соответственно, в России популярен гигачат и Яндекс, кстати, тоже
2:36
чат Яндекс GPT популярно. И генерация картинок мажорни Кандински. Это вот то,
2:43
что я в какой-то момент просто поставила. Ну, мужчину вы все знаете, это, конечно же, не Кандинский, но модель почему-то Кандинского использует
2:49
эту картинку себе как аватар модели. Почему, не знаю, увижу разработчиков,
2:54
спрошу. А давайте поговорим про языковые модели для
3:00
ДНК. А вот я нашла цифры для GPT3. На чём обучалась, на каких объёмах, э, в
3:07
токенах GPT3 модель. И в целом здесь вот источники перечислены с количеством
3:14
токенов. И есть там какие-то загадочные букс 1 и букс 2. Да, никто не знает, что в них полностью зашифровано, но тем не
3:21
менее достаточно большой объём данных, на которых третий GPT обучался. У всех
3:26
остальных, кто обучает, тоже есть какая-то своя градуировка, на чём обучают из GPT модели, но какой-то объём
3:33
данных скрывается и на этом якобы играет у кого сильнее, у кого лучше. Вот когда мы говорим слово токен по отношению к
3:40
тексту, к языковым моделям, то чаще всего токен — это слово. Ну, то есть там
3:46
декабрь 31, 1993, запятая точка, things — это token.
3:52
А, соответственно, а буквы — это вот количество букв в этом предложении. Но а
4:00
геном человека, да, он у нас не обладает словами, он обладает алфавитом в четыре
4:06
буквы только А, Т, Г, С. Эти четыре буквы, соответственно, непонятно, как
4:12
как образуются слова, предложения, те же книги, да, соответственно, разделы, главы, то, на чём, а, изначально
4:19
языковые модели базируются. А вот если геном человека в 3,3 млрд букв
4:25
распечатать, то это вот первая версия собранного генома человека, то получается у нас 130 книг размером шрифт
4:32
4, соответственно, 78.000 страниц. Вообще, с точки зрения обучения языковой модели, это большой датасет. На нём уже
4:40
можно делать хорошую языковую модель. А 3, млрд пар оснований.
4:47
Когда я сказала про первую версию генома человека, то это та первая версия, которая которой завершился проект Геном
4:53
человека. Он стартовал, по-моему, в девяносто девятом году, 10 лет собирали, в 2009 выдали первую абсолютно неполную
5:01
версию с большими промахами, с кучей ошибок, но тем не менее её и по сей день
5:06
используют. В семнадцатом году эту версию генома чуть-чуть улучшили, пересмотрели, соответственно, сделали
5:12
выравнивание, соответственно, а она тридцать восьмая. И только в двадцать втором году Science и все известные нам
5:19
журналы написали, что мы наконец-то якобы полностью собрали геном
5:26
человека. А почему я с таким немножко скептицизмом? Потому что когда начинаешь общаться с ребятами, которые его
5:31
собирали, они, конечно, тебе сразу говорят: «Оль, ну ты знаешь, там такие дыры, которые, ну, блин, ну вот никаким
5:37
никакими технологиями не закрыть, поэтому всё равно он не полный». Полный он только для прессы. Но тем не менее,
5:42
что имеем, то имеем. последней версии генома человека, полностью собранного, расшифрованного относительно полностью,
5:49
2022 год. А перед тем, как я дальше буду искусственный интеллект вводить на эти
5:54
геномные данные, надо ещё несколько понятий обсудить. Вот наш геном человека, 3,3 млрд пар оснований. И вот,
6:02
а максимум 2% по разным данным, цифры варьирует. Ну, там кто-то полтора
6:07
говорит, кто-то говорит два. Это наши гены. Вот этот вот маленький кусочек.
6:13
А, и в наших генах, собственно, кодируется та информация, которая дальше
6:19
определяет всю нашу жизнь. Соответственно, какого цвета у нас глаза, как работают наши мышцы, болеем мы чем-то, не болеем. А, ну, в общем,
6:26
всё, есть у нас аллергии, нет у нас аллергии. Абсолютно всё, а, кодирует дальше белки, обслуживающие,
6:31
соответственно, структуры, которые обслуживают наш организм. Это всего лишь 1,5% генома. Вот эти 98% очень долгое
6:38
время вообще считало, что это мусорная ДНК, она не нужна. И многими лабораториями даже по сей день, когда
6:45
делают секвенирование генома, вот эти 98% говорят, что их не интерпретируют, просто вырезают и всё. И разговаривают
6:51
только о 2%. Ну, так все, да, кажется. Вот я
6:56
всегда сравниваю с мировым океаном, который у нас изучен на 5%. Ну, океанологи тоже мне говорят, что я
7:03
позитивно смотрю на мировой океан, потому что они тоже говорят, что не больше там полутора-двух. Но вот если
7:09
спросить чат GPT, он говорит пять. Ну хорошо, пообщаемся с чатами GPT. А,
7:15
хорошо. Значит, а чуть-чуть школьный курспомним. А в школе нам рассказывали,
7:21
что у нас есть в геноме ДНК. С ДНК там в процессе, а, э, ладно, с ДНК считывается
7:29
РНК. СРНК. Дальше у нас появляется тот или иной белок. И, соответственно, если
7:35
мы посмотрим на эту схему, то тут сразу, соответственно, РНК у нас по три буквы РНК даёт нам какой-нибудь белок. Вот это
7:41
название белков, соответственно. А генетический кодплетин. Вот это правило,
7:46
оно только для кодируемой части. 98% нашего генома вообще непонятно по каким
7:53
правилам существует. То есть там нету вот такого чётко кодированного истории, там есть другое. Но вот вот код
8:00
генетический в том школьном варианте, в котором нам преподают, его нет. Опять же, да, снова, извините, не
8:06
искусственный интеллект, а простая биология. Я вообще не рекомендую заниматься людям, которые не знают биологию, искусственным интеллектом в
8:13
биологии, потому что, ну, какие-то странные вещи начинают открывать коллеги.
8:19
Аа, ну правда честно, можно открыть последнюю конференцию по искусственному интеллекту, сразу видно, где есть в
8:24
команде биолог, а где нету. Вот, вот публикуют всё, что не попаде, но зато математически
8:30
красиво. А значит, э вид внутри ядра. Ядро — это, соответственно, главный
8:36
компонент нашей клетки. В нём хранится наш генетический код, наше ДНК. И вот ДНК — это не текст в буквах, в книжках,
8:42
которые, да, я вам показала на первых слайдах, распечатанный, а вообще-то там, э, он хранится там в хромосомах, которые
8:48
состоят из хроматина. И вообще это всё вот такими вот образно нарисованными клубочками расположено. То есть оно всё
8:54
смято, но как-то сделано. Но чтобы с нашего ДНК считалась молекула РНК и из
9:00
неё дальше получился белок, а вот этот участок ДНК должен быть открыт. Вот
9:06
отсюда вот где-нибудь считывание не будет идти. Эту стену вам не запачкаю,
9:11
надеюсь. Вот. А потому что нужно, чтобы к нашем последовательности ДНК подплыли
9:17
другие белки, которые обеспечат именно этот синтез. Так работает наша геномная машина. Если этого свободного
9:23
пространства нет, здесь нет гена. Если здесь нет гена, здесь нет считывания информации. Если нет считывания
9:29
информации, то этот участок не кодирующий. Соответственно, какую он функцию несёт, под
9:34
вопросом. А и вот, собственно, схематически, как работает наша геномная машина. Вот он пустой этот участок,
9:41
который я вам показала в ядре, да, соответственно, находится вот наш хроматин, который расплетён. зелёненьким
9:47

это те последовательности нашего гена, с которого будут считываться молекулы РНК. Всегда ген начинается с участка,
9:54
который называется парамотор. Именно с ним взаимодействуют а молекулы, запускающие процесс считывания. Промотор
10:01
может взаимодействовать с энхансером. Просто так напрямой они не взаимодействуют. Есть та, которые
10:06
говорят крайне редко. Есть обычные транскрипционные факторы. Ещё одни молекулы обеспечивают это всё. Есть
10:12
молекулы, которые есть участки, которые называются сайленсеры. Они наоборот блокируют работу
10:18
промотора. А есть, соответственно, тандемные повторы, которые тоже могут
10:23
встраиваться а в наш геном и мешать считыванию правильной молекулы. Есть раципазоны, это вообще участки, которые
10:30
способны перемещаться по нашему геному. И всё, все эти элементы, вот я их чуть-чуть назвала, просто чтобы не
10:37
загружать эту геномную машину, они всевсевсе влияют на работу наших генов.
10:42
Но при этом, а стоит помнить всегда, что в каждой клетке
10:50
нашего организма один и тот же текст, одна и та же последовательность ДНК. Это
10:56
понятно, да? То есть у нас геном один и тот же в каждой клетке. Тогда почему из одной клетки у нас получается клетка
11:02
головного мозга, а с другой клетки клетка сердца? Или почему у нас там из одной клетки, а,
11:08
получается печень там, а с другой клетки получается, а там
11:14
почки. Оно получается ровно потому, что вот все эти регуляторные элементы, вот
11:20
эти вот энхансеры, да, соответственно, соленицеры, промотеры как-то расположены там внутри, не внутри, соответственно,
11:26
открытость хроматина, они в разных клетках нашего организма по-разному работают. Этот слайд, соответственно,
11:32
демонстрирует. Я просто взяла мой любимый ген Мих7, который очень часто встречается, поломки в нём очень часто
11:37
встречаются у больных с кардиомеопатиями различными. И ген, который очень активно работает в клетках головного мозга. Вот
11:45
эти столбики называются экспрессия генов. Экспрессия, соответственно, это сколько с одного гена вырабатывается
11:51
молекулы РНК. Соответственно, с этого количества РНК там дальше вырабатывается столько такое количество белка. Ну,
11:56
некоторо там относительно большое, маленькое, соответственно. И вот если мы посмотрим здесь внизу не видно, но мы
12:02
видим, что большая экспрессия, высокая экспрессия генамих семь у нас в клетках, соответственно, а сердечные артерии,
12:10
аорты, соответственно, всё, что связано с мышцами сердца, вот оно7. И при этом Хсем совершенно не
12:18
экспрессируется в клетках Brain, да, соответственно, головного мозга. Ну, то есть прямо столбиков нету. И обратно,
12:25
соответственно, а те клетки, которые отвечают за проведение нервного импульса, они кодируются геном SLC 1A3 и
12:33
экспрессируются. Вот они видно, что высокие столбики в клетках головного мозга и совершенно их не видно.
12:39
Практически нету экспрессии. Совершенно чуть-чуть. Ну, какую-то моторную функцию надо поддерживать в клетках
12:46
сердце. Понятно пока, да? Или уже уже уже тормозить? Всё о’кей, поехали.
12:54
Как раньше вообще вот, ну, хорошо, мы знаем, что, соответственно, в каждой нашей клетке ДНК считывается по разному,
13:01
вырабатывается разное количество белков с каждой клетки, по-разному формируются наши, соответственно, а, мышцы, мозг,
13:09
печень, почки, всё, что угодно. Как это проверяется? А, ну, первое, что в голову
13:14
приходит — это, конечно же, мокрым экспериментальным путём измеряется биохимическая активность. Но никто
13:19
никогда не берёт весь геном 3,3 млрд букв, да, и, соответственно, весь начинает мерить. Это слишком дорого,
13:24
слишком долго, дорого, непонятно на какие участки там, соответственно, делать эксперименты, как проверять. То
13:30
есть только только известные а к функционированию участки таким образом проверяются, что возможно здесь будет
13:36
активность. Дальше, соответственно, получают результат этой активности и заносят в базу данных. Вот, например,
13:41
код, наприме, в которой говорится, что сердечная клетка, а, взрослого человека,
13:47
участок там с такой-то буквы по такой-то номер, а, наблюдается там открытый хроматин или наблюдается, я
13:55
не знаю, там сайты отстицилирования, ну, какая-то, в общем, эпигенетическая активность. А второе, что делают
14:01
биинформатики — это берут какие-то последовательности у разных организмов, накладывают друг на друга и смотрят.
14:07
Если последовательности у разных организмов плюс-минус одинаковы, они называются консервативны. И эти участки
14:14
эволюционно очень значимы. Это означает, что в этих участках что-то происходит важное. И, скорее всего, эти участки
14:19
активные. Но если они меняются у разных видов, соответственно, никакой эволюционной консервативности здесь нету. И здесь мутации абсолютно
14:26
безопасные. И, скорее всего, эти участки, ну, какой-то такой прямо суперактивной функцией не обладают.
14:32
А это бинформатический подход, соответственно, и такой тоже известный современно генетический подход — это
14:39
методы редактирования генома. Ну, здесь нарисованы клетки дрожжей. Соответственно, там той же технологией
14:45
Крис проказ 9 можно вносить мутацию в известную, а, геномную область и смотреть, вот эта мутация убьёт ту
14:51
активность, которую мы хотим, клеточную или не убьёт. Ну, там на бактериях такие же эксперименты делают, на мышечных
14:58
культу клетках мышечных культур, соответственно. А, но опять же мы берём, соответственно, небольшой кусочек,
15:04
определённый тип клеток. И такие все данные мы накапливаем уже просто годами,
15:10
десятилетиями. И толку, что мы их накапливаем десятилетиями, не очень много, потому что в 2021 году мы,
15:18
кстати, взяли базу данных НКCд и хотели по этой базе данных построить нашу первую нейросетевую модель на основе
15:25
свёрточных сетей, а которая выглядит там приблизительно результат, который должен выглядеть как табличка, тип клетки,
15:33
эпигенетически разные маркёры, которые там открыты, закрытый хроматин будет, считывания не будет, и, соответственно,
15:38
есть активность или нет. и думали, что база данных это покроет нам, ну, хотя бы там половина известных типов клеток на
15:45
разные маркёры. Оказалось, что мы имеем на сегодня на тот в 2021 году, на тот день, а, меньше 7% данных по разным
15:53
биохимическим, а, белковым молекулам для разных типах клеток организма человека. То есть это очень изученный организм. То
16:01
есть мы ничего не знаем. Вот прямо точка. А ту модель, которую мы обучили, она называлась дипте. Она в целом как-то
16:08
что-то нам предсказывала, но вопросы к ней всё равно оставались. И в двадцать первом году, а
16:15
стало очень интересно, потому что компания Google, а уже зная архитектуру Берты и тоже архитектура на основе
16:22
трансформеров математическая, на вход который подаётся текст, а на выходе, соответственно, будет
16:27
ответ на вопрос, который из этого текста вы хотите получить, там предсказание следующего слова или какая-то генерация ответа. решили попробовать сделать такую
16:34
же архитектуру, просто подставив не текст, а геном. Геном человека, там одной из первых выборок. И на выходе,
16:41
соответственно, здесь, конечно, ответ вы прямо не получите. Они предлагают делать, а дополнительную задачу,
16:47
дополнительную под настройку системы под вашу задачу. Например, если вам надо найти промоторы в клетках дрозофил, то,
16:55
соответственно, вы делаете на эту предобученную модель ещё один слой
17:00
модели, в котором спрашиваете, есть ли в моей последовательности промотер или нет, и она уже будет вам отвечать. И
17:07
оказалось, что эта история работает, но очень плохо. Вот прямо крайне плохо. Мы
17:13
в двадцать первом году это увидели, порадовались и решили, что, ну, если у кого-то плохо, то у нас будет хорошо. Мы
17:18
же амбициозны, мы же все такие умные. А, ну понятно, что мы не Google, поэтому,
17:25
но тем не менее у нас была возможность взять, а, взяться за задачу обучить свою языковую модель для ДНК. И своя языковая
17:32
модель для ДНК, конечно же, начинается с того, что ты сразу начинаешь думать и осознавать, где а где вот этот подход
17:40
математический в лоб неправильный, где есть биологическая логика, которую надо обучить модель. Ну и первое, что
17:46
понятно, что весь текст 3,3 млрд букв — это наш там датасет, на котором мы учимся. Дальше нам, конечно же, надо
17:52
осознавать, где есть предложения. Поделить их в геноме невозможно, мы не знаем смысла. Поэтому, а, начали
17:59
пробовать рандомно делить, а, подбирая разные длины, ну, вот 500.000,
18:04
соответственно. А пара оснований нуклеотидов букв рандомно выбирали для каждого предложения, последовательно их
18:11
объединяли и получили так называемые документы. Вот такое налого с текстом мы сделали. Ну а дальше, что такое токен?
18:18
Мы не знаем, что такое токен. И здесь может быть разные подходы. Мы можем
18:23
взять один нуклеотид и думать, что он у нас будет токи. Ну как одно слово или запятая, да, например, пусть будет один
18:28
нуклеотид. Но с точки зрения биологии один нуклеотидм вообще ничего не даёт. Он даже даже тройку не собрать там,
18:35
чтобы какую-то аминокислоту получить и биохимические тоже. Ну нуклеотид. Ну ну
18:41
хорошо. Поэтому этот подход мы сразу зачеркнули. Вот одна именно кислота в белке, как текст, да, это имеет смысла,
18:47
нуклеотид не очень. Второй подход — это кимеры. То, что Google сделал. Они просто взяли там 3чеп букв, по-моему, до
18:55
шести кимеров и просто вот так вот рамками сдвигали и обучали и, соответственно, киммерами принимали за
19:01
токены. Но правильно делать, на самом деле, в тот момент нам подсказали, как математики, они сказали, что есть
19:07
отдельные модели искусственного интеллекта, которые обучаются на тексте выделять смысловые токены. И мы в тот
19:15
момент как бы их послушали и использовали а бипиет и токинизацию.
19:20
Сейчас чуть попозже покажу её. Включились биологи. То есть математику мы посмотрели, сделали сравнение.
19:26
Включились биологи, сказали: «Хорошо, мы возьмём геном человека, стандарт генома человека». Но с чего мы взяли? что
19:31
какой-то стандарт одного генома человека нам сможет рассказать что-то про другого человека. Ведь это искусствено собранный
19:38
геном человека. Или, э, почему мы считаем, что наш геном вообще будет универсален для других видов? Почему мы
19:44
с геномом человека будем решать задачи на гномах там мышей и дрозофил? Почему это должно работать? Ну, конечно, не
19:51
должно. Поэтому первое, что мы сделали, это взяли из базы данных гномат а
19:56
мутации здоровых людей и обогатили ими датасет. Ну и, соответственно, ещё вот
20:01
этот вот список организмов разных видов, чьи геномы были в базах данных задепонированы, открыты, тоже подмешали
20:08
в наш детасет для обучения. Соответственно, модель, которая целое семейство модели, которую мы создали,
20:14
называется Gen LM или джина. Аа значит БПE токинизация. 512 токенов у нас
20:22
получилось благодаря этой БПЕ токинизации. Это означает, что мы можем взять максимум длину
20:27
4.500 букв, помните, да? 3-3 млрд букв. То есть это вообще крохи. 4.500 букв мы
20:36
можем взять а в изучении нашим трансформером.
20:42
И тут надо рассказать, что вот это нас очень огорчило, потому что математики в этот
20:48
момент порадовались, потому что что-то получается, какие-то задачи мы начали решать биологические, молекулярные, а
20:55
биологи сели и сказали, что это вообще ерунда, потому что есть у нас вот эти вот петельки сворачиваются разным
21:01
образом. Если у нас есть элементы, которые регулируют действие наших генах, работу наших генов на большом расстоянии
21:07
от самого гена, то 4 с пося букв это расстояние просто может не увидеть. Вот
21:13
мы расплели, да, и, соответственно, ну, маловато, надо как-то увеличивать. И когда начали думать, как,
21:21
э, увеличивать, а, нашли, а, архитектура
21:27
Bigбрn. Она вот я не помню чья. Ну, тоже кого-то из больших американских компаний. У них есть, а, матрица
21:34
внимания для, а, трансформера, в которой есть такой разрозненный spars
21:39
attтенtion, соответственно, по-разному токены друдинги и токены друг на друга смотрят. И таким образом нам удалось
21:45
увеличить последовательность до 36.000 букв. Это тоже очень мало. Результат так
21:50
себе, но лучше пока нету, как бы вот что есть.
21:56
А табличка просто сравнение тех языковых моделей, которые мы научили. Они все
22:01
лежат в открытом доступе, их можно м скачать, использовать для своих задач.
22:07
А, но, наверное, интересно всё-таки, какие мы задачи для этого делаем и что нам это как бы дальше обещает. Ну, и
22:12
что? Ну, обучили мы как бы эти языковые модели. Ну, первое, что мы можем делать
22:17
и сравнились с другими нашими конкурентами — это предсказывать промотеры. Почему это важно? Потому что,
22:23
а, вот сейчас, например, из фармкомпании поступают заказы на предсказание активных проморов. Не просто, что вот
22:30
эта последовательность, да, по каким-то алгоритмам там вот биологи знают, что есть там та-то последовательность, да, которая маркёр. Вот не только та-то
22:36
последовательность определяет активный а промоутер. Есть и другие,
22:41
соответственно, чередования бук, которые трансформер видит и знает, а биологи до них дошли спустя там годы экспериментов,
22:48
а трансформер уже просто выдаёт и говорит: «Это это будет промотером». А здесь будет начинаться активный ген. Вот
22:54
это очень важная задача, которая в целом языковые модели сейчас решают. У дрозофила научились искать энхансеры.
23:00
Тоже одна из базовых задач, по которым мы сравнивались. То есть это места, которые усиливают работу нашего гена.
23:07
Нашли как определять открыты, закрытые хроматины и активные сайты, связанные с
23:13
другими регуляторными белками. А важная задача для медицинских генетиков
23:18
предсказывает сайты сплайсинга. Это места, где у нас идёт срезание внутри гена ненужных участков, когда РНК
23:25
получается. Если в этом месте происходит мутации, здесь может быть неправильно считан белок, в дальнейшем развиваться
23:32
генетическое наследственное заболевание, которое очень сильногощает жизнь пациенту. А, ну и, соответственно,
23:39
предсказание полиадоленилирования, ну, это такая уже больше для биологов задача, которые знают, что это такое. В
23:45
общем, кому-то надо в узкой практике это использовать, используют. На всякий случай напоминаю, зачем это
23:50
всё надо, потому что кажется, что такое сложной молекулярной биологии, что это, а потому что это всё регулирует, регулирует работу наших генов и дальше,
23:57
соответственно, наши белки. Здесь на этом слайде даже
24:03
неинтересно показывать, что там в нашей модели там лучше, чем берт первый. Да, естественно, мы для этого и делали, чтобы он был лучше. А здесь интересно
24:09
посмотреть на то, что мы делали модели с разными инпутами, с разной длиной последовательности. И чем меньше, вот,
24:16
то есть наша гипотеза биологическая о том, что чем меньше модель получает на вход последовательность ДНК, тем хуже
24:21
она работает, она верна. Вот, пожалуйста. Соответственно, тёмныйзелёный — это большие,
24:26
соответственно, последовательности, 16.000 пар оснований, а светло-зелёный — это маленькие последовательности. Ну,
24:32
как бы разница колоссальная. Аналогично задачам по
24:37
профилированию хроматина, но это разные задачи. И тут интересно, что некоторые
24:42
языковые модели на базе трансформеров работают лучше, чем стандартные бинформатические подходы, да, когда там
24:49
в лоб берёшь маленький готовый датасет и начинаешь сравнивать э математическими алгоритмами между собой разные
24:54
последовательности, а какие-то вообще не работают. И поэтому
24:59
как не математик, а биолог, я как бы говорю, что вот если вы используете, то убедитесь, что этот подход действительно
25:06
оправдан. Не всегда нейросетевые модели, а могут лучше работать, чем классические
25:12
алгоритмы. Вот, например, энхансеры, когда предсказываются у дрозофилы, есть
25:18
houseскипинг, инхансеры — это те энсеры последовательности, которые встречаются в каждой клетке, а, мушкидрозофилы. А
25:25
есть, соответственно, те энсеры, которые девелопмент инхансеры, которые отвечают только работают только в тех клетках,
25:31
которые отвечают за развитие организма. И вот, соответственно, вот эти developмент энсеры вообще не умеем
25:37
предсказывать по сравнению с классическими подходами. А вот хаускипинг, который постоянно работают,
25:43
вроде как модели работают. А не мы одни такие умные в
25:49
двадцать первом году оказались. В двадцатом, соответственно, Динейберт показал свою модель, а в двадцать
25:56
первом, соответственно, американская академия выложила, вернее, даже не выложила, а просто написала письмо, что
26:01
вот вот SPS attention можно на геноме использовать. Там даже нету этой модели в открытом доступе, но мы просто по по
26:07
статье а переобучили, поняли, что что это такое. Ну а дальше одновременно с разницей там в 2 недели в месяц
26:14
выкладываем мы Стнфорд и Nvidia свои модели. А слайд немножко устарел. Сейчас
26:20
ещё есть три модели языковые для генома, но, к сожалению, в этой части лекции я
26:27
не могу вам рассказать что-то такое интересное, что эти модели там как-то спасли чью-то жизнь или сделали новое
26:33
лекарство или ещё что-то. За этим будущее. Поэтому я всегда про эти моделеры рассказываю, потому что, ну,
26:38
как бы ещё никто не научился их толком использовать, но при этом они как-то работают и показывают свою
26:45
эффективность. В общем, фармкомпания уже начинает делать заказы на какие-то свои разработки. два разработчика из нашей
26:50
команды, из нашего института, Юра и Вениамин, которые, собственно, главные разработчики этих моделей. Я просто их
26:55
всегда показываю, потому что не я такая умная, а вот есть вот два мальчика, доктора наук, которые гораздо умнее
27:01
меня, и они положили больше усилий в эту модель, чем чем я. Ну и всё можно
27:06
скачать, соответственно. Я думаю, что этот слайд можно будет отправить и статью, и код, и всё остальное.
27:13
Вторая часть лекции поинтереснее, потому что белково-языковые модели гораздо
27:18
проще, давно существуют. А благодаря компании Альфафол Кто-нибуд
27:24
знает, что такое Альфафолт? Все знают, да? Знаете, да? Отлично. Кто не знает,
27:29
давайте так. Так, 1 2 3чека рассказываю. А значит, э, а вот есть текст, да,
27:36
соответственно, с который вот с ДНК считали текст РНК и дальше с этого текста РНК по три буковки собрали белки.
27:43
Тоже отдельный текст. А сейчас пока залипаете, соответственно, как раз как
27:48
раз будет предыстории, что такое альфафолт. А значит, вот этот текст для белков, а он в линейном виде,
27:55
соответственно, вроде как описан двадцатью буквами. Алфавит из двадцати букв. Но белки вот текстово тоже ничего
28:01
между собой не значит. Важно, как они в 3D-структуре собраны, потому что наши белки взаимодействуют с собой нелинейно,
28:08
а вот разными карманами, которые здесь есть, да. Соответственно, разные атомы на концах наших белков их стабилизируют,
28:15
растягивают. Если там садится антитело, оно садится в определённое место этого белка. И чтобы предсказать 3D структуру
28:21
белка с шестидесятых годов, семидесятых было соревнование, которое называется,
28:27
а, Касп, соответственно, когда а белковые люди, которые занимаются партоомикой, а делали различные
28:34
математические модели, кто лучше предскажет тот белок, тех, которого даются на
28:39
соревнования. И всегда это было плохо до
28:45
2020 года ковидного года, вернее, в 2019 году был
28:50
проблешло в нужное направление, а в 2020 году на соревновании Капка программа
28:56
Alpha 2 а предсказала, соответственно, белок с
29:01
точностью с очень высокой точностью, я не помню, там больше 80% было. И это стало понятно, что это прорыв. Это
29:07
просто вот революция биотехнологической отрасли. Если мы умеем предсказывать по тексту структуру белка, то мы дальше
29:14
можем с этой 3D-структурой начинать работать. Почему мы не можем 3D-структуру получить экспериментально?
29:20
Потому что, чтобы сварить белок, а нужно сделать сразу его кристалл. Чтобы
29:25
сделать кристалл, нужно правильные руки. Это на самом деле самое важное, потому что денег там хоть как-то найдём, но это
29:31
дорого, ну как бы найдём. Но вот правильные руки, которые не повредят. вот маленькую молекулу белка нужный и
29:37
дальше этот кристалл нужно правильно отсканировать э получить его рентгенструктурный анализ соответственно
29:44
и вот это уже конечно дорого долго и вообще в мире мало кто умеет делать поэтому вся история про получение
29:50
3D-структуры белков таких какими они должны быть а она вообще многолетняя и
29:57
когда появился фафол 2 стало понятно что кажется мы можем доверять этой программе давайте проведём аналогию
30:05
такую же, как с ДНК. Что у нас является алфавитом нашего текста в белках? Ну, это как раз вот, как я уже сказала, 20
30:11
букв, да, соответственно, 20 аминокислот. Это наш алфавит, соответственно, ДНК здесь 20. А слова
30:20
здесь уже интереснее. Это вот вторичные структуры, это альфа-спираль и бетаслой.
30:25
Наши аминокислоты, когда собираются в последовательности, они делают наш
30:32
белок, соответственно, там либо бетаслоем, либо альфа-спиралем. Есть ещё в другую сторону закрученные. Ну, в общем, упрощаем. Две самые популярные
30:41
размерности. Предложение в нашем тексте — это уже некоторая структура, которая
30:46
собирается из этих бетаслоёв и альфа-спиралей, да? Это может быть глобула, это может быть мембранный
30:51
белок, который встраивается в мембраны клеток, это может быть фибриллярный белок, с которого, соответственно,
30:57
образуются фибрилы в наших мышцах и и там многое другое. А вот если уже а
31:04
предложение между собой как-то ещё сложнее, это редко бывает, то образуется четвертичная структура, ну, например,
31:10
антитело. Это считается там, а, более сложный организационный уровень белка.
31:18
И с белковыми языковыми моделями всё гораздо проще, потому что после прорыва альфафолда просто, ну вот каждый
31:25
математик считал нужным взять и обучить свою языковую модель, потому что, э,
31:30
белковых текстов много, они короткие, они лёгкие, там десятки, сотни видеокарт
31:37
тебе не нужны, ты в целом можешь там белково-языковую модель обучить там на одной-двух хороших видеокартах. Ну и как
31:43
бы у всех такая вот типа эйфория. вдруг я сейчас вот побежу, э, команду, которая
31:49
сделала фафолт, и снова буду хайповать как гениально учёные на весь мир. Поэтому вот небольшой список, который
31:56
модели, которые используются. А на сегодняшний день мы больше всего любим в нашей группе ЕСМ, семейство моделей, они
32:03
разноуровневые есть. А и все задачи, которые мы решали, мы решали, собственно, с использованием ESM
32:09
семейст. Если это не поверите, но это Facebook сделал. То есть Facebook в какой-то момент сел и сказал, что типа у
32:15
нас теперь есть биологи, и мы будем обучать языковые модели для белков. А
32:20
дальше начну рассказывать про интересные просто проекты, которые у нас были. В двадцать первом году появляется наша группа, а и первое, что делают — это
32:27
меня ведут в Гомалеи, знакомят это с академиком Лагуновым, с Гинсбургом и со
32:33
всеми нашими разработчиками спутника. И почти в приказном порядке, соответственно, говорят, что нужно
32:39
дружить. Оля, нужно дружить. И они как бы сидят такие мокрые биологи,
32:45
микробиологи говорят: «Типa искусственный интеллект, что я, говорит, а я биолог, как бы, ну, я бинформатик,
32:50
конечно, но я вот ещё сама не понимала, куда искусственный интеллект засунуть к к вакцинам». И мы начали брейнстормить,
32:57
а, с группой из Гомалей, с разработчиками вакцины, с Денисом Юрьевичем Лгуновым. И у нас
33:05
было много задач от там, естественно же, там обучить модель, найти, какая следующая мутация будет в геноме вирус.
33:11
Ну, самое адекватно, ну да, очевидное просто вирус мутирует, а нужно ли будет сажать людей на локдаун? Будет ли эта
33:17
мутация патогенной или это мутация будет лёгкой и никакого экономического эффекта
33:22
не будет? Новая вакцина не нужна и прочее, прочее. Ну вот такие вопросы бытовые, а стояли, поднимали. И мы
33:29
сделали очень много разных задач. Кстати, про мутацию могу сказать, что мы обучали модель, и у нас получилось, что
33:35
мы предсказываем следующую мутацию и уже готовились осенью два, какой там
33:41
получается первого года подавать статью, что мы все штаммы, которые
33:47
были, по-моему, заканчивая дельты, предсказали, а, но тут появился амикрон.
33:53
И, в общем, амикрон никто не мог предсказать. И мы, конечно, поняли, что никакая модель вообще в живом мире такие
34:01
события, которые могут быть как чёрные лебеди в геномах микроорганизмов, конечно,
34:07
предсказать не могут. Ну вот что мы смогли, значит, а с сайт, который слайд, который просто показывает, как у нас
34:13
вырабатывается иммунный ответ, да, соответственно, есть всегда некий антиген, то есть это белок, на который у
34:18
нас в организме вырабатываются антитела. Но при этом надо понимать,
34:24
что у коронавируса это спайк белок, белок. Он находится на поверхней клетке
34:30
вируса, на поверхности клетки вируса, и взаимодействует, соответственно, с антителом не весь белок, а определённой
34:36
его областью. В данном случае это рецептор банди домен — это RBD домен синеньким цветом, обозначено на слайде.
34:43
Вот. А, соответственно, у антитела тоже есть определённая область, которая будет связываться с нашим белком. То есть это
34:49
не то, что оно на другое налипло и всё. Нет, там тонкая настройка, тонкие работы зелёненьким антитела, которые там в
34:55
определённом месте садятся. Ну и чтобы совсем уже добить эту историю, так просто тоже антитело не сядет. Надо,
35:01
чтобы белок открылся, потому что вот этот рбедидомен, он существует в закрытой и в открытой конформации. Вот так он как ведуза плавает.
35:08
Соответственно, нужно поймать в открытой конформации, чтобы он, а, закрылся, открылся и тогда сесть на антитела.
35:15
Задача. Вот у нас есть РБИДИДОН, и нам надо найти, где на нём, в каких участках
35:21
будут садиться антитела, а где при появлении новой мутации антитела не будут связываться. Ну, просто исчезают
35:27
контакты, соответственно, и не происходит эффективное связывание. Предсказать это, соответственно, модель искусственного интеллекта. А подумали,
35:34
подумали, скачали все базы антигентела, которые были на то время в открытом доступе, а и обучили, а как раз ESМ
35:42
первые трансформерную модель языковую на э на этих датасетах. Модель назвали Сёма,
35:49
соответственно, а она на вход у нас принимала как текстовые значения, так и
35:54
3D-структуры. Соответственно, дальше на выходе у нас была последовательность, которым цветом
36:01
показывалось, является ли место связыванием с антителом или не является. Но и на 3D-структурах эта модель
36:07
работала лучше, потому что всё-таки 3D-структура внесёт в себе больше информации, чем текстовая для белков. И
36:13
всё хорошо работало, а пока не пришли не не сели биологи, смотрите, внимательнее.
36:19
То есть мы сразу обрадовались математическим скаром показателем, а потом вселе начали вспоминать, что вообще это вообще это на белках всегда
36:25
есть гликаны. Всегда. А гликаны — это такие сахара, и они как вот видите, вон здесь как кустики нарисованы. Вот если
36:32
место а красненьким выделено, это место, куда садятся антитела. Если на нём будут
36:37
вот эти вот гликаны, то антител просто физически не может присоединиться. И даже если там есть эпитоп, то
36:44
взаимодействие с антителом не произойдёт, вакцина работать не будет. Всё, всё очень просто. Соответственно,
36:49
модель должна ещё предсказывать, а есть ли вот в этом месте гликан или нет. Если гликана здесь нет, это питоп можно
36:56
дальше использовать для разработки, соответственно, какой-нибудь моноклональной терапии. Ну и вторая, соответственно,
37:03
версия нашей модели. Мы уже использовали другой ESM, использовали для 3D-структуры модель, которая называется
37:09
сапро. ввели модуль, связанный с гликозелированием, и, собственно, начали
37:16
более точно и аккуратно предсказывать эпитопы, в том числе с учётом этих гликанов. Модель находится в
37:22
веб-интерфейсе, в открытом доступе, ею пользуются, скачивают, цитируют, спрашивают. В общем, оказался полезная
37:29
штука. Свободно от от знакомств и приказов дружить время, мы
37:37
играем в разные, соответственно, предсказательные кагл соревнования. Ну
37:42
вот, например, компанияes объявила 25.000 долларов приз за модель, которая
37:49
будет предсказывать стабильность их ферментов в зависимости от мутации. На
37:54
самом деле, это было очень смешно. Уже дело было к Новому году. А, и ребята такие говорят: «Оль, ну, как бы
37:59
праздники всё равно делать нечего, давай модель обучим». Мне-то всегда есть чем праздники делать. Но я говорю: «Вы
38:06
можете обучать, там время есть, но я как бы хочу Новый год с семьёй, там
38:11
отдыхать, винишко попивать в Грузии где-нибудь». В общем, они говорят: «Оль, 25.000 долларов». Ну, это как-то Ну ладно,
38:19
ребят, 25.000 долларов, это уже интересно. Вот. А, ну, в итоге вот под
38:24
под Новый год скачали, соответственно, эту задачу, зарегистрировались командой. Естественно, в наших руках уже
38:30
компетенции по обучению, по использованию предобучных трансформеров. Взяли датасет. И вот
38:37
сколько мы не бились, соответственно, над решением задач, почему нам столько новых архитектур придумали? Мы уже
38:42
статью начали писать свою научную, как решать эту задачу. Уже что только не делали вообще. Ну вот сколько мы не
38:48
бились, не бились, а оказалось, что это физика, соответственно, мутация просто может расправлять белок, соответственно,
38:54
он становится нестабильным. А а может наоборот стабилизировать его в правильном положении, да, неважно, в
39:01
общем, это для учёных, соответственно. Вот. Ну, в общем, сколько не бились на этом датасете, который был на
39:07
соревнованиях Кагл, а наша модель не работала. При этом задача она такая известная во всём мире. Есть под неё
39:14
датасеты, публикации, как разные учёные её пытались решать вот именно для биотехнологических компаний. Мы эти
39:20
датасеты качаем, понимаем, что модель-то работает, цифры хорошие, решаем лучше, чем вот вот видите, куча созданных
39:26
моделей на тот момент. А вот на кагловском датасете не работает. В общем, э пока ш соревнование, мы где-то
39:32
были там в призовых местах, ну не 25.000 долларов, соответственно, но где-то мы неплохо смотрелись. Как только
39:38
соревнование закончилось, они выложили правильные, открыли правильный датасет, соответственно, выложили результаты, мы
39:44
куда-то вниз скатились. А 25.000 долларов заработал китаец, который говорит, что я один раз на угад что-то
39:50
простое запустила и и выиграла. Мы начали смотреть их датасет. Оказалось, что они взяли свой фермент, разрезали
39:55
пополам, не обращая внимания ни на какие биологические закономерности. Никогда в жизни так модель нельзя обучить,
40:00
соответственно, подставляя мутацию. Усё равно всегда будут разные результаты. И соревнование оказалось полным рандомом.
40:07
А праздники жалко, но модель у нас есть, опубликована, соответственно, в хорошем
40:12
бинформатическом журнале КУ1. Есть веб интерфейс, тоже пользуется, цитирует. Не зря время провели, в
40:18
общем. Да, модель, кстати, называется Простата. И тут отдельная история, а
40:23
просто чтобы это, чтобы поменьше грузить вас. А вот есть Павел Страшнов, да, у нас вот в авторах. Вот пишем статью уже,
40:31
вот всё уже последние там выводы переписываем уже, как как, ну, чтобы
40:36
понятно людям было. А, и Паша подходит ко мне, говорит: «Оль, а почему никто не обсудила
40:43
название?» А я такая: «А что у нас с названием?» Ну, там все там думают, как модели писать, чтобы всё понятно было.
40:48
Он говорит: «А что, никто не прочитал?» И мы действительно, мы статьёй писали почти месяц. Никто ни разу не прочитал,
40:54
что Паша назвал статью Простата про Instability Assessment Using Transformer. Это была внутренняя шутка
40:59
групповая, которую мы в итоге что-то так посмеялись и решили, что если месяц он так живёт, давай пропустим и посмотрим,
41:05
что это будет, что дальше будет. Идеально для кликбейта. А идеально для кликбейта. Так и оказалось. Дальше я,
41:12
соответственно, после того, как мы сразу выложили на биоархив, э, перед перед тем, как в журнал за засабмитить. И
41:18
буквально на следующий день я просто уже делала ребятам скриншоты с Твиттера, с Фейсбука, со всех статей, что типа эти
41:25
русские должны учить английский язык, они не знают, что такое простата там.
41:31
Потом кто-то пишет, что да нет, the same, везде, как бы всё понятно. Ну и кто-то в итоге там пишет, что, ребята,
41:37
не просто гении акронимов там. Ну, в общем, тоже статья хорошо цитируется. Паша расстроился, но потом был дико
41:44
доволен, потому что каждый раз про Пашу ти рассказываю. Вот. Так что вот так вот получилось. Хорошая модель, хорошая
41:50
статья, уже не лучшая, правда, на сегодняшний день, потому что после нас ещё вышли целый ряд на новых
41:55
архитектурах, но тем не менее работает. Вот есть а профлют, да,
42:00
соответственно. А сейчас я ещё раз покажу эту картинку. Ну, пока посмотрите. Профлён,
42:06
соответственно, это модель, которая делает дизайн нового белка, обладающего
42:11
свойством лизоци. Лизоцим — это такой лёгкий антибиотик, который есть у нас в слюне, например. А и а лизоцим, как
42:20
действует? Он разрушает клеточные стенки бактерий. А что сделали коллеги? Они
42:26
использовали языковую модель Проген, которая тоже на основе трансформера. И дальше её фантюнили настраивали на
42:33
семейство разных белковых активных соединений. И вот в какой-то момент они
42:38
показали, что они могут, соответственно, показать, а, семейство лизоцим, вот как здесь, засунуть, соответственно, в
42:44
прогеноязыковую модель. И дальше на выходе они получили порядка тысячи, а,
42:49
искусственно синтезированных белков, а, якобы со свойствами лизоцимов. А теперь внимание, джекпот называется модель для
42:56
тех, у кого есть деньги. Они эти тысячи, соответственно, моделей начали проверять сразу там дешёвыми экспериментами. Сотню
43:02
там отправили на более дорогие эксперименты, на два сделали криста кристаллы белка и, соответственно, там,
43:08
по-моему, пять полили клеточные мембраны и сказали, что пть из тысячи у них работает. И тем не менее, несмотря на
43:14
то, что такой выход, эти пть из тысячи реально искусственно синтезированные, ранее не существовавшие природе белки со
43:21
свойствами лизоци. Работает, работает. Победители не судят.
43:27
А это на самом деле важно, потому что это означает, что надо работать дальше
43:32
над этой темой. А вот если бы мы говорили, что белок —
43:37
это картинка, можно было бы использовать какого-нибудь там майджорни или кондинского и просто вот так вот
43:43
генерировать белки, соответственно, вот приблизительно как на этой картинке, там сделать столько-то альфа-спирали, столько-то бетаслоёв, через столько-то
43:49
там, не знаю, поворотов, углов, и такая вот плоская картинка бы у нас получилась. Но нет, белок — это сложная
43:57
3D-структура. А есть такие специалисты, как дизайнеры белков. Это люди, которые
44:04
сидят. Нет у нас тут протендизайнера ни одного. Это люди, которые просто имеют невероятную усидчивость. Эгда
44:11
впечатляюсь этим. И они могут сидеть с одной структурой белка годами, с одной белковой молекулой и перебирать каждую
44:18
буковку, каждый угол в этой буковке, чтобы улучшить свойство этого белка. там на сколько там на 5% максимум. То есть
44:25
вот сидят и вручную на компьютере перебирают. Вот моя как бы задача в моей
44:31
группе, соответственно, они на меня обижаются, но очень любят. Я их очень люблю. Я им говорю: «Ребята, прекратите это делать. Есть языковые модели, и все
44:37
ваши задачи, для которых вы перебираете по одной буковке, можно сегодня начать уже решать языковыми моделями. Не надо
44:44
каждую букву перебирать. Обучите, притренируйте там датасет, сделайте настройку на свою задачу. Вы получите
44:50
результат гораздо быстрее. там, ну, месяц работы максимум. Аа, и сейчас у нас уже есть,
44:57
соответственно, вот протедизайнер, который решает очень много разных вопросов. Мы просто его частями выдаём,
45:03
проверяя, насколько хорошо он выдаёт а разные задачи. А вот Дима — это модель,
45:09
которая направлена на диффузию белков. А просто немножко в сторону. Это
45:15
картинка, которая показывает, что вообще вот вот белковая структура, она сложная. Вот есть разные там группы.
45:21
Соответственно, химические соединения, определённые углы, под которыми должны быть радикалы друг от друга повёрнуты.
45:28
Вот когда математики обучают модели, они обучают на каркасах. Они просто вот эти все радикалы отрезают и говорят, что это
45:34
неважно. Будем учить, соответственно, на каркасах белков, потому что, ну, датасет меньше, легче и вроде какой-то результат
45:39
есть. Это неправильно. Правильно делать полную структуру. А вот есть RF diffusion. По факту диффузионные модели
45:47
RF diffusion учат так белки, но он на вход берёт не не картинки вот плоские,
45:53
соответственно, которые можно скачать из интернета, а берёт координаты координаты атомов, то есть ровно вот эти вот а
46:02
все вот эти вот, соответственно, позиции, да, соответственно, какой угол, как где атомы под каким углом друг
46:09
друга, на каком расстоянии относятся. И, соответственно, эта модель, выучивая вот эти координаты, понимает, как как
46:15
выглядят естественные белки вообще в природе, которые существуют, и таким образом может диффузий сгенерировать
46:21
новый несуществовавший ранее белок. И вот на этой картинке появляется красивый
46:27
симметричный белок, который может выполнять транспортную функцию различных
46:33
антигенов в организм нашего наш организм. То есть можно делать вакцину нескольких валентностей, то есть против
46:38
нескольких паразитов, да, соответственно. одинсантиметричный а белок может нести в себе там, не знаю, там антигены от
46:44
ковида, от гриппа и ещё от чего-нибудь, потому что он там идеально правильной формы и вроде как и должен быть
46:50
иммуногеном. А вот здесь, представьте себе, тут такой синенький инсулиновый рецептор, серенький, а на нём такой
46:58
белые-белые точечки, шум-шум-шум, а потом появляется связывающий белок с инсулиновым рецептором. И вот коллеги из
47:05
института дизайна белков, которые под руководством Дэвида Бейкера, Дэвид Бейкер в этом году
47:11
получил Нобелевскую премию как раз за дизайн белков. Это тот самый Нобелевский лауреат. А, соответственно, вот как раз
47:17
сделали модели R diffusion, которые генерирует, в том числе инсулиновые, а,
47:23
блокаторы. Это вообще новая эра в создании а препаратов, которые, конечно,
47:29
надо дальше валидировать и показывать. И этот год у меня начался с того, что в первых же цифрах января, в самом начале
47:35
выходит ещё одна статья группы Дэвида Бейкера, где они говорят, что с использованием RF Diffusion они сделали
47:43
новый белок, который блокирует токсин кобры. То есть это белок, который
47:49
является противоядиным. Доказали, сделали и кристалл структуры и на на
47:55
мышке, которую сразу подсунули кобры, потом достали, соответственно, она не сожрала, всего лишь укусила. Она мышка,
48:02
в общем, после введения этого белка выжила и прекрасно себя чувствовала. Говорят,
48:07
работает. По-моему, круто было
48:15
бы, если бы мы ещё кое-что знали. А вот база данных, на которых обучался
48:22
RF Diffusion, 212.000 белков. В целом они потом начали ещё UNIPO под вторую
48:28
базу 251 млн. белков. Но если, соответственно, мы посчитаем линейно, у
48:33
них длина последовательности, да, длина текста одного — это 600 аминокислот, 600 букв. Вот если мы а
48:40
посчитаем, соответственно, сколько потенциально может быть а разных белков,
48:46
то цифр гораздо больше. Это означает, что коллеги, а впускают одну важную
48:52
вещь, что вот это это показывает возможности. Но если мы говорим про
48:58
реальные синтез новых белков, которые будут обладать функциональной активностью, свойствами, вообще-то надо
49:05
учить модель диффузии по тексту и дальше её приводить 3D-структуры. Это гораздо больше
49:10
возможности нам открывает и потенциал для новых лекарств. И тут спасибо
49:16
большое Дмитрию Ветрову. Я знаю, что он в Белграде тут с вами тоже читал лекции. Вот мы с ним дружим и в какой-то момент
49:22
с ним сели, начали бренстормить и решили обучить модели текстовой генерации, которую в честь него и назвали Дима, а
49:30
который генерирует белки по тексту. Я ничего сейчас вам не покажу, потому что
49:35
мы не проверили, а на мышках кобри не подсовывали, ндимы не вытаскивали и не
49:41
знаем, насколько это будет работать. Но тем не менее у нас получаются осмысленные белки уже с нашей моделью. И
49:48
главное, что удалила слайд, но неважно. И главное, что мы, в отличие от RF diffusion можем предсказывать такие
49:54
регионы, которые называются ID. Они такие неструктурированные ниточки простые, а они очень много полезных
50:01
функций выполняют, когда нужно залезть вглубь какого-нибудь белка. То есть никогда вот плотные структуры не залезут. А вот эти вот ниточки, они
50:09
могут иметь значительную роль. Собственно, а я фанат Дэвида
50:15
Бейкера и всё равно это признаю. и не только из-за RF Diffusion и других его программ, за что он получил но
50:21
библейскую премию. Вот он, конечно, говорит, что аа инструменты на основе искусственного интеллекта а будут делать
50:29
новые белки, которые, конечно же, трансформируют нашу медицину. Я думаю, что это будет даже на нашем веку
50:35
достаточно скоро. Спасибо большое. Буковки тоже здоровье.
50:41
[аплодисменты]

Поделиться: