Дмитрий Пензар. Нейронные сети для оценки эффектов мутаций ДНК

Что такое методы искусственного интеллекта и как ими пользоваться?
Самые мощные методы решения биологических задач сейчас лежат в области искусственного интеллекта.
Лекция посвящена тому, как подступиться к научной проблеме, на примере задачи предсказания эффекта геномных мутаций.

*https://www.youtube.com/live/HNthsgPwpZs
**https://300.ya.ru/v_UWIkohpF

таймкоды

00:00:28 Введение

  • Дмитрий Дмитриевич Пенза, преподаватель ВБ МГУ и аспирант Института общей генетики имени Вавилова, рассказывает о своём опыте работы с машинным обучением в биологии.
  • Тема лекции: машинное обучение для предсказания эффектов мутаций в геноме.

00:01:26 Значение предсказания мутаций

  • Предсказание мутаций важно для понимания генетических причин заболеваний.
  • Мутации могут влиять на склонность к заболеваниям и даже на образ жизни.
  • Идеальный мир машинного обучения предполагает автоматизацию анализа генома, но сейчас это невозможно из-за недостатка данных.

00:02:37 Текущие подходы

  • Планируется использование нескольких моделей машинного обучения для работы с геномом.
  • Предсказания моделей будут агрегироваться и предоставляться специалистам.
  • Рассматриваются методы, работающие с точечными мутациями.

00:03:38 Типы мутаций

  • Мутации делятся на кодирующие и регуляторные.
  • Кодирующие мутации изменяют аминокислоту в белке, что может привести к нарушению его структуры или активности.
  • Регуляторные мутации влияют на доступность хроматина, сплайсинг и другие процессы.

00:05:24 Проблемы данных

  • Мало данных о влиянии мутаций на белки.
  • Данные содержат много шума и имеют низкую корреляцию между репликами.
  • Плохая переносимость моделей между разными данными.

00:06:31 Пример кодирующих мутаций

  • Кодирующие мутации могут приводить к крупным перестройкам белка.
  • Пример белка с одной мутацией, которая полностью меняет его архитектуру.

00:07:38 Метод AlphaFold

  • AlphaFold предсказывает частичную структуру белка по его последовательности.
  • Метод значительно улучшает предсказания по сравнению с предыдущими подходами.
  • Однако модель может запоминать данные, которые видела в обучении, что приводит к ошибкам при предсказании новых структур.

00:09:42 Ограничения AlphaFold

  • AlphaFold плохо ловит одиночные мутации.
  • Корреляция между предсказаниями AlphaFold и реальностью низкая.
  • Решения, основанные на AlphaFold, не всегда эффективны.

00:11:26 Новый подход

  • Предлагается проецировать природные последовательности белков в пространство высокой размерности с помощью нейронной сети.
  • Этот подход может помочь лучше понять влияние мутаций на белки.

00:12:21 Автокодировщики и последовательности белков

  • Автокодировщики используются для анализа последовательностей белков из UniProt.
  • Последовательности белков в UniProt не случайны, они отражают эволюционные изменения в белках живых организмов.
  • Последовательности, не похожие на природные, с большей вероятностью являются вредными.

00:14:12 Корреляция расстояния с вредностью мутаций

  • Расстояние между последовательностями в пространстве автокодировщика коррелирует с их вредоносностью.
  • Статья, подтверждающая эту корреляцию, опубликована в журнале Nature.

00:14:35 Предсказание эффектов мутаций на основе структур белков

  • Нейронные сети обучаются на структурах белков и предсказывают эффекты мутаций.
  • Метод сначала тестируется на синтетических данных, затем проверяется на реальных данных.
  • Архитектура три де-конволюции оказывается эффективной для предсказания аминокислотных мутаций.

00:16:57 Массовое тестирование мутаций и новые данные

  • Появились новые данные о влиянии одиночных мутаций на стабильность белков.
  • Массовое тестирование мутаций позволяет обучать модели на чистых данных.
  • Несмотря на появление новых данных, их всё ещё недостаточно для полного обучения моделей.

00:18:07 Регуляторные мутации и сплайсинг

  • Мутации могут влиять на сплайсинг, но прямых данных для этого мало.
  • Нейронные сети обучаются предсказывать участие позиций в сплайсинге по последовательности.
  • Профили мутаций позволяют оценить их влияние на сплайсинг.

00:20:14 Влияние мутаций на открытость хроматина

  • Регуляторные мутации влияют на связывание транскрипционных факторов и открытость хроматина.
  • Прямые данные о влиянии мутаций на доступность хроматина редки и шумны.
  • Экспериментальные данные часто требуют валидации из-за своих ограничений.

00:24:27 Косвенное предсказание эффекта мутаций

  • Для предсказания эффекта мутации используется модель, которая предсказывает доступность хроматина для двух последовательностей.
  • Модель обучается на данных референсного генома и предсказывает доступность хроматина для мутированного генома.
  • Этот подход позволяет оценить влияние мутации на экспрессию генов без проведения дополнительных экспериментов.

00:25:43 Косвенное предсказание доступности хроматина

  • Модель предсказывает доступность хроматина для одной последовательности, а затем используется для предсказания эффекта мутации в другой последовательности.
  • Это пример z-shot обучения: модель обучается на одних данных и применяется к другой задаче без предварительного просмотра примеров.

00:27:12 Метод JKM DeltaVM

  • JKM DeltaVM предсказывает численную доступность хроматина или вероятность его открытия или закрытия.
  • Разница между предсказаниями для последовательности с заменой и без неё позволяет оценить изменение доступности хроматина.
  • Метод хорошо предсказывает экспрессию соседних генов, но имеет ограничения по объёму данных — не более 100 тысяч последовательностей.

00:28:59 Концепция multi-target

  • Multi-target подход позволяет предсказывать несколько связанных параметров одновременно, например, растворимость и токсичность химического вещества.
  • В геномных данных это означает использование информации из разных клеточных линий и методов оценки доступности хроматина.

00:31:36 Подход DIPSY

  • DIPSY использует нейронную сеть для предсказания результатов 919 экспериментов одновременно.
  • Для каждой клеточной линии предсказывается, будет ли участок хроматина открытым или закрытым, будет ли происходить связывание чипсека или нет, будет ли гионовая метка.
  • Проблема подхода — необходимость обработки большого количества значений для оценки влияния мутации.

00:33:51 Проблема и решение в DIPSY

  • Для обработки большого количества значений предлагается использовать дополнительную модель, которая учится предсказывать экспрессию белков на основе предсказанной доступности хроматина.
  • Проблема модели — сложность обучения на маленьких датасетах, что увеличивает вероятность неудачного предсказания.

00:34:40 Метод Informer

  • Informer предсказывает численную доступность хроматина без значительной предобработки.
  • Используется более 7000 экспериментов, включая данные для человека и мыши.
  • Длина последовательности увеличена до 100 000 нуклеотидов для учёта дальних взаимодействий, что стало возможным благодаря развитию видеокарт.

00:36:50 Предсказания для последовательности

  • Использование схемы из дипси для предсказаний.
  • Применение данных экспрессии для обучения модели.
  • Усреднение данных по клеточным линиям, похожим на кровь.

00:37:48 Проблемы с предсказаниями

  • Концепция зира шот работает, но есть нюансы.
  • Дип майн не смог решить все проблемы.
  • Информер не учитывает дальние взаимодействия в последовательностях.

00:38:41 Ограничения Информера

  • Информер не улучшает качество предсказаний при увеличении длины последовательности.
  • Предсказание эффектов мутаций сложнее, чем их направление.

00:40:32 Проблемы с обучением Информера

  • Информер обучается на большом количестве экспериментов.
  • Важно аккуратно выбирать данные для проверки модели.
  • Простая нейронная сеть может учиться лучше Информера на небольших объёмах данных.

00:42:11 Новые данные и эксперименты

  • Появление данных для множества промоутеров.
  • Массовые параллельные эксперименты с репортёрами.
  • Сортировка клеток по бинам для анализа экспрессии.

00:45:00 Конкурсные результаты

  • Участие в конкурсе с использованием нейронных сетей.
  • Победа команды с нестандартной архитектурой сети.
  • Важность экспериментирования с различными архитектурами.

00:46:13 Применение на человеке

  • Эксперименты на человеке показывают хорошие результаты.
  • Данные коррелируют с другими источниками и между собой.
  • Качественный рывок по сравнению с предыдущими результатами.

00:47:11 Обучение на неразмеченных данных ДНК

  • Гипотетически можно обучать модели на неразмеченных данных ДНК, а затем улучшать качество на размеченных данных.
  • Геном человека содержит сигналы, которые можно использовать для обучения.
  • Статья Дина и Берта пытается использовать неразмеченные данные для предсказания инхансеров и экспрессии, но её результаты сомнительны из-за отсутствия контрольных экспериментов.

00:47:54 Критика статьи Дина и Берта

  • В статье нет контрольных экспериментов, которые показали бы, что модель работает так же хорошо без использования неразмеченных данных.
  • Попытки воспроизвести результаты статьи показали, что разница в качестве предсказаний может быть объяснена случайным шумом.
  • Нейронные сети, не использующие неразмеченные данные, показывают лучшие результаты.

00:49:51 Актуальность задачи предсказания мутаций

  • Задача предсказания эффекта мутаций в геноме человека актуальна и важна.
  • Задача делится на предсказание кодирующих и некодирующих мутаций.
  • Подходы, основанные на неразмеченных данных, хорошо работают для мутаций в белках, но менее эффективны для регуляторных мутаций.

00:50:30 Современное состояние исследований

  • Появление большого количества данных позволяет тренировать модели напрямую.
  • Ранее это было невозможно из-за недостатка данных.
  • Текущее время — хорошее время для развития методов предсказания мутаций.

00:51:14 Вопрос из чата о предсказании термостабильности белков

  • Конкурс по предсказанию термостабильности белков показал низкие результаты.
  • Участники использовали открытые данные, но предсказывали параметры, заданные авторами.
  • Хорошая информация о белках требуется для точных предсказаний.

00:53:39 Перспективы прямого обучения

  • Прямое обучение на новых данных показывает хорошую переносимость.
  • Классическое машинное обучение быстро выходит на плато при добавлении данных.
  • Нейронные сети обычно улучшают качество при добавлении данных.

00:56:35 Будущее исследований

  • Ожидается, что через пять лет количество данных достигнет такого уровня, что появятся модели, способные идеально предсказывать экспрессию регуляторных мутаций.
  • Прорывы в области машинного обучения часто происходят при увеличении объёма данных.

00:56:54 Снижение уровня шума в моделях

  • Увеличение количества экспериментов и качества данных помогает снизить уровень шума в моделях.
  • Современные нейронные сети имеют множество параметров, что позволяет улучшать качество модели при добавлении данных.
  • При достижении определённого объёма данных можно улучшить архитектуру модели для дальнейшего повышения качества.

00:57:50 Прорыв в общении с чат-ботами

  • Современные модели могут общаться с человеком на уровне 60–70% точности.
  • Это достигается благодаря большим объёмам данных и сложным архитектурам моделей.

00:58:50 Вопросы о моделях в биологии

  • Для работы с геномными последовательностями лучше всего подходят конволюционные нейронные сети, а не рекуррентные.
  • В регуляторных последовательностях ЛСТМ и трансформеры показывают хорошие результаты, но конволюции остаются предпочтительными.
  • Умные пулинги помогают уменьшить размер входной последовательности и улучшить качество анализа.

01:00:49 Перенос моделей с естественного языка

  • Модели, хорошо работающие с естественным языком, плохо переносятся на регуляторную область.
  • CNN хорошо справляются с задачами в регуляторной области, несмотря на неудачи в работе с естественным языком.

01:01:14 Завершение лекции

  • Приглашение на магистерскую программу по искусственному интеллекту в биологии.
  • Просьба распространять информацию о программе среди знакомых и детей.
  • Благодарность слушателям и раздача брошюр.
Поделиться: