Дмитрий Пензар. Нейронные сети для оценки эффектов мутаций ДНК

Оценили: 10

Что такое методы искусственного интеллекта и как ими пользоваться?
Самые мощные методы решения биологических задач сейчас лежат в области искусственного интеллекта.
Лекция посвящена тому, как подступиться к научной проблеме, на примере задачи предсказания эффекта геномных мутаций.

*https://www.youtube.com/live/HNthsgPwpZs
**https://300.ya.ru/v_UWIkohpF

таймкоды

00:00:28 Введение

Дмитрий Дмитриевич Пенза, преподаватель ВБ МГУ и аспирант Института общей генетики имени Вавилова, рассказывает о своём опыте работы с машинным обучением в биологии.
Тема лекции: машинное обучение для предсказания эффектов мутаций в геноме.

00:01:26 Значение предсказания мутаций

Предсказание мутаций важно для понимания генетических причин заболеваний.
Мутации могут влиять на склонность к заболеваниям и даже на образ жизни.
Идеальный мир машинного обучения предполагает автоматизацию анализа генома, но сейчас это невозможно из-за недостатка данных.

00:02:37 Текущие подходы

Планируется использование нескольких моделей машинного обучения для работы с геномом.
Предсказания моделей будут агрегироваться и предоставляться специалистам.
Рассматриваются методы, работающие с точечными мутациями.

00:03:38 Типы мутаций

Мутации делятся на кодирующие и регуляторные.
Кодирующие мутации изменяют аминокислоту в белке, что может привести к нарушению его структуры или активности.
Регуляторные мутации влияют на доступность хроматина, сплайсинг и другие процессы.

00:05:24 Проблемы данных

Мало данных о влиянии мутаций на белки.
Данные содержат много шума и имеют низкую корреляцию между репликами.
Плохая переносимость моделей между разными данными.

00:06:31 Пример кодирующих мутаций

Кодирующие мутации могут приводить к крупным перестройкам белка.
Пример белка с одной мутацией, которая полностью меняет его архитектуру.

00:07:38 Метод AlphaFold

AlphaFold предсказывает частичную структуру белка по его последовательности.
Метод значительно улучшает предсказания по сравнению с предыдущими подходами.
Однако модель может запоминать данные, которые видела в обучении, что приводит к ошибкам при предсказании новых структур.

00:09:42 Ограничения AlphaFold

AlphaFold плохо ловит одиночные мутации.
Корреляция между предсказаниями AlphaFold и реальностью низкая.
Решения, основанные на AlphaFold, не всегда эффективны.

00:11:26 Новый подход

Предлагается проецировать природные последовательности белков в пространство высокой размерности с помощью нейронной сети.
Этот подход может помочь лучше понять влияние мутаций на белки.

00:12:21 Автокодировщики и последовательности белков

Автокодировщики используются для анализа последовательностей белков из UniProt.
Последовательности белков в UniProt не случайны, они отражают эволюционные изменения в белках живых организмов.
Последовательности, не похожие на природные, с большей вероятностью являются вредными.

00:14:12 Корреляция расстояния с вредностью мутаций

Расстояние между последовательностями в пространстве автокодировщика коррелирует с их вредоносностью.
Статья, подтверждающая эту корреляцию, опубликована в журнале Nature.

00:14:35 Предсказание эффектов мутаций на основе структур белков

Нейронные сети обучаются на структурах белков и предсказывают эффекты мутаций.
Метод сначала тестируется на синтетических данных, затем проверяется на реальных данных.
Архитектура три де-конволюции оказывается эффективной для предсказания аминокислотных мутаций.

00:16:57 Массовое тестирование мутаций и новые данные

Появились новые данные о влиянии одиночных мутаций на стабильность белков.
Массовое тестирование мутаций позволяет обучать модели на чистых данных.
Несмотря на появление новых данных, их всё ещё недостаточно для полного обучения моделей.

00:18:07 Регуляторные мутации и сплайсинг

Мутации могут влиять на сплайсинг, но прямых данных для этого мало.
Нейронные сети обучаются предсказывать участие позиций в сплайсинге по последовательности.
Профили мутаций позволяют оценить их влияние на сплайсинг.

00:20:14 Влияние мутаций на открытость хроматина

Регуляторные мутации влияют на связывание транскрипционных факторов и открытость хроматина.
Прямые данные о влиянии мутаций на доступность хроматина редки и шумны.
Экспериментальные данные часто требуют валидации из-за своих ограничений.

00:24:27 Косвенное предсказание эффекта мутаций

Для предсказания эффекта мутации используется модель, которая предсказывает доступность хроматина для двух последовательностей.
Модель обучается на данных референсного генома и предсказывает доступность хроматина для мутированного генома.
Этот подход позволяет оценить влияние мутации на экспрессию генов без проведения дополнительных экспериментов.

00:25:43 Косвенное предсказание доступности хроматина

Модель предсказывает доступность хроматина для одной последовательности, а затем используется для предсказания эффекта мутации в другой последовательности.
Это пример z-shot обучения: модель обучается на одних данных и применяется к другой задаче без предварительного просмотра примеров.

00:27:12 Метод JKM DeltaVM

JKM DeltaVM предсказывает численную доступность хроматина или вероятность его открытия или закрытия.
Разница между предсказаниями для последовательности с заменой и без неё позволяет оценить изменение доступности хроматина.
Метод хорошо предсказывает экспрессию соседних генов, но имеет ограничения по объёму данных — не более 100 тысяч последовательностей.

00:28:59 Концепция multi-target

Multi-target подход позволяет предсказывать несколько связанных параметров одновременно, например, растворимость и токсичность химического вещества.
В геномных данных это означает использование информации из разных клеточных линий и методов оценки доступности хроматина.

00:31:36 Подход DIPSY

DIPSY использует нейронную сеть для предсказания результатов 919 экспериментов одновременно.
Для каждой клеточной линии предсказывается, будет ли участок хроматина открытым или закрытым, будет ли происходить связывание чипсека или нет, будет ли гионовая метка.
Проблема подхода — необходимость обработки большого количества значений для оценки влияния мутации.

00:33:51 Проблема и решение в DIPSY

Для обработки большого количества значений предлагается использовать дополнительную модель, которая учится предсказывать экспрессию белков на основе предсказанной доступности хроматина.
Проблема модели — сложность обучения на маленьких датасетах, что увеличивает вероятность неудачного предсказания.

00:34:40 Метод Informer

Informer предсказывает численную доступность хроматина без значительной предобработки.
Используется более 7000 экспериментов, включая данные для человека и мыши.
Длина последовательности увеличена до 100 000 нуклеотидов для учёта дальних взаимодействий, что стало возможным благодаря развитию видеокарт.

00:36:50 Предсказания для последовательности

Использование схемы из дипси для предсказаний.
Применение данных экспрессии для обучения модели.
Усреднение данных по клеточным линиям, похожим на кровь.

00:37:48 Проблемы с предсказаниями

Концепция зира шот работает, но есть нюансы.
Дип майн не смог решить все проблемы.
Информер не учитывает дальние взаимодействия в последовательностях.

00:38:41 Ограничения Информера

Информер не улучшает качество предсказаний при увеличении длины последовательности.
Предсказание эффектов мутаций сложнее, чем их направление.

00:40:32 Проблемы с обучением Информера

Информер обучается на большом количестве экспериментов.
Важно аккуратно выбирать данные для проверки модели.
Простая нейронная сеть может учиться лучше Информера на небольших объёмах данных.

00:42:11 Новые данные и эксперименты

Появление данных для множества промоутеров.
Массовые параллельные эксперименты с репортёрами.
Сортировка клеток по бинам для анализа экспрессии.

00:45:00 Конкурсные результаты

Участие в конкурсе с использованием нейронных сетей.
Победа команды с нестандартной архитектурой сети.
Важность экспериментирования с различными архитектурами.

00:46:13 Применение на человеке

Эксперименты на человеке показывают хорошие результаты.
Данные коррелируют с другими источниками и между собой.
Качественный рывок по сравнению с предыдущими результатами.

00:47:11 Обучение на неразмеченных данных ДНК

Гипотетически можно обучать модели на неразмеченных данных ДНК, а затем улучшать качество на размеченных данных.
Геном человека содержит сигналы, которые можно использовать для обучения.
Статья Дина и Берта пытается использовать неразмеченные данные для предсказания инхансеров и экспрессии, но её результаты сомнительны из-за отсутствия контрольных экспериментов.

00:47:54 Критика статьи Дина и Берта

В статье нет контрольных экспериментов, которые показали бы, что модель работает так же хорошо без использования неразмеченных данных.
Попытки воспроизвести результаты статьи показали, что разница в качестве предсказаний может быть объяснена случайным шумом.
Нейронные сети, не использующие неразмеченные данные, показывают лучшие результаты.

00:49:51 Актуальность задачи предсказания мутаций

Задача предсказания эффекта мутаций в геноме человека актуальна и важна.
Задача делится на предсказание кодирующих и некодирующих мутаций.
Подходы, основанные на неразмеченных данных, хорошо работают для мутаций в белках, но менее эффективны для регуляторных мутаций.

00:50:30 Современное состояние исследований

Появление большого количества данных позволяет тренировать модели напрямую.
Ранее это было невозможно из-за недостатка данных.
Текущее время — хорошее время для развития методов предсказания мутаций.

00:51:14 Вопрос из чата о предсказании термостабильности белков

Конкурс по предсказанию термостабильности белков показал низкие результаты.
Участники использовали открытые данные, но предсказывали параметры, заданные авторами.
Хорошая информация о белках требуется для точных предсказаний.

00:53:39 Перспективы прямого обучения

Прямое обучение на новых данных показывает хорошую переносимость.
Классическое машинное обучение быстро выходит на плато при добавлении данных.
Нейронные сети обычно улучшают качество при добавлении данных.

00:56:35 Будущее исследований

Ожидается, что через пять лет количество данных достигнет такого уровня, что появятся модели, способные идеально предсказывать экспрессию регуляторных мутаций.
Прорывы в области машинного обучения часто происходят при увеличении объёма данных.

00:56:54 Снижение уровня шума в моделях

Увеличение количества экспериментов и качества данных помогает снизить уровень шума в моделях.
Современные нейронные сети имеют множество параметров, что позволяет улучшать качество модели при добавлении данных.
При достижении определённого объёма данных можно улучшить архитектуру модели для дальнейшего повышения качества.

00:57:50 Прорыв в общении с чат-ботами

Современные модели могут общаться с человеком на уровне 60–70% точности.
Это достигается благодаря большим объёмам данных и сложным архитектурам моделей.

00:58:50 Вопросы о моделях в биологии

Для работы с геномными последовательностями лучше всего подходят конволюционные нейронные сети, а не рекуррентные.
В регуляторных последовательностях ЛСТМ и трансформеры показывают хорошие результаты, но конволюции остаются предпочтительными.
Умные пулинги помогают уменьшить размер входной последовательности и улучшить качество анализа.

01:00:49 Перенос моделей с естественного языка

Модели, хорошо работающие с естественным языком, плохо переносятся на регуляторную область.
CNN хорошо справляются с задачами в регуляторной области, несмотря на неудачи в работе с естественным языком.

01:01:14 Завершение лекции

Приглашение на магистерскую программу по искусственному интеллекту в биологии.
Просьба распространять информацию о программе среди знакомых и детей.
Благодарность слушателям и раздача брошюр.

таймкоды

Похожие записи