Что такое методы искусственного интеллекта и как ими пользоваться?
Самые мощные методы решения биологических задач сейчас лежат в области искусственного интеллекта.
Лекция посвящена тому, как подступиться к научной проблеме, на примере задачи предсказания эффекта геномных мутаций.
*https://www.youtube.com/live/HNthsgPwpZs
**https://300.ya.ru/v_UWIkohpF
таймкоды
00:00:28 Введение
- Дмитрий Дмитриевич Пенза, преподаватель ВБ МГУ и аспирант Института общей генетики имени Вавилова, рассказывает о своём опыте работы с машинным обучением в биологии.
- Тема лекции: машинное обучение для предсказания эффектов мутаций в геноме.
00:01:26 Значение предсказания мутаций
- Предсказание мутаций важно для понимания генетических причин заболеваний.
- Мутации могут влиять на склонность к заболеваниям и даже на образ жизни.
- Идеальный мир машинного обучения предполагает автоматизацию анализа генома, но сейчас это невозможно из-за недостатка данных.
00:02:37 Текущие подходы
- Планируется использование нескольких моделей машинного обучения для работы с геномом.
- Предсказания моделей будут агрегироваться и предоставляться специалистам.
- Рассматриваются методы, работающие с точечными мутациями.
00:03:38 Типы мутаций
- Мутации делятся на кодирующие и регуляторные.
- Кодирующие мутации изменяют аминокислоту в белке, что может привести к нарушению его структуры или активности.
- Регуляторные мутации влияют на доступность хроматина, сплайсинг и другие процессы.
00:05:24 Проблемы данных
- Мало данных о влиянии мутаций на белки.
- Данные содержат много шума и имеют низкую корреляцию между репликами.
- Плохая переносимость моделей между разными данными.
00:06:31 Пример кодирующих мутаций
- Кодирующие мутации могут приводить к крупным перестройкам белка.
- Пример белка с одной мутацией, которая полностью меняет его архитектуру.
00:07:38 Метод AlphaFold
- AlphaFold предсказывает частичную структуру белка по его последовательности.
- Метод значительно улучшает предсказания по сравнению с предыдущими подходами.
- Однако модель может запоминать данные, которые видела в обучении, что приводит к ошибкам при предсказании новых структур.
00:09:42 Ограничения AlphaFold
- AlphaFold плохо ловит одиночные мутации.
- Корреляция между предсказаниями AlphaFold и реальностью низкая.
- Решения, основанные на AlphaFold, не всегда эффективны.
00:11:26 Новый подход
- Предлагается проецировать природные последовательности белков в пространство высокой размерности с помощью нейронной сети.
- Этот подход может помочь лучше понять влияние мутаций на белки.
00:12:21 Автокодировщики и последовательности белков
- Автокодировщики используются для анализа последовательностей белков из UniProt.
- Последовательности белков в UniProt не случайны, они отражают эволюционные изменения в белках живых организмов.
- Последовательности, не похожие на природные, с большей вероятностью являются вредными.
00:14:12 Корреляция расстояния с вредностью мутаций
- Расстояние между последовательностями в пространстве автокодировщика коррелирует с их вредоносностью.
- Статья, подтверждающая эту корреляцию, опубликована в журнале Nature.
00:14:35 Предсказание эффектов мутаций на основе структур белков
- Нейронные сети обучаются на структурах белков и предсказывают эффекты мутаций.
- Метод сначала тестируется на синтетических данных, затем проверяется на реальных данных.
- Архитектура три де-конволюции оказывается эффективной для предсказания аминокислотных мутаций.
00:16:57 Массовое тестирование мутаций и новые данные
- Появились новые данные о влиянии одиночных мутаций на стабильность белков.
- Массовое тестирование мутаций позволяет обучать модели на чистых данных.
- Несмотря на появление новых данных, их всё ещё недостаточно для полного обучения моделей.
00:18:07 Регуляторные мутации и сплайсинг
- Мутации могут влиять на сплайсинг, но прямых данных для этого мало.
- Нейронные сети обучаются предсказывать участие позиций в сплайсинге по последовательности.
- Профили мутаций позволяют оценить их влияние на сплайсинг.
00:20:14 Влияние мутаций на открытость хроматина
- Регуляторные мутации влияют на связывание транскрипционных факторов и открытость хроматина.
- Прямые данные о влиянии мутаций на доступность хроматина редки и шумны.
- Экспериментальные данные часто требуют валидации из-за своих ограничений.
00:24:27 Косвенное предсказание эффекта мутаций
- Для предсказания эффекта мутации используется модель, которая предсказывает доступность хроматина для двух последовательностей.
- Модель обучается на данных референсного генома и предсказывает доступность хроматина для мутированного генома.
- Этот подход позволяет оценить влияние мутации на экспрессию генов без проведения дополнительных экспериментов.
00:25:43 Косвенное предсказание доступности хроматина
- Модель предсказывает доступность хроматина для одной последовательности, а затем используется для предсказания эффекта мутации в другой последовательности.
- Это пример z-shot обучения: модель обучается на одних данных и применяется к другой задаче без предварительного просмотра примеров.
00:27:12 Метод JKM DeltaVM
- JKM DeltaVM предсказывает численную доступность хроматина или вероятность его открытия или закрытия.
- Разница между предсказаниями для последовательности с заменой и без неё позволяет оценить изменение доступности хроматина.
- Метод хорошо предсказывает экспрессию соседних генов, но имеет ограничения по объёму данных — не более 100 тысяч последовательностей.
00:28:59 Концепция multi-target
- Multi-target подход позволяет предсказывать несколько связанных параметров одновременно, например, растворимость и токсичность химического вещества.
- В геномных данных это означает использование информации из разных клеточных линий и методов оценки доступности хроматина.
00:31:36 Подход DIPSY
- DIPSY использует нейронную сеть для предсказания результатов 919 экспериментов одновременно.
- Для каждой клеточной линии предсказывается, будет ли участок хроматина открытым или закрытым, будет ли происходить связывание чипсека или нет, будет ли гионовая метка.
- Проблема подхода — необходимость обработки большого количества значений для оценки влияния мутации.
00:33:51 Проблема и решение в DIPSY
- Для обработки большого количества значений предлагается использовать дополнительную модель, которая учится предсказывать экспрессию белков на основе предсказанной доступности хроматина.
- Проблема модели — сложность обучения на маленьких датасетах, что увеличивает вероятность неудачного предсказания.
00:34:40 Метод Informer
- Informer предсказывает численную доступность хроматина без значительной предобработки.
- Используется более 7000 экспериментов, включая данные для человека и мыши.
- Длина последовательности увеличена до 100 000 нуклеотидов для учёта дальних взаимодействий, что стало возможным благодаря развитию видеокарт.
00:36:50 Предсказания для последовательности
- Использование схемы из дипси для предсказаний.
- Применение данных экспрессии для обучения модели.
- Усреднение данных по клеточным линиям, похожим на кровь.
00:37:48 Проблемы с предсказаниями
- Концепция зира шот работает, но есть нюансы.
- Дип майн не смог решить все проблемы.
- Информер не учитывает дальние взаимодействия в последовательностях.
00:38:41 Ограничения Информера
- Информер не улучшает качество предсказаний при увеличении длины последовательности.
- Предсказание эффектов мутаций сложнее, чем их направление.
00:40:32 Проблемы с обучением Информера
- Информер обучается на большом количестве экспериментов.
- Важно аккуратно выбирать данные для проверки модели.
- Простая нейронная сеть может учиться лучше Информера на небольших объёмах данных.
00:42:11 Новые данные и эксперименты
- Появление данных для множества промоутеров.
- Массовые параллельные эксперименты с репортёрами.
- Сортировка клеток по бинам для анализа экспрессии.
00:45:00 Конкурсные результаты
- Участие в конкурсе с использованием нейронных сетей.
- Победа команды с нестандартной архитектурой сети.
- Важность экспериментирования с различными архитектурами.
00:46:13 Применение на человеке
- Эксперименты на человеке показывают хорошие результаты.
- Данные коррелируют с другими источниками и между собой.
- Качественный рывок по сравнению с предыдущими результатами.
00:47:11 Обучение на неразмеченных данных ДНК
- Гипотетически можно обучать модели на неразмеченных данных ДНК, а затем улучшать качество на размеченных данных.
- Геном человека содержит сигналы, которые можно использовать для обучения.
- Статья Дина и Берта пытается использовать неразмеченные данные для предсказания инхансеров и экспрессии, но её результаты сомнительны из-за отсутствия контрольных экспериментов.
00:47:54 Критика статьи Дина и Берта
- В статье нет контрольных экспериментов, которые показали бы, что модель работает так же хорошо без использования неразмеченных данных.
- Попытки воспроизвести результаты статьи показали, что разница в качестве предсказаний может быть объяснена случайным шумом.
- Нейронные сети, не использующие неразмеченные данные, показывают лучшие результаты.
00:49:51 Актуальность задачи предсказания мутаций
- Задача предсказания эффекта мутаций в геноме человека актуальна и важна.
- Задача делится на предсказание кодирующих и некодирующих мутаций.
- Подходы, основанные на неразмеченных данных, хорошо работают для мутаций в белках, но менее эффективны для регуляторных мутаций.
00:50:30 Современное состояние исследований
- Появление большого количества данных позволяет тренировать модели напрямую.
- Ранее это было невозможно из-за недостатка данных.
- Текущее время — хорошее время для развития методов предсказания мутаций.
00:51:14 Вопрос из чата о предсказании термостабильности белков
- Конкурс по предсказанию термостабильности белков показал низкие результаты.
- Участники использовали открытые данные, но предсказывали параметры, заданные авторами.
- Хорошая информация о белках требуется для точных предсказаний.
00:53:39 Перспективы прямого обучения
- Прямое обучение на новых данных показывает хорошую переносимость.
- Классическое машинное обучение быстро выходит на плато при добавлении данных.
- Нейронные сети обычно улучшают качество при добавлении данных.
00:56:35 Будущее исследований
- Ожидается, что через пять лет количество данных достигнет такого уровня, что появятся модели, способные идеально предсказывать экспрессию регуляторных мутаций.
- Прорывы в области машинного обучения часто происходят при увеличении объёма данных.
00:56:54 Снижение уровня шума в моделях
- Увеличение количества экспериментов и качества данных помогает снизить уровень шума в моделях.
- Современные нейронные сети имеют множество параметров, что позволяет улучшать качество модели при добавлении данных.
- При достижении определённого объёма данных можно улучшить архитектуру модели для дальнейшего повышения качества.
00:57:50 Прорыв в общении с чат-ботами
- Современные модели могут общаться с человеком на уровне 60–70% точности.
- Это достигается благодаря большим объёмам данных и сложным архитектурам моделей.
00:58:50 Вопросы о моделях в биологии
- Для работы с геномными последовательностями лучше всего подходят конволюционные нейронные сети, а не рекуррентные.
- В регуляторных последовательностях ЛСТМ и трансформеры показывают хорошие результаты, но конволюции остаются предпочтительными.
- Умные пулинги помогают уменьшить размер входной последовательности и улучшить качество анализа.
01:00:49 Перенос моделей с естественного языка
- Модели, хорошо работающие с естественным языком, плохо переносятся на регуляторную область.
- CNN хорошо справляются с задачами в регуляторной области, несмотря на неудачи в работе с естественным языком.
01:01:14 Завершение лекции
- Приглашение на магистерскую программу по искусственному интеллекту в биологии.
- Просьба распространять информацию о программе среди знакомых и детей.
- Благодарность слушателям и раздача брошюр.

