1. JetPoint Meeting
JetBrains BioLabs
Шпынов Олег
#jetmeet
6.03.2013
2. JetBrains
At JetBrains, we have a passion for making
people more productive through smart
software solutions that help them focus more
on what they really want to accomplish, and
less on mundane, repetitive "computer busy
work".
3. Эпигенетика
Эпигенетика (греч. επί — над, выше,
внешний) — в биологии, в частности, в
генетике представляет собой изучение
закономерностей эпигенетического
наследования — изменения экспрессии
генов или фенотипа клетки, вызванных
механизмами, не затрагивающими
изменение последовательности ДНК.
4. История
● Термин «эпигенетика» был предложен Конрадом Уоддингтоном в 1942 году,
как производное от слов генетика и эпигенез. Когда Уоддингтон ввел этот
термин, физическая природа генов не была до конца известна, поэтому он
использовал его в качестве концептуальной модели того, как гены могут
взаимодействовать со своим окружением при формировании фенотипа.
●
5. Информация
● Генетическая – ДНК, одинакова во всех клетках
организма
● Эпигенетическая – специфична для конкретной
клетки
Каждый вид информации обеспечен своими
системами:
– Кодирования
– Хранения
– Передачи
6. Изменения
Генетические Эпигенетические
● Необратимы (мутации) ● Обратимы
● Не затрагивают
● Изменения изменений
последовательности ДНК последовательности
ДНК
● Стабильно наследуемые
● Долговременные или
кратковременные
7. Эпигеном
Эпигеном - это совокупность всех эпигенетических
маркеров, обусловливающих экспрессию генов в данной
клетке.
8. Виды эпигенетических
модификаций
● Метилирование ДНК
● Модификации гистонов
● Гидроксиметилирование ДНК
● ?
9. Связь
● Метилирование ДНК ->
деацетилирование гистонов ->
образование гетерохроматина
● Деметилирование ДНК ->
ацетилирование гистонов ->
образование эухроматина
12. Методы исследования
● Метилирование ДНК
BS-seq
ChIP-seq
Illumina27/450K
● Модификации гистонов
ChIP-seq
● ДНК + гистоны
ChIP-BS-Seq
13. Open Data
- Локальность исследований
- Часто очень шумные
- Часто не верифицируемы
+ Много данных в открытом доступе
14. Wet Labs problems
- Загрязнения проб
- Несоблюдение протоколов
- Использование просроченных реагентов
или их заменителей
15. Academic software
● Много низкокачественного софта, нужного
только для публикации.
● Есть реальные примеры софта, в котором
отсутствует заявленная функциональность,
но на который есть ссылки в статьях.
● A Farewell to Bioinformatics
http://madhadron.com/a-farewell-to-bioinformatics
“Fuck you, bioinformatics. Eat shit and die.”
16. JetBrains BioLabs
Мы пытаемся применять методы
статистики и машинного обучения для
выявления фундаментальных
эпигенетических механизмов
20. Задачи
● Исследование закономерностей в геноме
● Анализ данных метилирования
● Анализ данных гистонных модификаций
● Анализ причинно-следственных связей
● Разработка системы экспериментов
21. Подходы к изучению
● Построение адекватных математических
моделей по имеющимся данным
● Применение техник машинного обучения
для описания регионов генома, где
происходят важные с биологической точки
зрения события.
● Верификация данных с помощью коллег
-биологов
22. Исследование промоутеров
● Вычислительная задача, не имеющая
точного решения
● SVM + Ada Boost ML. Простейшие
классификаторы – n-мер и его позиция на
участке. Обучение и верификация на
реальных данных.
● Tradeoff: полнота и точность
● Точность ~ 80%
23. Экзон-интрон
● Proof of concept для AdaBoost
● Точность ~ 99%
● ML подход – работает!
24. ML для регионов smRNA
Значимость различных простейших
классификаторов
25. Исследование метилирования
● Исследование BS-Seq данных – выявление
паттернов метилирования
● Исследование паттернов в метилировании в
различных регионах генома, smRNA, PiRNA, lncRNA,
etc
● Корреляция метилирования и других эпигенетических
модификаций
● Исследование различий метилирования в
гомологичных участках разных животных
● Построение математических моделей, которые
описывают метилирование в клетке
● Сравнение разных клеточных линий
26. Illumina450K
● Infinium Methylation 450K is a hybrid of two different
assays, Infinium I and II.
● Due to its design, Infinium Methylation 450K technology
generates a dataset that should be viewed as two distinct
datasets. Infinium II data are less accurate and
reproducible than Infinium I data.
● Peak-based correction makes it possible to treat Infinium
I and Infinium II data as a single dataset.
● Infinium Methylation 450K is one of the most attractive
powerful and cost-effective tool currently available for
generating quantitative DNA methylomes for health and
disease, notably in the framework of large biomarker
discovery studies.
30. Исследование гистонов
● Построение математических моделей
модификаций гистонов
● Сравнение разных клеточных линий
● Связь модификаций гистонов с другими
организмами
● Поиск схожих паттернов модификаций
гистонов
31. Математические модели
модификаций гистонов
● Данные – покрытие генома после ChIP-seq
● Большинство генома не покрыто
● Рассматриваем покрытие по корзинам
● Можно предполагать, что покрытие разных
корзин порождено независимыми
случайными величинами
● Плотность распределения
32. Poisson Mixture
● Бимодальное распределение
● Рассматриваем как смесь двух
Пуассоновских распределений
● Методом оценки максимального
правдоподобия получаем скрытые
состояния корзин
● Скрытые состояния – есть гистонная
модификация или нет?
33. Poisson Mixture + HMM
● А вдруг соседние корзины не независимы?
Введем скрытую Марковскую цепь с
вероятностями переходов.
● Оценка методом максимального
правдоподобия + алгоритм Виттерби для
оценки всех параметров системы
● Есть и более сложные модели, например
для сравнения двух измерений
35. Больше моделей!
● Модели, где 2 трека рассматриваются, как
зависимые. Макровская модель с 4
состояниями. (мало-мало, мало-много,
много-мало, много-много).
● Ограниченные модели, вероятность для
каждого трека “мало” или “много” должны
совпадать для 4 комбинаций выше.
● Ограниченная модель лучше по критерию
Акайке!
● И т.д.
36. Chromasig
● Нахождение схожих паттернов
метилирования и модификации гистонов
● Инструмент для поиска мотивов для ChIP-
Seq данных - Chromasig
38. Анализ результатов Chromasig
● Онтологии генов участков генома
– Функции
– Компартменты клетки
– Наличие у разных организмов
39. Разработка системы
экспериментов
● Данные: описывать входные данные, с
удобной системой хранения и доступа,
разделять данные полученные нами и из
сторонних источников, переиспользование
данных
● Эксперименты: описание входные данных,
описание экспериментов, формат для
переиспользования
● Имеющиеся системы громоздки
● Не удовлетворяют запросам
40. Tools
● Java
● R
● Big server computations (Linux)
● Confluence, Bamboo, Crucible
● Continuous integration, tests
41. Проекты JetBrains в
биоинформатике
● JetBrains BioLabs
● LabBook - электронный лабораторный
журнал. Проблема разрозненности данных.
Большинство отчетов в Excel.
Несоответствие модели данных и
инструментов.
● Genome query – студенческий проект.
● Genestack Platform - universal collaborative
ecosystem for bioinformatics research and
development. http://genestack.com
42. JetBrains BioLabs
● Алексей Диевский
● Сергей Дмитриев
● Евгений Курбацкий
● Сергей Лебедев
● Роман Чернятчик
● Олег Шпынов
Я работаю в компании Jetbrains и наша цель – сделать процесс разработки продуктивнее, позволить сфокусироваться на реальных задачах бизнес логики, и позволить компьютеру сделать все остальное. Упс, не та презентация :)
Итак, эпигенетика. Определение из Википедии вы можете видеть на экране, эпигенетика – наука, изучающая некоторую метаразметку генома, которая влияет на работу тех или иных генов.
Немного об истории, впервые термин был предложен Конрадом Уодинтоном в 1942, но на тот момент было ничего не известно про структуру ДНК, центральную догму молекулярной биологии, итд. Второе рождение эпигенетика получила только в начале 2000х.
Жизнь – способность к самостоятельному воспроизводству, и клетка – носитель информации. Соответсвенно всю информацию можно разделить на 2 класса.
Эпигеном на самом деле определяет внешний вид хромосом, инактивацию X-хромосомы, итд.
Рассмотрим основные виды эпигенетических модификаций. Гидроксиметелирование – было открыто совсем недавно, не воспроизводится при репликации, однако подавляет транскрипцию. Последний пункт – возможно есть и неизвестные до сих пор.
В современных учебниках по молекулярной биологии учат, что метилирование и деметилирование ДНК управляет ацетилированием гистонами, однако уже есть статьи, демонстрирующие и обратную зависимость. Вообще в биологии не четкой аксиоматики и правил вывода, можно лишь строить модели, оценивать ошибки первого и второго рода, p-Value итд.
В качестве примера значимости эпигенетики, рассмотрим процесс эмбриогенеза – т.е. Развитие эмбриона. На графике....
Однако, роль эпигенетики этим не ограничивается. Известны функции в ....
Какже измеряют и исследуют? Бисульфатное секвенирование - .. ChIP-Seq - иммунопреципитация с последующим секвенированием. Можно мерить одновременно и то, и другое, чтобы избежать шума от жизненного цикла клетки, итд.
Используемые данные. Экспоненциальный рост в последнее время, проекты типа Encode, Atlas, итд – попытка верифицировать и каталогизировать. Нуменклатура GEO экспериментов.
Проблемы обусловлены не только неверным толкованием, но и такими факторами в реальной лаборатории (wet lab), как .... Таким образом к ожидаемым шумам по технологии эксперимента присоединяются шумы неизвестной природы и распределения.
Еще одна существенная проблема, что большинство софта для биоинформатики – чисто академического характера, т.е. Резюмируя, проблемы есть, и они отлично описаны в послании под названием A Farewell to Bioinformatcs, ниже приведена цитата.
Конечно есть проекты посвященные анализу тех или иных эпигенетических модификаций, но как правило они сфокусированы на конкретной узкой области, и очень плохо обобщаются.
Сначала, считатось, что более 95% процентов генома (вне кодирующих белки генов) – является мусором, однако в последнее время общественность склоняется к мнению, что это не так. И возможно именно там записана некоторая программа управления клекти.
Мотивацией к данной гипотезе была открытая у растений связь между малыми некодирующими РНК и уровнем метилирования в областях, где происходит взаимодействие. На картинке показано, что в месте взаимодействия метилирование одной нити ДНК больше, чем другой.
Задачи, которые мы пытаемся решать в рамках нашей лаборатории:
Например Большая часть кодирующих генов – предсказана, а их порядка 40тысяч штук для человека.
Известно, что граница между интронами и экзонами в генах с альтернативным сплайсингом обычно маркирована некоторым неслучайным мотивом. Мы решили проверить алгоритм AdaBoost на этом примере, и получили неплохие результаты. Кстати известны любопытные паттерны метилирования на границе – резкие скачки!
Еще один из экспериментов, который хотелось бы упомянуть – исследование регионов взаимодействия с малыми некодирующими РНК. Выравнивание с ошибками. Построение кластеров. Выравнивание кластеров. Анализ по фракциям последовательностей кластеров. На графике же – показана значимость разных 3меров.
Остановимся поподробнее на анализе Microarray Illumina450k.
Данные Beta значений до коррекции.
Так выглядят Beta значения после фильтрации, и Peak-Based correction методом Subset Quantile Normalization
Наш пайплайн анализа данных. Мы сотрудничаем с лабораторией Laboratory of Stem Cell Biology Института Вавилова РАН.
Обратимся к гистонам.
1974 год. Попытка выбрать из нескольких моделей наиболее подходящую. В общем виде формула приведена на слайде. Значение критерия для разных хромосом в зависимости от размера корзины.
Еще одна задача – это нахождение схожих паттернов среди данных как метилирования, так и модификации гистонов.
Слайд с Моралью. Непонятно как реализовывать, непонятно, как оценивать, только моделирование.
Как только у нас появилось с десяток вычислительных экспериментов, появилась проблема систематизации данных, экспериментов и всей инфраструктуры.
Поговорим, про остальные проекты JetBrains в области биоинформатики.