SlideShare une entreprise Scribd logo
1  sur  44
Télécharger pour lire hors ligne
JetPoint Meeting



  JetBrains BioLabs
    Шпынов Олег
      #jetmeet




       6.03.2013
JetBrains

At JetBrains, we have a passion for making
people more productive through smart
software solutions that help them focus more
on what they really want to accomplish, and
less on mundane, repetitive "computer busy
work".
Эпигенетика

Эпигенетика (греч. επί — над, выше,
внешний) — в биологии, в частности, в
генетике представляет собой изучение
закономерностей эпигенетического
наследования — изменения экспрессии
генов или фенотипа клетки, вызванных
механизмами, не затрагивающими
изменение последовательности ДНК.
История
●   Термин «эпигенетика» был предложен Конрадом Уоддингтоном в 1942 году,
    как производное от слов генетика и эпигенез. Когда Уоддингтон ввел этот
    термин, физическая природа генов не была до конца известна, поэтому он
    использовал его в качестве концептуальной модели того, как гены могут
    взаимодействовать со своим окружением при формировании фенотипа.
●
Информация
●   Генетическая – ДНК, одинакова во всех клетках
    организма
●   Эпигенетическая – специфична для конкретной
    клетки


    Каждый вид информации обеспечен своими
    системами:
       –   Кодирования
       –   Хранения
       –   Передачи
Изменения

Генетические                 Эпигенетические
●   Необратимы (мутации)     ●   Обратимы
                             ●   Не затрагивают
●   Изменения                    изменений
    последовательности ДНК       последовательности
                                 ДНК
●   Стабильно наследуемые
                             ●   Долговременные или
                                 кратковременные
Эпигеном
Эпигеном - это совокупность всех эпигенетических
маркеров, обусловливающих экспрессию генов в данной
клетке.
Виды эпигенетических
            модификаций
●   Метилирование ДНК
●   Модификации гистонов
●   Гидроксиметилирование ДНК
●   ?
Связь
●   Метилирование ДНК ->
    деацетилирование гистонов ->
    образование гетерохроматина
●   Деметилирование ДНК ->
    ацетилирование гистонов ->
    образование эухроматина
Эмбриогенез
Эпигенетика – ВАЖНО!
●   Эмбриогенез
●   Дифференциация
●   Регуляция
●   Защита

●   Старение?
●   Рак?
●   ???
Методы исследования
●   Метилирование ДНК
    BS-seq
    ChIP-seq
    Illumina27/450K

●   Модификации гистонов
    ChIP-seq

●   ДНК + гистоны
    ChIP-BS-Seq
Open Data

- Локальность исследований
- Часто очень шумные
- Часто не верифицируемы

+ Много данных в открытом доступе
Wet Labs problems

- Загрязнения проб
- Несоблюдение протоколов
- Использование просроченных реагентов
или их заменителей
Academic software
●   Много низкокачественного софта, нужного
    только для публикации.
●   Есть реальные примеры софта, в котором
    отсутствует заявленная функциональность,
    но на который есть ссылки в статьях.

●   A Farewell to Bioinformatics
    http://madhadron.com/a-farewell-to-bioinformatics
     “Fuck you, bioinformatics. Eat shit and die.”
JetBrains BioLabs

Мы пытаемся применять методы
статистики и машинного обучения для
выявления фундаментальных
эпигенетических механизмов
Гипотеза

Механизм эпигенетических модификаций
управляется последовательностью ДНК
Мотивация?

●   RNA-directed DNA methylation in Arabidopsis
Механизм
Задачи

●   Исследование закономерностей в геноме
●   Анализ данных метилирования
●   Анализ данных гистонных модификаций
●   Анализ причинно-следственных связей
●   Разработка системы экспериментов
Подходы к изучению

●   Построение адекватных математических
    моделей по имеющимся данным
●   Применение техник машинного обучения
    для описания регионов генома, где
    происходят важные с биологической точки
    зрения события.
●   Верификация данных с помощью коллег
    -биологов
Исследование промоутеров

●   Вычислительная задача, не имеющая
    точного решения
●   SVM + Ada Boost ML. Простейшие
    классификаторы – n-мер и его позиция на
    участке. Обучение и верификация на
    реальных данных.
●   Tradeoff: полнота и точность
●   Точность ~ 80%
Экзон-интрон

●   Proof of concept для AdaBoost
●   Точность ~ 99%
●   ML подход – работает!
ML для регионов smRNA

Значимость различных простейших
классификаторов
Исследование метилирования
●   Исследование BS-Seq данных – выявление
    паттернов метилирования
●   Исследование паттернов в метилировании в
    различных регионах генома, smRNA, PiRNA, lncRNA,
    etc
●   Корреляция метилирования и других эпигенетических
    модификаций
●   Исследование различий метилирования в
    гомологичных участках разных животных
●   Построение математических моделей, которые
    описывают метилирование в клетке
●   Сравнение разных клеточных линий
Illumina450K
●   Infinium Methylation 450K is a hybrid of two different
    assays, Infinium I and II.
●   Due to its design, Infinium Methylation 450K technology
    generates a dataset that should be viewed as two distinct
    datasets. Infinium II data are less accurate and
    reproducible than Infinium I data.
●   Peak-based correction makes it possible to treat Infinium
    I and Infinium II data as a single dataset.
●   Infinium Methylation 450K is one of the most attractive
    powerful and cost-effective tool currently available for
    generating quantitative DNA methylomes for health and
    disease, notably in the framework of large biomarker
    discovery studies.
Illumina450K
●   Beta = methylated / (methylated + unmethylated)
Illumina450K

●   Фильтрация + subset quantile normalization
Illumina450K

●   Загрузка
●   Фильтрация
●   SNP-процессинг
●   Subset Quantile Normalization
●   Batch effects
●   Сравнение локусов (genes, gene regions,
    etc) с использованием Mann-Whitney U-test
●   Результат: NDA
Исследование гистонов

●   Построение математических моделей
    модификаций гистонов
●   Сравнение разных клеточных линий
●   Связь модификаций гистонов с другими
    организмами
●   Поиск схожих паттернов модификаций
    гистонов
Математические модели
       модификаций гистонов
●   Данные – покрытие генома после ChIP-seq
●   Большинство генома не покрыто
●   Рассматриваем покрытие по корзинам
●   Можно предполагать, что покрытие разных
    корзин порождено независимыми
    случайными величинами
●   Плотность распределения
Poisson Mixture

●   Бимодальное распределение
●   Рассматриваем как смесь двух
    Пуассоновских распределений
●   Методом оценки максимального
    правдоподобия получаем скрытые
    состояния корзин
●   Скрытые состояния – есть гистонная
    модификация или нет?
Poisson Mixture + HMM

●   А вдруг соседние корзины не независимы?
    Введем скрытую Марковскую цепь с
    вероятностями переходов.
●   Оценка методом максимального
    правдоподобия + алгоритм Виттерби для
    оценки всех параметров системы
●   Есть и более сложные модели, например
    для сравнения двух измерений
Сравнение моделей

●   Критерий Акайке
    AIC = 2*freedom_degrees – log(likelihood)
●
Больше моделей!

●   Модели, где 2 трека рассматриваются, как
    зависимые. Макровская модель с 4
    состояниями. (мало-мало, мало-много,
    много-мало, много-много).
●   Ограниченные модели, вероятность для
    каждого трека “мало” или “много” должны
    совпадать для 4 комбинаций выше.
●   Ограниченная модель лучше по критерию
    Акайке!
●   И т.д.
Chromasig

●   Нахождение схожих паттернов
    метилирования и модификации гистонов




●   Инструмент для поиска мотивов для ChIP-
    Seq данных - Chromasig
Реализация алгоритма из статьи
Анализ результатов Chromasig

●   Онтологии генов участков генома
       –   Функции
       –   Компартменты клетки
       –   Наличие у разных организмов
Разработка системы
           экспериментов
●   Данные: описывать входные данные, с
    удобной системой хранения и доступа,
    разделять данные полученные нами и из
    сторонних источников, переиспользование
    данных
●   Эксперименты: описание входные данных,
    описание экспериментов, формат для
    переиспользования
●   Имеющиеся системы громоздки
●   Не удовлетворяют запросам
Tools

●   Java
●   R
●   Big server computations (Linux)
●   Confluence, Bamboo, Crucible
●   Continuous integration, tests
Проекты JetBrains в
            биоинформатике
●   JetBrains BioLabs
●   LabBook - электронный лабораторный
    журнал. Проблема разрозненности данных.
    Большинство отчетов в Excel.
    Несоответствие модели данных и
    инструментов.
●   Genome query – студенческий проект.
●   Genestack Platform - universal collaborative
    ecosystem for bioinformatics research and
    development. http://genestack.com
JetBrains BioLabs

●   Алексей Диевский
●   Сергей Дмитриев
●   Евгений Курбацкий
●   Сергей Лебедев
●   Роман Чернятчик
●   Олег Шпынов
Вопросы?
Спасибо за внимание!
Oleg.Shpynov@jetbrains.com
Twitter: oleg_s

Contenu connexe

En vedette

20120415 videorecognition konushin_lecture05
20120415 videorecognition konushin_lecture0520120415 videorecognition konushin_lecture05
20120415 videorecognition konushin_lecture05Computer Science Club
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewKhryashchev
 
Supervised ML in Practice: Tips & Tricks
Supervised ML in Practice:  Tips & TricksSupervised ML in Practice:  Tips & Tricks
Supervised ML in Practice: Tips & TricksDzianis Pirshtuk
 
Локализация лиц с помощью детектора Виолы-Джонс
Локализация лиц с помощью детектора Виолы-ДжонсЛокализация лиц с помощью детектора Виолы-Джонс
Локализация лиц с помощью детектора Виолы-ДжонсArtyom Shklovets
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблейTechnosphere1
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Technosphere1
 
К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"Yandex
 
GBM package in r
GBM package in rGBM package in r
GBM package in rmark_landry
 

En vedette (10)

20120415 videorecognition konushin_lecture05
20120415 videorecognition konushin_lecture0520120415 videorecognition konushin_lecture05
20120415 videorecognition konushin_lecture05
 
Marta_Egorova
Marta_EgorovaMarta_Egorova
Marta_Egorova
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_review
 
Реализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначностиРеализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначности
 
Supervised ML in Practice: Tips & Tricks
Supervised ML in Practice:  Tips & TricksSupervised ML in Practice:  Tips & Tricks
Supervised ML in Practice: Tips & Tricks
 
Локализация лиц с помощью детектора Виолы-Джонс
Локализация лиц с помощью детектора Виолы-ДжонсЛокализация лиц с помощью детектора Виолы-Джонс
Локализация лиц с помощью детектора Виолы-Джонс
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблей
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
 
К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"
 
GBM package in r
GBM package in rGBM package in r
GBM package in r
 

Similaire à JetPoint meeting @JetBrains on bioinformatics

Семинар по генным сетям. Mirob.
Семинар по генным сетям. Mirob.Семинар по генным сетям. Mirob.
Семинар по генным сетям. Mirob.bifurcafe
 
Как программисты могут спасти мир
Как программисты могут спасти мирКак программисты могут спасти мир
Как программисты могут спасти мирVitebsk Miniq
 
Нейронные сети. Pureso
Нейронные сети. PuresoНейронные сети. Pureso
Нейронные сети. PuresoAlexey Dmitriev
 
Biodb 2011-01-everything
Biodb 2011-01-everythingBiodb 2011-01-everything
Biodb 2011-01-everythingNikolay Vyahhi
 
Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...
Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...
Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...Alexey Anikaev
 
Биоинформатикаинтернет.pptx
Биоинформатикаинтернет.pptxБиоинформатикаинтернет.pptx
Биоинформатикаинтернет.pptxssuser0527111
 
Guests 2011-10-04-pevzner-assembly
Guests 2011-10-04-pevzner-assemblyGuests 2011-10-04-pevzner-assembly
Guests 2011-10-04-pevzner-assemblyNikolay Vyahhi
 
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес... Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...BioinformaticsInstitute
 
Тестирование Нейронных сетей
Тестирование Нейронных сетейТестирование Нейронных сетей
Тестирование Нейронных сетейSQALab
 
Novel Software Systems priorities 2019
Novel Software Systems priorities 2019Novel Software Systems priorities 2019
Novel Software Systems priorities 2019Novel Software Systems
 
«Преимплантационная генетическая диагностика: результаты работы, ПГД-консуль...
 «Преимплантационная генетическая диагностика: результаты работы, ПГД-консуль... «Преимплантационная генетическая диагностика: результаты работы, ПГД-консуль...
«Преимплантационная генетическая диагностика: результаты работы, ПГД-консуль...MedicalGenomics
 
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссий...
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссий...Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссий...
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссий...Fedor Tsarev
 
Umg av cr_prezentace_pro_hosty_2012_rus160410
Umg av cr_prezentace_pro_hosty_2012_rus160410Umg av cr_prezentace_pro_hosty_2012_rus160410
Umg av cr_prezentace_pro_hosty_2012_rus160410Marina Kanushina
 
компьютерный анализ данных геномного секвенирования по технологии Ch ip seq
компьютерный анализ данных геномного секвенирования по технологии Ch ip seqкомпьютерный анализ данных геномного секвенирования по технологии Ch ip seq
компьютерный анализ данных геномного секвенирования по технологии Ch ip seqEk_Kul
 
Искусственный интеллект и Big Data в бизнесе
Искусственный интеллект и Big Data в бизнесеИскусственный интеллект и Big Data в бизнесе
Искусственный интеллект и Big Data в бизнесеExpasoft
 
БИОСОФТ. цифровая медицина
БИОСОФТ. цифровая медицинаБИОСОФТ. цифровая медицина
БИОСОФТ. цифровая медицинаSkolkovo Robotics Center
 

Similaire à JetPoint meeting @JetBrains on bioinformatics (20)

Семинар по генным сетям. Mirob.
Семинар по генным сетям. Mirob.Семинар по генным сетям. Mirob.
Семинар по генным сетям. Mirob.
 
Как программисты могут спасти мир
Как программисты могут спасти мирКак программисты могут спасти мир
Как программисты могут спасти мир
 
Pre - Diploma Work
Pre - Diploma WorkPre - Diploma Work
Pre - Diploma Work
 
Нейронные сети. Pureso
Нейронные сети. PuresoНейронные сети. Pureso
Нейронные сети. Pureso
 
Biodb 2011-01-everything
Biodb 2011-01-everythingBiodb 2011-01-everything
Biodb 2011-01-everything
 
Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...
Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...
Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...
 
Nanopores sequencing
Nanopores sequencingNanopores sequencing
Nanopores sequencing
 
Биоинформатикаинтернет.pptx
Биоинформатикаинтернет.pptxБиоинформатикаинтернет.pptx
Биоинформатикаинтернет.pptx
 
Genome Assembly
Genome AssemblyGenome Assembly
Genome Assembly
 
Guests 2011-10-04-pevzner-assembly
Guests 2011-10-04-pevzner-assemblyGuests 2011-10-04-pevzner-assembly
Guests 2011-10-04-pevzner-assembly
 
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес... Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 
Vvedenie v bioinformatiku_1
Vvedenie v bioinformatiku_1Vvedenie v bioinformatiku_1
Vvedenie v bioinformatiku_1
 
Тестирование Нейронных сетей
Тестирование Нейронных сетейТестирование Нейронных сетей
Тестирование Нейронных сетей
 
Novel Software Systems priorities 2019
Novel Software Systems priorities 2019Novel Software Systems priorities 2019
Novel Software Systems priorities 2019
 
«Преимплантационная генетическая диагностика: результаты работы, ПГД-консуль...
 «Преимплантационная генетическая диагностика: результаты работы, ПГД-консуль... «Преимплантационная генетическая диагностика: результаты работы, ПГД-консуль...
«Преимплантационная генетическая диагностика: результаты работы, ПГД-консуль...
 
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссий...
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссий...Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссий...
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссий...
 
Umg av cr_prezentace_pro_hosty_2012_rus160410
Umg av cr_prezentace_pro_hosty_2012_rus160410Umg av cr_prezentace_pro_hosty_2012_rus160410
Umg av cr_prezentace_pro_hosty_2012_rus160410
 
компьютерный анализ данных геномного секвенирования по технологии Ch ip seq
компьютерный анализ данных геномного секвенирования по технологии Ch ip seqкомпьютерный анализ данных геномного секвенирования по технологии Ch ip seq
компьютерный анализ данных геномного секвенирования по технологии Ch ip seq
 
Искусственный интеллект и Big Data в бизнесе
Искусственный интеллект и Big Data в бизнесеИскусственный интеллект и Big Data в бизнесе
Искусственный интеллект и Big Data в бизнесе
 
БИОСОФТ. цифровая медицина
БИОСОФТ. цифровая медицинаБИОСОФТ. цифровая медицина
БИОСОФТ. цифровая медицина
 

JetPoint meeting @JetBrains on bioinformatics

  • 1. JetPoint Meeting JetBrains BioLabs Шпынов Олег #jetmeet 6.03.2013
  • 2. JetBrains At JetBrains, we have a passion for making people more productive through smart software solutions that help them focus more on what they really want to accomplish, and less on mundane, repetitive "computer busy work".
  • 3. Эпигенетика Эпигенетика (греч. επί — над, выше, внешний) — в биологии, в частности, в генетике представляет собой изучение закономерностей эпигенетического наследования — изменения экспрессии генов или фенотипа клетки, вызванных механизмами, не затрагивающими изменение последовательности ДНК.
  • 4. История ● Термин «эпигенетика» был предложен Конрадом Уоддингтоном в 1942 году, как производное от слов генетика и эпигенез. Когда Уоддингтон ввел этот термин, физическая природа генов не была до конца известна, поэтому он использовал его в качестве концептуальной модели того, как гены могут взаимодействовать со своим окружением при формировании фенотипа. ●
  • 5. Информация ● Генетическая – ДНК, одинакова во всех клетках организма ● Эпигенетическая – специфична для конкретной клетки Каждый вид информации обеспечен своими системами: – Кодирования – Хранения – Передачи
  • 6. Изменения Генетические Эпигенетические ● Необратимы (мутации) ● Обратимы ● Не затрагивают ● Изменения изменений последовательности ДНК последовательности ДНК ● Стабильно наследуемые ● Долговременные или кратковременные
  • 7. Эпигеном Эпигеном - это совокупность всех эпигенетических маркеров, обусловливающих экспрессию генов в данной клетке.
  • 8. Виды эпигенетических модификаций ● Метилирование ДНК ● Модификации гистонов ● Гидроксиметилирование ДНК ● ?
  • 9. Связь ● Метилирование ДНК -> деацетилирование гистонов -> образование гетерохроматина ● Деметилирование ДНК -> ацетилирование гистонов -> образование эухроматина
  • 11. Эпигенетика – ВАЖНО! ● Эмбриогенез ● Дифференциация ● Регуляция ● Защита ● Старение? ● Рак? ● ???
  • 12. Методы исследования ● Метилирование ДНК BS-seq ChIP-seq Illumina27/450K ● Модификации гистонов ChIP-seq ● ДНК + гистоны ChIP-BS-Seq
  • 13. Open Data - Локальность исследований - Часто очень шумные - Часто не верифицируемы + Много данных в открытом доступе
  • 14. Wet Labs problems - Загрязнения проб - Несоблюдение протоколов - Использование просроченных реагентов или их заменителей
  • 15. Academic software ● Много низкокачественного софта, нужного только для публикации. ● Есть реальные примеры софта, в котором отсутствует заявленная функциональность, но на который есть ссылки в статьях. ● A Farewell to Bioinformatics http://madhadron.com/a-farewell-to-bioinformatics “Fuck you, bioinformatics. Eat shit and die.”
  • 16. JetBrains BioLabs Мы пытаемся применять методы статистики и машинного обучения для выявления фундаментальных эпигенетических механизмов
  • 18. Мотивация? ● RNA-directed DNA methylation in Arabidopsis
  • 20. Задачи ● Исследование закономерностей в геноме ● Анализ данных метилирования ● Анализ данных гистонных модификаций ● Анализ причинно-следственных связей ● Разработка системы экспериментов
  • 21. Подходы к изучению ● Построение адекватных математических моделей по имеющимся данным ● Применение техник машинного обучения для описания регионов генома, где происходят важные с биологической точки зрения события. ● Верификация данных с помощью коллег -биологов
  • 22. Исследование промоутеров ● Вычислительная задача, не имеющая точного решения ● SVM + Ada Boost ML. Простейшие классификаторы – n-мер и его позиция на участке. Обучение и верификация на реальных данных. ● Tradeoff: полнота и точность ● Точность ~ 80%
  • 23. Экзон-интрон ● Proof of concept для AdaBoost ● Точность ~ 99% ● ML подход – работает!
  • 24. ML для регионов smRNA Значимость различных простейших классификаторов
  • 25. Исследование метилирования ● Исследование BS-Seq данных – выявление паттернов метилирования ● Исследование паттернов в метилировании в различных регионах генома, smRNA, PiRNA, lncRNA, etc ● Корреляция метилирования и других эпигенетических модификаций ● Исследование различий метилирования в гомологичных участках разных животных ● Построение математических моделей, которые описывают метилирование в клетке ● Сравнение разных клеточных линий
  • 26. Illumina450K ● Infinium Methylation 450K is a hybrid of two different assays, Infinium I and II. ● Due to its design, Infinium Methylation 450K technology generates a dataset that should be viewed as two distinct datasets. Infinium II data are less accurate and reproducible than Infinium I data. ● Peak-based correction makes it possible to treat Infinium I and Infinium II data as a single dataset. ● Infinium Methylation 450K is one of the most attractive powerful and cost-effective tool currently available for generating quantitative DNA methylomes for health and disease, notably in the framework of large biomarker discovery studies.
  • 27. Illumina450K ● Beta = methylated / (methylated + unmethylated)
  • 28. Illumina450K ● Фильтрация + subset quantile normalization
  • 29. Illumina450K ● Загрузка ● Фильтрация ● SNP-процессинг ● Subset Quantile Normalization ● Batch effects ● Сравнение локусов (genes, gene regions, etc) с использованием Mann-Whitney U-test ● Результат: NDA
  • 30. Исследование гистонов ● Построение математических моделей модификаций гистонов ● Сравнение разных клеточных линий ● Связь модификаций гистонов с другими организмами ● Поиск схожих паттернов модификаций гистонов
  • 31. Математические модели модификаций гистонов ● Данные – покрытие генома после ChIP-seq ● Большинство генома не покрыто ● Рассматриваем покрытие по корзинам ● Можно предполагать, что покрытие разных корзин порождено независимыми случайными величинами ● Плотность распределения
  • 32. Poisson Mixture ● Бимодальное распределение ● Рассматриваем как смесь двух Пуассоновских распределений ● Методом оценки максимального правдоподобия получаем скрытые состояния корзин ● Скрытые состояния – есть гистонная модификация или нет?
  • 33. Poisson Mixture + HMM ● А вдруг соседние корзины не независимы? Введем скрытую Марковскую цепь с вероятностями переходов. ● Оценка методом максимального правдоподобия + алгоритм Виттерби для оценки всех параметров системы ● Есть и более сложные модели, например для сравнения двух измерений
  • 34. Сравнение моделей ● Критерий Акайке AIC = 2*freedom_degrees – log(likelihood) ●
  • 35. Больше моделей! ● Модели, где 2 трека рассматриваются, как зависимые. Макровская модель с 4 состояниями. (мало-мало, мало-много, много-мало, много-много). ● Ограниченные модели, вероятность для каждого трека “мало” или “много” должны совпадать для 4 комбинаций выше. ● Ограниченная модель лучше по критерию Акайке! ● И т.д.
  • 36. Chromasig ● Нахождение схожих паттернов метилирования и модификации гистонов ● Инструмент для поиска мотивов для ChIP- Seq данных - Chromasig
  • 38. Анализ результатов Chromasig ● Онтологии генов участков генома – Функции – Компартменты клетки – Наличие у разных организмов
  • 39. Разработка системы экспериментов ● Данные: описывать входные данные, с удобной системой хранения и доступа, разделять данные полученные нами и из сторонних источников, переиспользование данных ● Эксперименты: описание входные данных, описание экспериментов, формат для переиспользования ● Имеющиеся системы громоздки ● Не удовлетворяют запросам
  • 40. Tools ● Java ● R ● Big server computations (Linux) ● Confluence, Bamboo, Crucible ● Continuous integration, tests
  • 41. Проекты JetBrains в биоинформатике ● JetBrains BioLabs ● LabBook - электронный лабораторный журнал. Проблема разрозненности данных. Большинство отчетов в Excel. Несоответствие модели данных и инструментов. ● Genome query – студенческий проект. ● Genestack Platform - universal collaborative ecosystem for bioinformatics research and development. http://genestack.com
  • 42. JetBrains BioLabs ● Алексей Диевский ● Сергей Дмитриев ● Евгений Курбацкий ● Сергей Лебедев ● Роман Чернятчик ● Олег Шпынов

Notes de l'éditeur

  1. Я работаю в компании Jetbrains и наша цель – сделать процесс разработки продуктивнее, позволить сфокусироваться на реальных задачах бизнес логики, и позволить компьютеру сделать все остальное. Упс, не та презентация :)
  2. Итак, эпигенетика. Определение из Википедии вы можете видеть на экране, эпигенетика – наука, изучающая некоторую метаразметку генома, которая влияет на работу тех или иных генов.
  3. Немного об истории, впервые термин был предложен Конрадом Уодинтоном в 1942, но на тот момент было ничего не известно про структуру ДНК, центральную догму молекулярной биологии, итд. Второе рождение эпигенетика получила только в начале 2000х.
  4. Жизнь – способность к самостоятельному воспроизводству, и клетка – носитель информации. Соответсвенно всю информацию можно разделить на 2 класса.
  5. Эпигеном на самом деле определяет внешний вид хромосом, инактивацию X-хромосомы, итд.
  6. Рассмотрим основные виды эпигенетических модификаций. Гидроксиметелирование – было открыто совсем недавно, не воспроизводится при репликации, однако подавляет транскрипцию. Последний пункт – возможно есть и неизвестные до сих пор.
  7. В современных учебниках по молекулярной биологии учат, что метилирование и деметилирование ДНК управляет ацетилированием гистонами, однако уже есть статьи, демонстрирующие и обратную зависимость. Вообще в биологии не четкой аксиоматики и правил вывода, можно лишь строить модели, оценивать ошибки первого и второго рода, p-Value итд.
  8. В качестве примера значимости эпигенетики, рассмотрим процесс эмбриогенеза – т.е. Развитие эмбриона. На графике....
  9. Однако, роль эпигенетики этим не ограничивается. Известны функции в ....
  10. Какже измеряют и исследуют? Бисульфатное секвенирование - .. ChIP-Seq - иммунопреципитация с последующим секвенированием. Можно мерить одновременно и то, и другое, чтобы избежать шума от жизненного цикла клетки, итд.
  11. Используемые данные. Экспоненциальный рост в последнее время, проекты типа Encode, Atlas, итд – попытка верифицировать и каталогизировать. Нуменклатура GEO экспериментов.
  12. Проблемы обусловлены не только неверным толкованием, но и такими факторами в реальной лаборатории (wet lab), как .... Таким образом к ожидаемым шумам по технологии эксперимента присоединяются шумы неизвестной природы и распределения.
  13. Еще одна существенная проблема, что большинство софта для биоинформатики – чисто академического характера, т.е. Резюмируя, проблемы есть, и они отлично описаны в послании под названием A Farewell to Bioinformatcs, ниже приведена цитата.
  14. Конечно есть проекты посвященные анализу тех или иных эпигенетических модификаций, но как правило они сфокусированы на конкретной узкой области, и очень плохо обобщаются.
  15. Сначала, считатось, что более 95% процентов генома (вне кодирующих белки генов) – является мусором, однако в последнее время общественность склоняется к мнению, что это не так. И возможно именно там записана некоторая программа управления клекти.
  16. Мотивацией к данной гипотезе была открытая у растений связь между малыми некодирующими РНК и уровнем метилирования в областях, где происходит взаимодействие. На картинке показано, что в месте взаимодействия метилирование одной нити ДНК больше, чем другой.
  17. Задачи, которые мы пытаемся решать в рамках нашей лаборатории:
  18. Например Большая часть кодирующих генов – предсказана, а их порядка 40тысяч штук для человека.
  19. Известно, что граница между интронами и экзонами в генах с альтернативным сплайсингом обычно маркирована некоторым неслучайным мотивом. Мы решили проверить алгоритм AdaBoost на этом примере, и получили неплохие результаты. Кстати известны любопытные паттерны метилирования на границе – резкие скачки!
  20. Еще один из экспериментов, который хотелось бы упомянуть – исследование регионов взаимодействия с малыми некодирующими РНК. Выравнивание с ошибками. Построение кластеров. Выравнивание кластеров. Анализ по фракциям последовательностей кластеров. На графике же – показана значимость разных 3меров.
  21. Остановимся поподробнее на анализе Microarray Illumina450k.
  22. Данные Beta значений до коррекции.
  23. Так выглядят  Beta значения после фильтрации, и Peak-Based correction методом Subset Quantile Normalization
  24. Наш пайплайн анализа данных. Мы сотрудничаем с лабораторией Laboratory of Stem Cell Biology Института Вавилова РАН.
  25. Обратимся к гистонам.
  26. 1974 год. Попытка выбрать из нескольких моделей наиболее подходящую. В общем виде формула приведена на слайде. Значение критерия для разных хромосом в зависимости от размера корзины.
  27. Еще одна задача – это нахождение схожих паттернов среди данных как метилирования, так и модификации гистонов.
  28. Слайд с Моралью. Непонятно как реализовывать, непонятно, как оценивать, только моделирование.
  29. Как только у нас появилось с десяток вычислительных экспериментов, появилась проблема систематизации данных, экспериментов и всей инфраструктуры.
  30. Поговорим, про остальные проекты JetBrains в области биоинформатики.