SlideShare une entreprise Scribd logo
1  sur  51
Télécharger pour lire hors ligne
Обработка 
больших данных 
БАК 
Андрей Устюжанин 
18 октября 2014
Из чего сделана наша 
вселенная? 
Универсальные законы? 
Что такое антиматерия? 
темная материя? 
Как происходит переход от 
законов микро-мира 
к законам макро-мира? 
… 
2 
Вопросы «на миллион»
Гипотезы => Эксперименты => Законы 
3 
F=ma 
E=mc2 
Стандартная модель 
Суперсимметричная модель частиц 
Гравитоны?
Экспериментальная наука «тогда» 
4
Эксперименты «сегодня» 
5
Открытие бозона Хиггса 
6
Заголовок (не длинней одной строки) 
7
Заголовок (не длинней одной строки) 
8
Заголовок (не длинней одной строки) 
9
A simulated SUSY event in ATLAS 
10 
high pT muons 
high pT jets 
of hadrons 
p p 
missing transverse energy
Background events 
11 
This event from Standard 
Model ttbar production also 
has high pT jets and muons, 
and some missing transverse 
energy. 
→ can easily mimic a SUSY event.
Event (событие) 
12 
Basic unit of data: an ‘event’. 
Ideally, an event is a list of momentum vectors & 
particle types. 
In practice, particles ‘reconstructed’ as tracks, 
clusters of energy, deposited in calorimeters, etc. 
Resolution, angular coverage, particle id, etc. 
imperfect.
«In Monte-Carlo we trust!» 
13
14 
Генерация событий 
1 событие - 150 Kb 
1 год ~ 10 Pb
Выбор событий для проверки гипотез 
15 
! 
For each event we measure a set of numbers: x= (x ,…,xn ) 1 
x1 = jet pT 
x2 = missing energy 
x3 = particle i.d. measure, ... 
x follows some n-dimensional joint probability density, which 
depends on the type of event produced, i.e., was it , t t pp→ … → , g ~ 
g ~ 
pp 
xi 
x j 
E.g. hypotheses H0, H1, ... 
Often simply signal (s), 
background (b) 
( ) 1 p x! |H 
( ) 0 p x! |H
Выбор оптимальных ограничений 
16 
In particle physics usually start 
by making simple cuts: 
xi  ci 
xj  cj 
H1 
Maybe later try some other type of decision boundary: 
H0 
H0 H0 
H1 H1
Выборка событий 
17 
To search for events of a given type 
(H0: ‘signal’), need discriminating 
variable(s) distributed as differently 
as possible relative to unwanted 
event types (H1: ‘background’) 
Count number of events in acceptance region defined by ‘cuts’ 
Expected number of signal events: s = !s !s L 
Expected number of background events: b = ! b !b L 
!s, !b = cross section for signal, background 
‘Efficiencies’: !s = P( accept | s ), !b = P( accept | b ) 
L = integrated luminosity (related to beam intensity, data taking time)
Фоновые события 
18 
Count n events, e.g., in fixed time or integrated luminosity. 
s = expected number of signal events 
b = expected number of background events 
n ~ Poisson(s+b): 
Sometimes b known, other times it is in some way uncertain. 
Goals: (i) convince people that s ≠ 0 (discovery); 
(ii) measure or place limits on s, taking into 
consideration the uncertainty in b. 
Widely discussed in HEP community, see e.g. proceedings of 
PHYSTAT meetings, Durham, Fermilab, CERN workshops...
Открытия 
19 
Often compute p-value of the ‘background only’ hypothesis H0 
using test variable related to a characteristic of the signal. 
p-value = Probability to see data as incompatible with 
H0, or more so, relative to the data observed. 
Requires definition of ‘incompatible with H0’ 
HEP folklore: claim discovery if p-value equivalent to a 5! 
fluctuation of Gaussian variable (one-sided) 
Actual p-value at which discovery becomes believable 
will depend on signal in question (subjective) 
Why not do Bayesian analysis? 
Usually don’t know how to assign meaningful prior 
probabilities подробнее на 
http://www.pp.rhul.ac.uk/~cowan
20 
Analysis Value Chain 
Get datasets 
(Real, MC, ...) 
Pre-selection 
train test 
Pre-processing 
(e.g., add 
variables) 
Event 
selection 
cut-based 
MVA-based 
Counting/ 
fitting 
Systematics 
Estimation 
Signifiсance 
Estimation 
В поисках лучшей выборки…
Возможности улучшения 
21 
more powerful algorithms (e.g. BDT, Deep Neural 
Networks) 
improved features (e.g. «isolation» variables or 
particle identification) 
complex training scenarios (e.g. n-folding, 
ensembling, blending, cascading) 
Саша Фонарёв: https://tech.yandex.ru/education/m/shad/talks/1423/ 
Максим Мусин: https://tech.yandex.ru/education/m/shad/talks/1878/
Возможности улучшения 
22 
more powerful algorithms (e.g. BDT, Deep Neural 
Networks) 
improved features (e.g. «isolation» variables or 
particle identification) 
complex training scenarios (e.g. n-folding, 
ensembling, blending, cascading) 
Саша Фонарёв: https://tech.yandex.ru/education/m/shad/talks/1423/ 
Максим Мусин: https://tech.yandex.ru/education/m/shad/talks/1878/
23 
Performance (ROC, Learning curve) 
Decision Tree Overfitting Underfitting RandomForest 
Training set accuracy 
Test set accuracy 
Number of iterations
24 
Алгоритмы, реализации 
Families: 
– Boosted Decision Trees (BDT) 
– Artificial Neural Network (ANN) 
– Support Vector Machine (SVM) 
– Clustering, Bayesian Networks, ... 
Implementations 
– TMVA (60+ algorithms) 
– NeuroBayes 
– python scikit-learn 
– R packages 
– Private (Matrixnet, predict.io) 
– XGBoost, …
Price for sensitivity 
How do I check quality of event discriminating function? 
– Overfitting? 
– Correlations? 
– Relevance of figure of merit to analysis significance? 
How do I deal with complexity? 
– Estimate influence of model parameters 
– Extra computation 
– Organization (cross-checks, collaboration) 
25
Переобучение 
26 
If decision boundary is too flexible it will conform too closely 
to the training points → overtraining. 
Monitor by applying classifier to independent validation sample. 
training sample independent validation sample
Figure-of-Merits Land 
Area under ROC 
Likelihood 
Misclassification 
False Positive, False Negative 
Punzi measure 
27 
S pS+B , S pB 
, · · · 
Efficiency flatness?
28
Не только физика 
29 
Online triggers and DAQ 
Offline simulation and processing 
Data storage architectures 
Resource management and provisioning 
Networks and connectivity 
Data analytics
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Skynet
Использование ресурсов GRID
«Узкие» места GRID 
Сложность (высокая стоимость) 
перенастройки 
Фиксированные настройки окружения 
Дорогое масштабирование 
Опалата времени, а не фактических 
вычислений 
36
Облачные технологии 
Предоставление вычислительной инфраструктуры как 
сервиса 
Виртуализация аппаратных ресурсов 
Динамическое выделение ресурсов под конкретные 
нужды 
Оплата только за фактическое использование 
Широка поддержка open-source  commercial 
(Amazon EC2, Rackspace OpenStack, T-Systems, Helix 
Nebula, …) 
37
Облачные технологии 
38 
Applica'ons+Run+Na'vely+in#Hadoop+ 
YARN+(Cluster*Resource*Management)*** 
HDFS2+(Redundant,*Reliable*Storage)* 
BATCH+ 
(MapReduce)+ 
INTERACTIVE+ 
(Tez)+ 
STREAMING+ 
(Storm,+S4,…)+ 
GRAPH+ 
(Giraph)+ 
INLMEMORY+ 
(Spark)+ 
HPC+MPI+ 
(OpenMPI)+ 
ONLINE+ 
(HBase)+ 
OTHER+ 
(Search)+ 
(Weave…)+ 
…
YARN 
39
Docker 
40
Пример Panda  ATLAS (http://bit.ly/UtlQxM) 
41
Примеры задач 
Симуляция событий (MC) 
Поиск реальных и MC-событий 
Онлайн анализ 
Офлайн анализ 
Сохранение данных (интерфейс доступа) 
Сохранение кода и структуры анализа 
42
Анализ данных
Индикаторы сложности 
‘Каким способом я сгененировал график 13?’ 
‘Новый студент хочет воспользоваться моделью, 
опубликованной мной 3 года назад, но я не могу 
воспроизвести ни одного графика’ 
‘Я думал, что использую те же параметры, но у меня 
получаются другие результаты!?I’ 
‘Где взять события, отобранные предыдущей версией моих 
скриптов?’ 
‘Оно работало еще вчера!’ 
‘Зачем я это сделал?’ 
44
Источники сложности 
Физика 
Работа с данными 
Стратегия анализа (http://bit.ly/SqDDE4) 
Шаги анализа 
Командное взаимодействие 
45
Экосистема для экспериментов 
Программная среда для поддержки экосистемы 
совместной исследовательской работы над общими 
задачами, позволяющая: 
выполнять численные эксперименты над большими 
объемами данных 
получать воспроизводимые результаты, 
использовать единообразные критерии качества. 
46
ROOT 
PyROOT 
Plotly, 
D3s 
Matplotlib 
SciKit-Learn 
EF Python 
Wrapper 
! 
! 
! 
! 
! 
EF0 
47 
MN 
…
Основные компоненты 
48
Заголовок (не длинней одной строки) 
Текст перед кодом: 
self.rsp.removeHeader(Transfer-Encoding); 
49
Заключение 
50
Заключение Вместо заключения 
совместные исследовательские работы с ЦЕРНом 
развитие нового направления 
практика в Яндексе 
anaderi@yandex-team.ru 
51 
Bs ! μ+μ− 
Bs ! 4μ 
⌧ ! 3μ 
B ! K⇤μ+μ− 
· · · 
http://arxiv.org/abs/1410.4140v1

Contenu connexe

Tendances

Куда уходит память?
Куда уходит память?Куда уходит память?
Куда уходит память?Dmitriy Dumanskiy
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3Vladimir Krylov
 
Евгений Крутько — Опыт внедрения технологий параллельных вычислений для повыш...
Евгений Крутько — Опыт внедрения технологий параллельных вычислений для повыш...Евгений Крутько — Опыт внедрения технологий параллельных вычислений для повыш...
Евгений Крутько — Опыт внедрения технологий параллельных вычислений для повыш...Yandex
 
Computing the code distance of linear binary and ternary block codes using p...
Computing the code distance of linear binary and ternary block codes using  p...Computing the code distance of linear binary and ternary block codes using  p...
Computing the code distance of linear binary and ternary block codes using p...Usatyuk Vasiliy
 
Введение в Deep Learning
Введение в Deep LearningВведение в Deep Learning
Введение в Deep LearningGrigory Sapunov
 
Опыт разработки статического анализатора кода
Опыт разработки статического анализатора кодаОпыт разработки статического анализатора кода
Опыт разработки статического анализатора кодаAndrey Karpov
 
Векторизация кода (семинар 3)
Векторизация кода (семинар 3)Векторизация кода (семинар 3)
Векторизация кода (семинар 3)Mikhail Kurnosov
 
ПВТ - осень 2014 - Лекция 2 - Архитектура вычислительных систем с общей памятью
ПВТ - осень 2014 - Лекция 2 - Архитектура вычислительных систем с общей памятьюПВТ - осень 2014 - Лекция 2 - Архитектура вычислительных систем с общей памятью
ПВТ - осень 2014 - Лекция 2 - Архитектура вычислительных систем с общей памятьюAlexey Paznikov
 

Tendances (8)

Куда уходит память?
Куда уходит память?Куда уходит память?
Куда уходит память?
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3
 
Евгений Крутько — Опыт внедрения технологий параллельных вычислений для повыш...
Евгений Крутько — Опыт внедрения технологий параллельных вычислений для повыш...Евгений Крутько — Опыт внедрения технологий параллельных вычислений для повыш...
Евгений Крутько — Опыт внедрения технологий параллельных вычислений для повыш...
 
Computing the code distance of linear binary and ternary block codes using p...
Computing the code distance of linear binary and ternary block codes using  p...Computing the code distance of linear binary and ternary block codes using  p...
Computing the code distance of linear binary and ternary block codes using p...
 
Введение в Deep Learning
Введение в Deep LearningВведение в Deep Learning
Введение в Deep Learning
 
Опыт разработки статического анализатора кода
Опыт разработки статического анализатора кодаОпыт разработки статического анализатора кода
Опыт разработки статического анализатора кода
 
Векторизация кода (семинар 3)
Векторизация кода (семинар 3)Векторизация кода (семинар 3)
Векторизация кода (семинар 3)
 
ПВТ - осень 2014 - Лекция 2 - Архитектура вычислительных систем с общей памятью
ПВТ - осень 2014 - Лекция 2 - Архитектура вычислительных систем с общей памятьюПВТ - осень 2014 - Лекция 2 - Архитектура вычислительных систем с общей памятью
ПВТ - осень 2014 - Лекция 2 - Архитектура вычислительных систем с общей памятью
 

En vedette

машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данныхYandex
 
Supervised ML in Practice: Tips & Tricks
Supervised ML in Practice:  Tips & TricksSupervised ML in Practice:  Tips & Tricks
Supervised ML in Practice: Tips & TricksDzianis Pirshtuk
 
Winning data science competitions
Winning data science competitionsWinning data science competitions
Winning data science competitionsOwen Zhang
 
Gradient Boosted Regression Trees in scikit-learn
Gradient Boosted Regression Trees in scikit-learnGradient Boosted Regression Trees in scikit-learn
Gradient Boosted Regression Trees in scikit-learnDataRobot
 
Model selection and tuning at scale
Model selection and tuning at scaleModel selection and tuning at scale
Model selection and tuning at scaleOwen Zhang
 
Make Sense Out of Data with Feature Engineering
Make Sense Out of Data with Feature EngineeringMake Sense Out of Data with Feature Engineering
Make Sense Out of Data with Feature EngineeringDataRobot
 
Featurizing log data before XGBoost
Featurizing log data before XGBoostFeaturizing log data before XGBoost
Featurizing log data before XGBoostDataRobot
 
Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksYandex
 
How i became a data scientist
How i became a data scientistHow i became a data scientist
How i became a data scientistOwen Zhang
 
10 R Packages to Win Kaggle Competitions
10 R Packages to Win Kaggle Competitions10 R Packages to Win Kaggle Competitions
10 R Packages to Win Kaggle CompetitionsDataRobot
 
Tips for data science competitions
Tips for data science competitionsTips for data science competitions
Tips for data science competitionsOwen Zhang
 

En vedette (12)

машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данных
 
Supervised ML in Practice: Tips & Tricks
Supervised ML in Practice:  Tips & TricksSupervised ML in Practice:  Tips & Tricks
Supervised ML in Practice: Tips & Tricks
 
Winning data science competitions
Winning data science competitionsWinning data science competitions
Winning data science competitions
 
Xgboost
XgboostXgboost
Xgboost
 
Gradient Boosted Regression Trees in scikit-learn
Gradient Boosted Regression Trees in scikit-learnGradient Boosted Regression Trees in scikit-learn
Gradient Boosted Regression Trees in scikit-learn
 
Model selection and tuning at scale
Model selection and tuning at scaleModel selection and tuning at scale
Model selection and tuning at scale
 
Make Sense Out of Data with Feature Engineering
Make Sense Out of Data with Feature EngineeringMake Sense Out of Data with Feature Engineering
Make Sense Out of Data with Feature Engineering
 
Featurizing log data before XGBoost
Featurizing log data before XGBoostFeaturizing log data before XGBoost
Featurizing log data before XGBoost
 
Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of Tanks
 
How i became a data scientist
How i became a data scientistHow i became a data scientist
How i became a data scientist
 
10 R Packages to Win Kaggle Competitions
10 R Packages to Win Kaggle Competitions10 R Packages to Win Kaggle Competitions
10 R Packages to Win Kaggle Competitions
 
Tips for data science competitions
Tips for data science competitionsTips for data science competitions
Tips for data science competitions
 

Similaire à Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Technosphere1
 
ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...
ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...
ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...Alexey Paznikov
 
BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты Dima Karamshuk
 
HPC vs Big Data (Russian version)
HPC vs Big Data (Russian version)HPC vs Big Data (Russian version)
HPC vs Big Data (Russian version)Irina Fedulova
 
Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Technosphere1
 
Обзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхОбзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхmaxkalachev
 
Обзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхОбзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхSoftline
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Technosphere1
 
Лекция 1: Введение в алгоритмы
Лекция 1: Введение в алгоритмыЛекция 1: Введение в алгоритмы
Лекция 1: Введение в алгоритмыMikhail Kurnosov
 
BigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationBigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationAnton Gorokhov
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификацииyaevents
 
Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"
Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"
Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"Yandex
 
Deep Learning and Convolutional Networks
Deep Learning and Convolutional NetworksDeep Learning and Convolutional Networks
Deep Learning and Convolutional NetworksAlignedResearch
 
20071111 efficientalgorithms kulikov_lecture06
20071111 efficientalgorithms kulikov_lecture0620071111 efficientalgorithms kulikov_lecture06
20071111 efficientalgorithms kulikov_lecture06Computer Science Club
 
основы Java для_any_logic
основы Java для_any_logicосновы Java для_any_logic
основы Java для_any_logicKVPw
 
Эффективные алгоритмы поиска подобных объектов для терабайтов данных / Евгени...
Эффективные алгоритмы поиска подобных объектов для терабайтов данных / Евгени...Эффективные алгоритмы поиска подобных объектов для терабайтов данных / Евгени...
Эффективные алгоритмы поиска подобных объектов для терабайтов данных / Евгени...Ontico
 
Сверточные нейронные сети
Сверточные нейронные сетиСверточные нейронные сети
Сверточные нейронные сетиIvan Kavalerov
 

Similaire à Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера (20)

Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
 
Lsa fca spb
Lsa fca spbLsa fca spb
Lsa fca spb
 
ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...
ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...
ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...
 
BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты
 
HPC vs Big Data (Russian version)
HPC vs Big Data (Russian version)HPC vs Big Data (Russian version)
HPC vs Big Data (Russian version)
 
Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining"
 
Обзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхОбзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данных
 
Обзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхОбзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данных
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
 
Лекция 1: Введение в алгоритмы
Лекция 1: Введение в алгоритмыЛекция 1: Введение в алгоритмы
Лекция 1: Введение в алгоритмы
 
BigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationBigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: Personalization
 
Razinkov
RazinkovRazinkov
Razinkov
 
Razinkov
RazinkovRazinkov
Razinkov
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификации
 
Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"
Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"
Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"
 
Deep Learning and Convolutional Networks
Deep Learning and Convolutional NetworksDeep Learning and Convolutional Networks
Deep Learning and Convolutional Networks
 
20071111 efficientalgorithms kulikov_lecture06
20071111 efficientalgorithms kulikov_lecture0620071111 efficientalgorithms kulikov_lecture06
20071111 efficientalgorithms kulikov_lecture06
 
основы Java для_any_logic
основы Java для_any_logicосновы Java для_any_logic
основы Java для_any_logic
 
Эффективные алгоритмы поиска подобных объектов для терабайтов данных / Евгени...
Эффективные алгоритмы поиска подобных объектов для терабайтов данных / Евгени...Эффективные алгоритмы поиска подобных объектов для терабайтов данных / Евгени...
Эффективные алгоритмы поиска подобных объектов для терабайтов данных / Евгени...
 
Сверточные нейронные сети
Сверточные нейронные сетиСверточные нейронные сети
Сверточные нейронные сети
 

Plus de Yandex

Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Yandex
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаYandex
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаYandex
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Yandex
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Yandex
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Yandex
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Yandex
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Yandex
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровYandex
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Yandex
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Yandex
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Yandex
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Yandex
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Yandex
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Yandex
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Yandex
 
Эталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатовЭталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатовYandex
 

Plus de Yandex (20)

Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
 
Эталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатовЭталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатов
 

Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

  • 1. Обработка больших данных БАК Андрей Устюжанин 18 октября 2014
  • 2. Из чего сделана наша вселенная? Универсальные законы? Что такое антиматерия? темная материя? Как происходит переход от законов микро-мира к законам макро-мира? … 2 Вопросы «на миллион»
  • 3. Гипотезы => Эксперименты => Законы 3 F=ma E=mc2 Стандартная модель Суперсимметричная модель частиц Гравитоны?
  • 7. Заголовок (не длинней одной строки) 7
  • 8. Заголовок (не длинней одной строки) 8
  • 9. Заголовок (не длинней одной строки) 9
  • 10. A simulated SUSY event in ATLAS 10 high pT muons high pT jets of hadrons p p missing transverse energy
  • 11. Background events 11 This event from Standard Model ttbar production also has high pT jets and muons, and some missing transverse energy. → can easily mimic a SUSY event.
  • 12. Event (событие) 12 Basic unit of data: an ‘event’. Ideally, an event is a list of momentum vectors & particle types. In practice, particles ‘reconstructed’ as tracks, clusters of energy, deposited in calorimeters, etc. Resolution, angular coverage, particle id, etc. imperfect.
  • 13. «In Monte-Carlo we trust!» 13
  • 14. 14 Генерация событий 1 событие - 150 Kb 1 год ~ 10 Pb
  • 15. Выбор событий для проверки гипотез 15 ! For each event we measure a set of numbers: x= (x ,…,xn ) 1 x1 = jet pT x2 = missing energy x3 = particle i.d. measure, ... x follows some n-dimensional joint probability density, which depends on the type of event produced, i.e., was it , t t pp→ … → , g ~ g ~ pp xi x j E.g. hypotheses H0, H1, ... Often simply signal (s), background (b) ( ) 1 p x! |H ( ) 0 p x! |H
  • 16. Выбор оптимальных ограничений 16 In particle physics usually start by making simple cuts: xi ci xj cj H1 Maybe later try some other type of decision boundary: H0 H0 H0 H1 H1
  • 17. Выборка событий 17 To search for events of a given type (H0: ‘signal’), need discriminating variable(s) distributed as differently as possible relative to unwanted event types (H1: ‘background’) Count number of events in acceptance region defined by ‘cuts’ Expected number of signal events: s = !s !s L Expected number of background events: b = ! b !b L !s, !b = cross section for signal, background ‘Efficiencies’: !s = P( accept | s ), !b = P( accept | b ) L = integrated luminosity (related to beam intensity, data taking time)
  • 18. Фоновые события 18 Count n events, e.g., in fixed time or integrated luminosity. s = expected number of signal events b = expected number of background events n ~ Poisson(s+b): Sometimes b known, other times it is in some way uncertain. Goals: (i) convince people that s ≠ 0 (discovery); (ii) measure or place limits on s, taking into consideration the uncertainty in b. Widely discussed in HEP community, see e.g. proceedings of PHYSTAT meetings, Durham, Fermilab, CERN workshops...
  • 19. Открытия 19 Often compute p-value of the ‘background only’ hypothesis H0 using test variable related to a characteristic of the signal. p-value = Probability to see data as incompatible with H0, or more so, relative to the data observed. Requires definition of ‘incompatible with H0’ HEP folklore: claim discovery if p-value equivalent to a 5! fluctuation of Gaussian variable (one-sided) Actual p-value at which discovery becomes believable will depend on signal in question (subjective) Why not do Bayesian analysis? Usually don’t know how to assign meaningful prior probabilities подробнее на http://www.pp.rhul.ac.uk/~cowan
  • 20. 20 Analysis Value Chain Get datasets (Real, MC, ...) Pre-selection train test Pre-processing (e.g., add variables) Event selection cut-based MVA-based Counting/ fitting Systematics Estimation Signifiсance Estimation В поисках лучшей выборки…
  • 21. Возможности улучшения 21 more powerful algorithms (e.g. BDT, Deep Neural Networks) improved features (e.g. «isolation» variables or particle identification) complex training scenarios (e.g. n-folding, ensembling, blending, cascading) Саша Фонарёв: https://tech.yandex.ru/education/m/shad/talks/1423/ Максим Мусин: https://tech.yandex.ru/education/m/shad/talks/1878/
  • 22. Возможности улучшения 22 more powerful algorithms (e.g. BDT, Deep Neural Networks) improved features (e.g. «isolation» variables or particle identification) complex training scenarios (e.g. n-folding, ensembling, blending, cascading) Саша Фонарёв: https://tech.yandex.ru/education/m/shad/talks/1423/ Максим Мусин: https://tech.yandex.ru/education/m/shad/talks/1878/
  • 23. 23 Performance (ROC, Learning curve) Decision Tree Overfitting Underfitting RandomForest Training set accuracy Test set accuracy Number of iterations
  • 24. 24 Алгоритмы, реализации Families: – Boosted Decision Trees (BDT) – Artificial Neural Network (ANN) – Support Vector Machine (SVM) – Clustering, Bayesian Networks, ... Implementations – TMVA (60+ algorithms) – NeuroBayes – python scikit-learn – R packages – Private (Matrixnet, predict.io) – XGBoost, …
  • 25. Price for sensitivity How do I check quality of event discriminating function? – Overfitting? – Correlations? – Relevance of figure of merit to analysis significance? How do I deal with complexity? – Estimate influence of model parameters – Extra computation – Organization (cross-checks, collaboration) 25
  • 26. Переобучение 26 If decision boundary is too flexible it will conform too closely to the training points → overtraining. Monitor by applying classifier to independent validation sample. training sample independent validation sample
  • 27. Figure-of-Merits Land Area under ROC Likelihood Misclassification False Positive, False Negative Punzi measure 27 S pS+B , S pB , · · · Efficiency flatness?
  • 28. 28
  • 29. Не только физика 29 Online triggers and DAQ Offline simulation and processing Data storage architectures Resource management and provisioning Networks and connectivity Data analytics
  • 36. «Узкие» места GRID Сложность (высокая стоимость) перенастройки Фиксированные настройки окружения Дорогое масштабирование Опалата времени, а не фактических вычислений 36
  • 37. Облачные технологии Предоставление вычислительной инфраструктуры как сервиса Виртуализация аппаратных ресурсов Динамическое выделение ресурсов под конкретные нужды Оплата только за фактическое использование Широка поддержка open-source commercial (Amazon EC2, Rackspace OpenStack, T-Systems, Helix Nebula, …) 37
  • 38. Облачные технологии 38 Applica'ons+Run+Na'vely+in#Hadoop+ YARN+(Cluster*Resource*Management)*** HDFS2+(Redundant,*Reliable*Storage)* BATCH+ (MapReduce)+ INTERACTIVE+ (Tez)+ STREAMING+ (Storm,+S4,…)+ GRAPH+ (Giraph)+ INLMEMORY+ (Spark)+ HPC+MPI+ (OpenMPI)+ ONLINE+ (HBase)+ OTHER+ (Search)+ (Weave…)+ …
  • 41. Пример Panda ATLAS (http://bit.ly/UtlQxM) 41
  • 42. Примеры задач Симуляция событий (MC) Поиск реальных и MC-событий Онлайн анализ Офлайн анализ Сохранение данных (интерфейс доступа) Сохранение кода и структуры анализа 42
  • 44. Индикаторы сложности ‘Каким способом я сгененировал график 13?’ ‘Новый студент хочет воспользоваться моделью, опубликованной мной 3 года назад, но я не могу воспроизвести ни одного графика’ ‘Я думал, что использую те же параметры, но у меня получаются другие результаты!?I’ ‘Где взять события, отобранные предыдущей версией моих скриптов?’ ‘Оно работало еще вчера!’ ‘Зачем я это сделал?’ 44
  • 45. Источники сложности Физика Работа с данными Стратегия анализа (http://bit.ly/SqDDE4) Шаги анализа Командное взаимодействие 45
  • 46. Экосистема для экспериментов Программная среда для поддержки экосистемы совместной исследовательской работы над общими задачами, позволяющая: выполнять численные эксперименты над большими объемами данных получать воспроизводимые результаты, использовать единообразные критерии качества. 46
  • 47. ROOT PyROOT Plotly, D3s Matplotlib SciKit-Learn EF Python Wrapper ! ! ! ! ! EF0 47 MN …
  • 49. Заголовок (не длинней одной строки) Текст перед кодом: self.rsp.removeHeader(Transfer-Encoding); 49
  • 51. Заключение Вместо заключения совместные исследовательские работы с ЦЕРНом развитие нового направления практика в Яндексе anaderi@yandex-team.ru 51 Bs ! μ+μ− Bs ! 4μ ⌧ ! 3μ B ! K⇤μ+μ− · · · http://arxiv.org/abs/1410.4140v1