2. Из чего сделана наша
вселенная?
Универсальные законы?
Что такое антиматерия?
темная материя?
Как происходит переход от
законов микро-мира
к законам макро-мира?
…
2
Вопросы «на миллион»
3. Гипотезы => Эксперименты => Законы
3
F=ma
E=mc2
Стандартная модель
Суперсимметричная модель частиц
Гравитоны?
10. A simulated SUSY event in ATLAS
10
high pT muons
high pT jets
of hadrons
p p
missing transverse energy
11. Background events
11
This event from Standard
Model ttbar production also
has high pT jets and muons,
and some missing transverse
energy.
→ can easily mimic a SUSY event.
12. Event (событие)
12
Basic unit of data: an ‘event’.
Ideally, an event is a list of momentum vectors &
particle types.
In practice, particles ‘reconstructed’ as tracks,
clusters of energy, deposited in calorimeters, etc.
Resolution, angular coverage, particle id, etc.
imperfect.
15. Выбор событий для проверки гипотез
15
!
For each event we measure a set of numbers: x= (x ,…,xn ) 1
x1 = jet pT
x2 = missing energy
x3 = particle i.d. measure, ...
x follows some n-dimensional joint probability density, which
depends on the type of event produced, i.e., was it , t t pp→ … → , g ~
g ~
pp
xi
x j
E.g. hypotheses H0, H1, ...
Often simply signal (s),
background (b)
( ) 1 p x! |H
( ) 0 p x! |H
16. Выбор оптимальных ограничений
16
In particle physics usually start
by making simple cuts:
xi ci
xj cj
H1
Maybe later try some other type of decision boundary:
H0
H0 H0
H1 H1
17. Выборка событий
17
To search for events of a given type
(H0: ‘signal’), need discriminating
variable(s) distributed as differently
as possible relative to unwanted
event types (H1: ‘background’)
Count number of events in acceptance region defined by ‘cuts’
Expected number of signal events: s = !s !s L
Expected number of background events: b = ! b !b L
!s, !b = cross section for signal, background
‘Efficiencies’: !s = P( accept | s ), !b = P( accept | b )
L = integrated luminosity (related to beam intensity, data taking time)
18. Фоновые события
18
Count n events, e.g., in fixed time or integrated luminosity.
s = expected number of signal events
b = expected number of background events
n ~ Poisson(s+b):
Sometimes b known, other times it is in some way uncertain.
Goals: (i) convince people that s ≠ 0 (discovery);
(ii) measure or place limits on s, taking into
consideration the uncertainty in b.
Widely discussed in HEP community, see e.g. proceedings of
PHYSTAT meetings, Durham, Fermilab, CERN workshops...
19. Открытия
19
Often compute p-value of the ‘background only’ hypothesis H0
using test variable related to a characteristic of the signal.
p-value = Probability to see data as incompatible with
H0, or more so, relative to the data observed.
Requires definition of ‘incompatible with H0’
HEP folklore: claim discovery if p-value equivalent to a 5!
fluctuation of Gaussian variable (one-sided)
Actual p-value at which discovery becomes believable
will depend on signal in question (subjective)
Why not do Bayesian analysis?
Usually don’t know how to assign meaningful prior
probabilities подробнее на
http://www.pp.rhul.ac.uk/~cowan
20. 20
Analysis Value Chain
Get datasets
(Real, MC, ...)
Pre-selection
train test
Pre-processing
(e.g., add
variables)
Event
selection
cut-based
MVA-based
Counting/
fitting
Systematics
Estimation
Signifiсance
Estimation
В поисках лучшей выборки…
21. Возможности улучшения
21
more powerful algorithms (e.g. BDT, Deep Neural
Networks)
improved features (e.g. «isolation» variables or
particle identification)
complex training scenarios (e.g. n-folding,
ensembling, blending, cascading)
Саша Фонарёв: https://tech.yandex.ru/education/m/shad/talks/1423/
Максим Мусин: https://tech.yandex.ru/education/m/shad/talks/1878/
22. Возможности улучшения
22
more powerful algorithms (e.g. BDT, Deep Neural
Networks)
improved features (e.g. «isolation» variables or
particle identification)
complex training scenarios (e.g. n-folding,
ensembling, blending, cascading)
Саша Фонарёв: https://tech.yandex.ru/education/m/shad/talks/1423/
Максим Мусин: https://tech.yandex.ru/education/m/shad/talks/1878/
23. 23
Performance (ROC, Learning curve)
Decision Tree Overfitting Underfitting RandomForest
Training set accuracy
Test set accuracy
Number of iterations
25. Price for sensitivity
How do I check quality of event discriminating function?
– Overfitting?
– Correlations?
– Relevance of figure of merit to analysis significance?
How do I deal with complexity?
– Estimate influence of model parameters
– Extra computation
– Organization (cross-checks, collaboration)
25
26. Переобучение
26
If decision boundary is too flexible it will conform too closely
to the training points → overtraining.
Monitor by applying classifier to independent validation sample.
training sample independent validation sample
27. Figure-of-Merits Land
Area under ROC
Likelihood
Misclassification
False Positive, False Negative
Punzi measure
27
S pS+B , S pB
, · · ·
Efficiency flatness?
29. Не только физика
29
Online triggers and DAQ
Offline simulation and processing
Data storage architectures
Resource management and provisioning
Networks and connectivity
Data analytics
36. «Узкие» места GRID
Сложность (высокая стоимость)
перенастройки
Фиксированные настройки окружения
Дорогое масштабирование
Опалата времени, а не фактических
вычислений
36
37. Облачные технологии
Предоставление вычислительной инфраструктуры как
сервиса
Виртуализация аппаратных ресурсов
Динамическое выделение ресурсов под конкретные
нужды
Оплата только за фактическое использование
Широка поддержка open-source commercial
(Amazon EC2, Rackspace OpenStack, T-Systems, Helix
Nebula, …)
37
42. Примеры задач
Симуляция событий (MC)
Поиск реальных и MC-событий
Онлайн анализ
Офлайн анализ
Сохранение данных (интерфейс доступа)
Сохранение кода и структуры анализа
42
44. Индикаторы сложности
‘Каким способом я сгененировал график 13?’
‘Новый студент хочет воспользоваться моделью,
опубликованной мной 3 года назад, но я не могу
воспроизвести ни одного графика’
‘Я думал, что использую те же параметры, но у меня
получаются другие результаты!?I’
‘Где взять события, отобранные предыдущей версией моих
скриптов?’
‘Оно работало еще вчера!’
‘Зачем я это сделал?’
44
45. Источники сложности
Физика
Работа с данными
Стратегия анализа (http://bit.ly/SqDDE4)
Шаги анализа
Командное взаимодействие
45
46. Экосистема для экспериментов
Программная среда для поддержки экосистемы
совместной исследовательской работы над общими
задачами, позволяющая:
выполнять численные эксперименты над большими
объемами данных
получать воспроизводимые результаты,
использовать единообразные критерии качества.
46
51. Заключение Вместо заключения
совместные исследовательские работы с ЦЕРНом
развитие нового направления
практика в Яндексе
anaderi@yandex-team.ru
51
Bs ! μ+μ−
Bs ! 4μ
⌧ ! 3μ
B ! K⇤μ+μ−
· · ·
http://arxiv.org/abs/1410.4140v1