SlideShare une entreprise Scribd logo
1  sur  119
Télécharger pour lire hors ligne
Аналитика данных в RTB
Павел Калайдин @facultyofwonder
Марат Зайнутдинов @tsundokum
Ян ЛеКун* @ylecun
* на самом деле нет
<скриншот нашей рекламы в ретаргетинге>
http://cmsummit.com/behindthebanner/
credits: http://cmsummit.com/behindthebanner/
RTB - аукцион рекламных показов в
реальном времени
A CIKM '13 Tutorial: Real-time Bidding: A New Frontier of Computational Advertising Research
http://tutorial.computational-advertising.org/
Computational Advertising
Stanford University MS&E 239: Introduction to Computational Advertising
https://www.stanford.edu/class/msande239/
Фундаментальные задачи:
Best match: кому что когда показывать?
Campaign performance: как достичь
максимальных показателей в рамках
бюджета рекламной кампании?
Most revenue: как получить максимум
прибыли при текущем трафике?
не раздражая пользователя (healthy
environment)?
http://www.slideshare.net/shuaiyuancn/cikm-2013-tutorial
А также:
Как найти похожую аудиторию (Look-alike)?
улучшение эффективности системы пресказания целевых действий за счёт использования данных о переходах
таргетирование на похожую аудиторию за счёт использования информации о переходах (увеличение охвата).
Обзор метрик, позволяющих сравнивать, насколько пользователи похожи на друг друга, основываясь на их физическом передвижении (что в нашем случае
посещенные сайты).
http://www.barabasilab.com/pubs/CCNR-ALB_Publications/201108-21_KDD-HumanSocialTies/201108-21_KDD-HumanSocialTies.pdf
Подсчет статистики
Map-reduce задачи
Скетчи
A/B тесты
DOE (design of experiment)
Медиапланирование, прогнозы,
оценка хода кампании
Мониторинг:
как понять, когда что-то идет не так?
Рекомендации: что показать на баннере?
Предсказание стоимости покупки
CPA ~ чек
Поиск закономерностей и аномалий
и так далее.
Это все задачи отдела Data Science
Но вернемся к аукционам
Голландский (цена вверх)
Английский (цена вниз)
Закрытый первой цены
Закрытый второй цены
Закрытый первой цены = английский
Закрытый второй цены = голландский
RTB - закрытый аукцион второй цены
Еще бывают:
все платят (архитектурный тендер)
обобщенный второй цены (adwords)
Как рассчитать ставку?
Credits: http://www.cs.cornell.edu/home/kleinber/networks-book/networks-book-ch09.pdf
Истинная ценность?
“The best minds of my generation are thinking about how to make people click ads…
That sucks.”
- Jeff Hammerbacher, co-founder and chief scientist, Cloudera (source)
Common-value аукцион
Ценность одна и та же, но участники имеют разные
оценки
Например, несколько ретаргетеров на одном
магазине
Больше информации про аукционы:
http://www.cs.cornell.
edu/home/kleinber/networks-book/networks-
book-ch09.pdf
Предсказание второй цены
Т.е. так называемая задача distribution fitting
Управление скоростью кампании
Предиктор
Что делать?
то же самое для data mining
posterior
likelihood evidence
prior
Для чего нам нужен posterior?
Чтобы найти
likelihood (binomial distribution)
для одного наблюдения:
для нескольких наблюдений:
prior (beta distribution)
можно использовать данные, чтобы найти
параметры бета-распределения
Используем данные дважды? Переобучаем?
empirical bayes: с удовольствием!
pseudosample size
evidence (???)
posterior
analytical solution
grid method
simulations
Бета-распределение любит биномиальное
это называется conjugate priors
А ещё бета-распределение “любит” бета-
распределение, а нормальное - нормальное.
Что делать с результатом?
Правильный подсчёт CTR
Задача
Найдите формулу для подсчёта CTR по
adhost:bannerPlacement (с prior по adhost)
Пусть sa
- величина псевдовыборки, тогда
где
Задача
Найдите формулу для подсчёта adhost:
banner_id (с независимыми prior по adhost и
banner_id)
Перерыв,
после которого мы обсудим решение задачи
Нужны данные для экспериментов?
7.5Gb
аукционы, показы, клики, конверсии:
https://www.dropbox.com/sh/xolf5thu8jsbmfu/kBrAsSxtAN
thanks to: Global Bidding Algorithm Competition, Apr-Dec, 2013.
http://contest.ipinyou.com/
Коснемся архитектуры
логи, логи, логи
Крутая статья сотрудника LinkedIn о том, что всё логи http://engineering.
linkedin.com/distributed-systems/log-what-every-software-engineer-should-know-
about-real-time-datas-unifying
детерминированная машина
Презентация функциональной базы данных от создателя языка
Clojure и одного из ключевых разработчиков Datomic https://www.
youtube.com/watch?v=Cym4TZwTCNU
потоки логов
Storm, Samza, S4, Akka
Видео с создателем Storm, на котором он очень кратко рассказывает про
своё видение архитектуры для bid data http://www.infoq.com/interviews/marz-
lambda-architecture
Couchbase, Redis
программисты не знают характер работ по
анализу данных
поэтому доставайте архитектора
каждый день
пробуйте разные способы для одной и той
же задачи
инвестируйте в свои инструменты
</архитектура>
Вернемся к подсчету статистики
Примеры запросов
- выдайте персентили числа показов на человека
- какое число уникальных пользователей по сайтам?
- рассчитываемся с SSP за месяц. Нужна выгрузка трат за весь март
В большинстве случаев нас устроит
примерная оценка
Вероятностные структуры данных (скетчи)
Память
versus
ошибка в оценке
- проверка на вхождение в множество
- сколько различных элементов в потоке (мощность)
- какие элементы встречаются чаще всего (heavy-hitters) и как часто? (частоты)
- сколько элементов попадает в заданный интервал (интервалы)
Исправленная и дополненная версия картинки, опубликованной в этом посте
Frugal streaming:
обработка по мере поступления,
требуется супер мало памяти
Свежая статья (2013 г.) http://link.springer.com/chapter/10.1007/978-3-642-40273-9_7 ($)
Обсуждение: http://blog.aggregateknowledge.com/2013/09/16/sketch-of-the-day-frugal-streaming/
Посчитаем медиану
frugal <- function(stream) {
m <- 0
for (val in stream) {
if (val > m)
m = m + 1
else if (val < m)
m = m - 1
}
return(m)
}
Требование по памяти: 1 int
А персентили?
frugal_1u <- function(stream, m = 0, q = 0.5) {
m <- 0
for (val in stream) {
if (val > m && runif(1) > 1 - q)
m = m + 1
else if (val < m && runif(1) > q)
m = m - 1
}
return(m)
} Есть еще улучшенный frugal_2u с переменным шагом
Код на R: https://gist.github.com/kalaidin/9974919
IPython notebook: http://nbviewer.ipython.org/gist/kalaidin/9976120
Частоты: Count-Min sketch
An Improved Data Stream Summary: The Count-Min Sketch and its Applications
w
i
+1
+1
+1
h
1 h
4
h
d
d
Оценка - возьмем минимум из d значений.
Мощность множества (количество
уникальных элементов):
LogLogCounter&Co
Представьте, что сегодня утром я бросал
монетку и записал, какое максимальное
число раз подряд выпала решка
Что если я скажу, что это число 2?
А если это число 100?
В каком случае я бросал дольше?
Нас интересуют паттерны в хешах
(число 0 = решек в начале)
оценка - 2R
,
где R - максимальное число лидирующих нулей
LogLog: используем M корзин, в каждой из
которой храним свой R
Оригинальная статья: LogLog Counter
http://algo.inria.fr/flajolet/Publications/DuFl03-LNCS.pdf
HyperLogLog - среднее гармоническое R по
корзинам
Оригинальная статья: HyperLogLog Counter
http://algo.inria.fr/flajolet/Publications/FlFuGaMe07.pdf
Серия постов на тему HLL в блоге AggregateKnowledge:
http://blog.aggregateknowledge.com/tag/hll/
Проверка на вхождение: старый добрый
фильтр Блума
Bloom Filters: How I learned to stop worrying about errors and love memory efficient data structures
3 Rules of thumb for Bloom Filters (оценка ошибки)
Попробуйте погуглить фото Бертона Говарда Блума - его не найти!
i
h
1
h
2
h
k
1 1 10 0 0 0 0 0 0 0 0 0 0 0 0
Вопросы и ответы
Спасибо за внимание!

Contenu connexe

En vedette

20121129 boris omelnitskiy_i_prof2012
20121129 boris omelnitskiy_i_prof201220121129 boris omelnitskiy_i_prof2012
20121129 boris omelnitskiy_i_prof2012Boris Omelnitskiy
 
Large-scale real-time analytics for everyone
Large-scale real-time analytics for everyoneLarge-scale real-time analytics for everyone
Large-scale real-time analytics for everyonePavel Kalaidin
 
ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop Vladimir Klimontovich
 
The Allen AI Science Challenge
The Allen AI Science ChallengeThe Allen AI Science Challenge
The Allen AI Science ChallengePavel Kalaidin
 
Александр Иванов. Programmatic: новая эра в digital-рекламе
Александр Иванов. Programmatic: новая эра в digital-рекламеАлександр Иванов. Programmatic: новая эра в digital-рекламе
Александр Иванов. Programmatic: новая эра в digital-рекламеAuditorius
 
Global-WAN - The Swiss Neutral Data Haven
Global-WAN - The Swiss Neutral Data HavenGlobal-WAN - The Swiss Neutral Data Haven
Global-WAN - The Swiss Neutral Data HavenTWD Industries AG
 
Мифы об RTB и Programmatic
Мифы об RTB и ProgrammaticМифы об RTB и Programmatic
Мифы об RTB и ProgrammaticHUBRUS
 
Dmp - cookie synching (11-15-11)
Dmp - cookie synching (11-15-11)Dmp - cookie synching (11-15-11)
Dmp - cookie synching (11-15-11)Marcus Tewksbury
 
Bluekai: Data Management Platforms (dmp) for Publishers
Bluekai: Data Management Platforms (dmp) for PublishersBluekai: Data Management Platforms (dmp) for Publishers
Bluekai: Data Management Platforms (dmp) for PublishersBrian Crotty
 
Real time bidding (DSP, SSP, DMP, ATD, ITD)
Real time bidding (DSP, SSP, DMP, ATD, ITD)Real time bidding (DSP, SSP, DMP, ATD, ITD)
Real time bidding (DSP, SSP, DMP, ATD, ITD)Mutlu Dogus Yildirim
 
All about Programmatic buying(RTB), DSP,SSP, DMP & DCT - A complete digital ...
All about Programmatic buying(RTB), DSP,SSP, DMP & DCT -  A complete digital ...All about Programmatic buying(RTB), DSP,SSP, DMP & DCT -  A complete digital ...
All about Programmatic buying(RTB), DSP,SSP, DMP & DCT - A complete digital ...Karunakar Ravirala
 

En vedette (12)

20121129 boris omelnitskiy_i_prof2012
20121129 boris omelnitskiy_i_prof201220121129 boris omelnitskiy_i_prof2012
20121129 boris omelnitskiy_i_prof2012
 
Global wan prez-ru.mini
Global wan prez-ru.miniGlobal wan prez-ru.mini
Global wan prez-ru.mini
 
Large-scale real-time analytics for everyone
Large-scale real-time analytics for everyoneLarge-scale real-time analytics for everyone
Large-scale real-time analytics for everyone
 
ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop
 
The Allen AI Science Challenge
The Allen AI Science ChallengeThe Allen AI Science Challenge
The Allen AI Science Challenge
 
Александр Иванов. Programmatic: новая эра в digital-рекламе
Александр Иванов. Programmatic: новая эра в digital-рекламеАлександр Иванов. Programmatic: новая эра в digital-рекламе
Александр Иванов. Programmatic: новая эра в digital-рекламе
 
Global-WAN - The Swiss Neutral Data Haven
Global-WAN - The Swiss Neutral Data HavenGlobal-WAN - The Swiss Neutral Data Haven
Global-WAN - The Swiss Neutral Data Haven
 
Мифы об RTB и Programmatic
Мифы об RTB и ProgrammaticМифы об RTB и Programmatic
Мифы об RTB и Programmatic
 
Dmp - cookie synching (11-15-11)
Dmp - cookie synching (11-15-11)Dmp - cookie synching (11-15-11)
Dmp - cookie synching (11-15-11)
 
Bluekai: Data Management Platforms (dmp) for Publishers
Bluekai: Data Management Platforms (dmp) for PublishersBluekai: Data Management Platforms (dmp) for Publishers
Bluekai: Data Management Platforms (dmp) for Publishers
 
Real time bidding (DSP, SSP, DMP, ATD, ITD)
Real time bidding (DSP, SSP, DMP, ATD, ITD)Real time bidding (DSP, SSP, DMP, ATD, ITD)
Real time bidding (DSP, SSP, DMP, ATD, ITD)
 
All about Programmatic buying(RTB), DSP,SSP, DMP & DCT - A complete digital ...
All about Programmatic buying(RTB), DSP,SSP, DMP & DCT -  A complete digital ...All about Programmatic buying(RTB), DSP,SSP, DMP & DCT -  A complete digital ...
All about Programmatic buying(RTB), DSP,SSP, DMP & DCT - A complete digital ...
 

Similaire à Data Mining in RTB

Google Analytics Загрузка данных о расходах
Google Analytics Загрузка данных о расходахGoogle Analytics Загрузка данных о расходах
Google Analytics Загрузка данных о расходахMichail Гаркунов
 
Mind map для «Архитектура А/Б тестирования: сделай сам»
Mind map для «Архитектура А/Б тестирования: сделай сам»Mind map для «Архитектура А/Б тестирования: сделай сам»
Mind map для «Архитектура А/Б тестирования: сделай сам»Sergey Xek
 
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (..."Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...AvitoTech
 
Like Бизнес 5.1 - маркетинг
Like Бизнес 5.1 - маркетингLike Бизнес 5.1 - маркетинг
Like Бизнес 5.1 - маркетингrezedasuleyman
 
Likebz5 0. комлпексно о маркетинге
Likebz5 0. комлпексно о маркетингеLikebz5 0. комлпексно о маркетинге
Likebz5 0. комлпексно о маркетингеNikita Florinskiy
 
Fanuts: как вывести приложение в TopGrossing
Fanuts: как вывести приложение в TopGrossingFanuts: как вывести приложение в TopGrossing
Fanuts: как вывести приложение в TopGrossingMaxim Ryzhkov
 
Andrii Belas: Turning machine learning models into stuff that actually helps ...
Andrii Belas: Turning machine learning models into stuff that actually helps ...Andrii Belas: Turning machine learning models into stuff that actually helps ...
Andrii Belas: Turning machine learning models into stuff that actually helps ...Lviv Startup Club
 
Введение в Deep Learning
Введение в Deep LearningВведение в Deep Learning
Введение в Deep LearningGrigory Sapunov
 
ВШЭ SMM таргетированная реклама
ВШЭ SMM таргетированная рекламаВШЭ SMM таргетированная реклама
ВШЭ SMM таргетированная рекламаNikita Florinskiy
 
Увеличение конверсии: от отчетов в аналитике до завершения сплит-теста
Увеличение конверсии: от отчетов в аналитике до завершения сплит-тестаУвеличение конверсии: от отчетов в аналитике до завершения сплит-теста
Увеличение конверсии: от отчетов в аналитике до завершения сплит-тестаSergey Gudkov
 
Online adsanalytics slot_no._5__andrei_osipov_i_ivan_stramyk
Online adsanalytics slot_no._5__andrei_osipov_i_ivan_stramykOnline adsanalytics slot_no._5__andrei_osipov_i_ivan_stramyk
Online adsanalytics slot_no._5__andrei_osipov_i_ivan_stramykAnastasiiaDmytrashyn
 
Как «скачать» весь myTarget и не лопнуть. Михаил Иванков (Plarin)
Как «скачать» весь myTarget и не лопнуть. Михаил Иванков (Plarin)Как «скачать» весь myTarget и не лопнуть. Михаил Иванков (Plarin)
Как «скачать» весь myTarget и не лопнуть. Михаил Иванков (Plarin)Егор Тютюников
 
PureMVC в картинках - часть 1
PureMVC в картинках - часть 1PureMVC в картинках - часть 1
PureMVC в картинках - часть 1Rostyslav Siryk
 
Продукт в сфере онлайн-рекламы с нуля (Арсений Кравченко)
Продукт в сфере онлайн-рекламы с нуля (Арсений Кравченко)Продукт в сфере онлайн-рекламы с нуля (Арсений Кравченко)
Продукт в сфере онлайн-рекламы с нуля (Арсений Кравченко)PCampRussia
 
Мультиканальные последовательности, автор Антон Липский
Мультиканальные последовательности, автор Антон ЛипскийМультиканальные последовательности, автор Антон Липский
Мультиканальные последовательности, автор Антон ЛипскийTanya Mikhalchenko
 
Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь ОстюченкоПовышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь ОстюченкоBranchMarketing
 

Similaire à Data Mining in RTB (20)

Google Analytics Загрузка данных о расходах
Google Analytics Загрузка данных о расходахGoogle Analytics Загрузка данных о расходах
Google Analytics Загрузка данных о расходах
 
Как повысить эффективность рекламных кампаний​
Как повысить эффективность рекламных кампаний​Как повысить эффективность рекламных кампаний​
Как повысить эффективность рекламных кампаний​
 
Mind map для «Архитектура А/Б тестирования: сделай сам»
Mind map для «Архитектура А/Б тестирования: сделай сам»Mind map для «Архитектура А/Б тестирования: сделай сам»
Mind map для «Архитектура А/Б тестирования: сделай сам»
 
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (..."Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
 
Like Бизнес 5.1 - маркетинг
Like Бизнес 5.1 - маркетингLike Бизнес 5.1 - маркетинг
Like Бизнес 5.1 - маркетинг
 
Likebz5 0. комлпексно о маркетинге
Likebz5 0. комлпексно о маркетингеLikebz5 0. комлпексно о маркетинге
Likebz5 0. комлпексно о маркетинге
 
Fanuts: как вывести приложение в TopGrossing
Fanuts: как вывести приложение в TopGrossingFanuts: как вывести приложение в TopGrossing
Fanuts: как вывести приложение в TopGrossing
 
Andrii Belas: Turning machine learning models into stuff that actually helps ...
Andrii Belas: Turning machine learning models into stuff that actually helps ...Andrii Belas: Turning machine learning models into stuff that actually helps ...
Andrii Belas: Turning machine learning models into stuff that actually helps ...
 
Введение в Deep Learning
Введение в Deep LearningВведение в Deep Learning
Введение в Deep Learning
 
ВШЭ SMM таргетированная реклама
ВШЭ SMM таргетированная рекламаВШЭ SMM таргетированная реклама
ВШЭ SMM таргетированная реклама
 
Увеличение конверсии: от отчетов в аналитике до завершения сплит-теста
Увеличение конверсии: от отчетов в аналитике до завершения сплит-тестаУвеличение конверсии: от отчетов в аналитике до завершения сплит-теста
Увеличение конверсии: от отчетов в аналитике до завершения сплит-теста
 
Антон Данилов, Каверзный контекст в перегретой нише - chkd
Антон Данилов, Каверзный контекст в перегретой нише - chkdАнтон Данилов, Каверзный контекст в перегретой нише - chkd
Антон Данилов, Каверзный контекст в перегретой нише - chkd
 
Online adsanalytics slot_no._5__andrei_osipov_i_ivan_stramyk
Online adsanalytics slot_no._5__andrei_osipov_i_ivan_stramykOnline adsanalytics slot_no._5__andrei_osipov_i_ivan_stramyk
Online adsanalytics slot_no._5__andrei_osipov_i_ivan_stramyk
 
Как «скачать» весь myTarget и не лопнуть. Михаил Иванков (Plarin)
Как «скачать» весь myTarget и не лопнуть. Михаил Иванков (Plarin)Как «скачать» весь myTarget и не лопнуть. Михаил Иванков (Plarin)
Как «скачать» весь myTarget и не лопнуть. Михаил Иванков (Plarin)
 
PureMVC в картинках - часть 1
PureMVC в картинках - часть 1PureMVC в картинках - часть 1
PureMVC в картинках - часть 1
 
Продукт в сфере онлайн-рекламы с нуля (Арсений Кравченко)
Продукт в сфере онлайн-рекламы с нуля (Арсений Кравченко)Продукт в сфере онлайн-рекламы с нуля (Арсений Кравченко)
Продукт в сфере онлайн-рекламы с нуля (Арсений Кравченко)
 
Мультиканальные последовательности, автор Антон Липский
Мультиканальные последовательности, автор Антон ЛипскийМультиканальные последовательности, автор Антон Липский
Мультиканальные последовательности, автор Антон Липский
 
Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь ОстюченкоПовышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
 
! хорошая презентация для клиента
! хорошая презентация для клиента! хорошая презентация для клиента
! хорошая презентация для клиента
 
! хорошая презентация для клиента
! хорошая презентация для клиента! хорошая презентация для клиента
! хорошая презентация для клиента
 

Data Mining in RTB