SlideShare une entreprise Scribd logo
1  sur  37
Télécharger pour lire hors ligne
Vladimir Gulin
Learning to rank
using clickthrough data
2
Search Engine Architecture
2
WEB CRAWLER
INDEX
BACKEND
FRONTEND
3
What is ranking?
3
 Main algorithm in search engine
 Based on ML algorithms
 Computes relevance score for query-document pair
 The most kept secret of search companies
Today ranking quality depends on
 Evaluation of ranking quality
 A method of Data Set construction
 Features of search engine
 ML algorithm
4
How to evaluate ranking quality?
4
Classical approach
Classical
Classical approach
 Select set of queries 𝑄 = {𝑞1, 𝑞2, … , 𝑞|𝑄|} from logs
 For each 𝑞 ∈ 𝑄 ∃ set of documents
𝑞 → 𝐷 = {𝑑1, 𝑑2, … , 𝑑 𝑁 𝑞
}
 For each (𝑞, 𝑑) ask experts for mark ∈ {0,1,2,3,4,5}
Discount Cumulative Gain
𝑫𝑪𝑮 =
𝟐 𝒓𝒆𝒍 𝒊 − 𝟏
log 𝟐 𝒊 + 𝟏
𝑁 𝑞
𝒊=𝟏𝒒∈𝑸
5
How to evaluate ranking quality with clickthrough
data?
5
Evaluation with absolute metrics
 Users were shown results from different rankings
 Measure statistics about user responses
• Abandonment rate
• Reformulation rate
• Position of first click
• Time to first click
• Etc.
Evaluation using Paired Comparisons
 Show a combination of results from 2 ranking
 Infer relative preferences
• Balanced interleaving
• Team-draft interleaving
• Etc.
6
Team-draft interleaving
6
SERP A
1. UrlA1
2. UrlA2
3. UrlA3
4. UrlA4
5. UrlA5
6. UrlA6
7. UrlA7
SERP B
1. UrlB1
2. UrlB2
3. UrlB3
4. UrlB4
5. UrlB5
6. UrlB6
7. UrlB7
SERP
1. UrlB1
2. UrlA1
3. UrlA2
4. UrlB2
5. UrlA3
6. UrlB3
7. UrlB4
∆=
𝑤𝑖𝑛𝑠 𝐴 +
1
2
𝑡𝑖𝑒𝑠(𝐴,𝐵)
𝑤𝑖𝑛𝑠 𝐴 + 𝑤𝑖𝑛𝑠 𝐵 + 𝑡𝑖𝑒𝑠(𝐴,𝐵)
- 0.5
Learning to rank with classical approach
7
Learning to rank algorithms
 Pointwise
𝐿 𝑓 𝑥 = (𝒇 𝒙𝒊 − 𝒓𝒆𝒍𝒊) 𝟐
𝑁 𝑞
𝒊=𝟏𝒒∈𝑸
 Pairwise
 Listwise
Discount Cumulative Gain
𝑫𝑪𝑮 =
𝟐 𝒓𝒆𝒍 𝒊 − 𝟏
log 𝟐 𝒊 + 𝟏
𝑁 𝑞
𝒊=𝟏𝒒∈𝑸
→ 𝒎𝒂𝒙
𝐿 𝑓 𝑥 = − log
𝑒 𝑓(𝑥 𝑖)
𝑒 𝑓(𝑥 𝑖) + 𝑒 𝑓(𝑥 𝑗)
(𝒊,𝒋)𝒒∈𝑸
𝐿 𝑓 𝑥 = −
𝑒 𝑟𝑒𝑙 𝑗
𝑒 𝑟𝑒𝑙 𝑘
𝑁 𝑞
𝒌=𝟏
log
𝑒 𝑓(𝑥 𝑗)
𝑒 𝑓(𝑥 𝑘)𝑁 𝑞
𝒌=𝟏
𝑁 𝑞
𝒋=𝟏𝒒∈𝑸
8
Typical problems of the classical approach
8
Problems with documents
 Search index is constantly changing we have to rebuild
ranking model often.
Problems with experts
 Experts do mistakes
 Group of experts not equal millions of users
 Experts do not ask queries
 We fit ranking for instructions(100 pages), not for users
Problems with queries
 Queries become irrelevant
 Ratings always outdated
9
Advantages and disadvantages of clickthrough
data
9
9
Expert judgements Clickthrough data
Thousands per day Millions per day
Expensive Cheap
Low speed of obtaining High speed of obtaining
Noisy data Extremely noisy data
Fresh only at the moment of
assessment
Always fresh data
Can evaluate any query (not
always correct)
Can’t evaluate queries that
nobody asks in SE
Judgements are biased Unbiased (in terms of our flow
of queries)
How we can use clickthrough data for
optimizing TDI?
10
Simple approach
SERP 1 SERP 2
vs
From 2 rankings select only serps, that win on TDI experiment
11
Optimal SERP construction
11
11
Given
 Query q
 Set of documents for q
𝑞 → 𝐷 = {𝑑1, 𝑑2, … , 𝑑 𝑁 𝑞
}
 User sessions with different permutations of docs from set D
Idea
 Let`s construct permutation (optimal permutation - OP) of docs that will win
any other permutation of these documents in terms of TDI experiments in
average
12
Information from user session
12
12
Example (Case 1)
query q
1. url1
2. url2
3. url3
4. url4
5. url5
6. url6
7. url7
8. url8
9. url9
10. url10
CLICK
What information have we received from this session?
13
Information from user session
13
13
Example (Case 1)
query q
1. url1
2. url2
3. url3
4. url4
5. url5
6. url6
7. url7
8. url8
9. url9
10. url10
CLICK
𝑢𝑟𝑙1 >
𝑢𝑟𝑙2
𝑢𝑟𝑙3
𝑢𝑟𝑙4
𝑢𝑟𝑙5
𝑢𝑟𝑙6
𝑢𝑟𝑙7
𝑢𝑟𝑙8
𝑢𝑟𝑙9
𝑢𝑟𝑙10
Remark:
It is obvious that it is possible to use more
complex click model (CCM, DBN, etc.)
14
Information from user session
14
14
Example (Case 2)
query q
1. url1
2. url2
3. url3
4. url4
5. url5
6. url6
7. url7
8. url8
9. url9
10. url10
What information have we received from this session?
CLICK
CLICK
CLICK
15
Information from user session
15
15
Example (Case 2)
query q
1. url1
2. url2
3. url3
4. url4
5. url5
6. url6
7. url7
8. url8
9. url9
10. url10
CLICK
CLICK
CLICK
𝑢𝑟𝑙2 >
𝑢𝑟𝑙1
𝑢𝑟𝑙3
𝑢𝑟𝑙5
𝑢𝑟𝑙6
𝑢𝑟𝑙7
𝑢𝑟𝑙9
𝑢𝑟𝑙10
𝑢𝑟𝑙4 >
𝑢𝑟𝑙1
𝑢𝑟𝑙3
𝑢𝑟𝑙5
𝑢𝑟𝑙6
𝑢𝑟𝑙7
𝑢𝑟𝑙9
𝑢𝑟𝑙10
𝑢𝑟𝑙8 >
𝑢𝑟𝑙1
𝑢𝑟𝑙3
𝑢𝑟𝑙5
𝑢𝑟𝑙6
𝑢𝑟𝑙7
𝑢𝑟𝑙9
𝑢𝑟𝑙10
16
Optimal SERP construction
16
16
Given
 For query q aggregate partial relative relevance judgments from all users
sessions
query q (session 1)
url1 > url2
url2 > url4
url1 > url5
….
query q (session 2)
url4 > url5
url2 > url1
url3 > url5
….
query q (session 3)
url4 > url5
url2 > url1
url5 > url2
….
query q (session k)
url4 > url5
url2 > url1
url3 > url5
….
query q
url4 > url5 (5 times)
url2 > url1 (3 times)
url5 > url2 (-7 times)
….
17
Optimal SERP construction
17
17
Given
 Let`s find weights for each document for query q from system of linear
equations
query q
url4 > url5 (5 times)
url2 > url1 (3 times)
url5 > url2 (-7 times)
….
𝑥4 − 𝑥5 = 5
𝑥2 − 𝑥1 = 3
𝑥5 − 𝑥2 = −7
….
18
Optimal SERP construction
18
18
In common case
 Add information about positions of docs
query q
url4 > url5 (5 times)
url2 > url1 (3 times)
url5 > url2 (-7 times)
….
𝛾(𝑝𝑜𝑠4)𝑥4 − 𝛾 𝑝𝑜𝑠5 𝑥5 = 𝜑(𝑝𝑜𝑠4, 𝑝𝑜𝑠5, 5)
𝛾(𝑝𝑜𝑠2)𝑥2 − 𝛾 𝑝𝑜𝑠1 𝑥1 = φ(pos1, pos2,3)
𝛾(𝑝𝑜𝑠5)𝑥5 − 𝛾 𝑝𝑜𝑠2 𝑥2 = φ(pos2, pos5,7)
….
19
Optimal SERP construction
19
19
Finally
𝜸 𝟏𝟏 𝒙 𝟏 − 𝜸 𝟏𝟐 𝒙 𝟐 = 𝝋 𝟏
….
𝜸 𝟐𝟏 𝒙 𝟏 − 𝜸 𝟐𝟑 𝒙 𝟑 = 𝝋 𝟐
𝜸 𝑵𝑵 𝒒−𝟏 𝒙 𝑵 𝒒−𝟏 − 𝜸 𝑵𝑵 𝒒
𝒙 𝑵 𝒒
= 𝝋 𝑵
𝒀𝒙 = Ф
Solution for x
𝒙 = (𝒀 𝑻
𝒀)−𝟏
𝒀 𝑻
Ф
𝒅𝒊𝒎(𝒀) = 𝑵 × 𝑵 𝒒
𝒅𝒊𝒎 𝒙 = 𝑵 𝒒
𝒅𝒊𝒎 Ф = 𝑵
𝑵 − 𝒏𝒖𝒎𝒃𝒆𝒓 𝒐𝒇 𝒑𝒂𝒓𝒕𝒊𝒂𝒍 𝒓𝒆𝒍𝒂𝒕𝒊𝒗𝒆 𝒋𝒖𝒅𝒈𝒎𝒆𝒏𝒕𝒔
𝑵 𝒒 − 𝒏𝒖𝒎𝒃𝒆𝒓 𝒐𝒇 𝒅𝒐𝒄𝒔 𝒇𝒐𝒓 𝒒𝒖𝒆𝒓𝒚 𝒒
20
Results
20
20
 Computed Optimized Serps
for 200000 most frequent queries (7% of flow of queries)
 +14% quality for these frequent queries
 +1% search quality
 NOT BAD
 Let`s try use Optimized Serps for machine learning to rank
Amount of statistics
21
We have a problem …
21
22
Learning from top results
22
Problems with learning from top results (Example)
23
Learning from top results
23
Problems with learning from top results
 Out of top there are many documents with quite another features distribution
 In all documents word “barcelona” there is in title. Therefore feature, that describes
availability words of query in title will be useless for this query.
Solution
 Let`s sample from set
of unlabeled urls
 We need sampling,
because we can`t add
all unlabeled data to
training data
………
Urls, that should be on top
Unlabeled urls
24
Semi-supervised learning to rank
24
Sampling from unlabeled urls
………
Unlabeled docs Build self organizing map Get one doc from each cluster
Sampled url
Sampled url
Sampled url
Sampled url
Sampled url
25
Semi-supervised learning to rank
25
Add sampled docs as “irrelevant” to training set
Sampled url
Sampled url
………
Sampled url
Unlabeled urlsFinal training data for query q
Train data set
Semi-supervised learning to rank
25
2626
Training data for query 𝑞1 Training data for query 𝑞2 Training data for query 𝑞|𝑄|
…..
Optimized Serp urls
Unlabeled urls (marked as irrelevant)
27
Results
26
 2.5% search quality
Final Results
27
 We received the automatic search improvement method
 This method can learn improved ranking function without any explicit
feedback from experts
timeline
TDI experiment with our old ranking, based on expert judgments
0
-0.01
0.01
0.02
0.03
0.04
0.05
29
Using clickthrough data
for online learning to rank
30
Using clickthrough data for
online learning to rank
29
Typical problems with new ranking formula construction
 We need large dataset (5-10 millions points)
 Usually we use active learning for obtaining this data
 It is necessary about 10-15 iterations of active learning for obtaining
new ranking formula with same quality as current model
 We can`t use all available clickthrough data for training out ranking formula
 Can we improve current formula using new clickthrough data?
 Can we improve current formula using ALL new clickthrough data?
31
Typical ranking formula
30
Typical ranking formula specification
 Ensemble of tens of thousands decision trees
 Trained using gradient boosting algorithm
32
Idea
31
«Recognition is clusterization, and the role of supervisor is
primarily to name clusters correct…»
Geoffrey Hinton
33
Typical ranking formula
32
Typical ranking formula specification
 Ranking formula can return only finite set of values
 Each decision tree in ensemble contains only several predicates
 Each query-document pair is described by aggregate of predicates of ensemble
 Let`s use partition of multidimensional space generated
by ranking formula as clustering
 Let`s remap all clickthrough data on this clusterization
34
Online learning to rank
33
point
point
35
Online learning to rank
34
36
Online learning to rank results
35
Online learning to rank
 We get online learning to rank method
 Method allows us to use ALL clickthrough feedback from users
 We don`t need to retrain model
 Method allows to actualize current ranking formula
under current users behavior
37
Thank you!

Contenu connexe

Tendances

Rated Ranking Evaluator: An Open Source Approach for Search Quality Evaluation
Rated Ranking Evaluator: An Open Source Approach for Search Quality EvaluationRated Ranking Evaluator: An Open Source Approach for Search Quality Evaluation
Rated Ranking Evaluator: An Open Source Approach for Search Quality EvaluationAlessandro Benedetti
 
Haystack London - Search Quality Evaluation, Tools and Techniques
Haystack London - Search Quality Evaluation, Tools and Techniques Haystack London - Search Quality Evaluation, Tools and Techniques
Haystack London - Search Quality Evaluation, Tools and Techniques Andrea Gazzarini
 
Explainability for Learning to Rank
Explainability for Learning to RankExplainability for Learning to Rank
Explainability for Learning to RankSease
 
Advanced Document Similarity With Apache Lucene
Advanced Document Similarity With Apache LuceneAdvanced Document Similarity With Apache Lucene
Advanced Document Similarity With Apache LuceneAlessandro Benedetti
 
From Academic Papers To Production : A Learning To Rank Story
From Academic Papers To Production : A Learning To Rank StoryFrom Academic Papers To Production : A Learning To Rank Story
From Academic Papers To Production : A Learning To Rank StoryAlessandro Benedetti
 
Implementing Conceptual Search in Solr using LSA and Word2Vec: Presented by S...
Implementing Conceptual Search in Solr using LSA and Word2Vec: Presented by S...Implementing Conceptual Search in Solr using LSA and Word2Vec: Presented by S...
Implementing Conceptual Search in Solr using LSA and Word2Vec: Presented by S...Lucidworks
 
Rated Ranking Evaluator Enterprise: the next generation of free Search Qualit...
Rated Ranking Evaluator Enterprise: the next generation of free Search Qualit...Rated Ranking Evaluator Enterprise: the next generation of free Search Qualit...
Rated Ranking Evaluator Enterprise: the next generation of free Search Qualit...Sease
 
How to Build your Training Set for a Learning To Rank Project - Haystack
How to Build your Training Set for a Learning To Rank Project - HaystackHow to Build your Training Set for a Learning To Rank Project - Haystack
How to Build your Training Set for a Learning To Rank Project - HaystackSease
 
Reflected intelligence evolving self-learning data systems
Reflected intelligence  evolving self-learning data systemsReflected intelligence  evolving self-learning data systems
Reflected intelligence evolving self-learning data systemsTrey Grainger
 
Reflected Intelligence - Lucene/Solr as a self-learning data system: Presente...
Reflected Intelligence - Lucene/Solr as a self-learning data system: Presente...Reflected Intelligence - Lucene/Solr as a self-learning data system: Presente...
Reflected Intelligence - Lucene/Solr as a self-learning data system: Presente...Lucidworks
 
Enterprise Search – How Relevant Is Relevance?
Enterprise Search – How Relevant Is Relevance?Enterprise Search – How Relevant Is Relevance?
Enterprise Search – How Relevant Is Relevance?Sease
 
Instant search - A hands-on tutorial
Instant search  - A hands-on tutorialInstant search  - A hands-on tutorial
Instant search - A hands-on tutorialGanesh Venkataraman
 
Interactive Questions and Answers - London Information Retrieval Meetup
Interactive Questions and Answers - London Information Retrieval MeetupInteractive Questions and Answers - London Information Retrieval Meetup
Interactive Questions and Answers - London Information Retrieval MeetupSease
 
Leveraging Lucene/Solr as a Knowledge Graph and Intent Engine: Presented by T...
Leveraging Lucene/Solr as a Knowledge Graph and Intent Engine: Presented by T...Leveraging Lucene/Solr as a Knowledge Graph and Intent Engine: Presented by T...
Leveraging Lucene/Solr as a Knowledge Graph and Intent Engine: Presented by T...Lucidworks
 
Haystack- Learning to rank in an hourly job market
Haystack- Learning to rank in an hourly job market Haystack- Learning to rank in an hourly job market
Haystack- Learning to rank in an hourly job market Xun Wang
 
Lucene/Solr Revolution 2015: Where Search Meets Machine Learning
Lucene/Solr Revolution 2015: Where Search Meets Machine LearningLucene/Solr Revolution 2015: Where Search Meets Machine Learning
Lucene/Solr Revolution 2015: Where Search Meets Machine LearningJoaquin Delgado PhD.
 
Building a real time, solr-powered recommendation engine
Building a real time, solr-powered recommendation engineBuilding a real time, solr-powered recommendation engine
Building a real time, solr-powered recommendation engineTrey Grainger
 
Personalized Search and Job Recommendations - Simon Hughes, Dice.com
Personalized Search and Job Recommendations - Simon Hughes, Dice.comPersonalized Search and Job Recommendations - Simon Hughes, Dice.com
Personalized Search and Job Recommendations - Simon Hughes, Dice.comLucidworks
 
Enhancing relevancy through personalization & semantic search
Enhancing relevancy through personalization & semantic searchEnhancing relevancy through personalization & semantic search
Enhancing relevancy through personalization & semantic searchlucenerevolution
 
Search Accuracy Metrics and Predictive Analytics - A Big Data Use Case: Prese...
Search Accuracy Metrics and Predictive Analytics - A Big Data Use Case: Prese...Search Accuracy Metrics and Predictive Analytics - A Big Data Use Case: Prese...
Search Accuracy Metrics and Predictive Analytics - A Big Data Use Case: Prese...Lucidworks
 

Tendances (20)

Rated Ranking Evaluator: An Open Source Approach for Search Quality Evaluation
Rated Ranking Evaluator: An Open Source Approach for Search Quality EvaluationRated Ranking Evaluator: An Open Source Approach for Search Quality Evaluation
Rated Ranking Evaluator: An Open Source Approach for Search Quality Evaluation
 
Haystack London - Search Quality Evaluation, Tools and Techniques
Haystack London - Search Quality Evaluation, Tools and Techniques Haystack London - Search Quality Evaluation, Tools and Techniques
Haystack London - Search Quality Evaluation, Tools and Techniques
 
Explainability for Learning to Rank
Explainability for Learning to RankExplainability for Learning to Rank
Explainability for Learning to Rank
 
Advanced Document Similarity With Apache Lucene
Advanced Document Similarity With Apache LuceneAdvanced Document Similarity With Apache Lucene
Advanced Document Similarity With Apache Lucene
 
From Academic Papers To Production : A Learning To Rank Story
From Academic Papers To Production : A Learning To Rank StoryFrom Academic Papers To Production : A Learning To Rank Story
From Academic Papers To Production : A Learning To Rank Story
 
Implementing Conceptual Search in Solr using LSA and Word2Vec: Presented by S...
Implementing Conceptual Search in Solr using LSA and Word2Vec: Presented by S...Implementing Conceptual Search in Solr using LSA and Word2Vec: Presented by S...
Implementing Conceptual Search in Solr using LSA and Word2Vec: Presented by S...
 
Rated Ranking Evaluator Enterprise: the next generation of free Search Qualit...
Rated Ranking Evaluator Enterprise: the next generation of free Search Qualit...Rated Ranking Evaluator Enterprise: the next generation of free Search Qualit...
Rated Ranking Evaluator Enterprise: the next generation of free Search Qualit...
 
How to Build your Training Set for a Learning To Rank Project - Haystack
How to Build your Training Set for a Learning To Rank Project - HaystackHow to Build your Training Set for a Learning To Rank Project - Haystack
How to Build your Training Set for a Learning To Rank Project - Haystack
 
Reflected intelligence evolving self-learning data systems
Reflected intelligence  evolving self-learning data systemsReflected intelligence  evolving self-learning data systems
Reflected intelligence evolving self-learning data systems
 
Reflected Intelligence - Lucene/Solr as a self-learning data system: Presente...
Reflected Intelligence - Lucene/Solr as a self-learning data system: Presente...Reflected Intelligence - Lucene/Solr as a self-learning data system: Presente...
Reflected Intelligence - Lucene/Solr as a self-learning data system: Presente...
 
Enterprise Search – How Relevant Is Relevance?
Enterprise Search – How Relevant Is Relevance?Enterprise Search – How Relevant Is Relevance?
Enterprise Search – How Relevant Is Relevance?
 
Instant search - A hands-on tutorial
Instant search  - A hands-on tutorialInstant search  - A hands-on tutorial
Instant search - A hands-on tutorial
 
Interactive Questions and Answers - London Information Retrieval Meetup
Interactive Questions and Answers - London Information Retrieval MeetupInteractive Questions and Answers - London Information Retrieval Meetup
Interactive Questions and Answers - London Information Retrieval Meetup
 
Leveraging Lucene/Solr as a Knowledge Graph and Intent Engine: Presented by T...
Leveraging Lucene/Solr as a Knowledge Graph and Intent Engine: Presented by T...Leveraging Lucene/Solr as a Knowledge Graph and Intent Engine: Presented by T...
Leveraging Lucene/Solr as a Knowledge Graph and Intent Engine: Presented by T...
 
Haystack- Learning to rank in an hourly job market
Haystack- Learning to rank in an hourly job market Haystack- Learning to rank in an hourly job market
Haystack- Learning to rank in an hourly job market
 
Lucene/Solr Revolution 2015: Where Search Meets Machine Learning
Lucene/Solr Revolution 2015: Where Search Meets Machine LearningLucene/Solr Revolution 2015: Where Search Meets Machine Learning
Lucene/Solr Revolution 2015: Where Search Meets Machine Learning
 
Building a real time, solr-powered recommendation engine
Building a real time, solr-powered recommendation engineBuilding a real time, solr-powered recommendation engine
Building a real time, solr-powered recommendation engine
 
Personalized Search and Job Recommendations - Simon Hughes, Dice.com
Personalized Search and Job Recommendations - Simon Hughes, Dice.comPersonalized Search and Job Recommendations - Simon Hughes, Dice.com
Personalized Search and Job Recommendations - Simon Hughes, Dice.com
 
Enhancing relevancy through personalization & semantic search
Enhancing relevancy through personalization & semantic searchEnhancing relevancy through personalization & semantic search
Enhancing relevancy through personalization & semantic search
 
Search Accuracy Metrics and Predictive Analytics - A Big Data Use Case: Prese...
Search Accuracy Metrics and Predictive Analytics - A Big Data Use Case: Prese...Search Accuracy Metrics and Predictive Analytics - A Big Data Use Case: Prese...
Search Accuracy Metrics and Predictive Analytics - A Big Data Use Case: Prese...
 

En vedette

Михаил Бурцев, МФТИ, основатель DeepHack, «Последние хиты глубокого обучения»
Михаил Бурцев, МФТИ, основатель DeepHack, «Последние хиты глубокого обучения»Михаил Бурцев, МФТИ, основатель DeepHack, «Последние хиты глубокого обучения»
Михаил Бурцев, МФТИ, основатель DeepHack, «Последние хиты глубокого обучения»Mail.ru Group
 
Роман Чеботарёв, КРОК, «Выбираем метрику оценки качества модели»
Роман Чеботарёв, КРОК, «Выбираем метрику оценки качества модели»Роман Чеботарёв, КРОК, «Выбираем метрику оценки качества модели»
Роман Чеботарёв, КРОК, «Выбираем метрику оценки качества модели»Mail.ru Group
 
Ростислав Яворский, Высшая Школа Экономики, «Как использовать анализ сетевых ...
Ростислав Яворский, Высшая Школа Экономики, «Как использовать анализ сетевых ...Ростислав Яворский, Высшая Школа Экономики, «Как использовать анализ сетевых ...
Ростислав Яворский, Высшая Школа Экономики, «Как использовать анализ сетевых ...Mail.ru Group
 
Сергей Николенко, Deloitte Analytics Institute, Высшая Школа Экономики, «От н...
Сергей Николенко, Deloitte Analytics Institute, Высшая Школа Экономики, «От н...Сергей Николенко, Deloitte Analytics Institute, Высшая Школа Экономики, «От н...
Сергей Николенко, Deloitte Analytics Institute, Высшая Школа Экономики, «От н...Mail.ru Group
 
Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследо...
Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследо...Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследо...
Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследо...Mail.ru Group
 
Александр Щусь, Mail.Ru Group, Детектирование взломов почтовых аккаунтов
Александр Щусь, Mail.Ru Group, Детектирование взломов почтовых аккаунтовАлександр Щусь, Mail.Ru Group, Детектирование взломов почтовых аккаунтов
Александр Щусь, Mail.Ru Group, Детектирование взломов почтовых аккаунтовMail.ru Group
 
Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования гл...
Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования гл...Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования гл...
Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования гл...Mail.ru Group
 
Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в те...
Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в те...Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в те...
Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в те...Mail.ru Group
 
Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kagg...
Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kagg...Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kagg...
Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kagg...Mail.ru Group
 
Дмитрий Бугайченко, Одноклассники. Анализ данных в социальных сетях на практике
Дмитрий Бугайченко, Одноклассники. Анализ данных в социальных сетях на практикеДмитрий Бугайченко, Одноклассники. Анализ данных в социальных сетях на практике
Дмитрий Бугайченко, Одноклассники. Анализ данных в социальных сетях на практикеMail.ru Group
 
Дмитрий Кропотов, ВМК МГУ, Группа Байесовских Методов, «Методы оптимизации бо...
Дмитрий Кропотов, ВМК МГУ, Группа Байесовских Методов, «Методы оптимизации бо...Дмитрий Кропотов, ВМК МГУ, Группа Байесовских Методов, «Методы оптимизации бо...
Дмитрий Кропотов, ВМК МГУ, Группа Байесовских Методов, «Методы оптимизации бо...Mail.ru Group
 
Дмитрий Бугайченко, Одноклассники. SNA Hackathon 2016
Дмитрий Бугайченко, Одноклассники. SNA Hackathon 2016Дмитрий Бугайченко, Одноклассники. SNA Hackathon 2016
Дмитрий Бугайченко, Одноклассники. SNA Hackathon 2016Mail.ru Group
 
Роман Чеботарев — КРОК — ICBDA2016
Роман Чеботарев — КРОК — ICBDA2016Роман Чеботарев — КРОК — ICBDA2016
Роман Чеботарев — КРОК — ICBDA2016rusbase
 
Textkernel - Semantic Recruiting Technology
Textkernel - Semantic Recruiting TechnologyTextkernel - Semantic Recruiting Technology
Textkernel - Semantic Recruiting TechnologyTextkernel
 
Learning to Rank - From pairwise approach to listwise
Learning to Rank - From pairwise approach to listwiseLearning to Rank - From pairwise approach to listwise
Learning to Rank - From pairwise approach to listwiseHasan H Topcu
 
Нейроморфные системы - будущее искусственного интеллекта
Нейроморфные системы - будущее искусственного интеллектаНейроморфные системы - будущее искусственного интеллекта
Нейроморфные системы - будущее искусственного интеллектаMikhail Burtsev
 
Lab progress report 2011-2015
Lab progress report 2011-2015Lab progress report 2011-2015
Lab progress report 2011-2015Mikhail Burtsev
 
Learning To Rank User Queries to Detect Search Tasks
Learning To Rank User Queries to Detect Search TasksLearning To Rank User Queries to Detect Search Tasks
Learning To Rank User Queries to Detect Search TasksFranco Maria Nardini
 
Learning to rank fulltext results from clicks
Learning to rank fulltext results from clicksLearning to rank fulltext results from clicks
Learning to rank fulltext results from clickstkramar
 

En vedette (20)

Михаил Бурцев, МФТИ, основатель DeepHack, «Последние хиты глубокого обучения»
Михаил Бурцев, МФТИ, основатель DeepHack, «Последние хиты глубокого обучения»Михаил Бурцев, МФТИ, основатель DeepHack, «Последние хиты глубокого обучения»
Михаил Бурцев, МФТИ, основатель DeepHack, «Последние хиты глубокого обучения»
 
Роман Чеботарёв, КРОК, «Выбираем метрику оценки качества модели»
Роман Чеботарёв, КРОК, «Выбираем метрику оценки качества модели»Роман Чеботарёв, КРОК, «Выбираем метрику оценки качества модели»
Роман Чеботарёв, КРОК, «Выбираем метрику оценки качества модели»
 
Ростислав Яворский, Высшая Школа Экономики, «Как использовать анализ сетевых ...
Ростислав Яворский, Высшая Школа Экономики, «Как использовать анализ сетевых ...Ростислав Яворский, Высшая Школа Экономики, «Как использовать анализ сетевых ...
Ростислав Яворский, Высшая Школа Экономики, «Как использовать анализ сетевых ...
 
Сергей Николенко, Deloitte Analytics Institute, Высшая Школа Экономики, «От н...
Сергей Николенко, Deloitte Analytics Institute, Высшая Школа Экономики, «От н...Сергей Николенко, Deloitte Analytics Institute, Высшая Школа Экономики, «От н...
Сергей Николенко, Deloitte Analytics Institute, Высшая Школа Экономики, «От н...
 
Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследо...
Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследо...Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследо...
Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследо...
 
Александр Щусь, Mail.Ru Group, Детектирование взломов почтовых аккаунтов
Александр Щусь, Mail.Ru Group, Детектирование взломов почтовых аккаунтовАлександр Щусь, Mail.Ru Group, Детектирование взломов почтовых аккаунтов
Александр Щусь, Mail.Ru Group, Детектирование взломов почтовых аккаунтов
 
Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования гл...
Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования гл...Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования гл...
Иван Лобов, Data-Centric Alliance, «Текущие тенденции в сфере исследования гл...
 
Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в те...
Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в те...Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в те...
Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в те...
 
Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kagg...
Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kagg...Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kagg...
Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kagg...
 
Дмитрий Бугайченко, Одноклассники. Анализ данных в социальных сетях на практике
Дмитрий Бугайченко, Одноклассники. Анализ данных в социальных сетях на практикеДмитрий Бугайченко, Одноклассники. Анализ данных в социальных сетях на практике
Дмитрий Бугайченко, Одноклассники. Анализ данных в социальных сетях на практике
 
Дмитрий Кропотов, ВМК МГУ, Группа Байесовских Методов, «Методы оптимизации бо...
Дмитрий Кропотов, ВМК МГУ, Группа Байесовских Методов, «Методы оптимизации бо...Дмитрий Кропотов, ВМК МГУ, Группа Байесовских Методов, «Методы оптимизации бо...
Дмитрий Кропотов, ВМК МГУ, Группа Байесовских Методов, «Методы оптимизации бо...
 
Дмитрий Бугайченко, Одноклассники. SNA Hackathon 2016
Дмитрий Бугайченко, Одноклассники. SNA Hackathon 2016Дмитрий Бугайченко, Одноклассники. SNA Hackathon 2016
Дмитрий Бугайченко, Одноклассники. SNA Hackathon 2016
 
Роман Чеботарев — КРОК — ICBDA2016
Роман Чеботарев — КРОК — ICBDA2016Роман Чеботарев — КРОК — ICBDA2016
Роман Чеботарев — КРОК — ICBDA2016
 
Magpie
MagpieMagpie
Magpie
 
Textkernel - Semantic Recruiting Technology
Textkernel - Semantic Recruiting TechnologyTextkernel - Semantic Recruiting Technology
Textkernel - Semantic Recruiting Technology
 
Learning to Rank - From pairwise approach to listwise
Learning to Rank - From pairwise approach to listwiseLearning to Rank - From pairwise approach to listwise
Learning to Rank - From pairwise approach to listwise
 
Нейроморфные системы - будущее искусственного интеллекта
Нейроморфные системы - будущее искусственного интеллектаНейроморфные системы - будущее искусственного интеллекта
Нейроморфные системы - будущее искусственного интеллекта
 
Lab progress report 2011-2015
Lab progress report 2011-2015Lab progress report 2011-2015
Lab progress report 2011-2015
 
Learning To Rank User Queries to Detect Search Tasks
Learning To Rank User Queries to Detect Search TasksLearning To Rank User Queries to Detect Search Tasks
Learning To Rank User Queries to Detect Search Tasks
 
Learning to rank fulltext results from clicks
Learning to rank fulltext results from clicksLearning to rank fulltext results from clicks
Learning to rank fulltext results from clicks
 

Similaire à Владимир Гулин, Mail.Ru Group, Learning to rank using clickthrough data

Florian Douetteau @ Dataiku
Florian Douetteau @ DataikuFlorian Douetteau @ Dataiku
Florian Douetteau @ DataikuPAPIs.io
 
Dataiku at SF DataMining Meetup - Kaggle Yandex Challenge
Dataiku at SF DataMining Meetup - Kaggle Yandex ChallengeDataiku at SF DataMining Meetup - Kaggle Yandex Challenge
Dataiku at SF DataMining Meetup - Kaggle Yandex ChallengeDataiku
 
Conversion Optimization: Drive More Sales from Existing Traffic and Increase ...
Conversion Optimization: Drive More Sales from Existing Traffic and Increase ...Conversion Optimization: Drive More Sales from Existing Traffic and Increase ...
Conversion Optimization: Drive More Sales from Existing Traffic and Increase ...Zac Aghion
 
Transformation Through Automation: Harnessing the Power of Modern Solutions
Transformation Through Automation: Harnessing the Power of Modern SolutionsTransformation Through Automation: Harnessing the Power of Modern Solutions
Transformation Through Automation: Harnessing the Power of Modern SolutionsHelpSystems
 
Data Analysis - Making Big Data Work
Data Analysis - Making Big Data WorkData Analysis - Making Big Data Work
Data Analysis - Making Big Data WorkDavid Chiu
 
Optimizely Workshop 1: Prioritize your roadmap
Optimizely Workshop 1: Prioritize your roadmapOptimizely Workshop 1: Prioritize your roadmap
Optimizely Workshop 1: Prioritize your roadmapOptimizely
 
Webinar: Question Answering and Virtual Assistants with Deep Learning
Webinar: Question Answering and Virtual Assistants with Deep LearningWebinar: Question Answering and Virtual Assistants with Deep Learning
Webinar: Question Answering and Virtual Assistants with Deep LearningLucidworks
 
ICSE2014
ICSE2014ICSE2014
ICSE2014swy351
 
[系列活動] 資料探勘速遊 - Session4 case-studies
[系列活動] 資料探勘速遊 - Session4 case-studies[系列活動] 資料探勘速遊 - Session4 case-studies
[系列活動] 資料探勘速遊 - Session4 case-studies台灣資料科學年會
 
Building a Meta-search Engine
Building a Meta-search EngineBuilding a Meta-search Engine
Building a Meta-search EngineAyan Chandra
 
Aspiring Minds | Automata
Aspiring Minds | Automata Aspiring Minds | Automata
Aspiring Minds | Automata Aspiring Minds
 
Semi-Supervised Insight Generation from Petabyte Scale Text Data
Semi-Supervised Insight Generation from Petabyte Scale Text DataSemi-Supervised Insight Generation from Petabyte Scale Text Data
Semi-Supervised Insight Generation from Petabyte Scale Text DataTech Triveni
 
Web Rec Final Report
Web Rec Final ReportWeb Rec Final Report
Web Rec Final Reportweichen
 
Yandex School of Data Analysis conference, Machine Learning and Very Large Da...
Yandex School of Data Analysis conference, Machine Learning and Very Large Da...Yandex School of Data Analysis conference, Machine Learning and Very Large Da...
Yandex School of Data Analysis conference, Machine Learning and Very Large Da...Илья Трофимов
 
CRO analytics - How to Continually Optimise
CRO analytics - How to Continually OptimiseCRO analytics - How to Continually Optimise
CRO analytics - How to Continually OptimisePhil Pearce
 
Big Data Testing: Ensuring MongoDB Data Quality
Big Data Testing: Ensuring MongoDB Data QualityBig Data Testing: Ensuring MongoDB Data Quality
Big Data Testing: Ensuring MongoDB Data QualityRTTS
 
Software Analytics = Sharing Information
Software Analytics = Sharing InformationSoftware Analytics = Sharing Information
Software Analytics = Sharing InformationThomas Zimmermann
 

Similaire à Владимир Гулин, Mail.Ru Group, Learning to rank using clickthrough data (20)

Florian Douetteau @ Dataiku
Florian Douetteau @ DataikuFlorian Douetteau @ Dataiku
Florian Douetteau @ Dataiku
 
Dataiku at SF DataMining Meetup - Kaggle Yandex Challenge
Dataiku at SF DataMining Meetup - Kaggle Yandex ChallengeDataiku at SF DataMining Meetup - Kaggle Yandex Challenge
Dataiku at SF DataMining Meetup - Kaggle Yandex Challenge
 
Conversion Optimization: Drive More Sales from Existing Traffic and Increase ...
Conversion Optimization: Drive More Sales from Existing Traffic and Increase ...Conversion Optimization: Drive More Sales from Existing Traffic and Increase ...
Conversion Optimization: Drive More Sales from Existing Traffic and Increase ...
 
Role of Data Science in eCommerce
Role of Data Science in eCommerceRole of Data Science in eCommerce
Role of Data Science in eCommerce
 
Transformation Through Automation: Harnessing the Power of Modern Solutions
Transformation Through Automation: Harnessing the Power of Modern SolutionsTransformation Through Automation: Harnessing the Power of Modern Solutions
Transformation Through Automation: Harnessing the Power of Modern Solutions
 
Data Analysis - Making Big Data Work
Data Analysis - Making Big Data WorkData Analysis - Making Big Data Work
Data Analysis - Making Big Data Work
 
Search quality in practice
Search quality in practiceSearch quality in practice
Search quality in practice
 
Optimizely Workshop 1: Prioritize your roadmap
Optimizely Workshop 1: Prioritize your roadmapOptimizely Workshop 1: Prioritize your roadmap
Optimizely Workshop 1: Prioritize your roadmap
 
Webinar: Question Answering and Virtual Assistants with Deep Learning
Webinar: Question Answering and Virtual Assistants with Deep LearningWebinar: Question Answering and Virtual Assistants with Deep Learning
Webinar: Question Answering and Virtual Assistants with Deep Learning
 
ICSE2014
ICSE2014ICSE2014
ICSE2014
 
[系列活動] 資料探勘速遊 - Session4 case-studies
[系列活動] 資料探勘速遊 - Session4 case-studies[系列活動] 資料探勘速遊 - Session4 case-studies
[系列活動] 資料探勘速遊 - Session4 case-studies
 
Building a Meta-search Engine
Building a Meta-search EngineBuilding a Meta-search Engine
Building a Meta-search Engine
 
Aspiring Minds | Automata
Aspiring Minds | Automata Aspiring Minds | Automata
Aspiring Minds | Automata
 
Semi-Supervised Insight Generation from Petabyte Scale Text Data
Semi-Supervised Insight Generation from Petabyte Scale Text DataSemi-Supervised Insight Generation from Petabyte Scale Text Data
Semi-Supervised Insight Generation from Petabyte Scale Text Data
 
Web Rec Final Report
Web Rec Final ReportWeb Rec Final Report
Web Rec Final Report
 
Yandex School of Data Analysis conference, Machine Learning and Very Large Da...
Yandex School of Data Analysis conference, Machine Learning and Very Large Da...Yandex School of Data Analysis conference, Machine Learning and Very Large Da...
Yandex School of Data Analysis conference, Machine Learning and Very Large Da...
 
CRO analytics - How to Continually Optimise
CRO analytics - How to Continually OptimiseCRO analytics - How to Continually Optimise
CRO analytics - How to Continually Optimise
 
Big Data Testing: Ensuring MongoDB Data Quality
Big Data Testing: Ensuring MongoDB Data QualityBig Data Testing: Ensuring MongoDB Data Quality
Big Data Testing: Ensuring MongoDB Data Quality
 
Play with Kaggle
Play with KagglePlay with Kaggle
Play with Kaggle
 
Software Analytics = Sharing Information
Software Analytics = Sharing InformationSoftware Analytics = Sharing Information
Software Analytics = Sharing Information
 

Plus de Mail.ru Group

Автоматизация без тест-инженеров по автоматизации, Мария Терехина и Владислав...
Автоматизация без тест-инженеров по автоматизации, Мария Терехина и Владислав...Автоматизация без тест-инженеров по автоматизации, Мария Терехина и Владислав...
Автоматизация без тест-инженеров по автоматизации, Мария Терехина и Владислав...Mail.ru Group
 
BDD для фронтенда. Автоматизация тестирования с Cucumber, Cypress и Jenkins, ...
BDD для фронтенда. Автоматизация тестирования с Cucumber, Cypress и Jenkins, ...BDD для фронтенда. Автоматизация тестирования с Cucumber, Cypress и Jenkins, ...
BDD для фронтенда. Автоматизация тестирования с Cucumber, Cypress и Jenkins, ...Mail.ru Group
 
Другая сторона баг-баунти-программ: как это выглядит изнутри, Владимир Дубровин
Другая сторона баг-баунти-программ: как это выглядит изнутри, Владимир ДубровинДругая сторона баг-баунти-программ: как это выглядит изнутри, Владимир Дубровин
Другая сторона баг-баунти-программ: как это выглядит изнутри, Владимир ДубровинMail.ru Group
 
Использование Fiddler и Charles при тестировании фронтенда проекта pulse.mail...
Использование Fiddler и Charles при тестировании фронтенда проекта pulse.mail...Использование Fiddler и Charles при тестировании фронтенда проекта pulse.mail...
Использование Fiddler и Charles при тестировании фронтенда проекта pulse.mail...Mail.ru Group
 
Управление инцидентами в Почте Mail.ru, Антон Викторов
Управление инцидентами в Почте Mail.ru, Антон ВикторовУправление инцидентами в Почте Mail.ru, Антон Викторов
Управление инцидентами в Почте Mail.ru, Антон ВикторовMail.ru Group
 
DAST в CI/CD, Ольга Свиридова
DAST в CI/CD, Ольга СвиридоваDAST в CI/CD, Ольга Свиридова
DAST в CI/CD, Ольга СвиридоваMail.ru Group
 
Почему вам стоит использовать свой велосипед и почему не стоит Александр Бел...
Почему вам стоит использовать свой велосипед и почему не стоит  Александр Бел...Почему вам стоит использовать свой велосипед и почему не стоит  Александр Бел...
Почему вам стоит использовать свой велосипед и почему не стоит Александр Бел...Mail.ru Group
 
CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Масл...
CV в пайплайне распознавания ценников товаров: трюки и хитрости  Николай Масл...CV в пайплайне распознавания ценников товаров: трюки и хитрости  Николай Масл...
CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Масл...Mail.ru Group
 
RAPIDS: ускоряем Pandas и scikit-learn на GPU Павел Клеменков, NVidia
RAPIDS: ускоряем Pandas и scikit-learn на GPU  Павел Клеменков, NVidiaRAPIDS: ускоряем Pandas и scikit-learn на GPU  Павел Клеменков, NVidia
RAPIDS: ускоряем Pandas и scikit-learn на GPU Павел Клеменков, NVidiaMail.ru Group
 
WebAuthn в реальной жизни, Анатолий Остапенко
WebAuthn в реальной жизни, Анатолий ОстапенкоWebAuthn в реальной жизни, Анатолий Остапенко
WebAuthn в реальной жизни, Анатолий ОстапенкоMail.ru Group
 
AMP для электронной почты, Сергей Пешков
AMP для электронной почты, Сергей ПешковAMP для электронной почты, Сергей Пешков
AMP для электронной почты, Сергей ПешковMail.ru Group
 
Как мы захотели TWA и сделали его без мобильных разработчиков, Данила Стрелков
Как мы захотели TWA и сделали его без мобильных разработчиков, Данила СтрелковКак мы захотели TWA и сделали его без мобильных разработчиков, Данила Стрелков
Как мы захотели TWA и сделали его без мобильных разработчиков, Данила СтрелковMail.ru Group
 
Кейсы использования PWA для партнерских предложений в Delivery Club, Никита Б...
Кейсы использования PWA для партнерских предложений в Delivery Club, Никита Б...Кейсы использования PWA для партнерских предложений в Delivery Club, Никита Б...
Кейсы использования PWA для партнерских предложений в Delivery Club, Никита Б...Mail.ru Group
 
Метапрограммирование: строим конечный автомат, Сергей Федоров, Яндекс.Такси
Метапрограммирование: строим конечный автомат, Сергей Федоров, Яндекс.ТаксиМетапрограммирование: строим конечный автомат, Сергей Федоров, Яндекс.Такси
Метапрограммирование: строим конечный автомат, Сергей Федоров, Яндекс.ТаксиMail.ru Group
 
Как не сделать врагами архитектуру и оптимизацию, Кирилл Березин, Mail.ru Group
Как не сделать врагами архитектуру и оптимизацию, Кирилл Березин, Mail.ru GroupКак не сделать врагами архитектуру и оптимизацию, Кирилл Березин, Mail.ru Group
Как не сделать врагами архитектуру и оптимизацию, Кирилл Березин, Mail.ru GroupMail.ru Group
 
Этика искусственного интеллекта, Александр Кармаев (AI Journey)
Этика искусственного интеллекта, Александр Кармаев (AI Journey)Этика искусственного интеллекта, Александр Кармаев (AI Journey)
Этика искусственного интеллекта, Александр Кармаев (AI Journey)Mail.ru Group
 
Нейро-машинный перевод в вопросно-ответных системах, Федор Федоренко (AI Jour...
Нейро-машинный перевод в вопросно-ответных системах, Федор Федоренко (AI Jour...Нейро-машинный перевод в вопросно-ответных системах, Федор Федоренко (AI Jour...
Нейро-машинный перевод в вопросно-ответных системах, Федор Федоренко (AI Jour...Mail.ru Group
 
Конвергенция технологий как тренд развития искусственного интеллекта, Владими...
Конвергенция технологий как тренд развития искусственного интеллекта, Владими...Конвергенция технологий как тренд развития искусственного интеллекта, Владими...
Конвергенция технологий как тренд развития искусственного интеллекта, Владими...Mail.ru Group
 
Обзор трендов рекомендательных систем от Пульса, Андрей Мурашев (AI Journey)
Обзор трендов рекомендательных систем от Пульса, Андрей Мурашев (AI Journey)Обзор трендов рекомендательных систем от Пульса, Андрей Мурашев (AI Journey)
Обзор трендов рекомендательных систем от Пульса, Андрей Мурашев (AI Journey)Mail.ru Group
 
Мир глазами нейросетей, Данила Байгушев, Александр Сноркин ()
Мир глазами нейросетей, Данила Байгушев, Александр Сноркин ()Мир глазами нейросетей, Данила Байгушев, Александр Сноркин ()
Мир глазами нейросетей, Данила Байгушев, Александр Сноркин ()Mail.ru Group
 

Plus de Mail.ru Group (20)

Автоматизация без тест-инженеров по автоматизации, Мария Терехина и Владислав...
Автоматизация без тест-инженеров по автоматизации, Мария Терехина и Владислав...Автоматизация без тест-инженеров по автоматизации, Мария Терехина и Владислав...
Автоматизация без тест-инженеров по автоматизации, Мария Терехина и Владислав...
 
BDD для фронтенда. Автоматизация тестирования с Cucumber, Cypress и Jenkins, ...
BDD для фронтенда. Автоматизация тестирования с Cucumber, Cypress и Jenkins, ...BDD для фронтенда. Автоматизация тестирования с Cucumber, Cypress и Jenkins, ...
BDD для фронтенда. Автоматизация тестирования с Cucumber, Cypress и Jenkins, ...
 
Другая сторона баг-баунти-программ: как это выглядит изнутри, Владимир Дубровин
Другая сторона баг-баунти-программ: как это выглядит изнутри, Владимир ДубровинДругая сторона баг-баунти-программ: как это выглядит изнутри, Владимир Дубровин
Другая сторона баг-баунти-программ: как это выглядит изнутри, Владимир Дубровин
 
Использование Fiddler и Charles при тестировании фронтенда проекта pulse.mail...
Использование Fiddler и Charles при тестировании фронтенда проекта pulse.mail...Использование Fiddler и Charles при тестировании фронтенда проекта pulse.mail...
Использование Fiddler и Charles при тестировании фронтенда проекта pulse.mail...
 
Управление инцидентами в Почте Mail.ru, Антон Викторов
Управление инцидентами в Почте Mail.ru, Антон ВикторовУправление инцидентами в Почте Mail.ru, Антон Викторов
Управление инцидентами в Почте Mail.ru, Антон Викторов
 
DAST в CI/CD, Ольга Свиридова
DAST в CI/CD, Ольга СвиридоваDAST в CI/CD, Ольга Свиридова
DAST в CI/CD, Ольга Свиридова
 
Почему вам стоит использовать свой велосипед и почему не стоит Александр Бел...
Почему вам стоит использовать свой велосипед и почему не стоит  Александр Бел...Почему вам стоит использовать свой велосипед и почему не стоит  Александр Бел...
Почему вам стоит использовать свой велосипед и почему не стоит Александр Бел...
 
CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Масл...
CV в пайплайне распознавания ценников товаров: трюки и хитрости  Николай Масл...CV в пайплайне распознавания ценников товаров: трюки и хитрости  Николай Масл...
CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Масл...
 
RAPIDS: ускоряем Pandas и scikit-learn на GPU Павел Клеменков, NVidia
RAPIDS: ускоряем Pandas и scikit-learn на GPU  Павел Клеменков, NVidiaRAPIDS: ускоряем Pandas и scikit-learn на GPU  Павел Клеменков, NVidia
RAPIDS: ускоряем Pandas и scikit-learn на GPU Павел Клеменков, NVidia
 
WebAuthn в реальной жизни, Анатолий Остапенко
WebAuthn в реальной жизни, Анатолий ОстапенкоWebAuthn в реальной жизни, Анатолий Остапенко
WebAuthn в реальной жизни, Анатолий Остапенко
 
AMP для электронной почты, Сергей Пешков
AMP для электронной почты, Сергей ПешковAMP для электронной почты, Сергей Пешков
AMP для электронной почты, Сергей Пешков
 
Как мы захотели TWA и сделали его без мобильных разработчиков, Данила Стрелков
Как мы захотели TWA и сделали его без мобильных разработчиков, Данила СтрелковКак мы захотели TWA и сделали его без мобильных разработчиков, Данила Стрелков
Как мы захотели TWA и сделали его без мобильных разработчиков, Данила Стрелков
 
Кейсы использования PWA для партнерских предложений в Delivery Club, Никита Б...
Кейсы использования PWA для партнерских предложений в Delivery Club, Никита Б...Кейсы использования PWA для партнерских предложений в Delivery Club, Никита Б...
Кейсы использования PWA для партнерских предложений в Delivery Club, Никита Б...
 
Метапрограммирование: строим конечный автомат, Сергей Федоров, Яндекс.Такси
Метапрограммирование: строим конечный автомат, Сергей Федоров, Яндекс.ТаксиМетапрограммирование: строим конечный автомат, Сергей Федоров, Яндекс.Такси
Метапрограммирование: строим конечный автомат, Сергей Федоров, Яндекс.Такси
 
Как не сделать врагами архитектуру и оптимизацию, Кирилл Березин, Mail.ru Group
Как не сделать врагами архитектуру и оптимизацию, Кирилл Березин, Mail.ru GroupКак не сделать врагами архитектуру и оптимизацию, Кирилл Березин, Mail.ru Group
Как не сделать врагами архитектуру и оптимизацию, Кирилл Березин, Mail.ru Group
 
Этика искусственного интеллекта, Александр Кармаев (AI Journey)
Этика искусственного интеллекта, Александр Кармаев (AI Journey)Этика искусственного интеллекта, Александр Кармаев (AI Journey)
Этика искусственного интеллекта, Александр Кармаев (AI Journey)
 
Нейро-машинный перевод в вопросно-ответных системах, Федор Федоренко (AI Jour...
Нейро-машинный перевод в вопросно-ответных системах, Федор Федоренко (AI Jour...Нейро-машинный перевод в вопросно-ответных системах, Федор Федоренко (AI Jour...
Нейро-машинный перевод в вопросно-ответных системах, Федор Федоренко (AI Jour...
 
Конвергенция технологий как тренд развития искусственного интеллекта, Владими...
Конвергенция технологий как тренд развития искусственного интеллекта, Владими...Конвергенция технологий как тренд развития искусственного интеллекта, Владими...
Конвергенция технологий как тренд развития искусственного интеллекта, Владими...
 
Обзор трендов рекомендательных систем от Пульса, Андрей Мурашев (AI Journey)
Обзор трендов рекомендательных систем от Пульса, Андрей Мурашев (AI Journey)Обзор трендов рекомендательных систем от Пульса, Андрей Мурашев (AI Journey)
Обзор трендов рекомендательных систем от Пульса, Андрей Мурашев (AI Journey)
 
Мир глазами нейросетей, Данила Байгушев, Александр Сноркин ()
Мир глазами нейросетей, Данила Байгушев, Александр Сноркин ()Мир глазами нейросетей, Данила Байгушев, Александр Сноркин ()
Мир глазами нейросетей, Данила Байгушев, Александр Сноркин ()
 

Dernier

Introduction of Human Body & Structure of cell.pptx
Introduction of Human Body & Structure of cell.pptxIntroduction of Human Body & Structure of cell.pptx
Introduction of Human Body & Structure of cell.pptxMedical College
 
complex analysis best book for solving questions.pdf
complex analysis best book for solving questions.pdfcomplex analysis best book for solving questions.pdf
complex analysis best book for solving questions.pdfSubhamKumar3239
 
Unveiling the Cannabis Plant’s Potential
Unveiling the Cannabis Plant’s PotentialUnveiling the Cannabis Plant’s Potential
Unveiling the Cannabis Plant’s PotentialMarkus Roggen
 
linear Regression, multiple Regression and Annova
linear Regression, multiple Regression and Annovalinear Regression, multiple Regression and Annova
linear Regression, multiple Regression and AnnovaMansi Rastogi
 
BACTERIAL DEFENSE SYSTEM by Dr. Chayanika Das
BACTERIAL DEFENSE SYSTEM by Dr. Chayanika DasBACTERIAL DEFENSE SYSTEM by Dr. Chayanika Das
BACTERIAL DEFENSE SYSTEM by Dr. Chayanika DasChayanika Das
 
Environmental acoustics- noise criteria.pptx
Environmental acoustics- noise criteria.pptxEnvironmental acoustics- noise criteria.pptx
Environmental acoustics- noise criteria.pptxpriyankatabhane
 
Total Legal: A “Joint” Journey into the Chemistry of Cannabinoids
Total Legal: A “Joint” Journey into the Chemistry of CannabinoidsTotal Legal: A “Joint” Journey into the Chemistry of Cannabinoids
Total Legal: A “Joint” Journey into the Chemistry of CannabinoidsMarkus Roggen
 
BACTERIAL SECRETION SYSTEM by Dr. Chayanika Das
BACTERIAL SECRETION SYSTEM by Dr. Chayanika DasBACTERIAL SECRETION SYSTEM by Dr. Chayanika Das
BACTERIAL SECRETION SYSTEM by Dr. Chayanika DasChayanika Das
 
Science (Communication) and Wikipedia - Potentials and Pitfalls
Science (Communication) and Wikipedia - Potentials and PitfallsScience (Communication) and Wikipedia - Potentials and Pitfalls
Science (Communication) and Wikipedia - Potentials and PitfallsDobusch Leonhard
 
Loudspeaker- direct radiating type and horn type.pptx
Loudspeaker- direct radiating type and horn type.pptxLoudspeaker- direct radiating type and horn type.pptx
Loudspeaker- direct radiating type and horn type.pptxpriyankatabhane
 
Observational constraints on mergers creating magnetism in massive stars
Observational constraints on mergers creating magnetism in massive starsObservational constraints on mergers creating magnetism in massive stars
Observational constraints on mergers creating magnetism in massive starsSérgio Sacani
 
Probability.pptx, Types of Probability, UG
Probability.pptx, Types of Probability, UGProbability.pptx, Types of Probability, UG
Probability.pptx, Types of Probability, UGSoniaBajaj10
 
Environmental Acoustics- Speech interference level, acoustics calibrator.pptx
Environmental Acoustics- Speech interference level, acoustics calibrator.pptxEnvironmental Acoustics- Speech interference level, acoustics calibrator.pptx
Environmental Acoustics- Speech interference level, acoustics calibrator.pptxpriyankatabhane
 
GLYCOSIDES Classification Of GLYCOSIDES Chemical Tests Glycosides
GLYCOSIDES Classification Of GLYCOSIDES  Chemical Tests GlycosidesGLYCOSIDES Classification Of GLYCOSIDES  Chemical Tests Glycosides
GLYCOSIDES Classification Of GLYCOSIDES Chemical Tests GlycosidesNandakishor Bhaurao Deshmukh
 
ESSENTIAL FEATURES REQUIRED FOR ESTABLISHING FOUR TYPES OF BIOSAFETY LABORATO...
ESSENTIAL FEATURES REQUIRED FOR ESTABLISHING FOUR TYPES OF BIOSAFETY LABORATO...ESSENTIAL FEATURES REQUIRED FOR ESTABLISHING FOUR TYPES OF BIOSAFETY LABORATO...
ESSENTIAL FEATURES REQUIRED FOR ESTABLISHING FOUR TYPES OF BIOSAFETY LABORATO...Chayanika Das
 
Oxo-Acids of Halogens and their Salts.pptx
Oxo-Acids of Halogens and their Salts.pptxOxo-Acids of Halogens and their Salts.pptx
Oxo-Acids of Halogens and their Salts.pptxfarhanvvdk
 
Gas-ExchangeS-in-Plants-and-Animals.pptx
Gas-ExchangeS-in-Plants-and-Animals.pptxGas-ExchangeS-in-Plants-and-Animals.pptx
Gas-ExchangeS-in-Plants-and-Animals.pptxGiovaniTrinidad
 

Dernier (20)

Introduction of Human Body & Structure of cell.pptx
Introduction of Human Body & Structure of cell.pptxIntroduction of Human Body & Structure of cell.pptx
Introduction of Human Body & Structure of cell.pptx
 
complex analysis best book for solving questions.pdf
complex analysis best book for solving questions.pdfcomplex analysis best book for solving questions.pdf
complex analysis best book for solving questions.pdf
 
Unveiling the Cannabis Plant’s Potential
Unveiling the Cannabis Plant’s PotentialUnveiling the Cannabis Plant’s Potential
Unveiling the Cannabis Plant’s Potential
 
linear Regression, multiple Regression and Annova
linear Regression, multiple Regression and Annovalinear Regression, multiple Regression and Annova
linear Regression, multiple Regression and Annova
 
BACTERIAL DEFENSE SYSTEM by Dr. Chayanika Das
BACTERIAL DEFENSE SYSTEM by Dr. Chayanika DasBACTERIAL DEFENSE SYSTEM by Dr. Chayanika Das
BACTERIAL DEFENSE SYSTEM by Dr. Chayanika Das
 
Environmental acoustics- noise criteria.pptx
Environmental acoustics- noise criteria.pptxEnvironmental acoustics- noise criteria.pptx
Environmental acoustics- noise criteria.pptx
 
Total Legal: A “Joint” Journey into the Chemistry of Cannabinoids
Total Legal: A “Joint” Journey into the Chemistry of CannabinoidsTotal Legal: A “Joint” Journey into the Chemistry of Cannabinoids
Total Legal: A “Joint” Journey into the Chemistry of Cannabinoids
 
BACTERIAL SECRETION SYSTEM by Dr. Chayanika Das
BACTERIAL SECRETION SYSTEM by Dr. Chayanika DasBACTERIAL SECRETION SYSTEM by Dr. Chayanika Das
BACTERIAL SECRETION SYSTEM by Dr. Chayanika Das
 
Science (Communication) and Wikipedia - Potentials and Pitfalls
Science (Communication) and Wikipedia - Potentials and PitfallsScience (Communication) and Wikipedia - Potentials and Pitfalls
Science (Communication) and Wikipedia - Potentials and Pitfalls
 
Loudspeaker- direct radiating type and horn type.pptx
Loudspeaker- direct radiating type and horn type.pptxLoudspeaker- direct radiating type and horn type.pptx
Loudspeaker- direct radiating type and horn type.pptx
 
Observational constraints on mergers creating magnetism in massive stars
Observational constraints on mergers creating magnetism in massive starsObservational constraints on mergers creating magnetism in massive stars
Observational constraints on mergers creating magnetism in massive stars
 
Probability.pptx, Types of Probability, UG
Probability.pptx, Types of Probability, UGProbability.pptx, Types of Probability, UG
Probability.pptx, Types of Probability, UG
 
Environmental Acoustics- Speech interference level, acoustics calibrator.pptx
Environmental Acoustics- Speech interference level, acoustics calibrator.pptxEnvironmental Acoustics- Speech interference level, acoustics calibrator.pptx
Environmental Acoustics- Speech interference level, acoustics calibrator.pptx
 
GLYCOSIDES Classification Of GLYCOSIDES Chemical Tests Glycosides
GLYCOSIDES Classification Of GLYCOSIDES  Chemical Tests GlycosidesGLYCOSIDES Classification Of GLYCOSIDES  Chemical Tests Glycosides
GLYCOSIDES Classification Of GLYCOSIDES Chemical Tests Glycosides
 
ESSENTIAL FEATURES REQUIRED FOR ESTABLISHING FOUR TYPES OF BIOSAFETY LABORATO...
ESSENTIAL FEATURES REQUIRED FOR ESTABLISHING FOUR TYPES OF BIOSAFETY LABORATO...ESSENTIAL FEATURES REQUIRED FOR ESTABLISHING FOUR TYPES OF BIOSAFETY LABORATO...
ESSENTIAL FEATURES REQUIRED FOR ESTABLISHING FOUR TYPES OF BIOSAFETY LABORATO...
 
Oxo-Acids of Halogens and their Salts.pptx
Oxo-Acids of Halogens and their Salts.pptxOxo-Acids of Halogens and their Salts.pptx
Oxo-Acids of Halogens and their Salts.pptx
 
Introduction Classification Of Alkaloids
Introduction Classification Of AlkaloidsIntroduction Classification Of Alkaloids
Introduction Classification Of Alkaloids
 
Gas-ExchangeS-in-Plants-and-Animals.pptx
Gas-ExchangeS-in-Plants-and-Animals.pptxGas-ExchangeS-in-Plants-and-Animals.pptx
Gas-ExchangeS-in-Plants-and-Animals.pptx
 
Interferons.pptx.
Interferons.pptx.Interferons.pptx.
Interferons.pptx.
 
PLASMODIUM. PPTX
PLASMODIUM. PPTXPLASMODIUM. PPTX
PLASMODIUM. PPTX
 

Владимир Гулин, Mail.Ru Group, Learning to rank using clickthrough data

  • 1. Vladimir Gulin Learning to rank using clickthrough data
  • 2. 2 Search Engine Architecture 2 WEB CRAWLER INDEX BACKEND FRONTEND
  • 3. 3 What is ranking? 3  Main algorithm in search engine  Based on ML algorithms  Computes relevance score for query-document pair  The most kept secret of search companies Today ranking quality depends on  Evaluation of ranking quality  A method of Data Set construction  Features of search engine  ML algorithm
  • 4. 4 How to evaluate ranking quality? 4 Classical approach Classical Classical approach  Select set of queries 𝑄 = {𝑞1, 𝑞2, … , 𝑞|𝑄|} from logs  For each 𝑞 ∈ 𝑄 ∃ set of documents 𝑞 → 𝐷 = {𝑑1, 𝑑2, … , 𝑑 𝑁 𝑞 }  For each (𝑞, 𝑑) ask experts for mark ∈ {0,1,2,3,4,5} Discount Cumulative Gain 𝑫𝑪𝑮 = 𝟐 𝒓𝒆𝒍 𝒊 − 𝟏 log 𝟐 𝒊 + 𝟏 𝑁 𝑞 𝒊=𝟏𝒒∈𝑸
  • 5. 5 How to evaluate ranking quality with clickthrough data? 5 Evaluation with absolute metrics  Users were shown results from different rankings  Measure statistics about user responses • Abandonment rate • Reformulation rate • Position of first click • Time to first click • Etc. Evaluation using Paired Comparisons  Show a combination of results from 2 ranking  Infer relative preferences • Balanced interleaving • Team-draft interleaving • Etc.
  • 6. 6 Team-draft interleaving 6 SERP A 1. UrlA1 2. UrlA2 3. UrlA3 4. UrlA4 5. UrlA5 6. UrlA6 7. UrlA7 SERP B 1. UrlB1 2. UrlB2 3. UrlB3 4. UrlB4 5. UrlB5 6. UrlB6 7. UrlB7 SERP 1. UrlB1 2. UrlA1 3. UrlA2 4. UrlB2 5. UrlA3 6. UrlB3 7. UrlB4 ∆= 𝑤𝑖𝑛𝑠 𝐴 + 1 2 𝑡𝑖𝑒𝑠(𝐴,𝐵) 𝑤𝑖𝑛𝑠 𝐴 + 𝑤𝑖𝑛𝑠 𝐵 + 𝑡𝑖𝑒𝑠(𝐴,𝐵) - 0.5
  • 7. Learning to rank with classical approach 7 Learning to rank algorithms  Pointwise 𝐿 𝑓 𝑥 = (𝒇 𝒙𝒊 − 𝒓𝒆𝒍𝒊) 𝟐 𝑁 𝑞 𝒊=𝟏𝒒∈𝑸  Pairwise  Listwise Discount Cumulative Gain 𝑫𝑪𝑮 = 𝟐 𝒓𝒆𝒍 𝒊 − 𝟏 log 𝟐 𝒊 + 𝟏 𝑁 𝑞 𝒊=𝟏𝒒∈𝑸 → 𝒎𝒂𝒙 𝐿 𝑓 𝑥 = − log 𝑒 𝑓(𝑥 𝑖) 𝑒 𝑓(𝑥 𝑖) + 𝑒 𝑓(𝑥 𝑗) (𝒊,𝒋)𝒒∈𝑸 𝐿 𝑓 𝑥 = − 𝑒 𝑟𝑒𝑙 𝑗 𝑒 𝑟𝑒𝑙 𝑘 𝑁 𝑞 𝒌=𝟏 log 𝑒 𝑓(𝑥 𝑗) 𝑒 𝑓(𝑥 𝑘)𝑁 𝑞 𝒌=𝟏 𝑁 𝑞 𝒋=𝟏𝒒∈𝑸
  • 8. 8 Typical problems of the classical approach 8 Problems with documents  Search index is constantly changing we have to rebuild ranking model often. Problems with experts  Experts do mistakes  Group of experts not equal millions of users  Experts do not ask queries  We fit ranking for instructions(100 pages), not for users Problems with queries  Queries become irrelevant  Ratings always outdated
  • 9. 9 Advantages and disadvantages of clickthrough data 9 9 Expert judgements Clickthrough data Thousands per day Millions per day Expensive Cheap Low speed of obtaining High speed of obtaining Noisy data Extremely noisy data Fresh only at the moment of assessment Always fresh data Can evaluate any query (not always correct) Can’t evaluate queries that nobody asks in SE Judgements are biased Unbiased (in terms of our flow of queries)
  • 10. How we can use clickthrough data for optimizing TDI? 10 Simple approach SERP 1 SERP 2 vs From 2 rankings select only serps, that win on TDI experiment
  • 11. 11 Optimal SERP construction 11 11 Given  Query q  Set of documents for q 𝑞 → 𝐷 = {𝑑1, 𝑑2, … , 𝑑 𝑁 𝑞 }  User sessions with different permutations of docs from set D Idea  Let`s construct permutation (optimal permutation - OP) of docs that will win any other permutation of these documents in terms of TDI experiments in average
  • 12. 12 Information from user session 12 12 Example (Case 1) query q 1. url1 2. url2 3. url3 4. url4 5. url5 6. url6 7. url7 8. url8 9. url9 10. url10 CLICK What information have we received from this session?
  • 13. 13 Information from user session 13 13 Example (Case 1) query q 1. url1 2. url2 3. url3 4. url4 5. url5 6. url6 7. url7 8. url8 9. url9 10. url10 CLICK 𝑢𝑟𝑙1 > 𝑢𝑟𝑙2 𝑢𝑟𝑙3 𝑢𝑟𝑙4 𝑢𝑟𝑙5 𝑢𝑟𝑙6 𝑢𝑟𝑙7 𝑢𝑟𝑙8 𝑢𝑟𝑙9 𝑢𝑟𝑙10 Remark: It is obvious that it is possible to use more complex click model (CCM, DBN, etc.)
  • 14. 14 Information from user session 14 14 Example (Case 2) query q 1. url1 2. url2 3. url3 4. url4 5. url5 6. url6 7. url7 8. url8 9. url9 10. url10 What information have we received from this session? CLICK CLICK CLICK
  • 15. 15 Information from user session 15 15 Example (Case 2) query q 1. url1 2. url2 3. url3 4. url4 5. url5 6. url6 7. url7 8. url8 9. url9 10. url10 CLICK CLICK CLICK 𝑢𝑟𝑙2 > 𝑢𝑟𝑙1 𝑢𝑟𝑙3 𝑢𝑟𝑙5 𝑢𝑟𝑙6 𝑢𝑟𝑙7 𝑢𝑟𝑙9 𝑢𝑟𝑙10 𝑢𝑟𝑙4 > 𝑢𝑟𝑙1 𝑢𝑟𝑙3 𝑢𝑟𝑙5 𝑢𝑟𝑙6 𝑢𝑟𝑙7 𝑢𝑟𝑙9 𝑢𝑟𝑙10 𝑢𝑟𝑙8 > 𝑢𝑟𝑙1 𝑢𝑟𝑙3 𝑢𝑟𝑙5 𝑢𝑟𝑙6 𝑢𝑟𝑙7 𝑢𝑟𝑙9 𝑢𝑟𝑙10
  • 16. 16 Optimal SERP construction 16 16 Given  For query q aggregate partial relative relevance judgments from all users sessions query q (session 1) url1 > url2 url2 > url4 url1 > url5 …. query q (session 2) url4 > url5 url2 > url1 url3 > url5 …. query q (session 3) url4 > url5 url2 > url1 url5 > url2 …. query q (session k) url4 > url5 url2 > url1 url3 > url5 …. query q url4 > url5 (5 times) url2 > url1 (3 times) url5 > url2 (-7 times) ….
  • 17. 17 Optimal SERP construction 17 17 Given  Let`s find weights for each document for query q from system of linear equations query q url4 > url5 (5 times) url2 > url1 (3 times) url5 > url2 (-7 times) …. 𝑥4 − 𝑥5 = 5 𝑥2 − 𝑥1 = 3 𝑥5 − 𝑥2 = −7 ….
  • 18. 18 Optimal SERP construction 18 18 In common case  Add information about positions of docs query q url4 > url5 (5 times) url2 > url1 (3 times) url5 > url2 (-7 times) …. 𝛾(𝑝𝑜𝑠4)𝑥4 − 𝛾 𝑝𝑜𝑠5 𝑥5 = 𝜑(𝑝𝑜𝑠4, 𝑝𝑜𝑠5, 5) 𝛾(𝑝𝑜𝑠2)𝑥2 − 𝛾 𝑝𝑜𝑠1 𝑥1 = φ(pos1, pos2,3) 𝛾(𝑝𝑜𝑠5)𝑥5 − 𝛾 𝑝𝑜𝑠2 𝑥2 = φ(pos2, pos5,7) ….
  • 19. 19 Optimal SERP construction 19 19 Finally 𝜸 𝟏𝟏 𝒙 𝟏 − 𝜸 𝟏𝟐 𝒙 𝟐 = 𝝋 𝟏 …. 𝜸 𝟐𝟏 𝒙 𝟏 − 𝜸 𝟐𝟑 𝒙 𝟑 = 𝝋 𝟐 𝜸 𝑵𝑵 𝒒−𝟏 𝒙 𝑵 𝒒−𝟏 − 𝜸 𝑵𝑵 𝒒 𝒙 𝑵 𝒒 = 𝝋 𝑵 𝒀𝒙 = Ф Solution for x 𝒙 = (𝒀 𝑻 𝒀)−𝟏 𝒀 𝑻 Ф 𝒅𝒊𝒎(𝒀) = 𝑵 × 𝑵 𝒒 𝒅𝒊𝒎 𝒙 = 𝑵 𝒒 𝒅𝒊𝒎 Ф = 𝑵 𝑵 − 𝒏𝒖𝒎𝒃𝒆𝒓 𝒐𝒇 𝒑𝒂𝒓𝒕𝒊𝒂𝒍 𝒓𝒆𝒍𝒂𝒕𝒊𝒗𝒆 𝒋𝒖𝒅𝒈𝒎𝒆𝒏𝒕𝒔 𝑵 𝒒 − 𝒏𝒖𝒎𝒃𝒆𝒓 𝒐𝒇 𝒅𝒐𝒄𝒔 𝒇𝒐𝒓 𝒒𝒖𝒆𝒓𝒚 𝒒
  • 20. 20 Results 20 20  Computed Optimized Serps for 200000 most frequent queries (7% of flow of queries)  +14% quality for these frequent queries  +1% search quality  NOT BAD  Let`s try use Optimized Serps for machine learning to rank Amount of statistics
  • 21. 21 We have a problem … 21
  • 22. 22 Learning from top results 22 Problems with learning from top results (Example)
  • 23. 23 Learning from top results 23 Problems with learning from top results  Out of top there are many documents with quite another features distribution  In all documents word “barcelona” there is in title. Therefore feature, that describes availability words of query in title will be useless for this query. Solution  Let`s sample from set of unlabeled urls  We need sampling, because we can`t add all unlabeled data to training data ……… Urls, that should be on top Unlabeled urls
  • 24. 24 Semi-supervised learning to rank 24 Sampling from unlabeled urls ……… Unlabeled docs Build self organizing map Get one doc from each cluster Sampled url Sampled url Sampled url Sampled url Sampled url
  • 25. 25 Semi-supervised learning to rank 25 Add sampled docs as “irrelevant” to training set Sampled url Sampled url ……… Sampled url Unlabeled urlsFinal training data for query q
  • 26. Train data set Semi-supervised learning to rank 25 2626 Training data for query 𝑞1 Training data for query 𝑞2 Training data for query 𝑞|𝑄| ….. Optimized Serp urls Unlabeled urls (marked as irrelevant)
  • 28. Final Results 27  We received the automatic search improvement method  This method can learn improved ranking function without any explicit feedback from experts timeline TDI experiment with our old ranking, based on expert judgments 0 -0.01 0.01 0.02 0.03 0.04 0.05
  • 29. 29 Using clickthrough data for online learning to rank
  • 30. 30 Using clickthrough data for online learning to rank 29 Typical problems with new ranking formula construction  We need large dataset (5-10 millions points)  Usually we use active learning for obtaining this data  It is necessary about 10-15 iterations of active learning for obtaining new ranking formula with same quality as current model  We can`t use all available clickthrough data for training out ranking formula  Can we improve current formula using new clickthrough data?  Can we improve current formula using ALL new clickthrough data?
  • 31. 31 Typical ranking formula 30 Typical ranking formula specification  Ensemble of tens of thousands decision trees  Trained using gradient boosting algorithm
  • 32. 32 Idea 31 «Recognition is clusterization, and the role of supervisor is primarily to name clusters correct…» Geoffrey Hinton
  • 33. 33 Typical ranking formula 32 Typical ranking formula specification  Ranking formula can return only finite set of values  Each decision tree in ensemble contains only several predicates  Each query-document pair is described by aggregate of predicates of ensemble  Let`s use partition of multidimensional space generated by ranking formula as clustering  Let`s remap all clickthrough data on this clusterization
  • 34. 34 Online learning to rank 33 point point
  • 36. 36 Online learning to rank results 35 Online learning to rank  We get online learning to rank method  Method allows us to use ALL clickthrough feedback from users  We don`t need to retrain model  Method allows to actualize current ranking formula under current users behavior