SlideShare a Scribd company logo
1 of 86
Zoekmachines weten het antwoord
.. geen 10 blauwe links, maar feiten ..
.. de knowledge graph en andere semantiek ..
Eric Sieverts
VVBAD | Gent, 25 juni 2015
@sieverts
Google geeft steeds vaker concrete antwoorden
("direct answers") op onze zoekvragen
"liever een antwoord dan 10 blauwe links"
wat krijgt u liever?
of
dit
dat
eric sieverts, juni 20152
Credits original photo:
https://www.flickr.com/photos/celesteh/1660764786/
direct answers
uit presentatie op "SMX West" congres
(3-5 maart 2015, San Jose):
• Google geeft "direct answer" bij
 20% van de zoekvragen
maar:
kunnen we op die antwoorden vertrouwen?
hoe komen ze aan die antwoorden?
eric sieverts, juni 20153
4
vertrouwen we op Google's antwoord?
of willen we zelf antwoorden zoeken?
semantisch zoeken
het kunnen geven van concrete antwoorden
hangt direct samen met de ontwikkeling van
"semantische zoeksystemen"
wat moet computer daarvoor kunnen?
1. begrijpen wat de zoeker bedoelt
2. a) weten wat het antwoord is ("het staat klaar")
b) begrijpen wat documenten "bedoelen", zodat
daaruit antwoorden kunnen worden afgeleid
3. (als "next best") in de tien blauwe links
relevante context tonen
deze punten vormen de agenda voor vanmiddag
eric sieverts, juni 20156
semantisch zoeken
semantisch zoeken ≡ semantisch web
van het semantisch web zoals dat Tim Berners Lee in 2004 voor
ogen stond, zijn alleen pas wat losse bouwstenen gerealiseerd,
maar die helpen wel al bij "semantisch zoeken"
eric sieverts, juni 20157
semantisch
zoeken
semantisch
web
entiteiten
ontologieën
metadata
….
8
9
10
semantisch zoeken
terug naar de 2 aspecten van semantisch zoeken
1. wat bedoelt de zoeker met zijn zoekvraag?
"not strings but things"
– wat is betekenis van gebruikte zoekwoorden (dubbelzinnigheden?)
– wat is bedoeling/intentie van de zoeker
 om concreet antwoord te kunnen geven,
in plaats van lijstje met "ten blue links"
2. wat is betekenis van content in webpagina's
 ten behoeve van die concrete antwoorden
 om toch ook in de "ten blue links" relevante extra informatie te
kunnen tonen
eric sieverts, juni 201511
intentie van de zoeker
1. bepalen van bedoeling / intentie van de zoeker
– uit locatie van de zoeker
– globaal:
op basis van internetdomein waar gebruiker zit (ip-adres)
op google.be krijg je ander antwoord dan op google.nl of google.com
– heel precies:
op basis van bekende gps- of gsm-gegevens (mobiel)
bijv.: zoekt mobiel in buurt van de Rozengracht naar “pizza”
>> adres van pizzeria in de buurt
– uit gebruikt apparaat
– op desktop krijg je (vaak) ander antwoord dan op mobieltje
– uit eerder zoekgedrag van de zoeker
– door analyse van de zoekvraag
– ...
12 eric sieverts, juni 2015
intentie van de zoeker
1. bepalen van bedoeling / intentie van de zoeker
– uit locatie van de zoeker
– uit gebruikt apparaat
– uit eerder zoekgedrag van de zoeker
– wat voor zoekvragen stelde gebruiker eerder
– naar welke resultaten keek gebruiker dan
bijvoorbeeld al toegepast in Google's personalisatie van
relevance ranking;
de opgeslagen "web history" is ook al "big data"
– door analyse van de zoekvraag
– ...
13 eric sieverts, juni 2015
intentie van de zoeker
1. bepalen van bedoeling / intentie van de zoeker
– uit locatie van de zoeker
– uit gebruikt apparaat
– uit eerder zoekgedrag van de zoeker
– door analyse van de zoekvraag
– door herkennen van "entiteiten" in de vraag
bijv.: "Parijs" is een stad (waarover feiten beschikbaar zijn)
 naam van persoon, bedrijf, product, gebeurtenis, … >> feiten
 naam van gewoon persoon >> facebook / linked-in gegevens
– herkent vaste combinaties van woorden
– natuurlijke taal interpretatie
– uit algemene statistiek van zoekvragen
bijv.: wie "bach" zoekt bedoelt 95% zeker "Johann Sebastian"
14 eric sieverts, juni 2015
wolfram|alpha
Google
Knowledge
Graph
~ Google
content van webpagina
2. bepalen van betekenis van content in webpagina's
<op enkele punten kom ik later nog terug>
– herkennen van entiteiten in de tekst
bijv.: namen van personen, bedrijven, steden, producten, ...
– gebruik van metadata/codering volgens ontologieën
bijv.: informatie gecodeerd met begrippen uit schema.org ontologie
– uit (variabele) structuur van beschikbare informatie
bijv.: herkennen van tabellen, kenmerk-waarde koppels, ....
– uit (vaste) structuur van beschikbare informatie
bijv.: gestructureerd opgeslagen kenmerken in Facebook
– automatisch herkennen van betekenis/onderwerp uit hele tekst
bijv.: door "machine learning" getraind op vaste concepten
– koppelen aan data uit andere bronnen
bijv.: via linked (open) data
– ...
15 eric sieverts, juni 2015
Wie op “Bach” zoekt, vindt vermoedelijk liever
gegevens over hem dan websites over hem.
Google's Knowledge Graph kent >500 miljoen
objecten met >3,5 miljard kenmerken
16
gegevens o.a. afkomstig uit:
Freebase (crowdsourced kennisbank),
Wikipedia (dbpedia), CIA World factbook,
Wikidata, analyse van gegevens op web
wat is in dit verband een "graph"?
 een netwerk van al die concepten met
hun onderlinge relaties en kenmerken
17
tripels
al die informatie wordt in feite opgeslagen als "tripels" (later meer)
L. Da Vinci schilderde Mona Lisa
J.S. Bach geboren op 31-03-1685
J.S. Bach geboren in Eisenach
Eisenach ligt in Duitsland
C.P.E. Bach kind van J.S. Bach
18 eric sieverts, juni 2015
knowledge cards
• dit soort gegevens die bij een
persoon/object/entiteit horen,
worden gecombineerd in
"knowledge cards"
• die knowledge cards
verschijnen - zoals bij het
eerdere voorbeeld van Bach -
rechts naast het gewone
zoekresultaat
19 eric sieverts, juni 2015
maar niets over
de diefstal ….
20 eric sieverts, juni 2015
21 eric sieverts, juni 2015
generieke
vragen
leveren
"carousel"
22 eric sieverts, juni 2015
23 eric sieverts, juni 2015
eric sieverts, juni 201524
25
eric sieverts, juni 201526
eric sieverts, juni 201527
eric sieverts, juni 201528
eric sieverts, juni 201529
30 eric sieverts, juni 2015
soms verschijnt ook
feitelijk antwoord
(eveneens een "tripel")
boven de gewone
zoekresultaten
31
eric sieverts, juni 201532
33
34
35 eric sieverts, juni 2015
daarbij wordt ook
d.m.v. natuurlijke taal
technieken herkend
wat er gevraagd /
bedoeld wordt
36 eric sieverts, juni 2015
in werkelijkheid varieert die afstand dus tussen
ongeveer 356.000 en 407.000 km
[bron: NASA - via Wikipedia]
dus dat cijfer op 4 decimalen nauwkeurig is
eigenlijk onzin (hoewel dat ook uit de Wikipedia komt)
maar:
eric sieverts, juni 201537
38 eric sieverts, juni 2015
ook wordt (soms)
herkend als je dingen
wilt vergelijken en
worden relevante
gegevens in een tabel
gezet
39 eric sieverts, juni 2015
antwoord is
geen feit uit
Knowl. Graph,
maar tekst uit
web-pagina
40
??
eric sieverts, juni 201541
eric sieverts, juni 2015
Oeps ....
42
43
soms extra
informatie
bij specifieke
resultaten
knowledge vault
• inhoud van "knowledge graph" komt uit gecontroleerde
gestructureerde bronnen als wikipedia/dbpedia, freebase, …
• in "knowledge vault" wordt dat uitgebreid met gegevens die
uit allerlei webpagina's worden onttrokken (ook als tripels)
44 eric sieverts, juni 2015
This paper
[http://www.cs.cmu.edu/~nlao/publication/2014.kdd.pdf]
published by Google goes into more detail about the concepts
behind the Knowledge Vault, citing three major components:
Extractors: These systems extract triples from a huge number of
Web sources. Each extractor assigns a confidence score to an
extracted triple, representing uncertainty about the identity of
the relation and its corresponding arguments.
Graph-based priors: These systems learn the probability of each
possible triple, based on triples scored in an existing KB
(knowledge base).
Knowledge fusion: This system computes the probability of a
triple being true, based on agreement between different
extractors and priors
45
Google tables
zoeken naar/in tabellen
https://research.google.com/tables
zie ook:
"Applying WebTables in Practice"
http://www.cidrdb.org/cidr2015/
Papers/CIDR15_Paper3.pdf
google heeft een
speciaal tool voor
herkennen van
tabellen en om
daaraan gegevens
te ontlenen
- ook publiekelijk
beschikbaar
46
voorbeelden:
huis
Pittsburg
oppervlak
# inwoners
4849 sqft
334.563
uitwikipedia
eric sieverts, juni 201547
Bing heeft zijn "Entity Engine" (Snapshots)
maar die reageert vaak nog wat minder
slim op combinaties van woorden
48
... en alleen bij landeninstelling
"Verenigde Staten"
49
en nog meer …
er zijn nog meer (semantische) zoeksystemen
die proberen concrete antwoorden te geven
een paar voorbeelden:
• wolfram|alpha
• kngine
• cluuz
• sensebot
• …..
50 eric sieverts, juni 2015
eric sieverts, juni 201551
hoe doen reguliere zoekmachines en
gespecialiseerde semantische systemen
het bij inhoudelijke vragen
"how many people live in Paris ?"
52
53
hoe doen reguliere zoekmachines en
gespecialiseerde semantische systemen
het bij inhoudelijke vragen?
"how many plays wrote Shakespeare ?"
54
"how many plays wrote
Shakespeare ?"
55
"how many plays wrote
Shakespeare ?"
56
"who won the 1992
Nobel Peace Prize ?"
hoe doen reguliere zoekmachines en
gespecialiseerde semantische systemen
het bij inhoudelijke vragen?
"who won the 1992 Nobel Peace Prize ?"
57
"who won the 1992
Nobel Peace Prize ?"
resource description framework
RDF = resource description framework
RDF is standaard voor het beschrijven van de relatie tussen een
resource (of een object) en zijn metadata
• eigenschappen (metadata) worden vastgelegd in zogenaamde
tripels: subject <predicaat> object
(wat je ook zou mogen noemen : ding <eigenschap> waarde )
• waarbij
– te beschrijven ding een webadres (URI) heeft
– eigenschap van dat ding liefst ook een URI heeft
– "waarde" van die eigenschap liefst ook een URI heeft
• voorbeeld:
– boek (heeft een webadres: URI)
– heeft auteur (betekenis van eigenschap ergens beschreven: URI)
– persoon (gegevens van persoon ergens op web te vinden: URI)
58
intermezzo
RDF-tripels
eric sieverts, juni 2015
rdf tripels grafisch weergegeven
subject <predicaat> object
doc1 <heeft auteur> auth1
auth1 <heeft naam> john smith
auth1 <heeft affiliatie> home inc.
auth1 <heeft email> smith@home.com
grafische representatie van
simpel netwerk van 4 RDF-tripels
59
intermezzo
RDF-tripels
eric sieverts, juni 2015
rdf tripels
60
naar idee van
Lucas Koster / IP
"Uit Berlijn"
boek
Uit Berlijn
"Armando"
Schuldig
landschap
http://www.worldcat.org/oclc/10098995
http://www.w3.org/1999/02/22-rdf-syntax-ns#type
http://xmlns.com/foaf/spec/#term_name
http://viaf.org/viaf/9885610/
http://hdl.handle.net/10934/RM0001.COLLECT.496040
http://purl.org/dc/terms/creator
http://purl.org/dc/terms/creator
http://schema.org/Book
Armando
http://purl.org/dc/terms/title
intermezzo
RDF-tripels
eric sieverts, juni 2015
rdf tripels
• RDF is bedoeld om bestaande semantische systemen te
(her)gebruiken en te combineren
• RDF wordt meestal in XML- of JSON-notatie weergegeven
• RDFa = “RDF in attributes” , verwerkt metadata in de inhoud van
(X)HTML webpagina’s (als attributen van HTML-codes)
• RDF-tripels worden ook gebruikt in "linked data"
• ze worden opgeslagen in zogenaamde triple-stores
61
intermezzo
RDF-tripels
eric sieverts, juni 2015
nog even terug …
2. bepalen van betekenis van content in webpagina's
– herkennen van entiteiten in de tekst
– gebruik van metadata/codering volgens ontologieën
"betekenis vooraf gekarakteriseerd"
bijv.: informatie gecodeerd met begrippen uit schema.org ontologie
– uit (variabele) structuur van beschikbare informatie
"betekenis achteraf afgeleid / geraden"
bijv.: herkennen van tabellen, kenmerk-waarde koppels, ....
– uit (vaste) structuur van beschikbare informatie
bijv.: gestructureerd opgeslagen kenmerken in Facebook
– automatisch herkennen van betekenis/onderwerp uit hele tekst
– koppelen aan data uit andere bronnen
– ...
62 eric sieverts, juni 2015
semantische codering
gestandaardiseerde markering van kenmerken in
webpagina's - "semantic markup"
voorbeeld van zulke "embedded metadata":
– recipe search bij Google en Yahoo
daarbij gebruikte standaarden:
– rich snippet markup / schema.org
(Google, Yahoo, Bing, Yandex)
onder andere voor: recepten, recencies, personen,
producten, organisaties, gebeurtenissen, muziek
– RDFa / microdata /Json
63 eric sieverts, juni 2015
64
eric sieverts, juni 2015
schema.org
65
standaard (metadata/ontologie?) voor karakteriseren van content in webpagina
66
+ nu ook
Yandex
67
eric sieverts, juni 201568
voorbeeld van
codering met
restaurant
metadata
(zoals gebruikt
door o.a. IENS)
zoals in HTML gecodeerd volgens microdata standaard
gevolg voor Google zoekresultaat
69
schema.org
recept-metadata
volgens microdata
standaard in
HTML gecodeerd
70
wat heeft zoeker eraan?
• zoeker kan gerichter zoeken en filteren
(zoals in Google's receptenzoeker)
• zoeker krijgt duidelijker informatie over gevonden
items in zijn 10 blue links
(zoals Google's rich snippets)
waarom en hoe?
• toepassing van deze technieken is vaak "SEO-driven"
( >> betere vindbaarheid; hogere ranking)
• zie bijvoorbeeld blogposts van Barbara Starr op SearchEngineLand:
http://searchengineland.com/see-
entities-web-page-tools-help-194710
http://searchengineland.com/5-ways-
optimize-markup-knowledge-graph-
semantic-search-186755
http://searchengineland.com/how-to-
use-rich-snippets-semantic-markup-
to-send-rich-signals-139886
eric sieverts, juni 20157272
metadata tools
er zijn handige tools die analyse maken van in webpagina
aanwezige metadata volgens microdata of RDFa standaard
http://searchengineland.com/see-entities-web-page-tools-help-194710
• Extensions voor Chrome browser:
https://chrome.google.com/webstore/category/extensions
• Google's "webmaster structured data testing tool":
https://developers.google.com/structured-data/testing-tool/
73 eric sieverts, juni 2015
74
wat biedt schema.org voor bibliotheken
• voor bibliotheken als organisatie alleen generieke zaken
(adressen, openingstijden, rating, ...)
 kan in rich snippets en in “knowledge card” terechtkomen
eric sieverts, juni 201577
• wordt nog weinig toegepast
• alleen generiekere kenmerken
wat biedt schema.org voor bibliotheken
• van bibliotheken die ik uitprobeerde bleek alleen de British
Library beperkt gebruik te maken van organisatiegegevens
eric sieverts, juni 201579
wat biedt schema.org voor bibliotheken
• voor materiaal van bibliotheken wel al veel mogelijkheden
• OCLC gebruikt schema.org om metadata uit WorldCat als
Linked Data beschikbaar te stellen
zie ook OCLC Webinar
"Library Linked Data in the Cloud"
n.a.v. hun boek hierover
 afhankelijk van zoekmachine-policy welke gegevens ze
op enig moment als rich-snippets in resultaatpagina's
(SERP) tonen
eric sieverts, juni 201580
materiaalsoorten voor bibliotheken vind je
onder "creative works"
81
• sommige wel al veel toegepast
schema.org (e.a.) als linked data in worldcat
eric sieverts, mei 201483
84
twee conclusies
1. ook al geven zoekmachines concrete antwoorden,
informatievaardigheid blijft van belang
 voor het beoordelen van de kwaliteit van die antwoorden
(en van de daarvoor gebruikte bronnen)
 om daartoe ook nog steeds de beste "10 blue links" te vinden
(en liefst ook meer dan 10)
2. semantisch coderen in webpagina's (met bijv. schema.org)
wordt ook voor bibliotheken van belang
 voor makkelijker herkenning van relevante gegevens in de "SERP"
 omdat het een rol speelt bij ranking / SEO (dus voor vindbaarheid)
 maar haak aan bij / laat over aan grote spelers die het toch al doen
eric sieverts, juni 201585
any questions ?

More Related Content

Viewers also liked

スナック感覚で楽しめる和菓子
スナック感覚で楽しめる和菓子スナック感覚で楽しめる和菓子
スナック感覚で楽しめる和菓子stucon
 
digital marketing certificate programs in Bangalore
digital marketing certificate programs in Bangaloredigital marketing certificate programs in Bangalore
digital marketing certificate programs in Bangalorevinuthna58
 
Staying Productive On the Road, At Home, and Everywhere Else
Staying Productive On the Road, At Home, and Everywhere ElseStaying Productive On the Road, At Home, and Everywhere Else
Staying Productive On the Road, At Home, and Everywhere ElseLinkedIn Learning Solutions
 
Introduction to National Supercomputer center in Tianjin TH-1A Supercomputer
Introduction to National Supercomputer center in Tianjin TH-1A SupercomputerIntroduction to National Supercomputer center in Tianjin TH-1A Supercomputer
Introduction to National Supercomputer center in Tianjin TH-1A SupercomputerFörderverein Technische Fakultät
 
Nuevas tecnologías de TV y su desarrollo e implementación en la Argentina
Nuevas tecnologías de TV y su desarrollo e implementación en la ArgentinaNuevas tecnologías de TV y su desarrollo e implementación en la Argentina
Nuevas tecnologías de TV y su desarrollo e implementación en la ArgentinaLuis Valle
 
Antisocial powerpoin txxxx
Antisocial powerpoin txxxxAntisocial powerpoin txxxx
Antisocial powerpoin txxxxMilen Ramos
 
Tech Vision 2015 Trend 1: Internet of me
Tech Vision 2015 Trend 1: Internet of meTech Vision 2015 Trend 1: Internet of me
Tech Vision 2015 Trend 1: Internet of meaccenture
 
10 more lessons learned from building Machine Learning systems - MLConf
10 more lessons learned from building Machine Learning systems - MLConf10 more lessons learned from building Machine Learning systems - MLConf
10 more lessons learned from building Machine Learning systems - MLConfXavier Amatriain
 
Getting Information through HTML Forms
Getting Information through HTML FormsGetting Information through HTML Forms
Getting Information through HTML FormsMike Crabb
 
งานสัปดาห์ที่3-กานต์รวี
งานสัปดาห์ที่3-กานต์รวีงานสัปดาห์ที่3-กานต์รวี
งานสัปดาห์ที่3-กานต์รวีkanrav
 
Emocionalna inteligencija
Emocionalna inteligencijaEmocionalna inteligencija
Emocionalna inteligencijajcrnogorac
 
Deel communicatiebudget FOD Justitie ging naar hotel
Deel communicatiebudget FOD Justitie ging naar hotelDeel communicatiebudget FOD Justitie ging naar hotel
Deel communicatiebudget FOD Justitie ging naar hotelThierry Debels
 
Interesting facts about the grand canyon
Interesting facts about the grand canyonInteresting facts about the grand canyon
Interesting facts about the grand canyonAustin Gratham
 

Viewers also liked (17)

ㅣㅣ
ㅣㅣㅣㅣ
ㅣㅣ
 
スナック感覚で楽しめる和菓子
スナック感覚で楽しめる和菓子スナック感覚で楽しめる和菓子
スナック感覚で楽しめる和菓子
 
digital marketing certificate programs in Bangalore
digital marketing certificate programs in Bangaloredigital marketing certificate programs in Bangalore
digital marketing certificate programs in Bangalore
 
Staying Productive On the Road, At Home, and Everywhere Else
Staying Productive On the Road, At Home, and Everywhere ElseStaying Productive On the Road, At Home, and Everywhere Else
Staying Productive On the Road, At Home, and Everywhere Else
 
Introduction to National Supercomputer center in Tianjin TH-1A Supercomputer
Introduction to National Supercomputer center in Tianjin TH-1A SupercomputerIntroduction to National Supercomputer center in Tianjin TH-1A Supercomputer
Introduction to National Supercomputer center in Tianjin TH-1A Supercomputer
 
Nuevas tecnologías de TV y su desarrollo e implementación en la Argentina
Nuevas tecnologías de TV y su desarrollo e implementación en la ArgentinaNuevas tecnologías de TV y su desarrollo e implementación en la Argentina
Nuevas tecnologías de TV y su desarrollo e implementación en la Argentina
 
Antisocial powerpoin txxxx
Antisocial powerpoin txxxxAntisocial powerpoin txxxx
Antisocial powerpoin txxxx
 
Natureview frame
Natureview frameNatureview frame
Natureview frame
 
Tech Vision 2015 Trend 1: Internet of me
Tech Vision 2015 Trend 1: Internet of meTech Vision 2015 Trend 1: Internet of me
Tech Vision 2015 Trend 1: Internet of me
 
Paris ML meetup
Paris ML meetupParis ML meetup
Paris ML meetup
 
10 more lessons learned from building Machine Learning systems - MLConf
10 more lessons learned from building Machine Learning systems - MLConf10 more lessons learned from building Machine Learning systems - MLConf
10 more lessons learned from building Machine Learning systems - MLConf
 
Getting Information through HTML Forms
Getting Information through HTML FormsGetting Information through HTML Forms
Getting Information through HTML Forms
 
งานสัปดาห์ที่3-กานต์รวี
งานสัปดาห์ที่3-กานต์รวีงานสัปดาห์ที่3-กานต์รวี
งานสัปดาห์ที่3-กานต์รวี
 
SMK PROFITA BANDUNG
SMK PROFITA BANDUNG SMK PROFITA BANDUNG
SMK PROFITA BANDUNG
 
Emocionalna inteligencija
Emocionalna inteligencijaEmocionalna inteligencija
Emocionalna inteligencija
 
Deel communicatiebudget FOD Justitie ging naar hotel
Deel communicatiebudget FOD Justitie ging naar hotelDeel communicatiebudget FOD Justitie ging naar hotel
Deel communicatiebudget FOD Justitie ging naar hotel
 
Interesting facts about the grand canyon
Interesting facts about the grand canyonInteresting facts about the grand canyon
Interesting facts about the grand canyon
 

Similar to Zoekmachines weten het antwoord

Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...
Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...
Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...Eric Sieverts
 
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Eric Sieverts
 
semantischzoeken-2013.ppt
semantischzoeken-2013.pptsemantischzoeken-2013.ppt
semantischzoeken-2013.pptvoginip
 
40 jaar informatiegebruik
40 jaar informatiegebruik40 jaar informatiegebruik
40 jaar informatiegebruikEric Sieverts
 
Vinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadataVinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadataEric Sieverts
 
Een andere blik op Google
Een andere blik op GoogleEen andere blik op Google
Een andere blik op GoogleEric Sieverts
 
Wij zullen vinden - ook in 2023
Wij zullen vinden - ook in 2023Wij zullen vinden - ook in 2023
Wij zullen vinden - ook in 2023Eric Sieverts
 
Automatische classificatie
Automatische classificatieAutomatische classificatie
Automatische classificatieEric Sieverts
 
UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?Eric Sieverts
 
Een digitale bibliotheek of alleen Google?
Een digitale bibliotheek of alleen Google?Een digitale bibliotheek of alleen Google?
Een digitale bibliotheek of alleen Google?Eric Sieverts
 
Semantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstestSemantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstestvoginip
 
Knowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspuntenKnowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspuntenChristophe Debruyne
 
Daan Odijk | Semantic Search ContentCafé #11
Daan Odijk | Semantic Search ContentCafé #11Daan Odijk | Semantic Search ContentCafé #11
Daan Odijk | Semantic Search ContentCafé #11ContentCafé
 
Haal alles uit_google_v2
Haal alles uit_google_v2Haal alles uit_google_v2
Haal alles uit_google_v2Jan de Waal
 
Zoekmachinemarketing
Zoekmachinemarketing Zoekmachinemarketing
Zoekmachinemarketing voginip
 
Webwijsheid juni 2014 Workshop landelijke onderwijsdag vmbo & mbo Techniek
Webwijsheid juni 2014 Workshop landelijke onderwijsdag vmbo & mbo TechniekWebwijsheid juni 2014 Workshop landelijke onderwijsdag vmbo & mbo Techniek
Webwijsheid juni 2014 Workshop landelijke onderwijsdag vmbo & mbo TechniekMediaprofiel ❖
 
Webwijsheid juni 2014 Workshop Onderwijsdag vmbo & mbo techniek
Webwijsheid juni 2014 Workshop Onderwijsdag vmbo & mbo techniekWebwijsheid juni 2014 Workshop Onderwijsdag vmbo & mbo techniek
Webwijsheid juni 2014 Workshop Onderwijsdag vmbo & mbo techniekMarielle van Rijn
 

Similar to Zoekmachines weten het antwoord (20)

Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...
Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...
Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...
 
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
 
semantischzoeken-2013.ppt
semantischzoeken-2013.pptsemantischzoeken-2013.ppt
semantischzoeken-2013.ppt
 
40 jaar informatiegebruik
40 jaar informatiegebruik40 jaar informatiegebruik
40 jaar informatiegebruik
 
Vinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadataVinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadata
 
Een andere blik op Google
Een andere blik op GoogleEen andere blik op Google
Een andere blik op Google
 
Wij zullen vinden - ook in 2023
Wij zullen vinden - ook in 2023Wij zullen vinden - ook in 2023
Wij zullen vinden - ook in 2023
 
Automatische classificatie
Automatische classificatieAutomatische classificatie
Automatische classificatie
 
UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?UBU 3.0: semantisch web & linked data voor de UB?
UBU 3.0: semantisch web & linked data voor de UB?
 
Een digitale bibliotheek of alleen Google?
Een digitale bibliotheek of alleen Google?Een digitale bibliotheek of alleen Google?
Een digitale bibliotheek of alleen Google?
 
Semantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstestSemantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstest
 
Knowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspuntenKnowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspunten
 
Daan Odijk | Semantic Search ContentCafé #11
Daan Odijk | Semantic Search ContentCafé #11Daan Odijk | Semantic Search ContentCafé #11
Daan Odijk | Semantic Search ContentCafé #11
 
Full presentation LOD Masterclass ESI HHS PZH Kadaster
Full presentation LOD Masterclass ESI HHS PZH KadasterFull presentation LOD Masterclass ESI HHS PZH Kadaster
Full presentation LOD Masterclass ESI HHS PZH Kadaster
 
Haal alles uit_google_v2
Haal alles uit_google_v2Haal alles uit_google_v2
Haal alles uit_google_v2
 
Webwijsheid def.workshop
Webwijsheid def.workshopWebwijsheid def.workshop
Webwijsheid def.workshop
 
Vinden Of Zoeken
Vinden Of ZoekenVinden Of Zoeken
Vinden Of Zoeken
 
Zoekmachinemarketing
Zoekmachinemarketing Zoekmachinemarketing
Zoekmachinemarketing
 
Webwijsheid juni 2014 Workshop landelijke onderwijsdag vmbo & mbo Techniek
Webwijsheid juni 2014 Workshop landelijke onderwijsdag vmbo & mbo TechniekWebwijsheid juni 2014 Workshop landelijke onderwijsdag vmbo & mbo Techniek
Webwijsheid juni 2014 Workshop landelijke onderwijsdag vmbo & mbo Techniek
 
Webwijsheid juni 2014 Workshop Onderwijsdag vmbo & mbo techniek
Webwijsheid juni 2014 Workshop Onderwijsdag vmbo & mbo techniekWebwijsheid juni 2014 Workshop Onderwijsdag vmbo & mbo techniek
Webwijsheid juni 2014 Workshop Onderwijsdag vmbo & mbo techniek
 

More from Eric Sieverts

Searching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowSearching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowEric Sieverts
 
Information Retrieval: van specialisme tot commodity
Information Retrieval: van specialisme tot commodityInformation Retrieval: van specialisme tot commodity
Information Retrieval: van specialisme tot commodityEric Sieverts
 
Searching the internet - better with Google / Google not always best
Searching the internet - better with Google / Google not always bestSearching the internet - better with Google / Google not always best
Searching the internet - better with Google / Google not always bestEric Sieverts
 
Searching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowSearching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowEric Sieverts
 
Zin en onzin van metadata
Zin en onzin van metadataZin en onzin van metadata
Zin en onzin van metadataEric Sieverts
 
Metadata, standaarden, interoperabiliteit, semantisch web en linked data
Metadata, standaarden, interoperabiliteit, semantisch web en linked dataMetadata, standaarden, interoperabiliteit, semantisch web en linked data
Metadata, standaarden, interoperabiliteit, semantisch web en linked dataEric Sieverts
 
A pair of shoes in the thesaurus; some reflexions on human and computer indexing
A pair of shoes in the thesaurus; some reflexions on human and computer indexingA pair of shoes in the thesaurus; some reflexions on human and computer indexing
A pair of shoes in the thesaurus; some reflexions on human and computer indexingEric Sieverts
 
Project Panorama: vistas on validated information
Project Panorama: vistas on validated informationProject Panorama: vistas on validated information
Project Panorama: vistas on validated informationEric Sieverts
 
Lifehacking met RSS en Netvibes? De strijd tegen informatie overload
Lifehacking met RSS en Netvibes? De strijd tegen informatie overloadLifehacking met RSS en Netvibes? De strijd tegen informatie overload
Lifehacking met RSS en Netvibes? De strijd tegen informatie overloadEric Sieverts
 
UBU-2.0 : allesopeenrijtje-2.0
UBU-2.0 : allesopeenrijtje-2.0UBU-2.0 : allesopeenrijtje-2.0
UBU-2.0 : allesopeenrijtje-2.0Eric Sieverts
 

More from Eric Sieverts (11)

Searching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowSearching the internet - what patent searchers should know
Searching the internet - what patent searchers should know
 
Information Retrieval: van specialisme tot commodity
Information Retrieval: van specialisme tot commodityInformation Retrieval: van specialisme tot commodity
Information Retrieval: van specialisme tot commodity
 
Searching the internet - better with Google / Google not always best
Searching the internet - better with Google / Google not always bestSearching the internet - better with Google / Google not always best
Searching the internet - better with Google / Google not always best
 
Searching the internet - what patent searchers should know
Searching the internet - what patent searchers should knowSearching the internet - what patent searchers should know
Searching the internet - what patent searchers should know
 
Zin en onzin van metadata
Zin en onzin van metadataZin en onzin van metadata
Zin en onzin van metadata
 
Metadata, standaarden, interoperabiliteit, semantisch web en linked data
Metadata, standaarden, interoperabiliteit, semantisch web en linked dataMetadata, standaarden, interoperabiliteit, semantisch web en linked data
Metadata, standaarden, interoperabiliteit, semantisch web en linked data
 
Searchtrends
SearchtrendsSearchtrends
Searchtrends
 
A pair of shoes in the thesaurus; some reflexions on human and computer indexing
A pair of shoes in the thesaurus; some reflexions on human and computer indexingA pair of shoes in the thesaurus; some reflexions on human and computer indexing
A pair of shoes in the thesaurus; some reflexions on human and computer indexing
 
Project Panorama: vistas on validated information
Project Panorama: vistas on validated informationProject Panorama: vistas on validated information
Project Panorama: vistas on validated information
 
Lifehacking met RSS en Netvibes? De strijd tegen informatie overload
Lifehacking met RSS en Netvibes? De strijd tegen informatie overloadLifehacking met RSS en Netvibes? De strijd tegen informatie overload
Lifehacking met RSS en Netvibes? De strijd tegen informatie overload
 
UBU-2.0 : allesopeenrijtje-2.0
UBU-2.0 : allesopeenrijtje-2.0UBU-2.0 : allesopeenrijtje-2.0
UBU-2.0 : allesopeenrijtje-2.0
 

Zoekmachines weten het antwoord

  • 1. Zoekmachines weten het antwoord .. geen 10 blauwe links, maar feiten .. .. de knowledge graph en andere semantiek .. Eric Sieverts VVBAD | Gent, 25 juni 2015 @sieverts
  • 2. Google geeft steeds vaker concrete antwoorden ("direct answers") op onze zoekvragen "liever een antwoord dan 10 blauwe links" wat krijgt u liever? of dit dat eric sieverts, juni 20152
  • 3. Credits original photo: https://www.flickr.com/photos/celesteh/1660764786/ direct answers uit presentatie op "SMX West" congres (3-5 maart 2015, San Jose): • Google geeft "direct answer" bij  20% van de zoekvragen maar: kunnen we op die antwoorden vertrouwen? hoe komen ze aan die antwoorden? eric sieverts, juni 20153
  • 4. 4
  • 5. vertrouwen we op Google's antwoord? of willen we zelf antwoorden zoeken?
  • 6. semantisch zoeken het kunnen geven van concrete antwoorden hangt direct samen met de ontwikkeling van "semantische zoeksystemen" wat moet computer daarvoor kunnen? 1. begrijpen wat de zoeker bedoelt 2. a) weten wat het antwoord is ("het staat klaar") b) begrijpen wat documenten "bedoelen", zodat daaruit antwoorden kunnen worden afgeleid 3. (als "next best") in de tien blauwe links relevante context tonen deze punten vormen de agenda voor vanmiddag eric sieverts, juni 20156
  • 7. semantisch zoeken semantisch zoeken ≡ semantisch web van het semantisch web zoals dat Tim Berners Lee in 2004 voor ogen stond, zijn alleen pas wat losse bouwstenen gerealiseerd, maar die helpen wel al bij "semantisch zoeken" eric sieverts, juni 20157 semantisch zoeken semantisch web entiteiten ontologieën metadata ….
  • 8. 8
  • 9. 9
  • 10. 10
  • 11. semantisch zoeken terug naar de 2 aspecten van semantisch zoeken 1. wat bedoelt de zoeker met zijn zoekvraag? "not strings but things" – wat is betekenis van gebruikte zoekwoorden (dubbelzinnigheden?) – wat is bedoeling/intentie van de zoeker  om concreet antwoord te kunnen geven, in plaats van lijstje met "ten blue links" 2. wat is betekenis van content in webpagina's  ten behoeve van die concrete antwoorden  om toch ook in de "ten blue links" relevante extra informatie te kunnen tonen eric sieverts, juni 201511
  • 12. intentie van de zoeker 1. bepalen van bedoeling / intentie van de zoeker – uit locatie van de zoeker – globaal: op basis van internetdomein waar gebruiker zit (ip-adres) op google.be krijg je ander antwoord dan op google.nl of google.com – heel precies: op basis van bekende gps- of gsm-gegevens (mobiel) bijv.: zoekt mobiel in buurt van de Rozengracht naar “pizza” >> adres van pizzeria in de buurt – uit gebruikt apparaat – op desktop krijg je (vaak) ander antwoord dan op mobieltje – uit eerder zoekgedrag van de zoeker – door analyse van de zoekvraag – ... 12 eric sieverts, juni 2015
  • 13. intentie van de zoeker 1. bepalen van bedoeling / intentie van de zoeker – uit locatie van de zoeker – uit gebruikt apparaat – uit eerder zoekgedrag van de zoeker – wat voor zoekvragen stelde gebruiker eerder – naar welke resultaten keek gebruiker dan bijvoorbeeld al toegepast in Google's personalisatie van relevance ranking; de opgeslagen "web history" is ook al "big data" – door analyse van de zoekvraag – ... 13 eric sieverts, juni 2015
  • 14. intentie van de zoeker 1. bepalen van bedoeling / intentie van de zoeker – uit locatie van de zoeker – uit gebruikt apparaat – uit eerder zoekgedrag van de zoeker – door analyse van de zoekvraag – door herkennen van "entiteiten" in de vraag bijv.: "Parijs" is een stad (waarover feiten beschikbaar zijn)  naam van persoon, bedrijf, product, gebeurtenis, … >> feiten  naam van gewoon persoon >> facebook / linked-in gegevens – herkent vaste combinaties van woorden – natuurlijke taal interpretatie – uit algemene statistiek van zoekvragen bijv.: wie "bach" zoekt bedoelt 95% zeker "Johann Sebastian" 14 eric sieverts, juni 2015 wolfram|alpha Google Knowledge Graph ~ Google
  • 15. content van webpagina 2. bepalen van betekenis van content in webpagina's <op enkele punten kom ik later nog terug> – herkennen van entiteiten in de tekst bijv.: namen van personen, bedrijven, steden, producten, ... – gebruik van metadata/codering volgens ontologieën bijv.: informatie gecodeerd met begrippen uit schema.org ontologie – uit (variabele) structuur van beschikbare informatie bijv.: herkennen van tabellen, kenmerk-waarde koppels, .... – uit (vaste) structuur van beschikbare informatie bijv.: gestructureerd opgeslagen kenmerken in Facebook – automatisch herkennen van betekenis/onderwerp uit hele tekst bijv.: door "machine learning" getraind op vaste concepten – koppelen aan data uit andere bronnen bijv.: via linked (open) data – ... 15 eric sieverts, juni 2015
  • 16. Wie op “Bach” zoekt, vindt vermoedelijk liever gegevens over hem dan websites over hem. Google's Knowledge Graph kent >500 miljoen objecten met >3,5 miljard kenmerken 16 gegevens o.a. afkomstig uit: Freebase (crowdsourced kennisbank), Wikipedia (dbpedia), CIA World factbook, Wikidata, analyse van gegevens op web
  • 17. wat is in dit verband een "graph"?  een netwerk van al die concepten met hun onderlinge relaties en kenmerken 17
  • 18. tripels al die informatie wordt in feite opgeslagen als "tripels" (later meer) L. Da Vinci schilderde Mona Lisa J.S. Bach geboren op 31-03-1685 J.S. Bach geboren in Eisenach Eisenach ligt in Duitsland C.P.E. Bach kind van J.S. Bach 18 eric sieverts, juni 2015
  • 19. knowledge cards • dit soort gegevens die bij een persoon/object/entiteit horen, worden gecombineerd in "knowledge cards" • die knowledge cards verschijnen - zoals bij het eerdere voorbeeld van Bach - rechts naast het gewone zoekresultaat 19 eric sieverts, juni 2015
  • 20. maar niets over de diefstal …. 20 eric sieverts, juni 2015
  • 21. 21 eric sieverts, juni 2015 generieke vragen leveren "carousel"
  • 22. 22 eric sieverts, juni 2015
  • 23. 23 eric sieverts, juni 2015
  • 25. 25
  • 30. 30 eric sieverts, juni 2015 soms verschijnt ook feitelijk antwoord (eveneens een "tripel") boven de gewone zoekresultaten
  • 31. 31
  • 33. 33
  • 34. 34
  • 35. 35 eric sieverts, juni 2015 daarbij wordt ook d.m.v. natuurlijke taal technieken herkend wat er gevraagd / bedoeld wordt
  • 36. 36 eric sieverts, juni 2015
  • 37. in werkelijkheid varieert die afstand dus tussen ongeveer 356.000 en 407.000 km [bron: NASA - via Wikipedia] dus dat cijfer op 4 decimalen nauwkeurig is eigenlijk onzin (hoewel dat ook uit de Wikipedia komt) maar: eric sieverts, juni 201537
  • 38. 38 eric sieverts, juni 2015 ook wordt (soms) herkend als je dingen wilt vergelijken en worden relevante gegevens in een tabel gezet
  • 39. 39 eric sieverts, juni 2015
  • 40. antwoord is geen feit uit Knowl. Graph, maar tekst uit web-pagina 40
  • 42. eric sieverts, juni 2015 Oeps .... 42
  • 44. knowledge vault • inhoud van "knowledge graph" komt uit gecontroleerde gestructureerde bronnen als wikipedia/dbpedia, freebase, … • in "knowledge vault" wordt dat uitgebreid met gegevens die uit allerlei webpagina's worden onttrokken (ook als tripels) 44 eric sieverts, juni 2015
  • 45. This paper [http://www.cs.cmu.edu/~nlao/publication/2014.kdd.pdf] published by Google goes into more detail about the concepts behind the Knowledge Vault, citing three major components: Extractors: These systems extract triples from a huge number of Web sources. Each extractor assigns a confidence score to an extracted triple, representing uncertainty about the identity of the relation and its corresponding arguments. Graph-based priors: These systems learn the probability of each possible triple, based on triples scored in an existing KB (knowledge base). Knowledge fusion: This system computes the probability of a triple being true, based on agreement between different extractors and priors 45
  • 46. Google tables zoeken naar/in tabellen https://research.google.com/tables zie ook: "Applying WebTables in Practice" http://www.cidrdb.org/cidr2015/ Papers/CIDR15_Paper3.pdf google heeft een speciaal tool voor herkennen van tabellen en om daaraan gegevens te ontlenen - ook publiekelijk beschikbaar 46
  • 48. Bing heeft zijn "Entity Engine" (Snapshots) maar die reageert vaak nog wat minder slim op combinaties van woorden 48
  • 49. ... en alleen bij landeninstelling "Verenigde Staten" 49
  • 50. en nog meer … er zijn nog meer (semantische) zoeksystemen die proberen concrete antwoorden te geven een paar voorbeelden: • wolfram|alpha • kngine • cluuz • sensebot • ….. 50 eric sieverts, juni 2015
  • 52. hoe doen reguliere zoekmachines en gespecialiseerde semantische systemen het bij inhoudelijke vragen "how many people live in Paris ?" 52
  • 53. 53
  • 54. hoe doen reguliere zoekmachines en gespecialiseerde semantische systemen het bij inhoudelijke vragen? "how many plays wrote Shakespeare ?" 54 "how many plays wrote Shakespeare ?"
  • 55. 55 "how many plays wrote Shakespeare ?"
  • 56. 56 "who won the 1992 Nobel Peace Prize ?"
  • 57. hoe doen reguliere zoekmachines en gespecialiseerde semantische systemen het bij inhoudelijke vragen? "who won the 1992 Nobel Peace Prize ?" 57 "who won the 1992 Nobel Peace Prize ?"
  • 58. resource description framework RDF = resource description framework RDF is standaard voor het beschrijven van de relatie tussen een resource (of een object) en zijn metadata • eigenschappen (metadata) worden vastgelegd in zogenaamde tripels: subject <predicaat> object (wat je ook zou mogen noemen : ding <eigenschap> waarde ) • waarbij – te beschrijven ding een webadres (URI) heeft – eigenschap van dat ding liefst ook een URI heeft – "waarde" van die eigenschap liefst ook een URI heeft • voorbeeld: – boek (heeft een webadres: URI) – heeft auteur (betekenis van eigenschap ergens beschreven: URI) – persoon (gegevens van persoon ergens op web te vinden: URI) 58 intermezzo RDF-tripels eric sieverts, juni 2015
  • 59. rdf tripels grafisch weergegeven subject <predicaat> object doc1 <heeft auteur> auth1 auth1 <heeft naam> john smith auth1 <heeft affiliatie> home inc. auth1 <heeft email> smith@home.com grafische representatie van simpel netwerk van 4 RDF-tripels 59 intermezzo RDF-tripels eric sieverts, juni 2015
  • 60. rdf tripels 60 naar idee van Lucas Koster / IP "Uit Berlijn" boek Uit Berlijn "Armando" Schuldig landschap http://www.worldcat.org/oclc/10098995 http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://xmlns.com/foaf/spec/#term_name http://viaf.org/viaf/9885610/ http://hdl.handle.net/10934/RM0001.COLLECT.496040 http://purl.org/dc/terms/creator http://purl.org/dc/terms/creator http://schema.org/Book Armando http://purl.org/dc/terms/title intermezzo RDF-tripels eric sieverts, juni 2015
  • 61. rdf tripels • RDF is bedoeld om bestaande semantische systemen te (her)gebruiken en te combineren • RDF wordt meestal in XML- of JSON-notatie weergegeven • RDFa = “RDF in attributes” , verwerkt metadata in de inhoud van (X)HTML webpagina’s (als attributen van HTML-codes) • RDF-tripels worden ook gebruikt in "linked data" • ze worden opgeslagen in zogenaamde triple-stores 61 intermezzo RDF-tripels eric sieverts, juni 2015
  • 62. nog even terug … 2. bepalen van betekenis van content in webpagina's – herkennen van entiteiten in de tekst – gebruik van metadata/codering volgens ontologieën "betekenis vooraf gekarakteriseerd" bijv.: informatie gecodeerd met begrippen uit schema.org ontologie – uit (variabele) structuur van beschikbare informatie "betekenis achteraf afgeleid / geraden" bijv.: herkennen van tabellen, kenmerk-waarde koppels, .... – uit (vaste) structuur van beschikbare informatie bijv.: gestructureerd opgeslagen kenmerken in Facebook – automatisch herkennen van betekenis/onderwerp uit hele tekst – koppelen aan data uit andere bronnen – ... 62 eric sieverts, juni 2015
  • 63. semantische codering gestandaardiseerde markering van kenmerken in webpagina's - "semantic markup" voorbeeld van zulke "embedded metadata": – recipe search bij Google en Yahoo daarbij gebruikte standaarden: – rich snippet markup / schema.org (Google, Yahoo, Bing, Yandex) onder andere voor: recepten, recencies, personen, producten, organisaties, gebeurtenissen, muziek – RDFa / microdata /Json 63 eric sieverts, juni 2015
  • 64. 64
  • 65. eric sieverts, juni 2015 schema.org 65
  • 66. standaard (metadata/ontologie?) voor karakteriseren van content in webpagina 66 + nu ook Yandex
  • 67. 67
  • 68. eric sieverts, juni 201568 voorbeeld van codering met restaurant metadata (zoals gebruikt door o.a. IENS) zoals in HTML gecodeerd volgens microdata standaard
  • 69. gevolg voor Google zoekresultaat 69
  • 71. wat heeft zoeker eraan? • zoeker kan gerichter zoeken en filteren (zoals in Google's receptenzoeker) • zoeker krijgt duidelijker informatie over gevonden items in zijn 10 blue links (zoals Google's rich snippets)
  • 72. waarom en hoe? • toepassing van deze technieken is vaak "SEO-driven" ( >> betere vindbaarheid; hogere ranking) • zie bijvoorbeeld blogposts van Barbara Starr op SearchEngineLand: http://searchengineland.com/see- entities-web-page-tools-help-194710 http://searchengineland.com/5-ways- optimize-markup-knowledge-graph- semantic-search-186755 http://searchengineland.com/how-to- use-rich-snippets-semantic-markup- to-send-rich-signals-139886 eric sieverts, juni 20157272
  • 73. metadata tools er zijn handige tools die analyse maken van in webpagina aanwezige metadata volgens microdata of RDFa standaard http://searchengineland.com/see-entities-web-page-tools-help-194710 • Extensions voor Chrome browser: https://chrome.google.com/webstore/category/extensions • Google's "webmaster structured data testing tool": https://developers.google.com/structured-data/testing-tool/ 73 eric sieverts, juni 2015
  • 74. 74
  • 75.
  • 76.
  • 77. wat biedt schema.org voor bibliotheken • voor bibliotheken als organisatie alleen generieke zaken (adressen, openingstijden, rating, ...)  kan in rich snippets en in “knowledge card” terechtkomen eric sieverts, juni 201577
  • 78. • wordt nog weinig toegepast • alleen generiekere kenmerken
  • 79. wat biedt schema.org voor bibliotheken • van bibliotheken die ik uitprobeerde bleek alleen de British Library beperkt gebruik te maken van organisatiegegevens eric sieverts, juni 201579
  • 80. wat biedt schema.org voor bibliotheken • voor materiaal van bibliotheken wel al veel mogelijkheden • OCLC gebruikt schema.org om metadata uit WorldCat als Linked Data beschikbaar te stellen zie ook OCLC Webinar "Library Linked Data in the Cloud" n.a.v. hun boek hierover  afhankelijk van zoekmachine-policy welke gegevens ze op enig moment als rich-snippets in resultaatpagina's (SERP) tonen eric sieverts, juni 201580
  • 81. materiaalsoorten voor bibliotheken vind je onder "creative works" 81
  • 82. • sommige wel al veel toegepast
  • 83. schema.org (e.a.) als linked data in worldcat eric sieverts, mei 201483
  • 84. 84
  • 85. twee conclusies 1. ook al geven zoekmachines concrete antwoorden, informatievaardigheid blijft van belang  voor het beoordelen van de kwaliteit van die antwoorden (en van de daarvoor gebruikte bronnen)  om daartoe ook nog steeds de beste "10 blue links" te vinden (en liefst ook meer dan 10) 2. semantisch coderen in webpagina's (met bijv. schema.org) wordt ook voor bibliotheken van belang  voor makkelijker herkenning van relevante gegevens in de "SERP"  omdat het een rol speelt bij ranking / SEO (dus voor vindbaarheid)  maar haak aan bij / laat over aan grote spelers die het toch al doen eric sieverts, juni 201585