Veerle Kerstens (LIBIS) gaf tijdens de LIBISnet gebruikersdag een plenaire sessie over SEO (Search Engine Optimization). Inhoud: Onderzoekers hebben er belang bij dat hun publicaties zo goed mogelijk gevonden worden via zoekmachines. Ook als bibliotheek willen we dat onze collecties breed vindbaar zijn via het web. Google is in dit verhaal uiteraard "incontournable". In deze sessie over Search Engine Optimization exploreren we het concept "search engine optimization", hoe we dit kunnen toepassen voor onze collecties en repositories, en wat de verschillen zijn tussen Google en Google Scholar op dit vlak.
Search Engine Optimization - LIBISnet gebruikerdag 6 juni 2019
1. SEO voor onze collecties
LIBISnet Gebruikersdag 6 juni 2019
Veerle Kerstens
2. 2
Agenda
1. Het belang van “discoverability”
2. Werking van zoekmachines
3. Google Scholar, een ander verhaal
4. Opzoekbaarheid in Google en
Google Scholar: waar staan we voor
onze collecties ?
3. 3
Functies van Limo
Hoe gemakkelijk is het voor iemand om
inforrmatie te vinden waar hij niet expliciet
naar zoekt ?
Hoe gemakkelijk zijn onze collecties
vindbaar ?
4. 44
Focus op institutionele repositories
Stakeholders
• Onderzoekers: beter vindbare publicaties
=> meer gelezen => meer citaties =>
meer erkenning
• Beheerders van gedigitaliseerde speciale
collecties
• Instelling:
• Meer citaties => betere ranking
• Uitstraling van de instelling
6. 66
Search Engine Optimization (SEO)
Big business!
Verzameling technieken om een
website te verbeteren zodat die
makkelijker vindbaar wordt voor
zoekmachines.
SEO voor repositories: meer
technische issues
8. 88
Crawling
• Wat is selectiepolitiek ?
• Hoe dikwijls wordt gecrawld ?
• Belasting webserver ?
• Antwoordtijd van de server ?
• Instrumenten van website beheerders:
• Sitemap : lijst van alle urls van de
website + belangrijke metadata
• “robots.txt”
12. 1212
Javascript op pagina’s
Mogelijke issues voor repositories
Mogelijke oplossing:
“dynamic rendering”
Google kan recent JS
beter verwerken !
(Google update mei 2019)
13. 1313
Weergave in zoekresultaten
Tags in de pagina maken
inhoud “begrijpelijk”
voor Google
Inhoud van deze website
herkend als recept
Tags volgens standaard
schema.org
18. 1818
Ranking algoritme
Complexe set van algoritmes. Welk
gewicht krijgen parameters als:
• Zoektermen
• Frequentie van zoektermen in
document
• Synoniemen
• Links naar document
• Datum
• Citaties
19. 1919
: : een ander verhaal
• Naast SEO nu ook ASEO: Academic search engine optimization.
Aanmaak, publicatie, en aanpassing van academische publicaties
zodat academische zoekmachines ze gemakkelijker kunnen
crawlen en indexeren.
• Specifieke technieken nodig om repositories doorzoekbaar te
maken in Google Scholar
21. 2121
Crawling
• Scope: academische publicaties
(geen boeken,
boekbesprekingen)
• Geen grote documenten (?)
• Crawlt documenten én
bibliografische info
• Formaat: pdf of html
• Full text of minimaal abstracts
nodig (?)
• Updates records: 6-9 maanden
tot een jaar.
• Scope: “alles”
• Crawlt documenten
• Vele formaten
• Updates records afhankelijk
van belangrijkheid vd site
22. 2222
Indexering
• Meta-tags: formaat Highwire
Press, Eprints, BE Press of
PRISM
• Groepering resultaten.
• Meta-tags: formaat
schema.org
• Elke url apart getoond in
zoekresultaten = > issue
dubbels
Indexering
25. 2525
Andere voorwaarden
• Vereiste: PDF in zelfde
subdirectory als metadata
• 1 PDF per document
• PDF is doorzoekbaar (geen
scans)
• Minstens abstract nodig (?)
• Liever geen landingspagina’s
• Geen pop-ups, vereiste om aan
te melden
• …
26. 2626
Indexering: opvolging
• Geen systematische checks
mogelijk
• Enkel via steekproeven
• Contactpersoon bij Google
Scholar
• Uitgebreide tools voor de
website beheerder (Google
Search console)
27. 2727
Relevance ranking
• Zoektermen in document ++
• Links naar document ++
• Aantal keren dat zoekterm
voorkomt in document ++
• Synoniemen in document +
• Kwaliteit van links naar
document +
• Datum +
• Aantal citaties ++
• Zoekterm in titel ++
• Auteursnaam, tijdschrifttitel ++
• Zoektermen in document +
• Reputatie auteur, tijdschrift +
• Datum +-
• Aantal keren dat zoekterm
voorkomt in een record –
• Synoniemen in document -
29. 2929
Recent: betere sitemaps en
ondersteuning schema.org
Weinig configuratiemogelijkheden
Geplande ontwikkelingen
• “Dynamic page rendering”
• Links tussen records
• Canonieke url’s
Google kan beter overweg met
JavaScript
Huidige status
• Weergave zoekresultaten OK
• Nog weinig records vindbaar
• Revance ranking kan beter
• Geen full text
Goede verwachtingen !
34. 3434
Maar …
Ook veel vrij publicaties zonder link naar Full text hoewel die vrij
beschikbaar is
Record met abstract
Record zonder abstract
35. 3535
Conclusies
• Aandacht voor “Seach Engine
Optimization” wordt steeds belangrijker
• Monitoring vraagt tijd en is moeilijk
voor Google Scholar: geen tools
beschikbaar.
• Verdere ontwikkelingen door LIBIS
gepland.
• Verdere ontwikkelingen op de roadmap
van ExLibris