1. A/10.
A szemantikus technológiák: a szemantikus web lépcsős modellje, az RDF logika, a
tématérképek adatmodellje
A szemantikus világháló (Semantic Web) fő célja, hogy a világhálón elérhető temérdek
információt számítógépes feldolgozásra alkalmasabbá tegye.
Az irányzat jelszava, hogy a világhálón található információt a számítógépek ne csak olvasni,
hanem értelmezni is tudják. Ehhez szükséges, hogy a hálón levő adatokhoz ún.
metainformációt társítsunk, például egy képhez adjuk meg, hogy ki készítette, mi a címe, mit
ábrázol stb. Ezen túlmenően a számítógépeket képessé kell tennünk következtetések
elvégzésére, például ha egy képről ismert, hogy egy folyót ábrázol, akkor ebből gépi úton ki
lehessen következtetni azt is, hogy víz látható rajta. A szemantikus világháló irányzatához
szorosan kapcsolódik az ontológiák, azaz hierarchikus fogalmi rendszerek kutatása és
fejlesztése. Az ontológiákon való következtetések alapját pedig az ún. leíró logikai
(Description Logic) formalizmusok képezik. A World Wide Web konzorciumnak (W3C) a
szemantikus világhálóhoz kötődő legújabb szabványa, az OWL nyelv, már leíró logikai
alapokon nyugszik. Az ontológiai rendszerek és a metainformációk egyre nagyobb szerepet
kapnak a világhálón kívüli információforrások, például a vállalati adat- és tudásbázisok
kezelésében is. Az elérhető információ mennyisége ütemben nő, emiatt egyre nagyobb
szükség van az adatforrások rendszerezésére, összekapcsolására.
Lépcsős modellje:
A szemantikus web felépítése - A lépcsős modell
A szemantikus web a következtetéseket is lehetővé tevő metaadat-infrastruktúra a weben.
Ennek legfőbb építőköveit a World Wide Web dolgozza ki és szabványosítja. Az ide
vonatkozó legfontosabb ajánlások a Resource Description Framework (RDF), az RDF Schema
(RDFS) és Web Ontology Language (OWL). A szemantikus web összképét az egymásra épülő
célok lépcsős modelljével lehet szemléltetni. Ennek rétegei a következők: Consortium (W3C)
1. Az első szinten a Unicode és URI ajánlások biztosítják az egységes nemzetközi
karakterformátumot és az egységes címezhetőséget. A szemantikus weben belül az
URI-k használata jóval túlmutat a megszokott weblapcímeken. Egy személyt is
azonosíthat mondjuk az e-mail címét tartalmazó URI, vagy egy intézetet a
weblapjának a címe. Tulajdonságokat, állításfajtákat is URI-k azonosítanak.
2. Az XML réteg biztosítja, hogy a szemantikus web definíciókat egyéb XML alapú
szabványokkal integrálhassuk. Az XML a névtér- és sémadefiníciókkal együtt lehetővé
teszi, hogy egy XML dokumentum a létrehozásakor alkalmazott szintaktikai és
1
2. szemantikus szabályokra hivatkozzon. Ezáltal egy önleíró, érvényesíthető
dokumentumformátum jön létre.
3. Az RDF és RDFS réteg biztosítja, hogy állításokat tehessünk az objektumokról URI-k
segítségével, és olyan szótárakat készítsünk, amelyekre ezen URI-k hivatkozhatnak.
Az RDF hordozza a szemantikus tartalmat.
4. Az ontológiaréteg lehetőséget ad bonyolultabb szótárak felépítésére. Itt már a
különböző fogalmak közötti összefüggések is megadhatók, hasonlóan egy
tezauruszhoz. Le írják a szabályokat, amelyek alapján következtetések vonhatók le.
5. A digitális aláírás réteg a dokumentumok hitelességét igazolja.
• Az egyes szintek egymásra épülnek.
• Minden szint eggyel komplexebb, mint az alatta elhelyezkedő.
• Mégis az egyes szintek önállóan fejleszthetők.
A szemantikus web három különböző rétegből áll:
• metaadatok: az erőforrások és tulajdonságok leírása (URI, XML, RDF);
• sémák: a fogalmak hierarchikus leírása (RDFS, OWL, SKOS);
• logikák: leíró logikák (OWL, RIF).
A szemantikus web megvalósulásának előfeltétele, hogy a tartalmak létrehozói általánosan
elfogadott szabványokhoz tartsák magukat a fejlesztések során.
Az ontológiák:
Az ontológiák lényegében speciális taxonómiák, amelyek amellett, hogy megmutatják a
fogalmak egymáshoz képesti fogalmi hierarchiáját, a formális logikai szabályok
megjelenítésével még többre képesek az emberi gondolkodás reprezentálásában. (Berners-
Lee, 2001)
Ontológia szintaxisok:
– RDF/RDFS
– OWL
– SKOS
– RIF
–
OWL: Web Ontology Language;
• Ontológiák leírására szolgáló szintakszis;
• Megkönnyíti a webes tartalmak értelmezését a gépek számára
• Célja, hogy formális logikákon alapuló bonyolult szemantikai relációkat is lehessen a
számítógép számára reprezentálni
• Lehetővé teszi, hogy explicit módon ábrázoljuk egy meghatározott szókészlet
kifejezéseinek jelentését, valamint ezek összefüggéseit
I. RDF logika:
• Az RDF (Recource Description Framework – Erőforrás-Leíró Keretrendszer)
adatmodell alkalmas arra, hogy tetszőleges erőforrásokhoz metaadatokat kapcsoljon.
Az RDF úgy definiálja az erőforrás fogalmát, hogy az bármi lehet, ami azonosítható
URI-val.
2
3. • Az RDF: háromszavas mondatokból, ún. tripletekből áll. A tripletekkel modellezhetők
a világ dolgai. Az elképzelés szerint több alkalmazás együttesen leírja a világ
valamennyi létezőjét.
• Egyrészt egy adatmodell, amelynek elemei:
• Erőforrások
• Tulajdonságok
• Literálok
• Kijelentések
• Másrészt egy XML alapú szintakszis
• amellyel bináris relációk írhatók le,
• amellyel a valóság írható le formálisan.
• Az RDF adatmodell szerkezeti építőeleme a hármas (triplet)
• Szubjektum vagy alany (subject)
• Predikátum vagy állítmány (predicate)
• Objektum vagy tárgy (object)
E három együtt adja az állítást
• Az RDF-fel kifejezhetők tématérképek. (DE adatvesztéssel)
• Az Omnigator képes konvertálni a tématérképeket RDF-be.
• Az RDF-et nem csak szemantikus web alkalmazásokhoz használják.
• Az adatmodellből hiányzik a
– scope,
– a dolgok különböző neveken való kezelése,
– az előfordulások témákhoz rendelése.
RDF séma: Az RDF séma az objektumok leírásához osztályokat és osztálytulajdonságokat
vezet be. Ezáltal a sémákon alapuló RDF leírások strukturáltabbá válnak, bár bonyolultabb
összefüggések leírására csak a következő, ontológiai szinten lehetséges a szintén RDF-en
alapuló OWL nyelv segítségével.
Egy RDF séma megadja azt is, hogy egy osztály mely más osztályok kiterjesztése, valamint
hogy milyen kapcsolatban állhatnak ezen osztályok példányai. Az osztályokhoz hasonlóan a
kapcsolataikat is egy öröklésszerű hierarchiába szervezhetjük, valamint megadhatjuk az
értékkészletüket és értelmezési tartományukat.
• A sémák és az ontológiák a következtetésekhez szükséges háttértudást tartalmazzák.
• Pl.:
– osztály-alosztály (gerinces – emlős)
– a tulajdonságok közt fennálló hierarchikus viszonyok (ismerőse – barátja),
• A terminológia definiálásában is kitüntetett szerepük van az RDF sémáknak.
• Az RDF sémák nem kínálnak ellenőrzött szótárt, csak megteremti annak a
lehetőségét, hogy egy-egy alkalmazáson belül általánosan érvényes kijelentéseket
tegyünk.
• az RDF-hez kínál egy szabványos tipologizáló metódust.
Az RDF gráfmodellje
Az RDF az állításokat egy gráf csomópontjaival és éleivel modellezi, amelynek
csomópontjainak halmazát a gráf triplettjeinek alanyai és tárgyai alkotják, és az élek
halmazát az állítmányok. Az él iránya szignifikáns, és ennek mindig a tárgyra kell mutatnia.
3
4. A RDF gráfok megrajzolásakor az URI-val azonosított csomópontokat ellipszissel ábrázoljuk,
literálokat szögletes dobozzal reprezentáljuk. Fontos, hogy egy RDF-gráfban csak abszolút
URI-k szerepelhetnek.
RDF vs. Adatbázisok:
Egyszerűbb adatbázisokban leírni a tartalmakat, DE! az RDF a következőkben jobb:
– interoperabilitás;
– adatok számítógépek közötti cseréje;
– a strukturálatlan információk kezelésére az adatbázisok kevésbé alkalmasak;
– új információt akarunk beilleszteni, aminek nincs oszlopa
• ELLENBEN:
– az adatbázisokban tárolt információk teljes mértékben leírhatók RDF-ben is
Az RDF-et úgy tervezték, hogy bármiről lehessen vele állításokat tenni, ami azonosítható a
weben. Az RDF olyan egységes keretet biztosít az információtartalom leírására, amelyben
azok átvihetők egyik alkalmazásból a másikba. Nem csak azok az alkalmazások
használhatják az információt, amelyek számára azt eredetileg ábrázolták, hanem a más
4
5. célokra készült, későbbi alkalmazások is. Alkalmazások határain átnyúló
tudásreprezentáció.
Tárgyak azonosítása:
– Azonosítás: Hogyan biztosítható, hogy a számítógépek és az emberek is ugyanazt
értsék a dolgokon? URI (Universal Resource Identifier) Pl. URL
– személy: mailto:thmate@oszk.hu
– cég: http://www.ki.oszk.hu
– sport: http://hu.wikipedia.org/wiki/Tenisz
– város: http://www.budapest.hu
– Állításokat is csak URI-k között lehet tenni.
– Az URI-kat elsősorban a számítógépek értik. A szemantikus web technológiákat
ugyanis gépi visszakeresésre optimalizálták.
– Az RDF webes erőforrásokat ír le.
– Erőforrás minden, aminek van URI-ja. Aminek van URI-ja az „fent van a weben”.
– Az URI-k literálok (karaktersorozatok), amelyek webes erőforrásokat azonosítanak.
– Ha két metaadat-leírás ugyanazt az URI-t használja, akkor ugyanazt a dolgot
azonosítja.
– RDF már az 1990-es évek végén létezett. A szemantikus web elképzelést azonban
csak 2001-hez kötik. Az RDF a szemantikus webnek csak az egyik rétege!
A szemantikus web technológiák könyvtári alkalmazása az XML és az RDF implementálásával
indult. Alkalmazhatóságuk pl.:
– a tudáskezelés, tudásmenedzsment és metaadatok kezelése
– az elektronikus dokumentumok kezelése
– RDF-en alapuló folyóirat-kezelő rendszer
– elektronikus disszertáció és szakdolgozat-kezelő alkalmazás
Egy 2004-es kutatás kiindulási pontja, hogy a katalógusok el fognak mozdulni az irodalom
feltárásától a weben található tartalmak értékelésének irányába
– Ez merőben új szemléletet hoz majd az elektronikus szolgáltatások területén.
– A rekordok részét képeznék egy globális metaadat-infrastrukturának.
– Ez a szemantikus kapcsolatok, közvetve a rekordokból elérhető
információtartalom bővülésével járna.
Az RDF azóta sem vált a világhálón található tartalmak fő metanyelvévé. Ez lenne az
egyik előfeltétele egy ilyen katalógusnak.
5
6. Tématérkép ontológia:
Az ontológia definíciója tématérképes környezetben: "Az ontológia egy adott tématérképben
használt téma-, név-, előfordulás-, asszociáció- és szereptípusok összessége.” (Garshol, 2007)
Minden tématérkép alkalmazás hátterében egy ontológia fut. Egy egyszerű tématérkép
kidolgozása során nem biztos, hogy tudatosul.
A tématérkép technológia:
„A Tématérkép technológia arra szolgál, hogy tudást kódoljunk vele és ezt a kódolt tudást
releváns információs forrásokkal kapcsoljuk össze. A tématérképek diskurzusok tárgyát
megjelenítő témák, a tárgyak közti kapcsolatokat megjelentő asszociációk és a tárgyakat
megfelelő információs forrásokkal összekapcsoló előfordulások köré rendeződnek.” (ISO/IEC
13250-2 Data Model)
Szemantikus technológia (rokon a szemantikus webbel).
Multidiszciplináris fejlesztési terület. A könyvtárosok, informatikusok mellett a legtöbben
bölcsészek a fejlesztők közül!
A tématérképek TAO-ja!
• TOPICS
• ASSOCIATIONS
• OCCURENCES
Tématérkép alapfogalmai:
• Témák és tématípusok - dolgok megnevezése, szavakkal való reprezentációja;
• Asszociációk és asszociációtípusok - dolgok közötti kapcsolatok definiálása;
• Előfordulások és előfordulástípusok - dolgokról fellelhető információk helyei az
információs térben (feljegyzések, belső előfordulások, külső előfordulások);
• Nevek és névtípusok - azonos dolgok különböző nevei;
• Szerepek és szereptípusok - a dolgok által felvehető szerepek (Kovács Pál! „Te is
lehetsz állampolgár, adóalany, vagy kedves hallgató, mélyen tisztelt egybegyűlt, vagy
peres fél, vagy nyájas olvasó.” Kft.)
A tématérkép adatmodell:
• A tématérképek sokféleképpen megjeleníthetőek:
– tématérkép szintakszisokat használva fájlokban,
– adatbázisokban,
– futó programok belső adatszerkezeteiként,
– és mentálisan az emberi gondolkodásban is.
• Ezek a formátumok ugyanannak az absztrakt szerkezetnek a megjelenítésére
szolgálnak.
• Az ISO/IEC 13250-2 ezt a szerkezetet határozza meg egy adatmodell formájában.
Az adatmodell meghatározza
– a Tématérképek absztrakt szerkezetét, az információs készlet formalizálásával
és szöveges formában bizonyos mértékig az értelmezésüket is.
– a Tématérképek összeolvasztásának szabályait,
– néhány alapvető tárgyazonosítót.
Az adatmodell célja,
6
7. – hogy meghatározza a Tématérképek csereszabványos szintakszisának
értelmezését
– és hogy alapul szolgáljon a kanonizálást, lekérdezést, korlátozásokat stb.
meghatározó további szabványokhoz.
• Az adatmodell szabad teret enged a dolgok reprezentálásának.
Két speciális relációtípust definiál:
– Típus-eset kapcsolat
– Szupertípus-altípus kapcsolat
A típus-eset kapcsolat. (homo sapiens – Kanada miniszterelnöke)
• A tématípus olyan tárgy, amely egy tárgykészlet tagjaiban lévő azonosságokat
tömörít.
– Bármely tárgy, amely egy adott tématípus kiterjesztéséhez tartozik, annak a
tématípusnak az esete.
– Egy tématípus lehet egy másik tématípus esete.
– Nincs korlátozás, hogy egy tárgy hány tématípusnak lehet az esete.
• A típus-eset kapcsolat nem tranzitív. Azaz, ha B az A típus esete, és C a B típus esete,
ebből nem következik, hogy C esete A-nak. (A – emlős; B – homo sapiens; C – Kanada
miniszterelnöke)
A szupertípus-altípus kapcsolat
– Egy általánosabb típus (a szupertípus) és ennek a specifikusabb változata (az
altípus) közötti kapcsolat.
– Ha B altípusa A-nak, ebből az következik, hogy B minden esete A-nak is esete.
– Ennek fordítottja nem feltétlenül igaz.
– Egy típusnak akármennyi altípusa és szupertípusa lehet.
• A szupertípus-altípus kapcsolat tranzitív, ami azt jelenti, hogy ha B altípusa A-nak, és
C altípusa B-nek, akkor C altípusa A-nak is. (pl. A – élőlény; B – állat; C – kutya)
– Generikus hierarchialánc
Könyvtári tématérkép alkalmazások: (egy-két hazai példa)
• Beteljesületlen lehetőségek sora
• A kisszámú alkalmazás sokfélesége egyszerre reprezentálja a könyvtári munka
sokszínűségét és a tématérkép technológiákban rejlő lehetőségeket.
• Könyvtári példák vannak
– a katalógusok tématérképek segítségével való továbbfejlesztéséről,
– a metadatok hatékonyabb együttműködésének biztosításáról,
– teljes digitális könyvtári rendszerekről,
– a tájékoztató munkát segítő szakterületi útmutatókról és
– e-learning eszközökről
– A tématérkép alkalmazások előzményei jóval megelőzik a szemantikus web
koncepció megjelenését.
A Neumann Ház 1998 óta fejleszti a magyar internetkatalógust, a WebKat-ot
– A WebKat-hoz 2000 nyarára készült el a tezaurusz, amely a dokumentumok
tartalmi feltárását tette lehetővé.
– 2002-ben indult egy új keresőrendszer fejlesztése, amelynek fő motivációját
az interneten történő változások jelentették.
7
8. – Az új hierarchikus keresőrendszer megjelenítésére választották a tématérkép
szabványon alapuló szoftvert.
– A fejlesztők szerint az internethasználók igényei sokkal inkább a vizuális
élmények irányába halad.
– Ezért érezték szükségét annak, hogy a tezauruszban rögzített hierarchikus
relációkat vizuálisan is megjelenítsék.
– a szolgáltatás a tématérképeknek elsősorban a vizualizáció terén meglévő
előnyeit használja és viszonylag
– Kis hangsúlyt kap a fogalmak közti relációk redefiniálása.
Az OSZK Magyar Elektronikus Könyvtára is kísérletezett tématérkép alkalmazásokkal.
• Az OSZK tezauruszát is elkészítették tématérképben.
– Nem fejleszti tovább a tezauruszokban található relációkat,
– nem definiál újabb szemantikus kapcsolatokat a témák között,
• A fejlesztés érdemben nem javítja a tartalom használhatóságát.
MARCXTM formátum
– Katalógusrekordok tématérképesítését szolgálta
• koreai kutatók által fejlesztett,
• a MARC21 rekordok XTM-ben való leírását célozta.
• Végül nem jutott el a gyakorlati alkalmazások szintjéig.
• A bibliográfiai adatrekordok kezelésében több siker kísérte a MARC rekordok FRBR
modellel való megfeleltetését tématérképek segítségével.
• Az FRBR és a MARC21 elemei egy az egyben megfeleltethetők és kifejezhetők a
tématérkép adatmodell segítségével.
• Az eljárás során a MARC rekordokat egy FRBR fogalmakat tartalmazó ontológiában
formalizálják.
• A téma- és az asszociációtípusok az FRBR entitások voltak.
• A Koreai Nemzeti Könyvtár a gyakorlatban is kihasználta ezt a lehetőséget és a
katalógusát kísérleti jelleggel elkészítette ebben a formában.
A szemantikus web jövője:
• Következtetéseket lehetővé tevő metaadat-infrastruktúra a weben;
• Második generációs web, mely kiterjesztése a jelenlegi, első generációs webnek.
• A világháló lehetőségei megsokszorozódnának.
• A szemantikus web ereje a metaadatokban van.
Probléma:
• Egy globális hálózati metaadat infrastruktúra akadályai:
– Nem sikerült levinni az emberek szintjére a szemantikus webet
– Nem tudnak tömegek szemantikus-web kompatibilis metaadatokat
(ontológiákat) generálni
– Nincs megoldva a fogalmak egyértelmű azonosításának ügye (PSI tárak,
újrahasznosított URI-k)
8