Sabin Buraga -- "Semantic Web. Fundamente şi aplicaţii"

Sabin Corneliu Buraga

Semantic Web
Fundamente si aplica¸ii
¸ t

2004

În memoria bunicilor no¸ tri.
s

Cuprins succint

Mul¸ umiri
t xii

Lista de tabele xiii

Lista de ﬁguri xiv

Preambul 1

1 Arhitectura spa¸ iului WWW
t 7
1.1 Prezentare general˘ . . . . . . . . . . . . .
a . . . . . . . . . 7
˘
1.2 Componente de baza ale spa¸iului WWW
t . . . . . . . . . 10
1.3 Evolu¸ia spa¸iului WWW . . . . . . . . . .
t t . . . . . . . . . 18
1.4 Concluzii . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2 Web-ul semantic 32
2.1 Prezentare general˘ . . . . . . . . . . .
a . . . . . . . . . . . 32
2.2 RDF – cadru de descriere a resurselor . . . . . . . . . . . 55
2.3 Utiliz˘ si aplica¸ii . . . . . . . . . . .
ari ¸ t . . . . . . . . . . . 76
2.4 Concluzii . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

¸ ˘
3 Descrierea si regasirea resurselor multimedia 81
3.1 Preliminarii . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.2 Modelarea rela¸iilor dintre resurse . . . . . . .
t . . . . . . 83
˘
3.3 Cautarea . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.4 Concluzii . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

4 Solu¸ ii de implementare
t 136
4.1 Preliminarii . . . . . . . . . . . . . . . . . . . . . . . . . . 136
4.2 Agen¸i software . . . . . . . . . . . . . . . . . . . . . . . . 137
t

v

4.3 Servicii Web . . . . . . . . . . . . . . . . . . . . . . . . . . 149
a a ˘
4.4 ITW – o platform˘ distribuit˘ destinata descoperirii re-
surselor multimedia . . . . . . . . . . . . . . . . . . . . . . 157
4.5 Concluzii . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

5 La final 172
5.1 Privire de ansamblu . . . . . . . . . . . . . . . . . . . . . . 172
5.2 Direçii viitoare de cercetare . . . . . . . . . . . . . . . . . 174
t

A Folosirea metadatelor în contextul e-commerce 175

B Schema XML pentru limbajul XFiles 183

C Schema XML pentru limbajul TRSL 191

D Schema XML pentru limbajul WQFL 195

E Acronime 200

Bibliografie 203

Cuprins

Mul¸ umiri
t xii

Lista de tabele xiii

Lista de figuri xiv

Preambul 1

1 Arhitectura spa¸ iului WWW
t 7
1.1 Prezentare general˘ . . . . . . . . . . . . . . . . . . . . . .
a 7
˘
1.2 Componente de baza ale spa¸iului WWW . . . . . . . . .
t 10
1.2.1 Hipertextul . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.1.1 Defini¸ii . . . . . . . . . . . . . . . . . . .
t 10
1.2.1.2 Concepte . . . . . . . . . . . . . . . . . . . 11
1.2.1.3 Documente hipertext . . . . . . . . . . . . 12
1.2.2 Localizarea resurselor Web . . . . . . . . . . . . . 15
1.2.2.1 Identificatori uniformi de resurse . . . . 15
1.2.2.2 Sintaxa URI . . . . . . . . . . . . . . . . . 16
1.3 Evolu¸ia spa¸iului WWW . . . . . . . . . . . . . . . . . . .
t t 18
1.3.1 Evolu¸ia sintaxei spre formate declarative . . . .
t 19
1.3.2 Evolu¸ia stilului (prezent˘
t arii): de la formatare la
foi de stiluri . . . . . . . . . . . . . . . . . . . . . . 20
1.3.3 Evolu¸ia structurii . . . . . . . . . . . . . . . . . .
t 21
1.3.4 Evolu¸ia semanticii . . . . . . . . . . . . . . . . . .
t 22
1.3.5 Evolu¸ia elementelor programabile . . . . . . . . .
t 28
1.4 Concluzii . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

vii

2 Web-ul semantic 32
2.1 Prezentare general˘ . . . . . . . . . . . . . . . . . . . . . .
a 32
2.1.1 Preambul . . . . . . . . . . . . . . . . . . . . . . . . 32
2.1.2 Caracterizare si direçii de interes . . . . . . . . .
¸ t 33
2.1.3 Structura Web-ului semantic . . . . . . . . . . . . 36
2.1.3.1 Interschimbul “inteligent” de date via XML 36
2.1.3.2 Exprimarea metadatelor . . . . . . . . . . 37
2.1.3.3 Exprimarea ontologiilor . . . . . . . . . . 42
2.2 RDF – cadru de descriere a resurselor . . . . . . . . . . . 55
2.2.1 Prezentare general˘ . . . . . . . . . . . . . . . . .
a 55
2.2.2 Modelul de baz˘ al RDF . . . . . . . . . . . . . . .
a 56
2.2.3 Modul de reprezentare . . . . . . . . . . . . . . . . 57
2.2.4 Sintaxa de baz˘ RDF . . . . . . . . . . . . . . . . .
a 59
2.2.5 Scheme si spa¸ii de nume . . . . . . . . . . . . . .
¸ t 61
2.2.5.1 Schemele în detaliu . . . . . . . . . . . . . 61
2.2.5.2 Clase fundamentale . . . . . . . . . . . . 62
2.2.5.3 Propriet˘ ti fundamentale . . . . . . . . .
a¸ 63
2.2.5.4 Restriçii . . . . . . . . . . . . . . . . . . .
t 65
2.2.5.5 Restriçii fundamentale . . . . . . . . . .
t 66
2.2.6 Coleçii de resurse . . . . . . . . . . . . . . . . . . .
t 67
2.2.7 Referen¸i distributivi . . . . . . . . . . . . . . . . .
t 70
2.2.8 Coleçii referite de un URI . . . . . . . . . . . . . .
t 72
2.2.9 Modelarea declara¸iilor . . . . . . . . . . . . . . . .
t 73
2.3 Utiliz˘ si aplica¸ii . . . . . . . . . . . . . . . . . . . . . .
ari ¸ t 76
2.4 Concluzii . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

¸ ˘
3 Descrierea si regasirea resurselor multimedia 81
3.1 Preliminarii . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.1.1 Motiva¸ie . . . . . . . . . . . . . . . . . . . .
t . . . . 81
3.1.2 Prezentare general˘ . . . . . . . . . . . . .
a . . . . 82
3.2 Modelarea rela¸iilor dintre resurse . . . . . . . . .
t . . . . 83
3.2.1 Clasificare a rela¸iilor dintre resurse . . . .
t . . . . 83
3.2.2 Modele temporale . . . . . . . . . . . . . . . . . . . 85
3.2.2.1 Introducere . . . . . . . . . . . . . . . . . 85
3.2.3 Logica temporal˘ cu intervale . . . . . . . .
a . . . . 87
3.2.3.1 Structuri temporale în logica ITL . . . . 87

3.2.3.2 Sistemul axiomatic al logicii ITL . . . . . 87
3.2.3.3 Specificarea rela¸iilor temporale . . . . . 90
t
3.2.3.4 Caracterizarea perioadelor de timp . . . 91
3.2.4 Sisteme de fi¸ iere distribuite . . . . . . . . . . . . 93
s
3.2.4.1 Caracterizare . . . . . . . . . . . . . . . . 94
3.2.4.2 Fi¸ ierele ca tipuri abstracte de date . . . 95
s
3.2.4.3 Interfa¸a de programare . . . . . . . . . . 96
t
3.2.4.4 Propriet˘ ti . . . . . . . . . . . . . . . . . . 97
a¸
3.2.5 Un model de descriere XML/RDF a sistemelor de
fi¸ iere distribuite . . . . . . . . . . . . . . . . . . . 100
s
3.2.5.1 Limbajul XFiles . . . . . . . . . . . . . . . 100
3.2.5.2 Exemplu . . . . . . . . . . . . . . . . . . . 102
3.2.6 Modelarea resurselor stocate de un server Web . . 104
3.2.6.1 Exemplu . . . . . . . . . . . . . . . . . . . 105
3.2.7 Modelarea rela¸iilor temporale dintre resurse . . 107
t
3.2.7.1 Sintaxa si semantica limbajului TRSL . . 109
¸
3.2.7.2 Exemple . . . . . . . . . . . . . . . . . . . 111
3.2.7.3 Suportul pentru Web-ul semantic . . . . 115
˘
3.3 Cautarea . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.3.1 Argument . . . . . . . . . . . . . . . . . . . . . . . 116
˘
3.3.2 Motoare de cautare . . . . . . . . . . . . . . . . . . 117
3.3.2.1 Preliminarii . . . . . . . . . . . . . . . . . 117
˘
3.3.2.2 Regasirea informa¸iilor de c˘
t atre utilizatori 117
˘
3.3.2.3 Anatomia unui motor de cautare . . . . . 118
aut ˘
3.3.2.4 Meta-c˘ atoare si portaluri . . . . . . . 124
¸
3.3.3 Exprimarea interog˘ arilor prin WQFL . . . . . . . 125
3.3.3.1 Preliminarii . . . . . . . . . . . . . . . . . 125
3.3.3.2 Activitatea de c˘ autare . . . . . . . . . . . 127
3.3.3.3 Limbajul WQFL . . . . . . . . . . . . . . 129
3.3.3.4 Extinderea limbajului WQFL . . . . . . . 133
3.3.3.5 WQFL ca limbaj de interogare XML . . . 134
3.4 Concluzii . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

4 Solu¸ ii de implementare
t 136
4.1 Preliminarii . . . . . . . . . . . . . . . . . . . . . . . . . . 136
4.2 Agen¸i software . . . . . . . . . . . . . . . . . . . . . . . . 137
t

4.2.1 Definire . . . . . . . . . . . . . . . . . . . . . . . . . 137
4.2.1.1 Agen¸ii ca entit˘ ti comportamentale . . .
t a¸ 137
4.2.1.2 Atributele agen¸ilor . . . . . . . . . . . .
t 138
4.2.1.3 Caracteriz˘ ale agen¸ilor . . . . . . . .
ari t 139
4.2.1.4 Direçii actuale de cercetare . . . . . . . .
t 142
4.2.2 Sisteme multi-agent . . . . . . . . . . . . . . . . . 143
4.2.2.1 Prezentare general˘ . . . . . . . . . . . .
a 143
4.2.2.2 Modele BDI . . . . . . . . . . . . . . . . . 144
4.2.2.3 Comunicare inter-agent . . . . . . . . . . 148
4.3 Servicii Web . . . . . . . . . . . . . . . . . . . . . . . . . . 149
a 149
4.3.2 Standarde . . . . . . . . . . . . . . . . . . . . . . . 150
4.3.2.1 Descrierea unui serviciu Web . . . . . . . 150
4.3.2.2 Publicarea si reg˘
¸ asirea unui serviciu Web 151
4.3.2.3 Invocarea serviciilor Web . . . . . . . . . 152
4.3.3 Servicii Web semantice . . . . . . . . . . . . . . . . 153
4.3.3.1 Problematici actuale . . . . . . . . . . . . 153
4.3.3.2 Caracterizare . . . . . . . . . . . . . . . . 154
4.3.3.3 Exemplificare . . . . . . . . . . . . . . . . 155
a a ˘
4.4 ITW – o platform˘ distribuit˘ destinata descoperirii re-
surselor multimedia . . . . . . . . . . . . . . . . . . . . . . 157
a 157
4.4.2 Arhitectura sistemului . . . . . . . . . . . . . . . . 157
4.4.2.1 Agen¸i ITW . . . . . . . . . . . . . . . . .
t 159
4.4.2.2 Servicii Web ITW . . . . . . . . . . . . . . 162
4.4.2.3 Interfa¸a ITW . . . . . . . . . . . . . . . .
t 165
˘
4.4.2.4 Implementarea curenta . . . . . . . . . . 167
4.4.2.5 Utiliz˘ ari . . . . . . . . . . . . . . . . . . . 169
4.5 Concluzii . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

5 La final 172
5.1 Privire de ansamblu . . . . . . . . . . . . . . . . . . . . . . 172
5.2 Direçii viitoare de cercetare . . . . . . . . . . . . . . . . . 174
t

A Folosirea metadatelor în contextul e-commerce 175

B Schema XML pentru limbajul XFiles 183

C Schema XML pentru limbajul TRSL 191

D Schema XML pentru limbajul WQFL 195

E Acronime 200

Bibliograﬁe 203

Mul¸ umiri
t

˘ a ˘ ˘
Aceasta lucrare nu ar fi ajuns la forma actual˘ fara suportul venit din
˘
partea prof. dr. Dumitru Todoroi – conducatorul stiin¸ific al tezei de
¸ t
doctorat –, prof. dr. Toader Jucan, prof. dr. Dan Grigora¸ , prof. dr. Dan
s
Cristea, prof. dr. Cristian Masalagiu si conf. dr. Dorel Lucanu de la
¸
Facultatea de Informatic˘ a Universit˘ tii “Al. I. Cuza” din Ia¸ i si din
a a¸ s ¸
partea prof. dr. Stefan Trau¸ an-Matu de la Universitatea Politehnic˘
¸ ˘ s a
din Bucure¸ ti.
s

˘ ¸
Îi men¸ionam si pe colaboratorii si prietenii apropia¸i ing. Drago¸
t ¸ t s
Acostachioaie (Biosfarm Ia¸ i S.R.L.), cercet. drd. Lenu¸a Alboaie
˘ s t
˘ ˘
(Institutul de Informatica Teoretica al Academiei Române – filiala Ia¸ i),
s
˘ a ˘
cercet. Sînica Alboaie (Institutul de Informatic˘ Teoretica al Academiei
Române – filiala Ia¸ i), asist. drd. Mihaela Brut (Facultatea de Infor-
s
˘
matica din Ia¸ i) si lect. drd. Marius Cioca (Facultatea de Inginerie a
s ¸
Universit˘ tii “L. Blaga” din Sibiu) pentru ajutorul acordat pe parcur-
a¸
sul etapelor de elaborare a con¸inutului acestui material.
t
˘
Nu-i uitam nici pe absolven¸ii Petrica Gabureanu si Victor Grigo-
t ˘ ˘ ¸
riu, mul¸umindu-le pentru interesul acordat Web-ului semantic, dar
t
t˘ ˘
mai ales pentru unele contribu¸ii la volumul de fa¸a. Exprimam grati-
t
˘
tudinea noastra studen¸ilor Florin Bandas si Adrian Mironescu pentru
t ¸
ajutorul oferit la finalizarea acestei c˘ ti.
ar¸
˘
De asemenea, autorul este recunoscator profesorilor Dr. Marcin
Paprzycki (Computer Science Department, Oklahoma State University,
USA) si Dr. Stefan Andrei (Facultatea de Informatic˘ din Ia¸ i) pentru
¸ ¸ a s
facilitarea accesului la unele resurse bibliografice si pentru comenta-
¸
riile deosebit de utile privitoare la con¸inutul lucr˘
t arii.

List˘ de tabele
a

1.1 Compara¸ie între diverse formate de documente în evolu¸ia
t t
spa¸iului World-Wide Web . . . . . . . . . . . . . . . . . . 31
t

3.1 Rela¸iile stabilite între punctele de început si de sfâr¸ it
t ¸ s
˘
ale doua intervale temporale . . . . . . . . . . . . . . . . . 92
3.2 Rela¸iile restrânse între punctele de început si de sfâr¸ it
t ¸ s
˘
ale doua intervale temporale . . . . . . . . . . . . . . . . . 93

List˘ de figuri
a

1.1 Rela¸iile dintre o resurs˘ adresa si reprezentarea resursei 11
t a, ¸

2.1 Resursele si leg˘
¸ aturile au asociate descrieri semantice . 34
2.2 Nivelurile de specificare a Web-ului semantic . . . . . . . 36
2.3 Reprezentarea prin grafuri a declara¸iilor RDF . . . . .
t . 57
2.4 Mul¸imile de clase si de propriet˘ ti . . . . . . . . . . . .
t ¸ a¸ . 62
2.5 Ierarhiile de clase RDF . . . . . . . . . . . . . . . . . . . . 64
2.6 Restriçiile în RDF . . . . . . . . . . . . . . . . . . . . .
t . 66

3.1 Axiomatizarea perioadelor de timp . . . . . . . . . . . . . 88
3.2 Rela¸iile posibile între perioadele de timp . . . . . . . . . 90
t
3.3 Reprezentarea grafic˘ a leg˘
a aturii temporale stabilite în-
˘
tre doua situri Web . . . . . . . . . . . . . . . . . . . . . . 111
3.4 Reprezentarea grafic˘ a leg˘
a aturilor stabilite între resur-
sele Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
˘ ˘
3.5 Arhitectura interna a unui motor de cautare . . . . . . . 119

4.1 Nivelurile de standardizare ale serviciilor Web . . . . . . 150
4.2 ˘
Arhitectura interna a sistemului ITW . . . . . . . . . . . 159
4.3 Serviciile Web locale si externe folosite de ITW . . . . . .
¸ 168
4.4 Structura pe niveluri a componentelor ITW implemen-
tând servicii Web semantice . . . . . . . . . . . . . . . . . 170

Preambul

Daca omul ar putea calatori fara întrerupere toata via¸a,
˘ ˘ ˘ ˘ ˘ ˘ t
de la na¸ tere pâna la moarte, timpul ar ajunge sinonim
s ˘
cu spa¸iul strabatut de pa¸ ii sai.
t ˘ ˘ s ˘
Bergson

˘
Prezentare generala
˘
T informa¸tiilorahipermediadeînfa¸spa¸tiul World-Wide Web. prezint˘a un
EMA principal˘ a lucr˘arii ta se înscrie pe coordonatele reg˘

îndeplinirii acestui deziderat, pe parcursul materialului se
asirii
În vederea

model original utilizat pentru specificarea rela¸iilor spa¸io-temporale
t t
dintre resursele multimedia ale unui (fragment de) sit Web, model cir-
cumscris problematicilor actuale ale Web-ului semantic.
La nivel abstract, s-a recurs la formaliz˘ bazate pe logica tem-
ari
˘
porala cu intervale – ITL (Interval Temporal Logic) [Allen, 1991]. Mo-
delarea rela¸iilor spa¸iale are în vedere modul de stocare a acestora
t t
în cadrul unui sistem de fi¸ iere distribuit, luându-se în considera¸ie
s t
si posibilele metadate care pot fi asociate resurselor (e.g., drepturi de
¸
acces, tip, proprietar etc.).
Pentru a asigura independen¸a de platform˘ si alinierea la princi-
t a ¸
palele standarde actuale ale Consor¸iului Web, maniera de stocare a
t
informa¸iilor realizându-se prin crearea unor limbaje bazate pe meta-
t
limbajul XML (Extensible Markup Language) [Bray et al., 2004]. Aces-
tea sunt menite a fi integrate în aser¸iuni RDF (Resource Description
t

1

2 Sabin Corneliu Buraga

Framework) [Beckett, 2004] – cadru oferind interoperabilitate aplica-
tiilor distribuite care realizeaz˘ schimb inteligent de informa¸ii, în sen-
¸ a t
˘
sul interpretarii de c˘ s ˘
atre ma¸ ina a semanticii acestora. Din acest punct
de vedere, problematica dezb˘ ˘
atuta poate fi considerat˘ ca fiind aliniat˘
a a
Web-ului semantic [Berners-Lee et al., 2001, Davies et al., 2003].
Din moment ce resursele multimedia pot fi descrise si pot fi inter-
¸
t a aut ˘
conectate prin rela¸ii spa¸io-temporale, exist˘ posibilitatea c˘ arii si
t ¸
˘ ˘ ˘
regasirii lor, într-o manier˘ asemanatoare celei adoptate de motoarele
a
˘
de cautare actuale [Brin & Page, 1998, Chakrabarti et al., 1999]. Lu-
crarea propune utilizarea descrierilor RDF ale metadatelor asociate
resurselor, cu concursul rela¸iilor stabilite între documentele multime-
t
dia.
Una dintre etapele importante ale procesului de c˘ autare este cea
˘
a procesarii interog˘ arilor complexe formulate de utilizatori. Din acest
˘
punct de vedere, cercetarile întreprinse se concentreaz˘ asupra ex-
a
˘
primarii interog˘ arilor prin intermediul unui limbaj bazat pe XML, in-
cluzând în plus unele informa¸ii privind structura, con¸inutul si rela-
t t ¸
tiile pe care le pot avea documentele multimedia c˘
¸ autate cu alte re-
surse.
Lucrarea propune o solu¸ie original˘ de implementare, concretizata
t a ˘
în platforma ITW, bazat˘ pe componente distribuite eterogene, repre-
a
zentate din agen¸i [Bradshow, 1997, Luck, McBurney & Preist, 2003],
t
servicii Web (semantice) [Curbera et al., 2002] si alte entit˘ ti progra-
¸ a¸
mabile. Aceste componente software, independente de platforma si dez- ˘ ¸
voltate deschis, pot fi integrate în platforme de tip Grid [Buyya, 2002],
˘
cu utilizari în reg˘asirea informa¸iilor multimedia în cadrul organiza¸ii-
t t
lor virtuale existând în Internet.

˘
Structura lucrarii
Vom prezenta în continuare structura general˘ a c˘ tii:
a ar¸

Capitolul 1 descrie arhitectura spa¸iului WWW, trecând în revist˘
t a
principalele concepte pe care se bazeaz˘ hipertextul [Nielsen, 1990],
a:
identificatorii uniformi de resurse [Berners-Lee et al., 1998] si limba-
¸
jele de adnotare [Buraga, 2001a, Tr˘ san-Matu, 2001]. De asemenea,
au¸

Preambul 3

˘
se ilustreaza evolu¸ia – mai ales din punctul de vedere al familiei de
t
limbaje XML – a Web-ului din prisma sintaxei, stilului de prezentare,
structurii si semanticii con¸inutului resurselor Web, urmându-se în
¸ t
principal liniile expuse în [Buraga, 2002a] si [Alboaie & Buraga, 2002].
¸
În capitolul 2 se realizeaz˘ o prezentare general˘ a problematicilor
a a
legate de Web-ul semantic, insistându-se asupra RDF – conform cu cele
detaliate de [Beckett, 2004], [Brickley & Guha, 2000] si [Hayes, 2004]
¸
– si a descrierii ontologiilor. Unele exemplific˘ recurg la o serie de
¸ ari
contribu¸ii proprii legate de modelarea rela¸iilor dintre resursele unui
t t
sistem de teleconferin¸e [Buraga, 1998, Buraga, 2001b, Buraga, 2001d]
t
sau ale componentelor unei platforme de tip e-learning
[Buraga, 2001c, Buraga, 2003e].
˘ ˘
Urmatorul capitol detaliaz˘ cercetarile privitoare la descrierea si
a ¸
˘
regasirea resurselor multimedia disponibile în Internet. Acest capitol
este divizat în dou˘ mari p˘ ti:
a ar¸

• Prima parte a capitolului prezint˘ o serie de modele teoretice uti-
a
lizate pentru descrierea propriet˘ tilor temporale ale sistemelor
a¸
distribuite, focalizându-se asupra logicii ITL (a se vedea seçiu-
t
nea 3.2.3). Pe baza acestui formalism, se vor putea exprima rela-
tiile spa¸io-temporale dintre resursele Web.
¸ t
În vederea descrierii resurselor distribuite în spa¸iul WWW, se
t
pleac˘ de la reprezentarea RDF a propriet˘ tilor p˘ tilor compo-
a a¸ ar¸
nente ale unui sistem de fi¸ iere distribuit, prin intermediul unui
s
limbaj propriu bazat pe XML – XFiles – descris în [Buraga, 2000a],
[Buraga, 2002b] si [Buraga, 2003d]. Extinzând modelul la Web,
¸
se pot exprima rela¸iile spa¸iale stabilite între diverse resurse ale
t t
unui Web local (e.g., intranetul unei organiza¸ii). Resursele tem-
t
porale vor putea fi specificate cu concursul unui alt limbaj – TRSL
(Temporal Relation Specification Language) [Buraga, 2002c]
[Buraga & Ciobanu, 2002] – care rescrie în termenii XML rela-
tiile formale ale logicii ITL. Acest limbaj este suficient de flexibil
¸
pentru a da posibilitatea asocierii de açiuni care vor putea fi exe-
t
cutate la apari¸ia unui eveniment – de exemplu, ini¸ierea unei
t t
oglindiri (copieri) a unei resurse pe alt sit Web la un moment de
timp.


• Subcapitolul secund se concentreaz˘ asupra problematicii c˘ a-
a aut ˘
rii resurselor multimedia, lucrarea propunând o manier˘ de uti-
a
lizare a descrierilor RDF ale metadatelor asociate resurselor si ¸
exploatare a informa¸iilor semantice asociate rela¸iilor stabilite
t t
˘ ˘
între resursele Web. Dupa o succinta prezentare a arhitecturii
˘
motoarelor de cautare, se ilustreaz˘ modul de exprimare a in-
a
˘
terogarilor ce pot fi formulate de utilizator în WQFL (Web Query
Formulating Language), conform seriei de cercet˘ întreprinse
ari
si detaliate în [Buraga & Rusu, 2000], [Buraga & Brut, 2001] si
¸ ¸
[Buraga & Brut, 2002]. Acest limbaj bazat pe XML va putea ex-
prima interog˘ arile complexe date de utilizatori, dar – de aseme-
nea – va fi capabil a desemna unele informa¸ii privind structura
t
si con¸inutul resurselor hipermedia g˘
¸ t asite.
Strategia de interogare pleac˘ de la premisa c˘ utilizatorii prefer˘
a a a
˘ t ˘
sa ob¸ina documente (multimedia) având diverse structuri si tipu-
¸
ri de con¸inut, în acest sens trebuind specificate pozi¸iile si num˘
t t ¸ a-
rul de apari¸ii ale unor elemente sintactice compunând un anumit
t
document XML.
Pentru a oferi o cât mai mare flexibilitate, limbajul WQFL a fost
˘
extins sa faciliteze utilizarea expresiilor regulate Perl, recurgân-
du-se la teoria limbajelor regulate [Jucan, 1999].

Capitolul 4 ofer˘ o serie de solu¸ii de implementare a sistemului
a t
ITW [Buraga, 2003g, Buraga & G˘ abureanu, 2003], mediu eterogen si¸
distribuit utilizat la reg˘
asirea informa¸iilor multimedia, folosind agen¸i
t t
si servicii Web. Dup˘ o prezentare a problematicii sistemelor multi-
¸ a
agent [Bradshow, 1997, Mangina, 2002] si a serviciilor Web bazate pe
¸
XML [Vasudevan, 2001], lucrarea continu˘ cu ilustrarea arhitecturii
a
unei platforme distribuite compus˘ din agen¸i, servicii Web si alte en-
a t ¸
˘t
tita¸i programabile. Sistemul ITW folose¸ te descrieri RDF/XML pentru
s
˘
cautarea resurselor multimedia, plecând de la interog˘ formulate în
ari
WQFL prin intermediul unei interfe¸e Web flexibile [Buraga, 2002a,
t
Buraga, 2003b], si se bazeaz˘ pe rela¸iile spa¸io-temporale adnotate în
¸ a t t
limbajele XFiles si TRSL definite în cadrul capitolului 3.
¸
Sistemul de agen¸i este bazat pe formalismul BDI (Belief-Desire-
t
Intention) [Rao et al., 1995], iar pentru implementarea efectiv˘ se uti-
a

Preambul 5

˘ ˘
lizeaza o platforma specific˘ – Omega [Alboaie & Buraga, 2002] – per-
a
mi¸ând interschimb de informa¸ii XML între agen¸i prin intermediul
t t t
serializ˘ [Buraga & Alboaie, 2004, Alboaie & Buraga, 2003a].
arii
˘ ¸ ˘
Se ofera si doua posibile utiliz˘
ari:

• în domeniul e-learning – conform cercet˘
arilor concretizate în lu-
˘
crari precum [Buraga, 2001c], [Buraga, 2003c], [Buraga, 2003e]
si [Buraga & Brut, 2003];
¸

• în modelarea fluxului de informa¸ii în cadrul întreprinderilor vir-
t
tuale (e-enterprise) – rezultatele cercet˘
arilor efectuate fiind deta-
liate în [Cioca & Buraga, 2003a] si [Cioca & Buraga, 2003b].
¸

Lucrarea se încheie cu prezentarea concluziilor generale si direçii-
¸ t
lor de cercetare viitoare.
Prima anex˘ ilustreaz˘ modul de generare si de utilizare a meta-
a a ¸
datelor asociate unor resurse Web prin intermediul aser¸iunile RDF în
t
˘
contextul unui sit de comer¸ electronic. Urmatoarele trei anexe detalia-
t
˘
za defini¸iile formale ale sintaxei limbajelor bazate pe XML specificate
t
în capitolul 3 – XFiles, TRSL si WQFL, respectiv –, pentru aceasta
¸
folosindu-se o abordare orientat˘ a-obiect facilitat˘ de schemele XML.
a
˘
Ultima anex˘ enumera acronimele utilizate în cadrul acestui material.
a

Contribu¸ ii
t
Din cele aproximativ 300 de referin¸e bibliografice ale lucr˘
t arii, peste
40 sunt contribu¸ii originale ale autorului, ca unic autor sau co-autor,
t
˘ t
concretizate în car¸i tip˘ arite, articole recenzate si publicate în reviste
¸
interna¸ionale de prestigiu sau în proceeding-urile unor conferin¸e in-
t t
terna¸ionale, editate pe plan mondial de IEEE Computer Society Press,
t
Springer-Verlag (LNCS) sau IOS Press si pe plan na¸ional de Polirom
¸ t
sau de editurile unor institu¸ii academice din Bucure¸ ti, Craiova, Ga-
t s
la¸i, Ia¸ i ori Timi¸ oara.
t s s
t˘ ˘
Lucrarea de fa¸a se bazeaz˘ pe o serie de cercetari efectuate în ca-
a
˘
drul unui numar de 5 contracte finan¸ate de Academia Român˘ ANSTI
t a,
si CNCSIS în perioada 1999–2002, dintre care se pot men¸iona:
¸ t


• grantul CNCSIS 283/2002 – Tehnici avansate de cautare a docu-
˘
mentelor hipermedia pe Web, director: Sabin Buraga;
• grantul CNCSIS 966/2001 – Metodologii generative pentru proiec-
tarea ma¸ inilor abstracte, director: Gheorghe Grigora¸ .
s s

˘ t˘
De asemenea, o parte din con¸inutul lucrarii de fa¸a se bazeaz˘ pe
t a
experien¸a acumulat˘ de autor în cadrul comitetelor stiin¸ifice ale unor
t a ¸ t
evenimente interna¸ionale precum International Symposium on Paral-
t
lel and Distributed Computing – ISPDC 2003, Ljubljana, 2003, Agent-
Based Computing, sesiune special˘ în cadrul World Multiconference
a
on Systemics, Cybernetics and Informatics – SCI 2003, Orlando, 2003
si International Symposium on Parallel and Distributed Computing –
¸
ISPDC 2004, Cork, Ireland, 2004.

Destinatari
Cartea se adreseaz˘ tuturor celor interesa¸i de problematicile actuale
a t
si de continua dinamicitate a Web-ului semantic, putând fi consultat˘
¸ a
de studen¸ii din anii terminali, masteranzi sau doctoranzi, de specia-
t
li¸ tii în domeniul stiin¸ei calculatoarelor si de to¸i cei care doresc s˘ î¸ i
s ¸ t ¸ t a s
formeze o privire de ansamblu asupra temelor principale de cercetare
referitoare la Web.
˘ t t˘
Par¸i ale materialului de fa¸a – redactat integral folosind instru-
mente open-source (LTE ¸ A X si GIMP) rulate pe platforme Linux (Red Hat

si Mandrake) – se bazeaz˘ pe cursurile Tehnologii Web si Tehnologii
¸ a ¸
Web II, predate de autor studen¸ilor anului IV ai Facult˘ tii de Infor-
t a¸
matica ˘ a Universit˘ tii “Al. I. Cuza” din Ia¸ i.
a¸ s
˘
A¸ teptam reaçiile dumneavostr˘ prin po¸ ta electronic˘ la adresa
s t a s a
busaco@infoiasi.ro. Situl Web dedicat acestei lucr˘ este disponi-
ari
bil la http://www.infoiasi.ro/~sweb/.

Autorul
martie 2004, Ia¸ i
s

Capitolul 1

Arhitectura spa¸iului WWW
t

Acest capitol descrie succint conceptele de baz˘ ale
a
spa¸iului World-Wide Web, trecând în revist˘ evolu¸ia
t a t
– din mai multe perspective – a limbajelor de marcare
pentru Web.

1.1 ˘
Prezentare generala

U netului, World-Wideimportante maideEuropeanserviciisau ari Nu-
NULdintre cele mai
Web-ul –
si
¸

WWW –, a fost instituit la CERN (Centrul
succes
pe scurt, Web
ale Inter-
spa¸iul
de Cercet ˘
t

cleare de la Geneva) în anul 1989, gra¸ie fizicienilor Tim Berners-Lee,
t
Robert Caillau si echipei acestora, scopul principal urm˘
¸ arit fiind faci-
litarea accesului rapid la informa¸iile tehnice cuprinse în manualele
t
de utilizare a calculatoarelor [Berners-Lee, 1989]. Web-ul reprezint˘ a
un sistem de distribu¸ie locala sau globala a informa¸iilor hiperme-
t ˘ ˘ t
dia [Berners-Lee, 1999].
Spa¸iul Web pune la dispozi¸ie un sistem global si standardizat de
t t ¸
comunicare multimedia, informa¸iile fiind organizate asociativ, Web-ul
t


funçionând conform modelului client/server si beneficiind de facilit˘ ti-
t ¸ a¸
le oferite de structurarea sub form˘ de hipertext a resurselor. Cu toat˘
a a
dezvoltarea lui spectaculoas˘ Web-ul nu trebuie confundat cu Inter-
a,
netul, ci poate fi considerat drept cea mai dinamic˘ si spectaculoas˘
a ¸ a
˘
componenta software a acestuia.
Cantitatea de informa¸ii disponibile în spa¸iul WWW, în oricare
t t
¸ ˘
domeniu, este cople¸ itoare si în continua cre¸ tere. Conceptul ini¸ial
s s t
al Web-ului a fost tocmai integrarea unor sisteme informa¸ionale dis-
t
parate (ca, de exemplu, sistemele de gestiune a bazelor de date) într-un
mod unitar, formându-se un spa¸iu abstract, în care diferen¸ele din-
t t
tre diversele surse de date s˘ nu mai existe. Actualmente, Web-ul cu-
a
˘
muleaza orice tip de informa¸ie, indiferent de platforma pe care exist˘
t a
fizic.
Ideea de a agrega si de a asocia resurse de informa¸ii disponibile
¸ t
˘
în maniera distribuit˘ provine din cercet˘
a arile întreprinse în domeniul
hipertextului1 , modalitatea de a adresa resursele – text, imagini sta-
tice, multimedia (audio, anima¸ii, video) etc. – realizându-se prin inter-
t
mediul identificatorilor uniformi de resurse (URI – Uniform Resource
Identifiers), prezenta¸i în cadrul seçiunii 1.2.2. Ace¸ ti identificatori re-
t t s
˘ ˘
prezinta o modalitate flexibil˘ si eficienta de accesare a oric˘
a¸ arei resurse
Internet, prin oricare protocol de comunicare – cel mai utilizat fiind
HTTP (HyperText Transfer Protocol) [Fielding et al., 1997].
Limbajul prin care sunt structurate si prezentate informa¸iile si, de
¸ t ¸
˘
asemenea, sunt specificate legaturile dintre diverse resurse hipertext
este popularul limbaj de marcare – sau de adnotare2 – HTML (Hy-
perText Markup Language) [Raggett et al., 1999]. În prezent, limbajul
HTML a fost rescris în termenii XML, ap˘ arând noul limbaj de marcare
a hipertextului XHTML [Pemberton et al., 2002].

Identificatorii uniformi de resurse URI, protocolul HTTP si limba-
¸

1 ˘ s
A se consulta si [Nielsen, 1990], [Balasubramanian, 1994], [Trau¸ an-Matu, 2000]
¸
sau [Buraga, 2001a].
2
˘
Açiunea de adnotare se realizeaz a prin intermediul unui limbaj de adnotare (sau
t
˘
de specificare), care reprezint a un set de conven¸ii de marcare utilizate pentru co-
t
dificarea datelor, specificând mul¸imea de marcaje obligatorii, permise, maniera de
t
˘
identificare a marcajelor si semantica fiec arui marcaj disponibil [Buraga, 2002a].
¸

t 9

jul HTML au reu¸ it s˘ îndeplineasc˘ practic scopurile principale ale
s a a
spa¸iului World-Wide Web [Berners-Lee, 1999, Berners-Lee, 2002]:
t

• independen¸a de dispozitiv – acelea¸ i informa¸ii pot fi accesate
t s t
via o multitudine de dispozitive, precum mainframe-urile, calcu-
latoarele personale etc.;

• independen¸a de software – forme diferite de software – clien¸i
t t
(navigatoare, robo¸i si agen¸i Web etc.) si servere Web – ofer˘
t ¸ t ¸ a
¸ t a a, ˘ ˘
si extrag informa¸ii într-o manier˘ universal˘ fara ca nici un
a ˘
produs-program s˘ reprezinte o componenta critic˘ pentru spa¸iul
a t
˘
WWW, deoarece Web-ul nu reprezinta un program, ci un set de
protocoale si specifica¸ii standardizate, deschise, redactate de Con-
¸ t
sor¸iul Web [W3C];
t

• scalabilitatea – dezvoltarea exponen¸ial˘ a Web-ului este un exem-
t a
plu interesant al efortului intens depus de comunitatea utiliza-
torilor Internet-ului, independent de resursele hardware si soft-
¸
ware disponibile;

• caracterul multimedia – documentele disponibile pe Web, reg˘ asite
si sub denumirea de pagini, pot integra surse de informa¸ie mul-
¸ t
tiple, în diverse forme, de la date discrete – text, imagini statice,
precum fotografii, scheme, diagrame etc. – pân˘ la cele continue
a
– anima¸ii, audio si video.
t ¸

U¸ urin¸a cre˘
s t arii si public˘
¸ arii paginilor Web de c˘ atre orice utiliza-
tor având cuno¸ tin¸e minime de marcare a datelor si de design – folo-
s t ¸
sind, eventual, multitudinea de editoare HTML disponibile de cele mai
multe ori gratuit – a condus la apari¸ia siturilor Web. Un sit Web repre-
t
˘ ˘
zinta o coleçie de documente orientate uzual catre informa¸ii unitare
t t
sau scopuri comune [Buraga, 2002a]. Virtual, oricine – de la o persoan˘ a
˘
particular˘ pâna la o organiza¸ie guvernamental˘ academic˘ ori co-
a t a, a
˘ t˘
merciala – î¸ i poate dezvolta propria interfa¸a (sit) Web, publicând-o si
s ¸
integrând-o în spa¸iul World-Wide Web.
t


1.2 ˘
Componente de baza ale spa¸ iului WWW
t
Spa¸iul World-Wide Web funçioneaz˘ în practic˘ datorita3 :
t t a a ˘

• unei scheme consistente de identificare a resurselor, prin interme-
diul identificatorilor uniformi de resurse [Berners-Lee et al., 1998]
(a se vedea seçiunea 1.2.2);
t

• unui mecanism flexibil de transfer de date, reprezentat de proto-
colul HTTP [Fielding et al., 1997];
• unei descrieri logice a structurii documentelor hipertext, prin con-
cursul unor limbaje de adnotare bazate pe meta-limbajele SGML
(Standard Generalized Markup Language) [Goldfarb, 1990] – ne
referim aici mai ales la HTML [Raggett et al., 1999] – sau, mai re-
cent, la XML (Extensible Markup Language) [Bray et al., 2004]4 .

În continuare, vom prezenta caracteristicile esen¸iale ale acestor
t
componente de baza˘ ale spa¸iului WWW (a se vedea si figura 1.1).
t ¸

1.2.1 Hipertextul
1.2.1.1 Defini¸ ii
t
˘ ˘
Conceptul de hipertext reprezinta o maniera particular˘ de organizare
a
versatil˘ a informa¸iilor. Termenul hipertext (text non-linear) are o mul-
a t
titudine de defini¸ii, dintre care se pot men¸iona5 :
t t

• Hipertextul reprezinta o forma nelinear˘ de document electronic.
˘ ˘ a
• Hipertextul este un mod de organizare complex˘ a informa¸iilor
a t
în care datele sunt memorate într-o re¸ea (graf) de noduri si leg˘
t ¸ a-
turi (a se vedea seçiunea 1.2.1.2).
t

3
Pentru detalii, a se consulta [Berners-Lee, 1999] sau [Buraga, 2001a].
4
Datele marcate în XML pot fi vizualizate sau transformate în alte formate prin
utilizarea specifica¸iei XSL (Extensible Stylesheet Language) [Adler et al., 2001].
t
5 ˘
Pentru detalii, a se consulta lucrarile [Balasubramanian, 1994], [Buraga, 2001a],
˘ s
[Nielsen, 1990], [Louka, 1994] sau [Trau¸ an-Matu, 2000].

t 11

Figura 1.1: Rela¸iile dintre o resurs˘ multimedia, adresa ei – via URI – si
t a ¸
˘
reprezentarea structurat˘ a resursei (adaptare dupa [Jacobs, 2003])
a

• Hipertextul reprezinta o forma de comunicare dintre om si calcu-
˘ ˘ ¸
lator, interfa¸a ﬁind chiar hipertextul.
t

Documentele hipertext se numesc hipermedia în cazul în care locul
informa¸iilor text este luat de cele multimedia.
t

1.2.1.2 Concepte
Componentele centrale ale hipertextului sunt nodurile si legaturile.
¸ ˘
˘ t˘
Un nod reprezinta un concept unic, având în componen¸a informa¸ii t
(discrete ori continue) sau programe generând un anumit con¸inut. Un
t
nod poate avea asociat un tip care înglobeaz˘ o informa¸ie semantica.
a t ˘
Nodurile sunt conectate la alte noduri prin intermediul leg˘ aturilor.
˘
Nodul sursa al unei leg˘ aturi poart˘ numele de referin¸a, iar nodul des-
a t˘
t s t˘ ¸
tina¸ie se nume¸ te referent. Nodurile referin¸a si referent sunt denu-
mite si ancore.
¸
˘
Legaturile reprezint˘ conexiuni între noduri (sau concepte) depen-
a
dente unul de altul, putând ﬁ stabilite în cadrul aceluia¸ i document
s
¸ ˘
si/sau între documente diferite, stocate în maniera distribuit˘ permi-
a,
tându-se astfel o organizare nelinear˘ a informa¸iilor.
¸ a t


˘ ˘
Legaturile, vazute drept arce ale (di)grafului hipertext, sunt bidi-
reçionale sau unidireçionale. Leg˘
t t ˘
aturile pot fi de doua tipuri, conform
naturii rela¸iei dintre noduri [Louka, 1994]:
t

• referen¸iale – non-ierarhice, utile pentru realizarea referin¸elor
t t
încruci¸ ate, fiind cele care deosebesc cel mai bine hipermedia de
s
celelalte forme de stocare a informa¸iei;
t

• organiza¸ionale (denumite ierarhice sau structurale) – desemnea-
t
˘
za rela¸iile p˘
t arinte-copil dintre noduri, fiind folosite la organi-
˘ ˘
zarea nodurilor în manier˘ ierarhic˘ într-o structura stricta; acest
a a
˘
tip de legaturi este esen¸ial pentru linearizarea hipertextului si
t ¸
˘
permite autorilor sa verifice coeren¸a structurii hipertext.
t

˘
De asemenea, legaturile pot fi statice (stabilite a-priori de autorul
˘
documentului, la momentul proiectarii re¸elei hipertext) sau dinamice
t
(create în momentul parcurgerii structurii hipertext, în funçie de con-
t
text – e.g., restriçii de acces – sau de cerin¸ele/experien¸a utilizato-
t t t
rilor).

1.2.1.3 Documente hipertext

În¸elegerea unui document hipertext si navigarea prin acesta depind
t ¸
de abilitatea utilizatorului de a proiecta si construi o reprezentare men-
¸
˘ ˘
tala coerenta a structurii hipertextului, creatorul acelui document fiind
a a t˘
responsabil s˘ asigure aceast˘ coeren¸a [Tr˘ san-Matu, 2000].
au¸
Un document hipertext considerat coerent este constituit din trei
componente, prezentate pe scurt în continuare:

1. partea de con¸inut
t

Nodurilor si leg˘
¸ aturilor le pot fi asociate propriet˘ ti (semantici),
a¸
în vederea asigur˘arii coeren¸ei informa¸iei. Partea de con¸inut
t t t
˘ ˘
stocheaza obiecte purtatoare de informa¸ie: noduri de con¸inut
t t
˘
– care memoreaza efectiv date – si leg˘
¸ aturi de con¸inut – care
t
˘
conecteaza nodurile de con¸inut pe baza unor rela¸ii semantice,
t t

t 13

i.e. folosindu-se diverse ontologii6 . Nodurile de con¸inut pot fi ato-
t
mice sau pot fi compuse din alte noduri.
Modalitatea de memorare a informa¸iilor în cadrul nodurilor de
t
tip con¸inut variaz˘ de la un sistem hipertext la altul, în prezent
t a
adoptându-se meta-limbajul de marcare XML, pentru Web pre-
tându-se – mai ales din punctul de vedere al manierei de pre-
zentare – limbajul HTML. Actualmente, se utilizeaz˘ un numar
a ˘
mare de limbaje bazate pe XML pentru marcarea diferitelor infor-
ma¸ii. Pentru a oferi doar câteva exemple 7 , meta-limbajul XML
t
este folosit la modelarea si adnotarea de:
¸

• prezentari multimedia sincronizate prin SMIL (Synchronized
˘
Multimedia Integration Language) [Ayars et al., 2001];
• grafic˘ vectorial˘ pentru Web folosind SVG (Scalable Vector
a a
Graphics) [Ferraiolo et al., 2003];
• limbaje de interogare (query languages) pentru Web (a se
vedea [DeRose, 1998], [Shanmugasundaram et al., 1999],
[Oliboni & Tanca, 2000] sau [Malhotra et al., 2003]);
• documente exprimând construçii sintactice ale unor limbaje
t
de programare funçional˘ [Boley, 2000];
t a
• ontologii, prin intermediul limbajului OWL (Web Ontology
Language) [Dean & Schreiber, 2004].

˘ ˘
În cadrul acestui context, men¸ionam si cercetarile proprii în-
t ¸
treprinse în proiectarea unor limbaje bazate pe XML pentru re-
prezentarea sistemelor Lindenmayer (L-systems) [Buraga, 2000b,
Buraga et al., 2002b] în vederea vizualiz˘arii 3D în VRML (Vir-
tual Reality Modeling Language) sau pentru exprimarea fluxu-
lui informa¸iilor hipertext în cadrul întreprinderilor virtuale –
t
e-enterprise [Cioca & Buraga, 2003a] [Cioca & Buraga, 2003b]
[Cioca & Buraga, 2003c].

6 ˘ ˘ ˘
Ontologiile reprezint a specificari ale unor conceptualiz ari [Gruber, 1993]. A se
vedea si cele discutate în capitolul 2.
¸
7 ˘ s
A se consulta si [Trau¸ an-Matu, 2001], [Oasis] sau [W3C].
¸


2. partea de organizare

Nodurile si leg˘
¸ ˘
aturile de structura stocate în cadrul acestei p˘ ti
ar¸
t˘ ˘
asigur˘ documentului o coeren¸ a sporita deoarece prin interme-
a
diul lor autorul î¸ i structureaz˘ re¸eaua hipertext din perspectiva
s a t
cititorului.
Nodurile de structur˘ pot fi clasificate în noduri de secven¸a –
a t˘
˘ t˘
prin care autorul define¸ te o anumita secven¸a de parcurgere a
s
con¸inutului hipertextului – si noduri de explorare – care ofer˘
t ¸ a
utilizatorului posibilit˘ ti de explorare complex˘ non-secven¸ial˘
a¸ a, t a
a re¸elei hipertext.
t
t˘ ˘
Nodurile de secven¸a împreuna cu leg˘ t˘
aturile de secven¸a pot oferi
diverse secven¸e (scenarii) de prezentare a con¸inutului hiper-
t t
˘
text (ca de exemplu cai de vizitare secven¸iale, arborescente sau
t
condi¸ionale).
t

3. partea de prezentare

˘
Aceasta parte preg˘ ste vizualizarea structurii si con¸inutului
ate¸ ¸ t
hipertextului, oferind diverse mecanisme de navigare (a se vedea
si seçiunea 3.3.2.2 a capitolului 3). Autorii pot adopta diferite
¸ t
stiluri de prezentare a informa¸iilor:
t

• textual – nu exist˘ o vizualizare grafic˘ a structurii, prezen-
a a
tarea fiind limitat˘ la afi¸ area con¸inutului unuia sau mai
a s t
s ˘
multor noduri (utilizatorul nu este con¸ tient ca traverseaz˘a
˘
o structura hipertext);
• grafic – exist˘ o vizualizare grafic˘ a structurii hipertext (e.g.,
a a
harta leg˘
aturilor dintre noduri, arborele de navigare etc. – a
se vedea modul de vizualizare a informa¸iilor g˘
t asite de meta-
˘
motorul de cautare Kartoo [Kartoo]);
• combinat – ofera ambele posibilit˘ ti de prezentare.
˘ a¸

Documentele hipertext sunt structurate asemenea re¸elelor (grafu-
t
ar ˘
rilor), f˘ a a se impune restriçii în ceea ce prive¸ te m˘
t s arimea nodurilor

t 15

sau modul de realizare a leg˘ aturilor dintre ele. Pentru realizarea unei
structuri hipertext valide si facil de parcurs, pot fi adoptate diverse
¸
principii de structurare, ca de exemplu metafora c˘ tii tip˘
ar¸ arite, struc-
tura linear˘ cu salturi sau structura ierarhic˘ [Balasubramanian, 1994,
a a
Louka, 1994].
˘
De asemenea, trebuie men¸ionat faptul ca din punct de vedere for-
t
mal, structurile hipertext pot fi modelate folosind teoria grafurilor.

1.2.2 Localizarea resurselor Web
1.2.2.1 Identificatori uniformi de resurse
Localizarea resurselor Web se realizeaz˘ prin intermediul unor identi-
a
ficatori uniformi de resurse – URI [Berners-Lee et al., 1998].
˘
Este considerata resursa orice entitate având identitate (ca de exem-
˘
plu: un document electronic, o imagine, un serviciu – i.e. serviciul de
s ˘ ˘
po¸ ta electronica –, o coleçie de alte resurse). Sunt considerate resurse
t
si cele care nu pot fi accesate direct via Internet (e.g., fiin¸ele umane,
¸ t
a t ˘
organiza¸iile etc.). O resurs˘ se poate men¸ine constanta în timp, de¸ i
t s
t ˘t
con¸inutul ei – entita¸ile c˘arora le corespunde – se poate modifica.
În vederea unei organiz˘ facile si unitare, resursele sunt desem-
ari ¸
nate printr-un identificator. Pentru ca diverse tipuri de identificatori de
˘ ˘
resurse sa poata fi utilizate în aceea¸ i manier˘ se recurge la folosirea
s a,
unor scheme uniforme de identificatori. Acest principiu adoptat asi-
˘
gura independen¸a de mecanismul (protocolul) folosit pentru accesarea
t
resurselor, permi¸ându-se astfel interpretarea în mod uniform a mai
t
multor conven¸ii sintactice desemnând identificatori ai unor resurse
t
eterogene. De asemenea, se pot introduce noi tipuri de identificatori de
˘ ˘
resurse fara a fi modificat modul de adresare a vechilor tipuri.
a ˘ ˘ ˘
A¸ adar, pentru ca o resurs˘ sa poata fi numita, partajat˘ sau inter-
s a
˘
conectata cu alta/altele în cadrul spa¸iului WWW, ea trebuie s˘ aib˘
t a a
ata¸ at un identificator uniform de resurse.
s
Mul¸imea URI este divizat˘ în:
t a

• localizatori uniformi de resurse – URL (Uniform Resource Loca-
tor) care identific˘ resursele printr-o reprezentare a mecanismu-
a


lui de accesare a lor (e.g., localizarea unor resurse prin interme-
diul adresei IP), nu prin nume sau alte atribute;
• nume uniforme de resurse – URN (Uniform Resource Name) care
permit referirea unei resurse chiar dac˘ resursa a disp˘
a arut ori
a devenit inaccesibil˘ prin intermediul unui nume persistent si
a, ¸
unic. URN-ul se utilizeaz˘ mai ales pentru a desemna entit˘ ti
a a¸
(componente, tipuri de date, servicii etc.) folosite de anumite apli-
ca¸ii Web.
t

1.2.2.2 Sintaxa URI
Un identificator uniform de resurse poate fi reprezentat ca sir de ca-
¸
ractere apar¸inând unui alfabet limitat (compus din literele alfabetului
t
latin, cifrele si diverse caractere de punctua¸ie). Un URI poate include,
¸ t
de asemenea, o serie de caractere rezervate [Berners-Lee et al., 1998].
Un identificator generic este compus din urm˘ atoarele componente:
schema "://" authority path "?" query

Existând mai multe metode de a accesa resursele, vor fi disponibile
mai multe scheme pentru a le identifica (i.e. http, mailto, ldap, urn
etc.) – a se vedea si [Jacobs, 2003].
¸
˘
Componenta autoritate (authority) este definita de o loca¸ie de ser-
t
t˘
ver disponibil la nivelul Internetului sau de o secven¸a special˘ de în-
a
registrare. Serverul poate fi specificat fie prin adresa IP (de exemplu
193.231.30.225), fie prin adresa simbolic˘ (e.g. thor.infoiasi.ro)
a
– via DNS (Domain Name System) [Naik, 1998] –, eventual fiind urmat
˘
de un numar de port.
Componenta cale (path) con¸ine date menite a identifica o resurs˘
t a
localizat˘ pe serverul desemnat de componenta autoritate descris˘ mai
a a
sus. Calea poate con¸ine secven¸e de segmente de cale separate prin
t t
t˘ t˘
“/”, fiecare secven¸a putând include o secven¸a de parametri.
˘
Ultima componenta este cea de interogare (query), reprezentat˘ de
a
un sir de informa¸ii ce vor fi interpretate de resurs˘
¸ t a.
Ca exemplu de identificator uniform de resurse poate fi dat˘ urma-
a ˘
toarea adres˘ Web, în care sunt prezente primele trei componente ale
a
unui URI:

t 17

http://www.infoiasi.ro/~busaco/books.html

Pentru sintaxa complet˘ (în forma EBNF [Jucan & Andrei, 2002]),
a
˘
recomandam consultarea lucr˘ arilor [Berners-Lee et al., 1998] sau
[Buraga, 2001a].
Deoarece majoritatea documentelor (resurselor) Web sunt stocate în
˘
maniera arborescent˘ (ierarhic˘ în locul adres˘
a a), arii absolute se poate
a. t˘
folosi o adresare relativ˘ Aceasta permite o independen¸a par¸ial˘ a
t a
loca¸iei si a schemei de acces, fiind desemnat˘ sintactic prin interme-
t ¸ a
diul identificatorilor uniformi de resurse relativi.
În plus, un URI poate avea inclus un identificator de fragment (frag-
ment identifier) [Berners-Lee et al., 1998] pentru a se permite identifi-
carea indirect˘ a unei resurse secundare prin intermediul referin¸ei
a t
la resursa primar˘ si al informa¸iilor suplimentare. Mai precis, dac˘
a ¸ t a
identificatorul uniform de resurse U identific˘ resursa R si reprezen-
a ¸
tarea resursei R este în formatul F , iar conform specifica¸iilor forma-
t
¸ ˘
tului F se stie ca identificatorii de fragment identific˘ resurse secun-
a
dare în cadrul instan¸elor lui F , atunci identificatorul pentru resursa
t
˘ ˘
secundara, identificata în interiorul unei instan¸e a lui F de un iden-
t
tificator de fragment f id, este reprezentat de U#f id. [Jacobs, 2003,
Berners-Lee et al., 1998]
˘ ˘
Drept exemplu, poate fi men¸ionata urmatoarea adres˘ sufixul ei
t a,
desemnând identificatorul de fragment public:
http://www.infoiasi.ro/~busaco/cv.html#public

Identificatorii uniformi de resurse ofer˘ suport pentru realizarea de
a
˘
legaturi între diverse noduri (resurse) ale spa¸iului WWW: când repre-
t
˘ ˘ ˘
zentarea unei resurse refera o alta resursa prin intermediul unui iden-
˘ ˘
tificator URI, atunci acesta reprezint˘ o legatura – v˘
a ˘
azuta în termenii
hipertextului – între cele dou˘ resurse [Jacobs, 2003].
a
˘
Dupa cum am amintit în cadrul seçiunii 1.1, accesul la reprezenta-
t
rea resurselor se realizeaz˘ prin intermediul unui protocol de comuni-
a
ca¸ie, în cazul Web-ului utilizându-se protocolul HTTP.8
t

8 ˘
Pentru detalii, se pot consulta lucrarile [Fielding et al., 1997], [Buraga, 2001a],
[Buraga et al., 2002a] sau [Naik, 1998].


1.3 Evolu¸ ia spa¸ iului WWW
t t
˘ ˘
În prezent, Web-ul a devenit fara îndoial˘ “universul informa¸iilor ac-
a t
cesibile în re¸ea”, conform defini¸iei anticipative dat˘ de creatorul aces-
t t a
tuia, Tim Berners-Lee [Berners-Lee, 1989]. Spa¸iul WWW s-a achitat
t
˘ ˘
de aceasta promisiune într-o manier˘ spectaculoas˘ din doua motive.
a a,
Primul dintre ele este reprezentat de flexibilitatea si independen¸a fa¸a
¸ t t˘
de con¸inut a protocolului HTTP – care se poate adapta pentru a trans-
t
fera orice format de document – si, în plus, de existen¸a identificatorilor
¸ t
universali de resurse (URI) capabili de a reprezenta leg˘ ˘
aturi catre orice
format de document. Un al doilea motiv este faptul c˘ seleçia natural˘
a t a
˘
pare sa fi favorizat câteva formate care au fost dezvoltate pentru Web
în mod explicit. În peisajul de o prolific˘ varietate a sintaxei, stilului,
a
structurii si semanticii documentelor Web, observ˘ adoptarea prefe-
¸ am
ren¸ial˘ a limbajelor SGML, HTML, CSS si XML. Fiecare dintre aces-
t a ¸
t a ˘
tea aduce o strategie evolu¸ionar˘ lenta, favorizând cod˘ arile declara-
t˘
tive fa¸a de formatele binare (de cele mai multe ori proprietare), stilu-
s t t˘
rile de afi¸ are separabile de con¸inutul propriu-zis fa¸a de formatarea
˘ a t˘
directa, marcarea declarativ˘ fa¸a de cea procedural˘ si semantica bine
a¸
˘ t˘
definita fa¸a de comportamentul opera¸ional.
t

Evolu¸ia Web-ului [Berners-Lee, 1999, Berners-Lee, 2002] se poate
t
remarca mai ales în urm˘
atoarele direçii:
t

• evolu¸ia sintaxei spre formate declarative;
t

• evolu¸ia stilului (prezentarii): de la formatare la foi de stiluri;
t ˘

• evolu¸ia structurii;
t

• evolu¸ia semanticii;
t

• evolu¸ia elementelor programabile.
t

Fiecare dintre acestea vor fi detaliate în continuare, urmând liniile
prezentate în [Buraga, 2002a] si [Alboaie & Buraga, 2002].
¸

t 19

1.3.1 Evolu¸ ia sintaxei spre formate declarative
t
Primul compromis se face în privin¸a opt˘ între limbajul ma¸ in˘ (bi-
t arii s a
nar) si limbajul natural (textual). La o prim˘ vedere, codificarea speci-
¸ a
˘
fica ma¸ inii pare mai pu¸in costisitoare datorit˘ faptului c˘ ea reflecta
s t a a ˘
direct datele în memorie. Totu¸ i, transformarea datelor în format bi-
s
˘
nar poate fi prea fragil˘ pentru a fi folosita pe platforme eterogene (de
a
exemplu, reprezentarea numerelor) si în versiuni de software multi-
¸
ple. Codificarea binar˘ poate, de asemenea, necesita mai mult spa¸iu
a t
si timp pentru împachetare si despachetare. Fi¸ ierele text pot fi la fel
¸ ¸ s
de eficiente, în plus formatele textuale (chiar si cele în forme par¸ial
¸ t
lizibile) sunt mai u¸ or de editat, corectat si extins.
s ¸
Al doilea compromis este legat de amalgamul dintre formatele de-
clarative si cele procedurale. Poate fi mai u¸ or de elaborat un analizor
¸ s
˘
pentru un program care calculeaz˘ numarul π decât de transmis un
a
miliard de cifre ale sale. Limbajul T X [Knuth, 1984], bazat pe mar-
E
caje, este un exemplu edificator privind puterea oferit˘ de formatele
a
procedurale pentru conceperea si procesarea documentelor, fa¸a de edi-
¸ t˘
toarele de texte folosind formate binare proprietare (e.g., Word).
˘
În fine, exista un compromis între formatele specifice si cele gene-
¸
˘
rice. În masura în care refolosirea informa¸iei este o preocupare ma-
t
˘ t˘
jora, o importan¸a chiar mai mare decât aceasta o are promovarea unei
familii de gramatici înrudite. Puterea meta-limbajelor SGML si XML ¸
˘
este reflectata de flexibilitatea în gestionarea documentelor de toate
¸ a ˘
tipurile, de la manuale si comunicate de pres˘ pâna la contracte legale
si specifica¸ii de proiecte, si de posibilitatea de reutilizare a acestora
¸ t ¸
în vederea producerii de c˘ ti, rapoarte si edi¸ii electronice (pentru
ar¸ ¸ t
CD-ROM, Web, dispozitive mobile etc.) pornind de la acela¸ i (acelea¸ i)
s s
fi¸ ier(e) surs˘ folosind marcaje declarative similare.
s a,
˘ ˘
Exista o tensiune fundamentala între performan¸a, costul si ca-
t ¸
pacitatea de utilizare a strategiilor de codificare u¸ or lizibile de c˘
s atre
s ˘ ¸
ma¸ ina si, respectiv, de c˘ atre om. Abordarea XML g˘ ste un echili-
ase¸
bru rezonabil între cele dou˘ Facila lizibilitate pentru om implic˘ ro-
a. a
t a ˘ s ˘
buste¸e, iar descifrarea rapid˘ de catre ma¸ ina implic˘ validitate; am-
a
bele calit˘ ti adaug˘ valoare informa¸iei si faciliteaz˘ evolu¸ia docu-
a¸ a t ¸ a t
mentelor în timp.


˘
1.3.2 Evolu¸ ia stilului (prezentarii): de la formatare
t
la foi de stiluri
˘ ˘
De când au aparut documentele, exista autori si proiectan¸i care si-
¸ t ¸
t ˘ ¸
au concentrat efortul de perfeçionare tehnica si stilistic˘ pentru fie- a
t˘
care atingere de peni¸a, fiecare fragment de corp de liter˘ fiecare ima- a,
a. ˘
gine plasat˘ În masura în care stilul generic al unei prezent˘ poate ari
fi captat în vederea reutiliz˘ arii ulterioare, cu atât mai mult˘ valoare
a
˘ ˘
capata design-ul si documentul în sine. Istoria evolu¸iei formatelor de
¸ t
˘
documente pentru Web favorizeaza formatarea extern˘ în detrimen- a
tul directivelor încapsulate tocmai cu scopul ca informa¸ia s˘ poata fi t a ˘
˘
reprezentata independent de stil si viceversa.¸
Pe parcursul istoriei proces˘ arii computerizate a datelor, au existat
˘
numeroase abordari ale reprezent˘ arilor orientate spre format˘ in- ari
terne, de la comenzile troff sau groff din mediile UNIX pân˘ la a
directivele formatului RTF (Rich Text Format), si la marcajele pen-
¸
tru fonturi din HTML (a se vedea, de exemplu, marcatorul <font>).
Aproape inevitabil, acestea au fost completate cu “scurt˘ aturi” de for-
matare reutilizabile: pachete de macro-uri, rigle si parametri pentru
¸
afi¸ area în navigator etc. Cl˘
s t˘
adite pe aceast˘ experien¸a, formatele ac-
a
tuale de documente Web – HTML si XML – permit ca formatarea da-
¸
˘ ˘
telor sa poata fi realizat˘ extern, prin foi de stiluri. Foile de stiluri în
a
cascad˘ – CSS (Cascading Style Sheets) [Bos et al., 1998] – merg mai
a
departe si permit compunerea unor stiluri separate, cum ar fi proprie-
¸
˘t
ta¸ile de culoare si font, seturile de caractere, grafica si prezentarea.
¸ ¸
˘
Mai mult, controlul formatarii este divizat între autor si cititor, acesta
¸
˘
din urma putându-¸ i interpune propria sa înl˘ tuire de foi de stiluri,
s an¸
at ˘ t ˘
deci contribuind la îmbun˘ a¸irea prezentarii datelor, în funçie de do- t
rin¸ele sale individuale [Buraga, 2001a, Buraga, 2002a].
t
Stilurile nu sunt limitate la domeniul vizual – ele pot controla re-
darea con¸inutului pentru monitoare, hârtie, audio, medii Braille, ter-
t
minale mobile si multe altele. Acest lucru este pre¸ios îndeosebi dac˘
¸ t a
se dore¸ te adaptarea prezent˘
s arii documentului pentru utilizatorii cu
handicapuri fizice, dislexie sau pentru analfabe¸i – ca si în cazul a di-
t ¸
t˘
verse priva¸iuni de circumstan¸a (utilizatori care vorbesc la telefon sau
t
˘
lucreaza într-un mediu zgomotos). Fluxurile audio pot fi transcrise pe

t 21

Web ca text pentru persoanele cu deficien¸e de auz; navigatoarele audio
t
(precum Web Galaxy, Vox Portal sau WIRE) ofer˘ facilitatea de a citi
a
paginile Web pentru utilizatorii care nu le pot parcurge în mod direct,
în conformitate cu foile de stiluri aurale.
˘ ˘
Cu toate ca tehnologia Web actual˘ suporta atât formatarea in-
a
˘
terna, cât si pe cea prin intermediul foilor de stiluri, sistemele pentru
¸
gestionarea unor cantit˘ ti mari de informa¸ie de tip hipertext nece-
a¸ t
˘ ˘
sita de cele mai multe ori formatare externa pentru ca informa¸ia s˘t a
˘ ˘ s
ramâna u¸ or navigabil˘ si facil de prelucrat. Se recomand˘ a¸ adar,
a ¸ a, s
separarea datelor de modul lor de prezentare [Buraga, 2002a].

1.3.3 Evolu¸ ia structurii
t
˘ ˘
Sa consider˘ urmatorul exemplu:
am
˘
Exemplul 1 În activitatea de documentare, un cercetator realizeaz˘ o a
˘
lista de referin¸e bibliografice cuprinzând informa¸ii despre publica¸iile
t t t
(electronice sau nu) reg˘ ˘
asite. Structura fiecarui articol stiin¸ific include
¸ t
un titlu, numele autorului, corpul articolului si subsolul.
¸

Diversele formate punând la dispozi¸ie structuri concurente (e.g.,
t
˘ ˘ ˘
SGML) de documente încearca sa surprind˘ aceasta structura în ca-
a ˘
˘
drul reprezentarii lor. Unele descriu buc˘ ti din document în termeni
a¸
lega¸i de prezentarea datelor: propriet˘ ti precum italic, indentat, sta-
t a¸
bilirea unui anumit corp de liter˘ (font) si a¸ a mai departe. La cealalt˘
a ¸ s a
˘
extrema, alte formate folosesc termeni declarativi: titlu, adres˘ intrare
a,
˘ ˘
de la tastatura etc. Multe alte formate se afla undeva între aceste dou˘ a
extreme, precum marcajele XHTML [Pemberton et al., 2002] <em> si ¸
<font>, în compara¸ie cu <address> sau <abbr>.
t
Alt tip de structuri declarative pentru aplica¸iile SGML si XML
t ¸
sunt defini¸iile de tipuri de documente – DTD (Document Type Defi-
t
nition)9 – care impun documentelor valide s˘ includ˘ mai multe ele-
a a
mente (marcaje) într-o ordine precizat˘ (de exemplu, “fiecare apari¸ie
a t

9
Regulile sintactice de specificare a defini¸iilor de tipuri de docu-
t
˘
mente [Goldfarb, 1990, Bray et al., 2004] urmeaz a teoria limbajelor formale (a
se vedea [Jucan, 1999]).


˘ ˘
a elementului <ora¸> trebuie sa fie precedata de marcajul <adres˘>
s a
¸ ˘
si urmata de <cod_po¸tal>”). Actualmente, declara¸iile DTD tind a fi
s t
înlocuite de schemele XML [Fallside, 2001].
Luarea unei decizii finale de-a lungul acestei axe aduce dup˘ sinea
compromisuri între precizie si comprehensibilitate: semanticile orien-
¸
tate spre prezentare, mai lejere, sunt în mod universal mai bine în¸e- t
lese decât cele declarative. Marcajul <address> a devenit parte din
repertoriul HTML, îns˘ <abstract> (desemnând marcarea rezuma-
a
˘ ¸
tului unei lucrari stiin¸ifice) nu. Marcarea declarativ˘ indicând în mod
t a,
clar rolul diverselor p˘ ti de document, are avantajul de a putea fi re-
ar¸
˘ ˘
folosita mai târziu. De exemplu, motoarele de cautare (ca de exemplu,
Google [Google]) pot atribui într-un mod mai semnificativ ponderi ter-
menilor dintr-un rezumat sau pot extrage automat numele reporterilor
˘
dintr-un set de “taieturi din ziare” folosind un instrument de captare a
informa¸iei.t
˘
Vom opta pentru descrierea structurii unui document dupa funçia t
a a ˘
sa mai degrab˘ decât dup˘ forma. Aceasta conduce la asigurarea unui
suport pentru un set extensibil de marcaje, ceea ce HTML si CSS nu
¸
pot oferi. Evolu¸ia centralizat˘ a HTML împiedic˘ întocmirea unei liste
t a a
exhaustive de marcaje r˘ aspunzând tuturor idiomurilor dorite de poten-
tialii autori de pagini Web. Un marcaj nou are în mod poten¸ial o sin-
¸ t
˘ a, ˘
taxa ambigu˘ o semantica ambigu˘ si o prezentare ambigu˘ (mai ales
a¸ a
˘ ˘ ˘
fara adaugiri de foi de stil).
˘t
Comunita¸ile de interese de pe Web au nevoie s˘ si publice propriile
a-¸
defini¸ii u¸ or, proces facilitat de folosirea meta-limbajului XML. Aceste
t s
t a ˘
noi defini¸ii pot chiar s˘ mearga mai departe de specificarea rolului
˘
fiecarui marcaj, pentru a include interpret˘ si comportamente, i.e.
ari ¸
pentru a suporta noi semantici. De altfel, navigatoarele Web actuale
˘
ofera un tot mai bun suport pentru documentele XML.

1.3.4 Evolu¸ ia semanticii
t
˘
Testul suprem pentru ca un format de document sa “supravie¸uiasc˘
t a”
˘ ˘
pe Web este masura în care con¸inutul s˘ suporta diversele tipuri de
t au
˘ ˘
utilizari. Documentele exista ca artefacte ale unor procese mai largi,
precum achizi¸ionarea, raportarea sau dezvoltarea software-ului, iar
t

Sabin Buraga -- "Semantic Web. Fundamente şi aplicaţii"

Sabin Buraga -- "Semantic Web. Fundamente şi aplicaţii"

Recommandé

Recommandé

Contenu connexe

Similaire à Sabin Buraga -- "Semantic Web. Fundamente şi aplicaţii"

Similaire à Sabin Buraga -- "Semantic Web. Fundamente şi aplicaţii" (20)

Plus de Sabin Buraga

Plus de Sabin Buraga (20)

Sabin Buraga -- "Semantic Web. Fundamente şi aplicaţii"