Cartea (extindere a lucrării de doctorat) reprezintă o incursiune în problematicile actuale şi viitoare ale Web-ului semantic, una dintre componentele cele mai dinamice ale spaţiului WWW. Printre altele, sunt detaliate diverse aspecte privitoare la crearea şi utilizarea metadatelor şi ontologiilor, la specificarea via XML (Extensible Markup Language) a relaţiilor spaţio-temporale între resursele Web şi la proiectarea de componente destinate Web-ului semantic (e.g., agenţi, servicii Web etc.). Detalii la http://profs.info.uaic.ro/~sweb/
10. B Schema XML pentru limbajul XFiles 183
C Schema XML pentru limbajul TRSL 191
D Schema XML pentru limbajul WQFL 195
E Acronime 200
Bibliografie 203
11. Mul¸ umiri
t
˘ a ˘ ˘
Aceasta lucrare nu ar fi ajuns la forma actual˘ fara suportul venit din
˘
partea prof. dr. Dumitru Todoroi – conducatorul stiin¸ific al tezei de
¸ t
doctorat –, prof. dr. Toader Jucan, prof. dr. Dan Grigora¸ , prof. dr. Dan
s
Cristea, prof. dr. Cristian Masalagiu si conf. dr. Dorel Lucanu de la
¸
Facultatea de Informatic˘ a Universit˘ tii “Al. I. Cuza” din Ia¸ i si din
a a¸ s ¸
partea prof. dr. Stefan Trau¸ an-Matu de la Universitatea Politehnic˘
¸ ˘ s a
din Bucure¸ ti.
s
˘ ¸
Îi men¸ionam si pe colaboratorii si prietenii apropia¸i ing. Drago¸
t ¸ t s
Acostachioaie (Biosfarm Ia¸ i S.R.L.), cercet. drd. Lenu¸a Alboaie
˘ s t
˘ ˘
(Institutul de Informatica Teoretica al Academiei Române – filiala Ia¸ i),
s
˘ a ˘
cercet. Sînica Alboaie (Institutul de Informatic˘ Teoretica al Academiei
Române – filiala Ia¸ i), asist. drd. Mihaela Brut (Facultatea de Infor-
s
˘
matica din Ia¸ i) si lect. drd. Marius Cioca (Facultatea de Inginerie a
s ¸
Universit˘ tii “L. Blaga” din Sibiu) pentru ajutorul acordat pe parcur-
a¸
sul etapelor de elaborare a con¸inutului acestui material.
t
˘
Nu-i uitam nici pe absolven¸ii Petrica Gabureanu si Victor Grigo-
t ˘ ˘ ¸
riu, mul¸umindu-le pentru interesul acordat Web-ului semantic, dar
t
t˘ ˘
mai ales pentru unele contribu¸ii la volumul de fa¸a. Exprimam grati-
t
˘
tudinea noastra studen¸ilor Florin Bandas si Adrian Mironescu pentru
t ¸
ajutorul oferit la finalizarea acestei c˘ ti.
ar¸
˘
De asemenea, autorul este recunoscator profesorilor Dr. Marcin
Paprzycki (Computer Science Department, Oklahoma State University,
USA) si Dr. Stefan Andrei (Facultatea de Informatic˘ din Ia¸ i) pentru
¸ ¸ a s
facilitarea accesului la unele resurse bibliografice si pentru comenta-
¸
riile deosebit de utile privitoare la con¸inutul lucr˘
t arii.
12. List˘ de tabele
a
1.1 Compara¸ie între diverse formate de documente în evolu¸ia
t t
spa¸iului World-Wide Web . . . . . . . . . . . . . . . . . . 31
t
3.1 Rela¸iile stabilite între punctele de început si de sfâr¸ it
t ¸ s
˘
ale doua intervale temporale . . . . . . . . . . . . . . . . . 92
3.2 Rela¸iile restrânse între punctele de început si de sfâr¸ it
t ¸ s
˘
ale doua intervale temporale . . . . . . . . . . . . . . . . . 93
13. List˘ de figuri
a
1.1 Rela¸iile dintre o resurs˘ adresa si reprezentarea resursei 11
t a, ¸
2.1 Resursele si leg˘
¸ aturile au asociate descrieri semantice . 34
2.2 Nivelurile de specificare a Web-ului semantic . . . . . . . 36
2.3 Reprezentarea prin grafuri a declara¸iilor RDF . . . . .
t . 57
2.4 Mul¸imile de clase si de propriet˘ ti . . . . . . . . . . . .
t ¸ a¸ . 62
2.5 Ierarhiile de clase RDF . . . . . . . . . . . . . . . . . . . . 64
2.6 Restric¸iile în RDF . . . . . . . . . . . . . . . . . . . . .
t . 66
3.1 Axiomatizarea perioadelor de timp . . . . . . . . . . . . . 88
3.2 Rela¸iile posibile între perioadele de timp . . . . . . . . . 90
t
3.3 Reprezentarea grafic˘ a leg˘
a aturii temporale stabilite în-
˘
tre doua situri Web . . . . . . . . . . . . . . . . . . . . . . 111
3.4 Reprezentarea grafic˘ a leg˘
a aturilor stabilite între resur-
sele Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
˘ ˘
3.5 Arhitectura interna a unui motor de cautare . . . . . . . 119
4.1 Nivelurile de standardizare ale serviciilor Web . . . . . . 150
4.2 ˘
Arhitectura interna a sistemului ITW . . . . . . . . . . . 159
4.3 Serviciile Web locale si externe folosite de ITW . . . . . .
¸ 168
4.4 Structura pe niveluri a componentelor ITW implemen-
tând servicii Web semantice . . . . . . . . . . . . . . . . . 170
14. Preambul
Daca omul ar putea calatori fara întrerupere toata via¸a,
˘ ˘ ˘ ˘ ˘ ˘ t
de la na¸ tere pâna la moarte, timpul ar ajunge sinonim
s ˘
cu spa¸iul strabatut de pa¸ ii sai.
t ˘ ˘ s ˘
Bergson
˘
Prezentare generala
˘
T informa¸tiilorahipermediadeînfa¸spa¸tiul World-Wide Web. prezint˘a un
EMA principal˘ a lucr˘arii ta se înscrie pe coordonatele reg˘
îndeplinirii acestui deziderat, pe parcursul materialului se
asirii
În vederea
model original utilizat pentru specificarea rela¸iilor spa¸io-temporale
t t
dintre resursele multimedia ale unui (fragment de) sit Web, model cir-
cumscris problematicilor actuale ale Web-ului semantic.
La nivel abstract, s-a recurs la formaliz˘ bazate pe logica tem-
ari
˘
porala cu intervale – ITL (Interval Temporal Logic) [Allen, 1991]. Mo-
delarea rela¸iilor spa¸iale are în vedere modul de stocare a acestora
t t
în cadrul unui sistem de fi¸ iere distribuit, luându-se în considera¸ie
s t
si posibilele metadate care pot fi asociate resurselor (e.g., drepturi de
¸
acces, tip, proprietar etc.).
Pentru a asigura independen¸a de platform˘ si alinierea la princi-
t a ¸
palele standarde actuale ale Consor¸iului Web, maniera de stocare a
t
informa¸iilor realizându-se prin crearea unor limbaje bazate pe meta-
t
limbajul XML (Extensible Markup Language) [Bray et al., 2004]. Aces-
tea sunt menite a fi integrate în aser¸iuni RDF (Resource Description
t
1
15. 2 Sabin Corneliu Buraga
Framework) [Beckett, 2004] – cadru oferind interoperabilitate aplica-
tiilor distribuite care realizeaz˘ schimb inteligent de informa¸ii, în sen-
¸ a t
˘
sul interpretarii de c˘ s ˘
atre ma¸ ina a semanticii acestora. Din acest punct
de vedere, problematica dezb˘ ˘
atuta poate fi considerat˘ ca fiind aliniat˘
a a
Web-ului semantic [Berners-Lee et al., 2001, Davies et al., 2003].
Din moment ce resursele multimedia pot fi descrise si pot fi inter-
¸
t a aut ˘
conectate prin rela¸ii spa¸io-temporale, exist˘ posibilitatea c˘ arii si
t ¸
˘ ˘ ˘
regasirii lor, într-o manier˘ asemanatoare celei adoptate de motoarele
a
˘
de cautare actuale [Brin & Page, 1998, Chakrabarti et al., 1999]. Lu-
crarea propune utilizarea descrierilor RDF ale metadatelor asociate
resurselor, cu concursul rela¸iilor stabilite între documentele multime-
t
dia.
Una dintre etapele importante ale procesului de c˘ autare este cea
˘
a procesarii interog˘ arilor complexe formulate de utilizatori. Din acest
˘
punct de vedere, cercetarile întreprinse se concentreaz˘ asupra ex-
a
˘
primarii interog˘ arilor prin intermediul unui limbaj bazat pe XML, in-
cluzând în plus unele informa¸ii privind structura, con¸inutul si rela-
t t ¸
tiile pe care le pot avea documentele multimedia c˘
¸ autate cu alte re-
surse.
Lucrarea propune o solu¸ie original˘ de implementare, concretizata
t a ˘
în platforma ITW, bazat˘ pe componente distribuite eterogene, repre-
a
zentate din agen¸i [Bradshow, 1997, Luck, McBurney & Preist, 2003],
t
servicii Web (semantice) [Curbera et al., 2002] si alte entit˘ ti progra-
¸ a¸
mabile. Aceste componente software, independente de platforma si dez- ˘ ¸
voltate deschis, pot fi integrate în platforme de tip Grid [Buyya, 2002],
˘
cu utilizari în reg˘asirea informa¸iilor multimedia în cadrul organiza¸ii-
t t
lor virtuale existând în Internet.
˘
Structura lucrarii
Vom prezenta în continuare structura general˘ a c˘ tii:
a ar¸
Capitolul 1 descrie arhitectura spa¸iului WWW, trecând în revist˘
t a
principalele concepte pe care se bazeaz˘ hipertextul [Nielsen, 1990],
a:
identificatorii uniformi de resurse [Berners-Lee et al., 1998] si limba-
¸
jele de adnotare [Buraga, 2001a, Tr˘ san-Matu, 2001]. De asemenea,
au¸
16. Preambul 3
˘
se ilustreaza evolu¸ia – mai ales din punctul de vedere al familiei de
t
limbaje XML – a Web-ului din prisma sintaxei, stilului de prezentare,
structurii si semanticii con¸inutului resurselor Web, urmându-se în
¸ t
principal liniile expuse în [Buraga, 2002a] si [Alboaie & Buraga, 2002].
¸
În capitolul 2 se realizeaz˘ o prezentare general˘ a problematicilor
a a
legate de Web-ul semantic, insistându-se asupra RDF – conform cu cele
detaliate de [Beckett, 2004], [Brickley & Guha, 2000] si [Hayes, 2004]
¸
– si a descrierii ontologiilor. Unele exemplific˘ recurg la o serie de
¸ ari
contribu¸ii proprii legate de modelarea rela¸iilor dintre resursele unui
t t
sistem de teleconferin¸e [Buraga, 1998, Buraga, 2001b, Buraga, 2001d]
t
sau ale componentelor unei platforme de tip e-learning
[Buraga, 2001c, Buraga, 2003e].
˘ ˘
Urmatorul capitol detaliaz˘ cercetarile privitoare la descrierea si
a ¸
˘
regasirea resurselor multimedia disponibile în Internet. Acest capitol
este divizat în dou˘ mari p˘ ti:
a ar¸
• Prima parte a capitolului prezint˘ o serie de modele teoretice uti-
a
lizate pentru descrierea propriet˘ tilor temporale ale sistemelor
a¸
distribuite, focalizându-se asupra logicii ITL (a se vedea sec¸iu-
t
nea 3.2.3). Pe baza acestui formalism, se vor putea exprima rela-
tiile spa¸io-temporale dintre resursele Web.
¸ t
În vederea descrierii resurselor distribuite în spa¸iul WWW, se
t
pleac˘ de la reprezentarea RDF a propriet˘ tilor p˘ tilor compo-
a a¸ ar¸
nente ale unui sistem de fi¸ iere distribuit, prin intermediul unui
s
limbaj propriu bazat pe XML – XFiles – descris în [Buraga, 2000a],
[Buraga, 2002b] si [Buraga, 2003d]. Extinzând modelul la Web,
¸
se pot exprima rela¸iile spa¸iale stabilite între diverse resurse ale
t t
unui Web local (e.g., intranetul unei organiza¸ii). Resursele tem-
t
porale vor putea fi specificate cu concursul unui alt limbaj – TRSL
(Temporal Relation Specification Language) [Buraga, 2002c]
[Buraga & Ciobanu, 2002] – care rescrie în termenii XML rela-
tiile formale ale logicii ITL. Acest limbaj este suficient de flexibil
¸
pentru a da posibilitatea asocierii de ac¸iuni care vor putea fi exe-
t
cutate la apari¸ia unui eveniment – de exemplu, ini¸ierea unei
t t
oglindiri (copieri) a unei resurse pe alt sit Web la un moment de
timp.
17. 4 Sabin Corneliu Buraga
• Subcapitolul secund se concentreaz˘ asupra problematicii c˘ a-
a aut ˘
rii resurselor multimedia, lucrarea propunând o manier˘ de uti-
a
lizare a descrierilor RDF ale metadatelor asociate resurselor si ¸
exploatare a informa¸iilor semantice asociate rela¸iilor stabilite
t t
˘ ˘
între resursele Web. Dupa o succinta prezentare a arhitecturii
˘
motoarelor de cautare, se ilustreaz˘ modul de exprimare a in-
a
˘
terogarilor ce pot fi formulate de utilizator în WQFL (Web Query
Formulating Language), conform seriei de cercet˘ întreprinse
ari
si detaliate în [Buraga & Rusu, 2000], [Buraga & Brut, 2001] si
¸ ¸
[Buraga & Brut, 2002]. Acest limbaj bazat pe XML va putea ex-
prima interog˘ arile complexe date de utilizatori, dar – de aseme-
nea – va fi capabil a desemna unele informa¸ii privind structura
t
si con¸inutul resurselor hipermedia g˘
¸ t asite.
Strategia de interogare pleac˘ de la premisa c˘ utilizatorii prefer˘
a a a
˘ t ˘
sa ob¸ina documente (multimedia) având diverse structuri si tipu-
¸
ri de con¸inut, în acest sens trebuind specificate pozi¸iile si num˘
t t ¸ a-
rul de apari¸ii ale unor elemente sintactice compunând un anumit
t
document XML.
Pentru a oferi o cât mai mare flexibilitate, limbajul WQFL a fost
˘
extins sa faciliteze utilizarea expresiilor regulate Perl, recurgân-
du-se la teoria limbajelor regulate [Jucan, 1999].
Capitolul 4 ofer˘ o serie de solu¸ii de implementare a sistemului
a t
ITW [Buraga, 2003g, Buraga & G˘ abureanu, 2003], mediu eterogen si¸
distribuit utilizat la reg˘
asirea informa¸iilor multimedia, folosind agen¸i
t t
si servicii Web. Dup˘ o prezentare a problematicii sistemelor multi-
¸ a
agent [Bradshow, 1997, Mangina, 2002] si a serviciilor Web bazate pe
¸
XML [Vasudevan, 2001], lucrarea continu˘ cu ilustrarea arhitecturii
a
unei platforme distribuite compus˘ din agen¸i, servicii Web si alte en-
a t ¸
˘t
tita¸i programabile. Sistemul ITW folose¸ te descrieri RDF/XML pentru
s
˘
cautarea resurselor multimedia, plecând de la interog˘ formulate în
ari
WQFL prin intermediul unei interfe¸e Web flexibile [Buraga, 2002a,
t
Buraga, 2003b], si se bazeaz˘ pe rela¸iile spa¸io-temporale adnotate în
¸ a t t
limbajele XFiles si TRSL definite în cadrul capitolului 3.
¸
Sistemul de agen¸i este bazat pe formalismul BDI (Belief-Desire-
t
Intention) [Rao et al., 1995], iar pentru implementarea efectiv˘ se uti-
a
18. Preambul 5
˘ ˘
lizeaza o platforma specific˘ – Omega [Alboaie & Buraga, 2002] – per-
a
mi¸ând interschimb de informa¸ii XML între agen¸i prin intermediul
t t t
serializ˘ [Buraga & Alboaie, 2004, Alboaie & Buraga, 2003a].
arii
˘ ¸ ˘
Se ofera si doua posibile utiliz˘
ari:
• în domeniul e-learning – conform cercet˘
arilor concretizate în lu-
˘
crari precum [Buraga, 2001c], [Buraga, 2003c], [Buraga, 2003e]
si [Buraga & Brut, 2003];
¸
• în modelarea fluxului de informa¸ii în cadrul întreprinderilor vir-
t
tuale (e-enterprise) – rezultatele cercet˘
arilor efectuate fiind deta-
liate în [Cioca & Buraga, 2003a] si [Cioca & Buraga, 2003b].
¸
Lucrarea se încheie cu prezentarea concluziilor generale si direc¸ii-
¸ t
lor de cercetare viitoare.
Prima anex˘ ilustreaz˘ modul de generare si de utilizare a meta-
a a ¸
datelor asociate unor resurse Web prin intermediul aser¸iunile RDF în
t
˘
contextul unui sit de comer¸ electronic. Urmatoarele trei anexe detalia-
t
˘
za defini¸iile formale ale sintaxei limbajelor bazate pe XML specificate
t
în capitolul 3 – XFiles, TRSL si WQFL, respectiv –, pentru aceasta
¸
folosindu-se o abordare orientat˘ a-obiect facilitat˘ de schemele XML.
a
˘
Ultima anex˘ enumera acronimele utilizate în cadrul acestui material.
a
Contribu¸ ii
t
Din cele aproximativ 300 de referin¸e bibliografice ale lucr˘
t arii, peste
40 sunt contribu¸ii originale ale autorului, ca unic autor sau co-autor,
t
˘ t
concretizate în car¸i tip˘ arite, articole recenzate si publicate în reviste
¸
interna¸ionale de prestigiu sau în proceeding-urile unor conferin¸e in-
t t
terna¸ionale, editate pe plan mondial de IEEE Computer Society Press,
t
Springer-Verlag (LNCS) sau IOS Press si pe plan na¸ional de Polirom
¸ t
sau de editurile unor institu¸ii academice din Bucure¸ ti, Craiova, Ga-
t s
la¸i, Ia¸ i ori Timi¸ oara.
t s s
t˘ ˘
Lucrarea de fa¸a se bazeaz˘ pe o serie de cercetari efectuate în ca-
a
˘
drul unui numar de 5 contracte finan¸ate de Academia Român˘ ANSTI
t a,
si CNCSIS în perioada 1999–2002, dintre care se pot men¸iona:
¸ t
19. 6 Sabin Corneliu Buraga
• grantul CNCSIS 283/2002 – Tehnici avansate de cautare a docu-
˘
mentelor hipermedia pe Web, director: Sabin Buraga;
• grantul CNCSIS 966/2001 – Metodologii generative pentru proiec-
tarea ma¸ inilor abstracte, director: Gheorghe Grigora¸ .
s s
˘ t˘
De asemenea, o parte din con¸inutul lucrarii de fa¸a se bazeaz˘ pe
t a
experien¸a acumulat˘ de autor în cadrul comitetelor stiin¸ifice ale unor
t a ¸ t
evenimente interna¸ionale precum International Symposium on Paral-
t
lel and Distributed Computing – ISPDC 2003, Ljubljana, 2003, Agent-
Based Computing, sesiune special˘ în cadrul World Multiconference
a
on Systemics, Cybernetics and Informatics – SCI 2003, Orlando, 2003
si International Symposium on Parallel and Distributed Computing –
¸
ISPDC 2004, Cork, Ireland, 2004.
Destinatari
Cartea se adreseaz˘ tuturor celor interesa¸i de problematicile actuale
a t
si de continua dinamicitate a Web-ului semantic, putând fi consultat˘
¸ a
de studen¸ii din anii terminali, masteranzi sau doctoranzi, de specia-
t
li¸ tii în domeniul stiin¸ei calculatoarelor si de to¸i cei care doresc s˘ î¸ i
s ¸ t ¸ t a s
formeze o privire de ansamblu asupra temelor principale de cercetare
referitoare la Web.
˘ t t˘
Par¸i ale materialului de fa¸a – redactat integral folosind instru-
mente open-source (LTE ¸ A X si GIMP) rulate pe platforme Linux (Red Hat
si Mandrake) – se bazeaz˘ pe cursurile Tehnologii Web si Tehnologii
¸ a ¸
Web II, predate de autor studen¸ilor anului IV ai Facult˘ tii de Infor-
t a¸
matica ˘ a Universit˘ tii “Al. I. Cuza” din Ia¸ i.
a¸ s
˘
A¸ teptam reac¸iile dumneavostr˘ prin po¸ ta electronic˘ la adresa
s t a s a
busaco@infoiasi.ro. Situl Web dedicat acestei lucr˘ este disponi-
ari
bil la http://www.infoiasi.ro/~sweb/.
Autorul
martie 2004, Ia¸ i
s
20. Capitolul 1
Arhitectura spa¸iului WWW
t
Acest capitol descrie succint conceptele de baz˘ ale
a
spa¸iului World-Wide Web, trecând în revist˘ evolu¸ia
t a t
– din mai multe perspective – a limbajelor de marcare
pentru Web.
1.1 ˘
Prezentare generala
U netului, World-Wideimportante maideEuropeanserviciisau ari Nu-
NULdintre cele mai
Web-ul –
si
¸
WWW –, a fost instituit la CERN (Centrul
succes
pe scurt, Web
ale Inter-
spa¸iul
de Cercet ˘
t
cleare de la Geneva) în anul 1989, gra¸ie fizicienilor Tim Berners-Lee,
t
Robert Caillau si echipei acestora, scopul principal urm˘
¸ arit fiind faci-
litarea accesului rapid la informa¸iile tehnice cuprinse în manualele
t
de utilizare a calculatoarelor [Berners-Lee, 1989]. Web-ul reprezint˘ a
un sistem de distribu¸ie locala sau globala a informa¸iilor hiperme-
t ˘ ˘ t
dia [Berners-Lee, 1999].
Spa¸iul Web pune la dispozi¸ie un sistem global si standardizat de
t t ¸
comunicare multimedia, informa¸iile fiind organizate asociativ, Web-ul
t
21. 8 Sabin Corneliu Buraga
func¸ionând conform modelului client/server si beneficiind de facilit˘ ti-
t ¸ a¸
le oferite de structurarea sub form˘ de hipertext a resurselor. Cu toat˘
a a
dezvoltarea lui spectaculoas˘ Web-ul nu trebuie confundat cu Inter-
a,
netul, ci poate fi considerat drept cea mai dinamic˘ si spectaculoas˘
a ¸ a
˘
componenta software a acestuia.
Cantitatea de informa¸ii disponibile în spa¸iul WWW, în oricare
t t
¸ ˘
domeniu, este cople¸ itoare si în continua cre¸ tere. Conceptul ini¸ial
s s t
al Web-ului a fost tocmai integrarea unor sisteme informa¸ionale dis-
t
parate (ca, de exemplu, sistemele de gestiune a bazelor de date) într-un
mod unitar, formându-se un spa¸iu abstract, în care diferen¸ele din-
t t
tre diversele surse de date s˘ nu mai existe. Actualmente, Web-ul cu-
a
˘
muleaza orice tip de informa¸ie, indiferent de platforma pe care exist˘
t a
fizic.
Ideea de a agrega si de a asocia resurse de informa¸ii disponibile
¸ t
˘
în maniera distribuit˘ provine din cercet˘
a arile întreprinse în domeniul
hipertextului1 , modalitatea de a adresa resursele – text, imagini sta-
tice, multimedia (audio, anima¸ii, video) etc. – realizându-se prin inter-
t
mediul identificatorilor uniformi de resurse (URI – Uniform Resource
Identifiers), prezenta¸i în cadrul sec¸iunii 1.2.2. Ace¸ ti identificatori re-
t t s
˘ ˘
prezinta o modalitate flexibil˘ si eficienta de accesare a oric˘
a¸ arei resurse
Internet, prin oricare protocol de comunicare – cel mai utilizat fiind
HTTP (HyperText Transfer Protocol) [Fielding et al., 1997].
Limbajul prin care sunt structurate si prezentate informa¸iile si, de
¸ t ¸
˘
asemenea, sunt specificate legaturile dintre diverse resurse hipertext
este popularul limbaj de marcare – sau de adnotare2 – HTML (Hy-
perText Markup Language) [Raggett et al., 1999]. În prezent, limbajul
HTML a fost rescris în termenii XML, ap˘ arând noul limbaj de marcare
a hipertextului XHTML [Pemberton et al., 2002].
Identificatorii uniformi de resurse URI, protocolul HTTP si limba-
¸
1 ˘ s
A se consulta si [Nielsen, 1990], [Balasubramanian, 1994], [Trau¸ an-Matu, 2000]
¸
sau [Buraga, 2001a].
2
˘
Ac¸iunea de adnotare se realizeaz a prin intermediul unui limbaj de adnotare (sau
t
˘
de specificare), care reprezint a un set de conven¸ii de marcare utilizate pentru co-
t
dificarea datelor, specificând mul¸imea de marcaje obligatorii, permise, maniera de
t
˘
identificare a marcajelor si semantica fiec arui marcaj disponibil [Buraga, 2002a].
¸
22. Arhitectura spa¸iului WWW
t 9
jul HTML au reu¸ it s˘ îndeplineasc˘ practic scopurile principale ale
s a a
spa¸iului World-Wide Web [Berners-Lee, 1999, Berners-Lee, 2002]:
t
• independen¸a de dispozitiv – acelea¸ i informa¸ii pot fi accesate
t s t
via o multitudine de dispozitive, precum mainframe-urile, calcu-
latoarele personale etc.;
• independen¸a de software – forme diferite de software – clien¸i
t t
(navigatoare, robo¸i si agen¸i Web etc.) si servere Web – ofer˘
t ¸ t ¸ a
¸ t a a, ˘ ˘
si extrag informa¸ii într-o manier˘ universal˘ fara ca nici un
a ˘
produs-program s˘ reprezinte o componenta critic˘ pentru spa¸iul
a t
˘
WWW, deoarece Web-ul nu reprezinta un program, ci un set de
protocoale si specifica¸ii standardizate, deschise, redactate de Con-
¸ t
sor¸iul Web [W3C];
t
• scalabilitatea – dezvoltarea exponen¸ial˘ a Web-ului este un exem-
t a
plu interesant al efortului intens depus de comunitatea utiliza-
torilor Internet-ului, independent de resursele hardware si soft-
¸
ware disponibile;
• caracterul multimedia – documentele disponibile pe Web, reg˘ asite
si sub denumirea de pagini, pot integra surse de informa¸ie mul-
¸ t
tiple, în diverse forme, de la date discrete – text, imagini statice,
precum fotografii, scheme, diagrame etc. – pân˘ la cele continue
a
– anima¸ii, audio si video.
t ¸
U¸ urin¸a cre˘
s t arii si public˘
¸ arii paginilor Web de c˘ atre orice utiliza-
tor având cuno¸ tin¸e minime de marcare a datelor si de design – folo-
s t ¸
sind, eventual, multitudinea de editoare HTML disponibile de cele mai
multe ori gratuit – a condus la apari¸ia siturilor Web. Un sit Web repre-
t
˘ ˘
zinta o colec¸ie de documente orientate uzual catre informa¸ii unitare
t t
sau scopuri comune [Buraga, 2002a]. Virtual, oricine – de la o persoan˘ a
˘
particular˘ pâna la o organiza¸ie guvernamental˘ academic˘ ori co-
a t a, a
˘ t˘
merciala – î¸ i poate dezvolta propria interfa¸a (sit) Web, publicând-o si
s ¸
integrând-o în spa¸iul World-Wide Web.
t
23. 10 Sabin Corneliu Buraga
1.2 ˘
Componente de baza ale spa¸ iului WWW
t
Spa¸iul World-Wide Web func¸ioneaz˘ în practic˘ datorita3 :
t t a a ˘
• unei scheme consistente de identificare a resurselor, prin interme-
diul identificatorilor uniformi de resurse [Berners-Lee et al., 1998]
(a se vedea sec¸iunea 1.2.2);
t
• unui mecanism flexibil de transfer de date, reprezentat de proto-
colul HTTP [Fielding et al., 1997];
• unei descrieri logice a structurii documentelor hipertext, prin con-
cursul unor limbaje de adnotare bazate pe meta-limbajele SGML
(Standard Generalized Markup Language) [Goldfarb, 1990] – ne
referim aici mai ales la HTML [Raggett et al., 1999] – sau, mai re-
cent, la XML (Extensible Markup Language) [Bray et al., 2004]4 .
În continuare, vom prezenta caracteristicile esen¸iale ale acestor
t
componente de baza˘ ale spa¸iului WWW (a se vedea si figura 1.1).
t ¸
1.2.1 Hipertextul
1.2.1.1 Defini¸ ii
t
˘ ˘
Conceptul de hipertext reprezinta o maniera particular˘ de organizare
a
versatil˘ a informa¸iilor. Termenul hipertext (text non-linear) are o mul-
a t
titudine de defini¸ii, dintre care se pot men¸iona5 :
t t
• Hipertextul reprezinta o forma nelinear˘ de document electronic.
˘ ˘ a
• Hipertextul este un mod de organizare complex˘ a informa¸iilor
a t
în care datele sunt memorate într-o re¸ea (graf) de noduri si leg˘
t ¸ a-
turi (a se vedea sec¸iunea 1.2.1.2).
t
3
Pentru detalii, a se consulta [Berners-Lee, 1999] sau [Buraga, 2001a].
4
Datele marcate în XML pot fi vizualizate sau transformate în alte formate prin
utilizarea specifica¸iei XSL (Extensible Stylesheet Language) [Adler et al., 2001].
t
5 ˘
Pentru detalii, a se consulta lucrarile [Balasubramanian, 1994], [Buraga, 2001a],
˘ s
[Nielsen, 1990], [Louka, 1994] sau [Trau¸ an-Matu, 2000].
24. Arhitectura spa¸iului WWW
t 11
Figura 1.1: Rela¸iile dintre o resurs˘ multimedia, adresa ei – via URI – si
t a ¸
˘
reprezentarea structurat˘ a resursei (adaptare dupa [Jacobs, 2003])
a
• Hipertextul reprezinta o forma de comunicare dintre om si calcu-
˘ ˘ ¸
lator, interfa¸a fiind chiar hipertextul.
t
Documentele hipertext se numesc hipermedia în cazul în care locul
informa¸iilor text este luat de cele multimedia.
t
1.2.1.2 Concepte
Componentele centrale ale hipertextului sunt nodurile si legaturile.
¸ ˘
˘ t˘
Un nod reprezinta un concept unic, având în componen¸a informa¸ii t
(discrete ori continue) sau programe generând un anumit con¸inut. Un
t
nod poate avea asociat un tip care înglobeaz˘ o informa¸ie semantica.
a t ˘
Nodurile sunt conectate la alte noduri prin intermediul leg˘ aturilor.
˘
Nodul sursa al unei leg˘ aturi poart˘ numele de referin¸a, iar nodul des-
a t˘
t s t˘ ¸
tina¸ie se nume¸ te referent. Nodurile referin¸a si referent sunt denu-
mite si ancore.
¸
˘
Legaturile reprezint˘ conexiuni între noduri (sau concepte) depen-
a
dente unul de altul, putând fi stabilite în cadrul aceluia¸ i document
s
¸ ˘
si/sau între documente diferite, stocate în maniera distribuit˘ permi-
a,
tându-se astfel o organizare nelinear˘ a informa¸iilor.
¸ a t
25. 12 Sabin Corneliu Buraga
˘ ˘
Legaturile, vazute drept arce ale (di)grafului hipertext, sunt bidi-
rec¸ionale sau unidirec¸ionale. Leg˘
t t ˘
aturile pot fi de doua tipuri, conform
naturii rela¸iei dintre noduri [Louka, 1994]:
t
• referen¸iale – non-ierarhice, utile pentru realizarea referin¸elor
t t
încruci¸ ate, fiind cele care deosebesc cel mai bine hipermedia de
s
celelalte forme de stocare a informa¸iei;
t
• organiza¸ionale (denumite ierarhice sau structurale) – desemnea-
t
˘
za rela¸iile p˘
t arinte-copil dintre noduri, fiind folosite la organi-
˘ ˘
zarea nodurilor în manier˘ ierarhic˘ într-o structura stricta; acest
a a
˘
tip de legaturi este esen¸ial pentru linearizarea hipertextului si
t ¸
˘
permite autorilor sa verifice coeren¸a structurii hipertext.
t
˘
De asemenea, legaturile pot fi statice (stabilite a-priori de autorul
˘
documentului, la momentul proiectarii re¸elei hipertext) sau dinamice
t
(create în momentul parcurgerii structurii hipertext, în func¸ie de con-
t
text – e.g., restric¸ii de acces – sau de cerin¸ele/experien¸a utilizato-
t t t
rilor).
1.2.1.3 Documente hipertext
În¸elegerea unui document hipertext si navigarea prin acesta depind
t ¸
de abilitatea utilizatorului de a proiecta si construi o reprezentare men-
¸
˘ ˘
tala coerenta a structurii hipertextului, creatorul acelui document fiind
a a t˘
responsabil s˘ asigure aceast˘ coeren¸a [Tr˘ san-Matu, 2000].
au¸
Un document hipertext considerat coerent este constituit din trei
componente, prezentate pe scurt în continuare:
1. partea de con¸inut
t
Nodurilor si leg˘
¸ aturilor le pot fi asociate propriet˘ ti (semantici),
a¸
în vederea asigur˘arii coeren¸ei informa¸iei. Partea de con¸inut
t t t
˘ ˘
stocheaza obiecte purtatoare de informa¸ie: noduri de con¸inut
t t
˘
– care memoreaza efectiv date – si leg˘
¸ aturi de con¸inut – care
t
˘
conecteaza nodurile de con¸inut pe baza unor rela¸ii semantice,
t t
26. Arhitectura spa¸iului WWW
t 13
i.e. folosindu-se diverse ontologii6 . Nodurile de con¸inut pot fi ato-
t
mice sau pot fi compuse din alte noduri.
Modalitatea de memorare a informa¸iilor în cadrul nodurilor de
t
tip con¸inut variaz˘ de la un sistem hipertext la altul, în prezent
t a
adoptându-se meta-limbajul de marcare XML, pentru Web pre-
tându-se – mai ales din punctul de vedere al manierei de pre-
zentare – limbajul HTML. Actualmente, se utilizeaz˘ un numar
a ˘
mare de limbaje bazate pe XML pentru marcarea diferitelor infor-
ma¸ii. Pentru a oferi doar câteva exemple 7 , meta-limbajul XML
t
este folosit la modelarea si adnotarea de:
¸
• prezentari multimedia sincronizate prin SMIL (Synchronized
˘
Multimedia Integration Language) [Ayars et al., 2001];
• grafic˘ vectorial˘ pentru Web folosind SVG (Scalable Vector
a a
Graphics) [Ferraiolo et al., 2003];
• limbaje de interogare (query languages) pentru Web (a se
vedea [DeRose, 1998], [Shanmugasundaram et al., 1999],
[Oliboni & Tanca, 2000] sau [Malhotra et al., 2003]);
• documente exprimând construc¸ii sintactice ale unor limbaje
t
de programare func¸ional˘ [Boley, 2000];
t a
• ontologii, prin intermediul limbajului OWL (Web Ontology
Language) [Dean & Schreiber, 2004].
˘ ˘
În cadrul acestui context, men¸ionam si cercetarile proprii în-
t ¸
treprinse în proiectarea unor limbaje bazate pe XML pentru re-
prezentarea sistemelor Lindenmayer (L-systems) [Buraga, 2000b,
Buraga et al., 2002b] în vederea vizualiz˘arii 3D în VRML (Vir-
tual Reality Modeling Language) sau pentru exprimarea fluxu-
lui informa¸iilor hipertext în cadrul întreprinderilor virtuale –
t
e-enterprise [Cioca & Buraga, 2003a] [Cioca & Buraga, 2003b]
[Cioca & Buraga, 2003c].
6 ˘ ˘ ˘
Ontologiile reprezint a specificari ale unor conceptualiz ari [Gruber, 1993]. A se
vedea si cele discutate în capitolul 2.
¸
7 ˘ s
A se consulta si [Trau¸ an-Matu, 2001], [Oasis] sau [W3C].
¸
27. 14 Sabin Corneliu Buraga
2. partea de organizare
Nodurile si leg˘
¸ ˘
aturile de structura stocate în cadrul acestei p˘ ti
ar¸
t˘ ˘
asigur˘ documentului o coeren¸ a sporita deoarece prin interme-
a
diul lor autorul î¸ i structureaz˘ re¸eaua hipertext din perspectiva
s a t
cititorului.
Nodurile de structur˘ pot fi clasificate în noduri de secven¸a –
a t˘
˘ t˘
prin care autorul define¸ te o anumita secven¸a de parcurgere a
s
con¸inutului hipertextului – si noduri de explorare – care ofer˘
t ¸ a
utilizatorului posibilit˘ ti de explorare complex˘ non-secven¸ial˘
a¸ a, t a
a re¸elei hipertext.
t
t˘ ˘
Nodurile de secven¸a împreuna cu leg˘ t˘
aturile de secven¸a pot oferi
diverse secven¸e (scenarii) de prezentare a con¸inutului hiper-
t t
˘
text (ca de exemplu cai de vizitare secven¸iale, arborescente sau
t
condi¸ionale).
t
3. partea de prezentare
˘
Aceasta parte preg˘ ste vizualizarea structurii si con¸inutului
ate¸ ¸ t
hipertextului, oferind diverse mecanisme de navigare (a se vedea
si sec¸iunea 3.3.2.2 a capitolului 3). Autorii pot adopta diferite
¸ t
stiluri de prezentare a informa¸iilor:
t
• textual – nu exist˘ o vizualizare grafic˘ a structurii, prezen-
a a
tarea fiind limitat˘ la afi¸ area con¸inutului unuia sau mai
a s t
s ˘
multor noduri (utilizatorul nu este con¸ tient ca traverseaz˘a
˘
o structura hipertext);
• grafic – exist˘ o vizualizare grafic˘ a structurii hipertext (e.g.,
a a
harta leg˘
aturilor dintre noduri, arborele de navigare etc. – a
se vedea modul de vizualizare a informa¸iilor g˘
t asite de meta-
˘
motorul de cautare Kartoo [Kartoo]);
• combinat – ofera ambele posibilit˘ ti de prezentare.
˘ a¸
Documentele hipertext sunt structurate asemenea re¸elelor (grafu-
t
ar ˘
rilor), f˘ a a se impune restric¸ii în ceea ce prive¸ te m˘
t s arimea nodurilor
28. Arhitectura spa¸iului WWW
t 15
sau modul de realizare a leg˘ aturilor dintre ele. Pentru realizarea unei
structuri hipertext valide si facil de parcurs, pot fi adoptate diverse
¸
principii de structurare, ca de exemplu metafora c˘ tii tip˘
ar¸ arite, struc-
tura linear˘ cu salturi sau structura ierarhic˘ [Balasubramanian, 1994,
a a
Louka, 1994].
˘
De asemenea, trebuie men¸ionat faptul ca din punct de vedere for-
t
mal, structurile hipertext pot fi modelate folosind teoria grafurilor.
1.2.2 Localizarea resurselor Web
1.2.2.1 Identificatori uniformi de resurse
Localizarea resurselor Web se realizeaz˘ prin intermediul unor identi-
a
ficatori uniformi de resurse – URI [Berners-Lee et al., 1998].
˘
Este considerata resursa orice entitate având identitate (ca de exem-
˘
plu: un document electronic, o imagine, un serviciu – i.e. serviciul de
s ˘ ˘
po¸ ta electronica –, o colec¸ie de alte resurse). Sunt considerate resurse
t
si cele care nu pot fi accesate direct via Internet (e.g., fiin¸ele umane,
¸ t
a t ˘
organiza¸iile etc.). O resurs˘ se poate men¸ine constanta în timp, de¸ i
t s
t ˘t
con¸inutul ei – entita¸ile c˘arora le corespunde – se poate modifica.
În vederea unei organiz˘ facile si unitare, resursele sunt desem-
ari ¸
nate printr-un identificator. Pentru ca diverse tipuri de identificatori de
˘ ˘
resurse sa poata fi utilizate în aceea¸ i manier˘ se recurge la folosirea
s a,
unor scheme uniforme de identificatori. Acest principiu adoptat asi-
˘
gura independen¸a de mecanismul (protocolul) folosit pentru accesarea
t
resurselor, permi¸ându-se astfel interpretarea în mod uniform a mai
t
multor conven¸ii sintactice desemnând identificatori ai unor resurse
t
eterogene. De asemenea, se pot introduce noi tipuri de identificatori de
˘ ˘
resurse fara a fi modificat modul de adresare a vechilor tipuri.
a ˘ ˘ ˘
A¸ adar, pentru ca o resurs˘ sa poata fi numita, partajat˘ sau inter-
s a
˘
conectata cu alta/altele în cadrul spa¸iului WWW, ea trebuie s˘ aib˘
t a a
ata¸ at un identificator uniform de resurse.
s
Mul¸imea URI este divizat˘ în:
t a
• localizatori uniformi de resurse – URL (Uniform Resource Loca-
tor) care identific˘ resursele printr-o reprezentare a mecanismu-
a
29. 16 Sabin Corneliu Buraga
lui de accesare a lor (e.g., localizarea unor resurse prin interme-
diul adresei IP), nu prin nume sau alte atribute;
• nume uniforme de resurse – URN (Uniform Resource Name) care
permit referirea unei resurse chiar dac˘ resursa a disp˘
a arut ori
a devenit inaccesibil˘ prin intermediul unui nume persistent si
a, ¸
unic. URN-ul se utilizeaz˘ mai ales pentru a desemna entit˘ ti
a a¸
(componente, tipuri de date, servicii etc.) folosite de anumite apli-
ca¸ii Web.
t
1.2.2.2 Sintaxa URI
Un identificator uniform de resurse poate fi reprezentat ca sir de ca-
¸
ractere apar¸inând unui alfabet limitat (compus din literele alfabetului
t
latin, cifrele si diverse caractere de punctua¸ie). Un URI poate include,
¸ t
de asemenea, o serie de caractere rezervate [Berners-Lee et al., 1998].
Un identificator generic este compus din urm˘ atoarele componente:
schema "://" authority path "?" query
Existând mai multe metode de a accesa resursele, vor fi disponibile
mai multe scheme pentru a le identifica (i.e. http, mailto, ldap, urn
etc.) – a se vedea si [Jacobs, 2003].
¸
˘
Componenta autoritate (authority) este definita de o loca¸ie de ser-
t
t˘
ver disponibil la nivelul Internetului sau de o secven¸a special˘ de în-
a
registrare. Serverul poate fi specificat fie prin adresa IP (de exemplu
193.231.30.225), fie prin adresa simbolic˘ (e.g. thor.infoiasi.ro)
a
– via DNS (Domain Name System) [Naik, 1998] –, eventual fiind urmat
˘
de un numar de port.
Componenta cale (path) con¸ine date menite a identifica o resurs˘
t a
localizat˘ pe serverul desemnat de componenta autoritate descris˘ mai
a a
sus. Calea poate con¸ine secven¸e de segmente de cale separate prin
t t
t˘ t˘
“/”, fiecare secven¸a putând include o secven¸a de parametri.
˘
Ultima componenta este cea de interogare (query), reprezentat˘ de
a
un sir de informa¸ii ce vor fi interpretate de resurs˘
¸ t a.
Ca exemplu de identificator uniform de resurse poate fi dat˘ urma-
a ˘
toarea adres˘ Web, în care sunt prezente primele trei componente ale
a
unui URI:
30. Arhitectura spa¸iului WWW
t 17
http://www.infoiasi.ro/~busaco/books.html
Pentru sintaxa complet˘ (în forma EBNF [Jucan & Andrei, 2002]),
a
˘
recomandam consultarea lucr˘ arilor [Berners-Lee et al., 1998] sau
[Buraga, 2001a].
Deoarece majoritatea documentelor (resurselor) Web sunt stocate în
˘
maniera arborescent˘ (ierarhic˘ în locul adres˘
a a), arii absolute se poate
a. t˘
folosi o adresare relativ˘ Aceasta permite o independen¸a par¸ial˘ a
t a
loca¸iei si a schemei de acces, fiind desemnat˘ sintactic prin interme-
t ¸ a
diul identificatorilor uniformi de resurse relativi.
În plus, un URI poate avea inclus un identificator de fragment (frag-
ment identifier) [Berners-Lee et al., 1998] pentru a se permite identifi-
carea indirect˘ a unei resurse secundare prin intermediul referin¸ei
a t
la resursa primar˘ si al informa¸iilor suplimentare. Mai precis, dac˘
a ¸ t a
identificatorul uniform de resurse U identific˘ resursa R si reprezen-
a ¸
tarea resursei R este în formatul F , iar conform specifica¸iilor forma-
t
¸ ˘
tului F se stie ca identificatorii de fragment identific˘ resurse secun-
a
dare în cadrul instan¸elor lui F , atunci identificatorul pentru resursa
t
˘ ˘
secundara, identificata în interiorul unei instan¸e a lui F de un iden-
t
tificator de fragment f id, este reprezentat de U#f id. [Jacobs, 2003,
Berners-Lee et al., 1998]
˘ ˘
Drept exemplu, poate fi men¸ionata urmatoarea adres˘ sufixul ei
t a,
desemnând identificatorul de fragment public:
http://www.infoiasi.ro/~busaco/cv.html#public
Identificatorii uniformi de resurse ofer˘ suport pentru realizarea de
a
˘
legaturi între diverse noduri (resurse) ale spa¸iului WWW: când repre-
t
˘ ˘ ˘
zentarea unei resurse refera o alta resursa prin intermediul unui iden-
˘ ˘
tificator URI, atunci acesta reprezint˘ o legatura – v˘
a ˘
azuta în termenii
hipertextului – între cele dou˘ resurse [Jacobs, 2003].
a
˘
Dupa cum am amintit în cadrul sec¸iunii 1.1, accesul la reprezenta-
t
rea resurselor se realizeaz˘ prin intermediul unui protocol de comuni-
a
ca¸ie, în cazul Web-ului utilizându-se protocolul HTTP.8
t
8 ˘
Pentru detalii, se pot consulta lucrarile [Fielding et al., 1997], [Buraga, 2001a],
[Buraga et al., 2002a] sau [Naik, 1998].
31. 18 Sabin Corneliu Buraga
1.3 Evolu¸ ia spa¸ iului WWW
t t
˘ ˘
În prezent, Web-ul a devenit fara îndoial˘ “universul informa¸iilor ac-
a t
cesibile în re¸ea”, conform defini¸iei anticipative dat˘ de creatorul aces-
t t a
tuia, Tim Berners-Lee [Berners-Lee, 1989]. Spa¸iul WWW s-a achitat
t
˘ ˘
de aceasta promisiune într-o manier˘ spectaculoas˘ din doua motive.
a a,
Primul dintre ele este reprezentat de flexibilitatea si independen¸a fa¸a
¸ t t˘
de con¸inut a protocolului HTTP – care se poate adapta pentru a trans-
t
fera orice format de document – si, în plus, de existen¸a identificatorilor
¸ t
universali de resurse (URI) capabili de a reprezenta leg˘ ˘
aturi catre orice
format de document. Un al doilea motiv este faptul c˘ selec¸ia natural˘
a t a
˘
pare sa fi favorizat câteva formate care au fost dezvoltate pentru Web
în mod explicit. În peisajul de o prolific˘ varietate a sintaxei, stilului,
a
structurii si semanticii documentelor Web, observ˘ adoptarea prefe-
¸ am
ren¸ial˘ a limbajelor SGML, HTML, CSS si XML. Fiecare dintre aces-
t a ¸
t a ˘
tea aduce o strategie evolu¸ionar˘ lenta, favorizând cod˘ arile declara-
t˘
tive fa¸a de formatele binare (de cele mai multe ori proprietare), stilu-
s t t˘
rile de afi¸ are separabile de con¸inutul propriu-zis fa¸a de formatarea
˘ a t˘
directa, marcarea declarativ˘ fa¸a de cea procedural˘ si semantica bine
a¸
˘ t˘
definita fa¸a de comportamentul opera¸ional.
t
Evolu¸ia Web-ului [Berners-Lee, 1999, Berners-Lee, 2002] se poate
t
remarca mai ales în urm˘
atoarele direc¸ii:
t
• evolu¸ia sintaxei spre formate declarative;
t
• evolu¸ia stilului (prezentarii): de la formatare la foi de stiluri;
t ˘
• evolu¸ia structurii;
t
• evolu¸ia semanticii;
t
• evolu¸ia elementelor programabile.
t
Fiecare dintre acestea vor fi detaliate în continuare, urmând liniile
prezentate în [Buraga, 2002a] si [Alboaie & Buraga, 2002].
¸
32. Arhitectura spa¸iului WWW
t 19
1.3.1 Evolu¸ ia sintaxei spre formate declarative
t
Primul compromis se face în privin¸a opt˘ între limbajul ma¸ in˘ (bi-
t arii s a
nar) si limbajul natural (textual). La o prim˘ vedere, codificarea speci-
¸ a
˘
fica ma¸ inii pare mai pu¸in costisitoare datorit˘ faptului c˘ ea reflecta
s t a a ˘
direct datele în memorie. Totu¸ i, transformarea datelor în format bi-
s
˘
nar poate fi prea fragil˘ pentru a fi folosita pe platforme eterogene (de
a
exemplu, reprezentarea numerelor) si în versiuni de software multi-
¸
ple. Codificarea binar˘ poate, de asemenea, necesita mai mult spa¸iu
a t
si timp pentru împachetare si despachetare. Fi¸ ierele text pot fi la fel
¸ ¸ s
de eficiente, în plus formatele textuale (chiar si cele în forme par¸ial
¸ t
lizibile) sunt mai u¸ or de editat, corectat si extins.
s ¸
Al doilea compromis este legat de amalgamul dintre formatele de-
clarative si cele procedurale. Poate fi mai u¸ or de elaborat un analizor
¸ s
˘
pentru un program care calculeaz˘ numarul π decât de transmis un
a
miliard de cifre ale sale. Limbajul T X [Knuth, 1984], bazat pe mar-
E
caje, este un exemplu edificator privind puterea oferit˘ de formatele
a
procedurale pentru conceperea si procesarea documentelor, fa¸a de edi-
¸ t˘
toarele de texte folosind formate binare proprietare (e.g., Word).
˘
În fine, exista un compromis între formatele specifice si cele gene-
¸
˘
rice. În masura în care refolosirea informa¸iei este o preocupare ma-
t
˘ t˘
jora, o importan¸a chiar mai mare decât aceasta o are promovarea unei
familii de gramatici înrudite. Puterea meta-limbajelor SGML si XML ¸
˘
este reflectata de flexibilitatea în gestionarea documentelor de toate
¸ a ˘
tipurile, de la manuale si comunicate de pres˘ pâna la contracte legale
si specifica¸ii de proiecte, si de posibilitatea de reutilizare a acestora
¸ t ¸
în vederea producerii de c˘ ti, rapoarte si edi¸ii electronice (pentru
ar¸ ¸ t
CD-ROM, Web, dispozitive mobile etc.) pornind de la acela¸ i (acelea¸ i)
s s
fi¸ ier(e) surs˘ folosind marcaje declarative similare.
s a,
˘ ˘
Exista o tensiune fundamentala între performan¸a, costul si ca-
t ¸
pacitatea de utilizare a strategiilor de codificare u¸ or lizibile de c˘
s atre
s ˘ ¸
ma¸ ina si, respectiv, de c˘ atre om. Abordarea XML g˘ ste un echili-
ase¸
bru rezonabil între cele dou˘ Facila lizibilitate pentru om implic˘ ro-
a. a
t a ˘ s ˘
buste¸e, iar descifrarea rapid˘ de catre ma¸ ina implic˘ validitate; am-
a
bele calit˘ ti adaug˘ valoare informa¸iei si faciliteaz˘ evolu¸ia docu-
a¸ a t ¸ a t
mentelor în timp.
33. 20 Sabin Corneliu Buraga
˘
1.3.2 Evolu¸ ia stilului (prezentarii): de la formatare
t
la foi de stiluri
˘ ˘
De când au aparut documentele, exista autori si proiectan¸i care si-
¸ t ¸
t ˘ ¸
au concentrat efortul de perfec¸ionare tehnica si stilistic˘ pentru fie- a
t˘
care atingere de peni¸a, fiecare fragment de corp de liter˘ fiecare ima- a,
a. ˘
gine plasat˘ În masura în care stilul generic al unei prezent˘ poate ari
fi captat în vederea reutiliz˘ arii ulterioare, cu atât mai mult˘ valoare
a
˘ ˘
capata design-ul si documentul în sine. Istoria evolu¸iei formatelor de
¸ t
˘
documente pentru Web favorizeaza formatarea extern˘ în detrimen- a
tul directivelor încapsulate tocmai cu scopul ca informa¸ia s˘ poata fi t a ˘
˘
reprezentata independent de stil si viceversa.¸
Pe parcursul istoriei proces˘ arii computerizate a datelor, au existat
˘
numeroase abordari ale reprezent˘ arilor orientate spre format˘ in- ari
terne, de la comenzile troff sau groff din mediile UNIX pân˘ la a
directivele formatului RTF (Rich Text Format), si la marcajele pen-
¸
tru fonturi din HTML (a se vedea, de exemplu, marcatorul <font>).
Aproape inevitabil, acestea au fost completate cu “scurt˘ aturi” de for-
matare reutilizabile: pachete de macro-uri, rigle si parametri pentru
¸
afi¸ area în navigator etc. Cl˘
s t˘
adite pe aceast˘ experien¸a, formatele ac-
a
tuale de documente Web – HTML si XML – permit ca formatarea da-
¸
˘ ˘
telor sa poata fi realizat˘ extern, prin foi de stiluri. Foile de stiluri în
a
cascad˘ – CSS (Cascading Style Sheets) [Bos et al., 1998] – merg mai
a
departe si permit compunerea unor stiluri separate, cum ar fi proprie-
¸
˘t
ta¸ile de culoare si font, seturile de caractere, grafica si prezentarea.
¸ ¸
˘
Mai mult, controlul formatarii este divizat între autor si cititor, acesta
¸
˘
din urma putându-¸ i interpune propria sa înl˘ tuire de foi de stiluri,
s an¸
at ˘ t ˘
deci contribuind la îmbun˘ a¸irea prezentarii datelor, în func¸ie de do- t
rin¸ele sale individuale [Buraga, 2001a, Buraga, 2002a].
t
Stilurile nu sunt limitate la domeniul vizual – ele pot controla re-
darea con¸inutului pentru monitoare, hârtie, audio, medii Braille, ter-
t
minale mobile si multe altele. Acest lucru este pre¸ios îndeosebi dac˘
¸ t a
se dore¸ te adaptarea prezent˘
s arii documentului pentru utilizatorii cu
handicapuri fizice, dislexie sau pentru analfabe¸i – ca si în cazul a di-
t ¸
t˘
verse priva¸iuni de circumstan¸a (utilizatori care vorbesc la telefon sau
t
˘
lucreaza într-un mediu zgomotos). Fluxurile audio pot fi transcrise pe
34. Arhitectura spa¸iului WWW
t 21
Web ca text pentru persoanele cu deficien¸e de auz; navigatoarele audio
t
(precum Web Galaxy, Vox Portal sau WIRE) ofer˘ facilitatea de a citi
a
paginile Web pentru utilizatorii care nu le pot parcurge în mod direct,
în conformitate cu foile de stiluri aurale.
˘ ˘
Cu toate ca tehnologia Web actual˘ suporta atât formatarea in-
a
˘
terna, cât si pe cea prin intermediul foilor de stiluri, sistemele pentru
¸
gestionarea unor cantit˘ ti mari de informa¸ie de tip hipertext nece-
a¸ t
˘ ˘
sita de cele mai multe ori formatare externa pentru ca informa¸ia s˘t a
˘ ˘ s
ramâna u¸ or navigabil˘ si facil de prelucrat. Se recomand˘ a¸ adar,
a ¸ a, s
separarea datelor de modul lor de prezentare [Buraga, 2002a].
1.3.3 Evolu¸ ia structurii
t
˘ ˘
Sa consider˘ urmatorul exemplu:
am
˘
Exemplul 1 În activitatea de documentare, un cercetator realizeaz˘ o a
˘
lista de referin¸e bibliografice cuprinzând informa¸ii despre publica¸iile
t t t
(electronice sau nu) reg˘ ˘
asite. Structura fiecarui articol stiin¸ific include
¸ t
un titlu, numele autorului, corpul articolului si subsolul.
¸
Diversele formate punând la dispozi¸ie structuri concurente (e.g.,
t
˘ ˘ ˘
SGML) de documente încearca sa surprind˘ aceasta structura în ca-
a ˘
˘
drul reprezentarii lor. Unele descriu buc˘ ti din document în termeni
a¸
lega¸i de prezentarea datelor: propriet˘ ti precum italic, indentat, sta-
t a¸
bilirea unui anumit corp de liter˘ (font) si a¸ a mai departe. La cealalt˘
a ¸ s a
˘
extrema, alte formate folosesc termeni declarativi: titlu, adres˘ intrare
a,
˘ ˘
de la tastatura etc. Multe alte formate se afla undeva între aceste dou˘ a
extreme, precum marcajele XHTML [Pemberton et al., 2002] <em> si ¸
<font>, în compara¸ie cu <address> sau <abbr>.
t
Alt tip de structuri declarative pentru aplica¸iile SGML si XML
t ¸
sunt defini¸iile de tipuri de documente – DTD (Document Type Defi-
t
nition)9 – care impun documentelor valide s˘ includ˘ mai multe ele-
a a
mente (marcaje) într-o ordine precizat˘ (de exemplu, “fiecare apari¸ie
a t
9
Regulile sintactice de specificare a defini¸iilor de tipuri de docu-
t
˘
mente [Goldfarb, 1990, Bray et al., 2004] urmeaz a teoria limbajelor formale (a
se vedea [Jucan, 1999]).
35. 22 Sabin Corneliu Buraga
˘ ˘
a elementului <ora¸> trebuie sa fie precedata de marcajul <adres˘>
s a
¸ ˘
si urmata de <cod_po¸tal>”). Actualmente, declara¸iile DTD tind a fi
s t
înlocuite de schemele XML [Fallside, 2001].
Luarea unei decizii finale de-a lungul acestei axe aduce dup˘ sinea
compromisuri între precizie si comprehensibilitate: semanticile orien-
¸
tate spre prezentare, mai lejere, sunt în mod universal mai bine în¸e- t
lese decât cele declarative. Marcajul <address> a devenit parte din
repertoriul HTML, îns˘ <abstract> (desemnând marcarea rezuma-
a
˘ ¸
tului unei lucrari stiin¸ifice) nu. Marcarea declarativ˘ indicând în mod
t a,
clar rolul diverselor p˘ ti de document, are avantajul de a putea fi re-
ar¸
˘ ˘
folosita mai târziu. De exemplu, motoarele de cautare (ca de exemplu,
Google [Google]) pot atribui într-un mod mai semnificativ ponderi ter-
menilor dintr-un rezumat sau pot extrage automat numele reporterilor
˘
dintr-un set de “taieturi din ziare” folosind un instrument de captare a
informa¸iei.t
˘
Vom opta pentru descrierea structurii unui document dupa func¸ia t
a a ˘
sa mai degrab˘ decât dup˘ forma. Aceasta conduce la asigurarea unui
suport pentru un set extensibil de marcaje, ceea ce HTML si CSS nu
¸
pot oferi. Evolu¸ia centralizat˘ a HTML împiedic˘ întocmirea unei liste
t a a
exhaustive de marcaje r˘ aspunzând tuturor idiomurilor dorite de poten-
tialii autori de pagini Web. Un marcaj nou are în mod poten¸ial o sin-
¸ t
˘ a, ˘
taxa ambigu˘ o semantica ambigu˘ si o prezentare ambigu˘ (mai ales
a¸ a
˘ ˘ ˘
fara adaugiri de foi de stil).
˘t
Comunita¸ile de interese de pe Web au nevoie s˘ si publice propriile
a-¸
defini¸ii u¸ or, proces facilitat de folosirea meta-limbajului XML. Aceste
t s
t a ˘
noi defini¸ii pot chiar s˘ mearga mai departe de specificarea rolului
˘
fiecarui marcaj, pentru a include interpret˘ si comportamente, i.e.
ari ¸
pentru a suporta noi semantici. De altfel, navigatoarele Web actuale
˘
ofera un tot mai bun suport pentru documentele XML.
1.3.4 Evolu¸ ia semanticii
t
˘
Testul suprem pentru ca un format de document sa “supravie¸uiasc˘
t a”
˘ ˘
pe Web este masura în care con¸inutul s˘ suporta diversele tipuri de
t au
˘ ˘
utilizari. Documentele exista ca artefacte ale unor procese mai largi,
precum achizi¸ionarea, raportarea sau dezvoltarea software-ului, iar
t