środa, 3 czerwca 2015

[XML] Podstawy, składnia i przestrzenie nazw w XML

TRUE
4413385007819199716
XML, czyli EXtensible Markup Language jest uniwersalnym językiem służącym do opisu danych przy pomocy znaczników. Od lat jest niekwestionowanym standardem jeżeli chodzi o zapisywanie zbiorów danych. Nie ma praktycznie języka, który nie posiadałby lub nie mógł posiadać implementacji XML-a. Czyni to XML-a językiem niesamowicie uniwersalnym, całkowicie niezależnym od danej platformy, architektury, czy rodzaju oprogramowania.

Za pomocą XML-a komunikować się może praktycznie każdy z każdym i wszystko ze wszystkim, co jest zresztą powszechnie wykorzystywane - w końcu właśnie w tym celu ten język powstał. Kolejnym atutem XML-a jest jego prosta budowa oparta na znacznikach. Poza tym jest łatwiejszy w czytaniu dla człowieka niż np. JSON - nie stanowi żadnego problemu "przeczytanie" prostego dokumentu XML bez użycia żadnych parsujących narzędzi.

W artykule tym po krótce omówimy sobie strukturę dokumentów XML, a w następnych artykułach przeanalizujemy tworzenie, odczyt i przetwarzanie dokumentów XML za pomocą PHP oraz Javascriptu.

Definicja standardu

Każdy dokument XML zaczynamy od definicji standardu XML dokumentu i podania kodowania znaków dla niego:

  1. <?xml version="1.0" encoding="UTF-8"?>

Możemy pominąć podawanie tych parametrów, przyjęte zostaną wtedy wartości domyślne, takie jak powyżej, jednakże przyjęło się, że podajemy taką definicję na początku każdego dokumentu.

Przykład prostego dokumentu XML

  1. <?xml version="1.0" encoding="UTF-8"?>
  2.  
  3. <books category="fantasy">
  4.  
  5.   <book>
  6.  
  7.     <title>Hobbit</title>
  8.  
  9.     <author>J.R.R. Tolkien</author>
  10.  
  11.   </book>
  12.  
  13.   <book>
  14.  
  15.     <title>Wieża Jaskółki</title>
  16.  
  17.     <author>Andrzej Sapkowski</author>
  18.  
  19.   </book>
  20.  
  21. </books>

Znaczniki

Struktura dokumentu opiera się na znacznikach, w których opisujemy poszczególne elementy. Znacznik taki ma postać:

  1. <znacznik>jakaś zawartość</znacznik>

Przykładowo, opisując tytuł książki, możemy opisać go znacznikiem:

  1. <title>Pan Tadeusz</title>


Każdy znacznik może posiadać atrybuty go opisujące, które definiujemy następująco:

  1. <znacznik atrybut1="wartość1" atrybut2="wartość2" [...]>

Przykładowo:

  1. <person name="Jan Kowalski" age="28">


Znaczniki można w sobie zagnieżdzać, tj. każdy znacznik może posiadać w sobie kolejne znaczniki. Mówimy wtedy, że znacznik położony wyżej jest rodzicem znacznika położonego niżej, a znacznik położony niżej w hierarchi jest dzieckiem znacznika, w którym się zawiera. Popatrzmy na przykład z książką:

  1. <book>
  2.  
  3.   <title>Pan Tadeusz</title>
  4.  
  5.   <author>Adam Mickiewicz</author>
  6.  
  7. </book>

Znaczniki <title> i <author> są dziećmi znacznika <book> (zawierają się w nim), jednocześnie znacznik <book> jest tutaj ich rodzicem. Zagnieżdżać możemy oczywiście głębiej, popatrzmy na przykład:

  1. <shop>
  2.  
  3.   <books category="poemat">
  4.  
  5.     <book>
  6.  
  7.       <title>Pan Tadeusz</title>
  8.  
  9.       <author>
  10.  
  11.         <first_name>Adam</first_name>
  12.  
  13.         <last_name>Mickiewicz</last_name>
  14.  
  15.       </author>
  16.  
  17.     </book>
  18.  
  19.   </books>
  20.  
  21. </shop>


Składnia i restrykcje

XML jest bardzo restrykcyjny jeśli chodzi o składnię:
1. W każdym dokumencie musi istnieć jeden nadrzędny, główny znacznik, w którym zawierać się będą pozostałe.
Znacznik główny nazywamy korzeniem - ang. root. W przypadku powyżej takim root-em dokumentu jest <shop></shop>.

2. Wszystkie znaczniki muszą zostać zamknięte w odpowiedniej kolejności - tak jak zostały otwarte.
Przykład niepoprawny:

  1. <books>
  2.  
  3.   <book>
  4.  
  5.     <title>Pan Tadeusz</title>
  6.  
  7.     <author>Adam Mickiewicz</author>
  8.  
  9.   </books>
  10.  
  11. </book>


Przykład poprawny:

  1. <books>
  2.  
  3.   <book>
  4.  
  5.     <title>Pan Tadeusz</title>
  6.  
  7.     <author>Adam Mickiewicz</author>
  8.  
  9.   </book>
  10.  
  11. </books>


3. Wszystkie puste znaczniki, a więc takie które nie posiadają znacznika zamykającego:

  1. <znacznik></znacznik>

muszą zostać domknięte za pomocą:

  1. <znacznik />


4. Nazwa znacznika może składać się ze znaków alfanumerycznych (litery a-z, A-Z, cyfry 0-9), nie powinna zawierać polskich znaków. W nazwie znacznika możemy użyć trzech znaków specjalnych:

  • podkreślnika - _
  • myślnika - -
  • i kropki - .
5. Pozostałe znaki specjalne są zabronione. Ponadto nazwa znacznika nie może rozpoczynać się od znaku specjalnego oraz od ciągu xml, XML, Xml i pozostałych konfiguracji słowa xml.

6. Wszystkie znaczniki HTML ujęte pomiędzy znaczniki XML muszą zostać zamienione na encje.

7. Nigdzie w dokumencie (poza otwieraniem i zamykaniem znaczników) nie wolno nam użyć znaków:

  • < (lt)
  • > (gt)
  • & (ampersand)

Musimy zamienić je na encje:

  • < na &lt;
  • > na &gt;
  • & na &amp;
8. Wartości atrybutów podajemy zawsze w cudzysłowach lub apostrofach.

9. Komentarze w dokumencie XML umieszczamy podobnie jak w HTML-u:

  1. <!-- komentarz -->


10. Wszystko to co ma nie być przetwarzane przez parser XML umieszczamy w bloku:

  1. <![CDATA[
  2.  
  3. ...
  4.  
  5. ]]>


Walidacja

Dokument XML przygotowany lub wygenerowany niepoprawnie nie zostanie sparsowany. W sieci istnieje cała masa stron oferujących sprawdzanie poprawności składni dokumentów XML, są to tzw. walidatory. Przykładowo jeden z nich: https://validator.w3.org/ - walidator oferuje możliwość sprawdzenia dokumentu XML po podaniu jego URL-a, pliku lokalnego lub dokumentu wklejonego bezpośrednio do formularza. A na tej stronie wygenerujemy sobie widok drzewka z dokumentu XML: http://codebeautify.org/xmlviewer

Przestrzenie nazw

Przestrzenie nazw (namespaces) zostały stworzone w celu zdefiniowania sposobu opisu znaczników, które mogą mieć różne znaczenie w zależności od typu elementu. Przykładowo - znacznik <title> może mieć jasno określone znaczenie dla danego typu elementu, ale dla innego typu może już oznaczać coś innego.

Inny przykład: w jednym dokumencie może znaleźć się opis książki oraz opis faktury za nią. W obu przypadkach istnieć może znacznik <author>, tyle tylko, że w przypadku książki oznacza on autora książki, a w przypadku faktury osobę ją wystawiającą. Jak aplikacja przetwarzająca takiego XML-a ma teraz to odróżnić i nie stwierdzić, że osobą wystawiającą fakturę za "Pana Tadeusza" jest np. Adam Mickiewicz?

Dlatego właśnie wprowadzono nazewnictwo oparte na przestrzeniach nazw. Kolejną korzyścią jest to, iż w jednym dokumencie możemy wykorzystać tyle przestrzeni ile tylko chcemy, tak więc przykładowy znacznik <title> wykorzystać możemy w jednym dokumencie w kilku różnych kontekstach - różnych dla każdej z przestrzeni nazw.

Przestrzeń nazw z jakiej będziemy korzystać określamy za pomocą:

  1. xmlns:PREFIX = "URI_DO_SPECYFIKACJI"


gdzie:

  • xmlns - to nazwa specjalnego atrybutu, którym określamy przestrzeń (xmlns to skrót od XML NameSpace)
  • PREFIX - określa skróconą nazwę przestrzeni, czyli jej prefix, który dodawać będziemy później do znaczników
  • URI_DO_SPECYFIKACJI - adres prowadzący do opisu danej przestrzeni nazw. W zasadzie może on nawet prowadzić do nikąd, choć wg zaleceń prowadzić powinien on do dokumentu opisującego daną przestrzeń.

Przykładowa definicja przestrzeni nazw:

  1. <b:book xmlns:b="http://books.com/ns">
  2.  
  3.   <b:author>Adam Mickiewicz</b:author>
  4.  
  5.   <b:title>Pan Tadeusz</b:title>
  6.  
  7. </b:book>


Jak widać korzystamy tutaj z trzech znaczników:

  • <book>
  • <author>
  • <title>


Każdy z nich deklarowany jest w przestrzeni nazw:

  1. http://books.com/ns

której skrótowym prefixem jest:

  1. b


Nazwę znacznika w danej przestrzeni definiujemy na zasadzie:

  1. <PREFIX:ZNACZNIK>

w naszym przykładzie:

  1. <b:book>
  2.  
  3. <b:author>
  4.  
  5. <b:title>

Należy tutaj pamiętać, że również i znaczniki zamykające muszą posiadać prefiksy przestrzeni nazw, o ile taki wystąpił w znaczniku otwierającym.

Przestrzeń nazw obowiązuje od miejsca jej zadeklarowania, tak więc nie możemy najpierw użyć znaczników z danej przestrzeni, a dopiero później jej zadeklarować. Ponadto - przestrzeń nazw obowiązuje jedynie dla znacznika, w którym została określona oraz we wszystkich znacznikach w nim zawartych (bez względu na stopien zagnieżdżenia). Zdefiniowanie zatem przestrzeni w głównym elemencie dokumentu spowoduje, że przestrzeń będzie obowiązywać dla całego dokumentu, gdyż wszystkie pozostałe znaczniki się w nim zawierają.

Można także stworzyć przestrzeń nazw domyślną dla wszystkich elementów zawierających.
W przypadku takim nie musimy już podawać prefixa przestrzeni przy znacznikach dzieci.
Deklaracja przestrzeni domyślnej odbywa się również bez podawania prefixu.

Przykład:

  1. <book xmlns="http://books.com/ns">
  2.  
  3.   <author>Adam Mickiewicz</author>
  4.  
  5.   <title>Pan Tadeusz</title>
  6.  
  7. <book>


W powyższym przykładzie wszystkie znaczniki zawarte pomiędzy <book></book> znajdują się domyślnie w przestrzeni nazw http://books.com/ns.

Przestrzenie nazw mogą również dotyczyć atrybutów:

  1. <b:book xmlns:b="http://books.com/ns" b:hardcover="yes">
  2.  
  3.   <b:author>Adam Mickiewicz</b:author>
  4.  
  5.   <b:title>Pan Tadeusz</b:title>
  6.  
  7. </b:book>


Jeśli dla danego znacznika nie jest zdefiniowana żadna przestrzeń nazw to mówimy, ze występuje on w domyślnej, globalnej przestrzeni nazw.

3 komentarze:

Masz sugestię? Znalazłeś błąd? Napisz komentarz! :)

webmaester.pl - profesjonalne projektowanie WWW i webaplikacji
webmaester.pl - profesjonalne projektowanie WWW i webaplikacji