Jesteś tutaj: Strona główna

Po co mapować dane?

Napisane przez  28 czerwiec 2012

Obecnie w Internecie dane w większości przypadków udostępniane są jako witryny HTML. Pojawiają się również kanały RSS które udostępniają ustrukturyzowane dane dzięki czemu możliwe jest śledzenie zmian na danej witrynie. Stopniowo rozwija się również idea sieci semantycznych i standard RDF. Jednak dopiero udostępnienie wielu danych przechowywanych w relacyjnych bazach danych w formie ustrukturyzowanej – RDF – pozwoli na wykorzystanie pełnej siły sieci semantycznych.

Wprawdzie już teraz funkcjonują takie punkty dostępu do danych (serwisy wyszukujące miejsc hotelowych, ceny produktów w sklepach internetowych), ale zazwyczaj są to dane udostępniane w formacie ustalonym pomiędzy dwoma stronami a nie jako ustandaryzowane dane. Standaryzacja publikacji danych (w postaci RDF’a) otwarłaby nowe możliwości wykorzystywania Internetu. Wyobraźmy sobie możliwość budowania równego rodzaju serwisów, aplikacji itp. korzystających z danych innych serwisów w Internecie: wikipedii, informacji o prognozie pogody, cenach hoteli w danej miejscowości itp. w sposób prosty i ustandaryzowany.

O idei publikowania danych w Internecie pisze również Tim Berners-Lee w artykule "Relational Databases on the Semantic Web".

Stad też idea budowy oprogramowania pozwalającego na mapowanie relacyjnych baz danych w RDF w łatwy sposób. Mapowanie bazy danych w rdf'a motywowane jest uproszczeniem dostępu do danych, możliwością odczytu znaczenia danych i ukrytej semantyki nie zapisanej bezpośrednio w relacjach w bazie danych.
Inne zalety wykorzystania RDF-a w mapowaniu bazy danych:

  • Bazując na języku RDF, OWL stosuje URI do identyfikacji zasobów sieciowych. Z jednej strony umożliwia to odnoszenie się do zewnętrznych lub specyficznych dla danego przemysłu ontologii; z drugiej strony jest możliwa synchronizacja narzędzi do zarządzania informacją o produkcie z innymi jednostkami zasadniczymi dla biznesu, jak na przykład tymi występującymi w CDI (Customer Data Integration, Integracja Danych o Klientach).
  • OWL pozwala na definiowanie bogatszych właściwości i relacji. Właściwości obiektowe mogą zostać zdefiniowane jako symetryczne, funkcjonalne, odwrotnie funkcjonalne, przechodnie. Właściwości obiektowe są odpowiednie do opisania złożonych relacji między produktami oraz pomiędzy produktami i innymi encjami składającymi się na informację o produkcie.
  • Ekspresywność OWL pozwala na określenie logicznych klas (iloczyn, złączenie, dopełnienie zbiorów), co umożliwia automatyczną klasyfikację pozycji produktu. Na przykład kategorie nowego produktu można określić jako iloczyn dwóch innych: przykładem mogą być smartfony, które posiadają cechy zarówno telefonów jak i palmtopów. Każdy produkt będący jednocześnie telefonem i palmtopem jest zatem smartfonem.
  • Za pomocą ograniczeń w języku OWL można definiować dynamiczne kategorie, które nie występowały we wcześniej opracowanej hierarchii kategorii i są określone przez użytkowników w czasie wprowadzania zapytania. Restrykcje mogą przedstawiać złożone i potencjalnie zmieniające się kategorie. Na przykład, stosując ograniczenie o minimalnej liczności, jest możliwe zdefiniowanie kategorii "produkty przestarzałe", która zawiera wszystkie produkty zastąpione przynajmniej przez jeden inny produkt. Pozycje należące do dynamicznych kategorii mogą być pozyskiwane za pomocą wnioskowania ontologii OWL.

Problemy z jakimi można się spotkać w przypadku mapowania bazy danych na RDF:

  • Podobne lub analogiczne dane w jednej bazie danych mogą być przedstawione w innej liczbie tabel w drugiej bazie danych.
  • Podobne lub analogiczne dane w jednej bazie danych mogą być przedstawione w innej liczbie kolumn w drugiej bazie danych.
  • Podobne lub analogiczne dane w jednej bazie danych mogą być przedstawione w innej liczbie wierszy w drugiej bazie danych.
  • Podobne lub analogiczne dane w jednej bazie danych mogą być przedstawione poprzez inne wartości w drugiej bazie danych (np., jedna baza danych używa znaków "m" i "f" dla słów "męski" "żeński", natomiast druga może używać odpowiednio cyfr "0" i "1"), lub te same wartości w różnych bazach danych mogą znaczyć co innego (np. jedna baza danych oznacza cyframi "1" i "0" słowa "męski" i "żeński" a druga odwrotnie), lub te same wartości w różnych bazach danych mogą być w pewien sposób niezgodne, co może utrudnić ich mapowanie (np. jedna baza danych używa cyfr "0" i "1" dla słów "męski" i "żeński", z kolei inna baza danych posługuje się cyframi od "0" do "9" w celu przedstawienia różnych medycznych odmian płci, jak na przykład kilka rodzajów obojnactwa).

W artykule Przegląd narzędzi mapowania opisane zostały narzędzia pozwalające na publikację danych relacyjnych jako RDF oraz wykorzystanie tego typu już opublikowanych danych.

Warto przeczytać: Ma L., Mei J., Pan Y., Kulkarni K., Fokoue A.: "Semantic Web Technologies and Data Management".

 

Artykuły powiązane

pasek dol2