To jest stara wersja strony!
SemWeb_RDFStore
Dawid Molenda dawid at molenda.info
RDF Stores - investigate the tools' functionality & possibilities
importing data from Relational Databases into RDF Triple Stores › examples, applications
importing data from various sources (spreadsheets, databases, other…) into RDF Triple Stores
Spotkania
20090521
20090513
-
2 przypadki użycia:
rodzina - powiązania
miasto - wydarzenia
o dbpedii, freebase, yago etc.(opis, linki do danych)
+ to co nie zostało wgrane z poprzedniego razu
20090421
na następny raz:
uzupelnic tabelke por. narzędzi
wykaz istniejacych baz RDF
ok.3 propozycje przypadkow użycia
pdfy, prezentacje - wgrać do wiki z krótkim komentarzem
20090327
20090312
ogólny cel projektu: poznać metody inż.wiedzy w SemWeb, w szczególności zastosowanie RDF, RDFS, OWL w praktycznych aplikacjach
stworzyć prototyp aplikacji
baza danych RDF
Query Engine
-
na następny raz proszę przygotować (opisać w sekcji
Sprawozdanie):
Projekt
Sprawozdanie
Konwersja SQL -> RDF
Relacyjne bazy danych pozwalają na to aby tabela miała dowolną liczbę kolumn których wiersz wyraża informację dotyczącą predykatu w logice pierwszego rzędu z dowolną ilością miejsc. Taki wiersz albo predykat musi być dekomponowany do reprezentacji jako trójka RDF. Prosta forma dekompozycji wprowadza nowy pusty węzeł odpowiadający wierszowi i nowa trójka (triple) jest wprowadzona do jego każdej komórki. Temat każdej trójki to nowy pusty węzeł, predykat odpowiada nazwie kolumny, a obiektem jest wartość wprowadzona do komórki wiersza. Nowy pusty węzeł może mieć także właściwość rdf:type, której wartość odpowiada nazwie tabeli.
Stąd bardziej kompleksowy fakt wyraża się w RDF przy użyciu iloczynu logicznego (logical-AND) prostej relacji dwuargumentowej. RDF nie dostarcza środków do negacji (NOT) czy alternatywy (OR).
Koncepcje i Składnia Abstrakcyjna
Trójka RDF
temat (podmiot) który jest znacznikiem RDF
URI lub pusty węzeł
predykat, który jest znaczniekiem RDF
URI
obiekt, który jest znacznikiem RDF
URI, literałem lub pustym węzłem
RDF/RDFS/OWL
W wielkim skrócie jakie są różnice:
OWL Lite
OWL DL
OWL Full
Serializacja danych RDF
Dostępne bazy wiedzy
Wikipedia
http://www.wikipedia.org/
http://download.wikipedia.org/
Wikipedia jset olbrzymią bazą wiedzy. Może być wykorzystana do testowania systemów analizy tekstu. Artykuły zawierają duże fragmenty ciągłego tekstu o łatwej do przewidzenia tematyce i co ważne są pisane względnie poprawnym, współcześnie używanym językiem.
Bardzo szybko można bydować bazę wiedzy wykrozystująć szablony używane w Infoboksach. Informacje zawarte w tej części są uporządkowane w formie tabeli klucz → wartość i dotyczą okręślonego typu obiektu (np. miasto, polityk, roślina).
Wykorzystująć linki pomiędzy wersjami językowymi można uzyskać nazwy pojęć w wielu językach (te linki znajdują się w osobnej tabeli 'langlinks', więc nie trzeba analizować treści artykułów).
Przekierowania mogą być wykorzystane do budowy bazy równoznacznych nazw pojęć (także znajdują sie w osobnej tabeli 'redirects').
Kategorie porządkują pojęcia w zbiory dotyczące określonego tematu. Niestety panuję tu duża dowolność i wiele pojęć nie jest przypisanych do odpowiedniej kategorii. Kategorie są opisane w tabeli 'category'.
Kolejnym elementem są linki zewnętrzne, są opisane w osobnej tabeli 'externallinks'. Zazwyczaj trafnie powiązują strony internetowe z danym pojęciem, dodatkowo część posiada tytuł, który opisuje zewnętrzną stronę.
Wikipedii nie ma sensu analizować pobierając strony poszczególnych haseł, należy ściągnąć zrzuty bazy danych i załadować na lokalny serwer. Dane haseł (wraz z treścią) są dostępne w postaci pliku xml, pozostałe dane jako tabele MySQL. Problemem może być rozmiar danych, dla angielskiej wersji XML ma 21GB, a tabele SQL ponad 100 000 000 wierszy.
DBpedia
http://wiki.dbpedia.org/
http://wiki.dbpedia.org/Downloads32
DBpedia jest bazą wiedzy w formacie RDF (zawiera ponad 275 milionów trójek). Dane są tworzone na podstawie wikipedii (14 wersji językowych, także Polska). Opisuje ponad 2.5 miliona haseł (213,000 persons, 328,000 places, 57,000 music albums, 36,000 films, 20,000 companies).
Ontologia
http://wiki.dbpedia.org/Ontology
http://www4.wiwiss.fu-berlin.de/dbpedia/dev/ontology.htm
http://www.w3.org/2003/01/geo/
http://wiki.dbpedia.org/Downloads32
Interfejs HTML
Interfejs SPARQL
Zrzut bazy danych
yago
Freebase
UMBEL
WordNET
DMOZ
http://www.dmoz.org/
http://rdf.dmoz.org/
Publicznie dostępny dump bazy katalogu dmoz jest w formacie rdf, ale jest nie do końca zgodny ze standardami i są problemy z jego załadowaniem przez większość parserów.
Format RDF jest tu prawdopodobnie wykorzystywany ze względu na łatwiejsze opisanie drzewa kategorii niż w bazach relacyjnych.
Baza nie jest ciekawa pod względem bezpośredniego wykorzystania w SemWeb.
Istnieją gotowe narzędzia do konwersji pobranych plików na tabele SQL, np.: suckDMOZ.
DMOZ może być wykorzystany jako lista stron o wstępnie określonej tematyce (choć bardzo niedokładnie), jako taka baza URLi może być wykorzystany do budowy pająka.
Chef Moz
MusicMoz
RDF Stroes
C/C++:
3store is an RDF „triple store”, written in C and backed by MySQL and Berkeley DB. It is an optimisation and port of an older triple store (WebKBC). It provides access to the RDF data via RDQL or SPARQL over HTTP, on the command line or via a C API.
strona na sourceforge
Redland is a set of free software libraries that provide support for the Resource Description Framework (RDF). The software is available under multiple licenses, namely GPL, LGPL, and Apache License, to simplify reuse.
Posiada biblioteki do PHP i innych jezyków
PHP:
ARC is a flexible RDF system for semantic web and PHP practitioners, developed by Benjamin Nowack. It's open-source, easy to use, and runs in most web server environments. The new version of ARC, ARC 2, is currently available for preview.
RAP, the RDF API for PHP, is a software package for parsing, searching, manipulating, serializing and serving RDF models.
Java:
AllegroGraph is a disk-based RDF Database, that aims at providing a solid storage layer for powerful geotemporal reasoning, social network analytics and ontology modeling capabilities for today's Semantic Technology applications.
Biblioteki do prologa.
Jena is a Java framework for building Semantic Web applications. It provides a programmatic environment for RDF, RDFS and OWL, SPARQL and includes a rule-based inference engine.
Joseki is an HTTP engine that supports the SPARQL Protocol and the SPARQL RDF Query language.
http://www.joseki.org/
Mulgara is a scalable open source RDF database written entirely in Java. Mulgara is an open source fork of Kowari.
http://www.aduna-software.com/home/overview.view
Inne:
Virtuoso Universal Server s a middleware and database engine hybrid that combines the functionality of a traditional RDBMS, ORDBMS, virtual database, Resource Description Framework (RDF), XML, free-text, Web Application Server, and File Server functionality in a single server product offering. Rather than have dedicated servers for each of the aforementioned functionality realms, Virtuoso is a „universal server”; it enables a single multithreaded server process that implements multiple protocols. The open source edition of Virtuoso Universal Server is also known as OpenLink Virtuoso.
Prezentacja
Materiały
Czyli zestaw, z którym trzeba się zapoznać…
Na początek
Specyfikacje
-
URI - w zasadzie wystarczy przeczytać na pl wiki
Narzędzia
RDF store - lista narzędzi na wiki semanticweb.org (nie wszystko aktualne - 5.2009)
LargeTripleStores - lista RDFStores z opisem wydajności różnych silników, już trochę nieaktualne, ale warto przeglądnąć
-
SPARQL - specyfikacja SPARQL na w3.org
-