To jest stara wersja strony!


SemWeb_RDFStore

Dawid Molenda dawid at molenda.info

  • RDF Stores - investigate the tools' functionality & possibilities
  • importing data from Relational Databases into RDF Triple Stores › examples, applications
  • importing data from various sources (spreadsheets, databases, other…) into RDF Triple Stores

Spotkania

20090521

godz. 11:00

  • szkic sprawozdania ok - proszę uzupelnić
  • aplikacja

20090513

  • dołożyc do porównania do tabelki: swi-prolog, cliopatria
  • 2 przypadki użycia:
    • rodzina - powiązania
    • miasto - wydarzenia
  • o dbpedii, freebase, yago etc.(opis, linki do danych)
  • + to co nie zostało wgrane z poprzedniego razu

20090421

  • na następny raz:
    • uzupelnic tabelke por. narzędzi
    • wykaz istniejacych baz RDF
    • ok.3 propozycje przypadkow użycia
    • pdfy, prezentacje - wgrać do wiki z krótkim komentarzem

20090327

  • na nast. raz:
    • syntetyczne porówn narz
    • poczytać o RDFS/OWL
    • wybrany silnik/i (sparql→niezależny od impl)
    • przypadki użycia

20090312

  • ogólny cel projektu: poznać metody inż.wiedzy w SemWeb, w szczególności zastosowanie RDF, RDFS, OWL w praktycznych aplikacjach
  • stworzyć prototyp aplikacji
    • baza danych RDF
    • Query Engine
    • GUI
  • na następny raz proszę przygotować (opisać w sekcji Sprawozdanie):

Projekt

Sprawozdanie

Konwersja SQL -> RDF

Relacyjne bazy danych pozwalają na to aby tabela miała dowolną liczbę kolumn których wiersz wyraża informację dotyczącą predykatu w logice pierwszego rzędu z dowolną ilością miejsc. Taki wiersz albo predykat musi być dekomponowany do reprezentacji jako trójka RDF. Prosta forma dekompozycji wprowadza nowy pusty węzeł odpowiadający wierszowi i nowa trójka (triple) jest wprowadzona do jego każdej komórki. Temat każdej trójki to nowy pusty węzeł, predykat odpowiada nazwie kolumny, a obiektem jest wartość wprowadzona do komórki wiersza. Nowy pusty węzeł może mieć także właściwość rdf:type, której wartość odpowiada nazwie tabeli. Stąd bardziej kompleksowy fakt wyraża się w RDF przy użyciu iloczynu logicznego (logical-AND) prostej relacji dwuargumentowej. RDF nie dostarcza środków do negacji (NOT) czy alternatywy (OR). Koncepcje i Składnia Abstrakcyjna

Trójka RDF

  • temat (podmiot) który jest znacznikiem RDF URI lub pusty węzeł
  • predykat, który jest znaczniekiem RDF URI
  • obiekt, który jest znacznikiem RDF URI, literałem lub pustym węzłem

RDF/RDFS/OWL

W wielkim skrócie jakie są różnice:

  • RDF
  • RDFS
  • RDFS+
  • OWL

OWL Lite

OWL DL

OWL Full

Serializacja danych RDF

  • XML
  • Notation3 (N3)
  • Turtle
  • RDFa

Dostępne bazy wiedzy

Wikipedia

http://www.wikipedia.org/ http://download.wikipedia.org/

Wikipedia jset olbrzymią bazą wiedzy. Może być wykorzystana do testowania systemów analizy tekstu. Artykuły zawierają duże fragmenty ciągłego tekstu o łatwej do przewidzenia tematyce i co ważne są pisane względnie poprawnym, współcześnie używanym językiem.

Bardzo szybko można bydować bazę wiedzy wykrozystująć szablony używane w Infoboksach. Informacje zawarte w tej części są uporządkowane w formie tabeli klucz → wartość i dotyczą okręślonego typu obiektu (np. miasto, polityk, roślina).

Wykorzystująć linki pomiędzy wersjami językowymi można uzyskać nazwy pojęć w wielu językach (te linki znajdują się w osobnej tabeli 'langlinks', więc nie trzeba analizować treści artykułów).

Przekierowania mogą być wykorzystane do budowy bazy równoznacznych nazw pojęć (także znajdują sie w osobnej tabeli 'redirects').

Kategorie porządkują pojęcia w zbiory dotyczące określonego tematu. Niestety panuję tu duża dowolność i wiele pojęć nie jest przypisanych do odpowiedniej kategorii. Kategorie są opisane w tabeli 'category'.

Kolejnym elementem są linki zewnętrzne, są opisane w osobnej tabeli 'externallinks'. Zazwyczaj trafnie powiązują strony internetowe z danym pojęciem, dodatkowo część posiada tytuł, który opisuje zewnętrzną stronę.

Wikipedii nie ma sensu analizować pobierając strony poszczególnych haseł, należy ściągnąć zrzuty bazy danych i załadować na lokalny serwer. Dane haseł (wraz z treścią) są dostępne w postaci pliku xml, pozostałe dane jako tabele MySQL. Problemem może być rozmiar danych, dla angielskiej wersji XML ma 21GB, a tabele SQL ponad 100 000 000 wierszy.

DBpedia

http://www.dbpedia.org/

DBpedia jest bazą wiedzy RDF (zawiera ponad 275 milionów trójek). Dane są tworzone na podstawie wikipedii (14 wersji językowych, także Polska). Opisuje ponad 2.5 miliona haseł (213,000 persons, 328,000 places, 57,000 music albums, 36,000 films, 20,000 companies).

Dane

DBpedia wykorzystuje kilka zbiorów trójek RDF umieszczonych w osobnych przestrzeniach nazw:

Dla „rdf:”, „rdfs:”, „owl:” podałem tylko predykaty używane do opisu „haseł”, opis ontologi wykorzystuje pełny RDFS / OWL-DL.

DBpedia linkuje do kilku innych baz wiedzy, szczegóły na http://wiki.dbpedia.org/Interlinking

Przykładowe hasło

http://dbpedia.org/page/Berlin

Dostęp do danych

http://wiki.dbpedia.org/Architecture?v=1411

Dostępny jest interfejs SPARQL (http://dbpedia.org/sparql), SNORQL (http://dbpedia.org/snorql/), przeglądarka zasobów (html: http://dbpedia.org/page/, n3: http://dbpedia.org/page/.n3, rdf/xml: http://dbpedia.org/page/.rdf).

Można także pobrać pełny dump bazy (format N3): http://wiki.dbpedia.org/Downloads32.

yago

Freebase

http://www.freebase.com/ http://www.freebase.com/view/freebase/faq

Freebase jest otwartą bazą wiedzy tworzoną przez użytkowników (częściowo danych pochodzi także z innych źródeł). Freebase prezentuje trochę inne podejście niż pozostałe bazy wiedzy. Jest pełnym systemem prezentacji i edycji danych a dostęp Linked Data jest tylko kolejną możliwością przeglądania bazy.

Baza zawiera bardzo uporządkowane dane w ściśle określonych kategoriach, dla każdego hasła są wybrane odpowiednie zestawy właściwości, pojedyncze właściwości mogą odpowiadać predykatom RDF (np. zestaw „Location” zawiera informacje o lokalizacji geograficznej).

Przykładowe hasło

http://www.freebase.com/view/en/berlin

Dostęp do danych

Download - pliki nie są w formacie RDF.

A full dump of Freebase assertions in a simple utf8 text format. This is a complete „low level” dump of data which is suitable for post processing into RDF or XML datasets. The format of the link export is a series of lines, one assertion per line. The lines are tab separated quadruples, <source>, <property>, <destination>, <value> An assertion is a statement of fact about the <source> object. In any assertion, either the <destination> or <value> or both <destination> and <value> are present.

Dostęp RDF - interfejs pozwalajaćy przeglądać pojedyncze hasła w formacie RDF (stworzy aby Freebase mogło być linkowane z innymi bazami RDF).

Przykładowe hasło w RDF: http://rdf.freebase.com/rdf/en/berlin

UMBEL

SUMO (Suggested Upper Merged Ontology)

WordNET

DMOZ

http://www.dmoz.org/

Publicznie dostępny dump bazy katalogu dmoz jest w formacie rdf, ale jest nie do końca zgodny ze standardami i są problemy z jego załadowaniem przez większość parserów.

Format RDF jest tu prawdopodobnie wykorzystywany ze względu na łatwiejsze opisanie drzewa kategorii niż w bazach relacyjnych. Baza nie jest ciekawa pod względem bezpośredniego wykorzystania w SemWeb. Istnieją gotowe narzędzia do konwersji pobranych plików na tabele SQL, np.: suckDMOZ.

DMOZ może być wykorzystany jako lista stron o wstępnie określonej tematyce (choć bardzo niedokładnie), jako taka baza URLi może być wykorzystany do budowy pająka.

RDF Dump

Chef Moz

http://chefmoz.org/

Jest to baza wiedzy dotycząca restauracji. Bardzo stary projekt i już raczej nie aktualizowany.

RDF dump download.

Przykładowe hasła

http://chefmoz.org/Poland/MP/Cracow/Stare_Miasto_-_I_-_Rynek_Główny/

MusicMoz

http://musicmoz.org/

Baza wiedzy na temat muzyki (wykonawcy, albumy i inne). Projekt nie jest aktualizowany od 2007 roku.

Download dancyh

http://musicmoz.org/xml/ Dane nie są w formacie RDF.

Przykładowe hasło

http://musicmoz.org/Bands_and_Artists/D/Delirious/ XML: http://musicmoz.org/xml/musicmoz.bandsandartists.d.delirious.xml

RDF Stroes

Nazwa Język RDFS / OWL Składowanie Interfejs Uwagi Web
3store C - MySQL
Berkeley DB
RDQL and SPARQL (HTTP server) C API do 100mln http://sourceforge.net/projects/threestore/
http://www.aktors.org/technologies/3store/
Redland C - Berkeley DB
MySQL
PostgreSQL
AKT Triplestore (?)
SQLite
files
URIs
SPARQL and RDQL
Perl
PHP
Python
Ruby
Raptor RDF Parser Library http://librdf.org/
ARC PHP - MySQL SPARQL
PHP
http://arc.semsol.org/
RAP PHP rdfs:subclass
rdfs:subproperty
rdfs:range
rdfs:domain
owl:sameAs
owl:inverseOf
Memory
Database
SPARQL
RDQL
PHP
ADOdb Library
http://www.semanticscripting.org/SFSW2005/papers/Oldakowski-RAP.pdf
http://www4.wiwiss.fu-berlin.de/bizer/rdfapi/
AllegroGraph Java RDFS+
OWL DL
SPARQL
Prolog
Bardzo wydajny
Darmowy ma liczne ograniczenia – m.in. 50 mln trójek
http://www.franz.com/agraph/
Jena Java RDFS
OWL
Memory
Database
SPARQL Możliwość wyboru zakresu RDFS i OWL
Słaba wydajność RDFS/OWL dla baz danych (dobra tylko w pamięci)
Dla samego RDF bardzo dobra wydajność
http://jena.sourceforge.net/
Mulgara Java - Memory
Database
SPARQL RDFS/OWL planowany http://www.mulgara.org/
Sesame Java ? ? ? http://www.openrdf.org/
Oracle 11g RDFS
OWL Full
Darmowy dla deweloperów http://www.oracle.com/technology/tech/semantic_technologies/index.html
ClioPatria Prolog ? Memory SeRQL
SPARQL
http://e-culture.multimedian.nl/software/ClioPatria.shtml

C/C++:

3store is an RDF „triple store”, written in C and backed by MySQL and Berkeley DB. It is an optimisation and port of an older triple store (WebKBC). It provides access to the RDF data via RDQL or SPARQL over HTTP, on the command line or via a C API. strona na sourceforge

Redland is a set of free software libraries that provide support for the Resource Description Framework (RDF). The software is available under multiple licenses, namely GPL, LGPL, and Apache License, to simplify reuse.

Posiada biblioteki do PHP i innych jezyków

PHP:

ARC is a flexible RDF system for semantic web and PHP practitioners, developed by Benjamin Nowack. It's open-source, easy to use, and runs in most web server environments. The new version of ARC, ARC 2, is currently available for preview.

RAP, the RDF API for PHP, is a software package for parsing, searching, manipulating, serializing and serving RDF models.

Java:

AllegroGraph is a disk-based RDF Database, that aims at providing a solid storage layer for powerful geotemporal reasoning, social network analytics and ontology modeling capabilities for today's Semantic Technology applications.

Biblioteki do prologa.

  • Jena (1.7B/650M/200M)

Jena is a Java framework for building Semantic Web applications. It provides a programmatic environment for RDF, RDFS and OWL, SPARQL and includes a rule-based inference engine. Joseki is an HTTP engine that supports the SPARQL Protocol and the SPARQL RDF Query language. http://www.joseki.org/

Mulgara is a scalable open source RDF database written entirely in Java. Mulgara is an open source fork of Kowari.

http://www.aduna-software.com/home/overview.view

Prolog:

ClioPatria is the award winning, SWI-Prolog-based platform for Semantic Web Applications. It joins the SWI-Prolog RDF and HTTP infrastructure with a SeRQL/SPARQL query engine, interfacing to the The Yahoo! User Interface Library (YUI) and libraries that support semantic search.

The platform combines a high performance in-core RDF store with flexible reasoning in Prolog, query optimization. Prolog's interactive usage and capabilities of recompiling modified source code while the system remains alive greatly speedup development.

Key figures Up to about 25 million RDF triples on 32-bit hardware, only limited by memory on 64-bit hardware. Exploits multi-CPU and multi-core hardware to answer requests over HTTP concurrently. Runs on Windows, MacOS X, Linux and most Unix flavours, supporting both 32-bit and 64-bit operating systems. 64-bit systems are recommended for servers with lots of data or many users.

Inne:

Virtuoso Universal Server s a middleware and database engine hybrid that combines the functionality of a traditional RDBMS, ORDBMS, virtual database, Resource Description Framework (RDF), XML, free-text, Web Application Server, and File Server functionality in a single server product offering. Rather than have dedicated servers for each of the aforementioned functionality realms, Virtuoso is a „universal server”; it enables a single multithreaded server process that implements multiple protocols. The open source edition of Virtuoso Universal Server is also known as OpenLink Virtuoso.

Prezentacja

Materiały

Czyli zestaw, z którym trzeba się zapoznać…

Na początek

Specyfikacje

Narzędzia

  • RDF store - lista narzędzi na wiki semanticweb.org (nie wszystko aktualne - 5.2009)
  • LargeTripleStores - lista RDFStores z opisem wydajności różnych silników, już trochę nieaktualne, ale warto przeglądnąć
  • SemanticWebTools - lista narzędzi związanych z RDF
  • SPARQL - specyfikacja SPARQL na w3.org
  • SPARQL - SPARQL na wikipedii
pl/miw/2009/miw09_semweb_rdfstore.1243937841.txt.gz · ostatnio zmienione: 2019/06/27 15:58 (edycja zewnętrzna)
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0