Tony Benn
Wikipedia
* **Notation3 (N3)**
Obecnie najpolularniejsza metoda serializacji danych RDF, po definicji przestrzeni nazw (@prefix) nie trzeba używać pełnych URI. Dokument przedstawia po kolei trójki RDF bez dodatkowych tagów.
Przykład:
@prefix dc: .
dc:title "Tony Benn";
dc:publisher "Wikipedia".
[[http://www.w3.org/DesignIssues/Notation3.html]]
[[http://en.wikipedia.org/wiki/Notation_3]]
* **Turtle**
Uproszczona wersja (pozdbiór) notacji N3.
[[http://www.w3.org/TeamSubmission/turtle/]]
[[http://en.wikipedia.org/wiki/Turtle_(syntax)]]
* **RDFa**
Standard pozwalający na dołączanie dancyh RDF do zwykłych stron XHTML. Każdemu elementowu HTML możemy przypisać dane RDF w ten sposób opisując wyrażeniami sieci semantycznej zwykłą treść strony.
The trouble with Bob
Alice
...
...
[[http://www.w3.org/TR/xhtml-rdfa-primer/]]
[[http://www.w3.org/TR/rdfa-syntax/]]
[[http://en.wikipedia.org/wiki/RDFa]]
===== SPARQL =====
Jest to język zapytań RDF.
[[http://en.wikipedia.org/wiki/SPARQL]]
[[http://www.w3.org/TR/rdf-sparql-query/]]
===== Dostępne bazy wiedzy =====
==== Wikipedia ====
[[http://www.wikipedia.org/]]
[[http://download.wikipedia.org/]]
Wikipedia jset olbrzymią bazą wiedzy. Może być wykorzystana do testowania systemów analizy tekstu. Artykuły zawierają duże fragmenty ciągłego tekstu o łatwej do przewidzenia tematyce i co ważne są pisane względnie poprawnym, współcześnie używanym językiem.
Bardzo szybko można bydować bazę wiedzy wykrozystująć szablony używane w [[http://en.wikipedia.org/wiki/Wikipedia:Infobox_templates|Infoboksach]]. Informacje zawarte w tej części są uporządkowane w formie tabeli klucz -> wartość i dotyczą okręślonego typu obiektu (np. miasto, polityk, roślina).
Wykorzystująć linki pomiędzy wersjami językowymi można uzyskać nazwy pojęć w wielu językach (te linki znajdują się w osobnej tabeli 'langlinks', więc nie trzeba analizować treści artykułów).
Przekierowania mogą być wykorzystane do budowy bazy równoznacznych nazw pojęć (także znajdują sie w osobnej tabeli 'redirects').
[[http://en.wikipedia.org/wiki/Wikipedia:Categorical_index|Kategorie]] porządkują pojęcia w zbiory dotyczące określonego tematu. Niestety panuję tu duża dowolność i wiele pojęć nie jest przypisanych do odpowiedniej kategorii. Kategorie są opisane w tabeli 'category'.
Kolejnym elementem są linki zewnętrzne, są opisane w osobnej tabeli 'externallinks'. Zazwyczaj trafnie powiązują strony internetowe z danym pojęciem, dodatkowo część posiada tytuł, który opisuje zewnętrzną stronę.
Wikipedii nie ma sensu analizować pobierając strony poszczególnych haseł, należy ściągnąć zrzuty bazy danych i załadować na lokalny serwer. Dane haseł (wraz z treścią) są dostępne w postaci pliku xml, pozostałe dane jako tabele MySQL. Problemem może być rozmiar danych, dla angielskiej wersji XML ma 21GB, a niektóre tabele SQL ponad 200 000 000 wierszy.
==== WikiProject Geographical coordinates ====
[[http://en.wikipedia.org/wiki/Wikipedia:WikiProject_Geographical_coordinates]]
Projekt przyporządkowywania współrzędnych geograficznych do artykułów wikipedii.
Dla wszystkich artykułów musi być wykorzystywany szablon [[http://en.wikipedia.org/wiki/Template:Coord|{{coord}}]].
Dzięki temu można przeparsować artykuły z wikipedii w celu wydobycia współrzednych, możliwe są 2 metody:
* przegląd treści wszystkich artykułów w poszukiwaniu tagu `coord` (pliki *wiki-latest-pages-articles.xml), nie powinno się stosować - nie wszystkie współrzędne są wprost określone za pomocą `coord`, dużo danych jest w infoboxach w innej postaci.
* lub lepsza metoda polegająca na przeglądzie tabeli `externallinks`, jest to możliwe ponieważ wszystkie współrzędne linkują w to samo miejsce 'http://stable.toolserver.org/geohack/geohack.php' (plik [[http://www.mediawiki.org/wiki/Externallinks_table|*wiki-latest-externallinks.sql]])
** [[http://de.wikipedia.org/wiki/Wikipedia:WikiProjekt_Georeferenzierung/Wikipedia-World/en|Wikipedia-World]] **
Isnieje (istniał) projekt na wiki tools, który parsuje artykuły w poszukiwaniu współrzędnych i tworzy gotowe do pobrania tabele SQL. Niestety ostatnia aktualizacja to 5 sierpnia 2008.
==== DBpedia ====
[[http://www.dbpedia.org/]]
DBpedia jest bazą wiedzy RDF (zawiera ponad 275 milionów trójek). Dane są tworzone na podstawie wikipedii (14 wersji językowych, także Polska). Opisuje ponad 2.5 miliona haseł (213,000 persons, 328,000 places, 57,000 music albums, 36,000 films, 20,000 companies).
** Dane **
DBpedia wykorzystuje kilka zbiorów RDF, lista wg przestrzeni nazw:
* "dbpedia:" - nazwy zasobów (hasła).
* "dbpprop:" - dane z infoboxów, są to zupełnie nie powiązane ze sobą trójki zawierające informacje przepisane wprost z infoboxów, wg. zasady klucz -> wartość (plik infobox_*.nt)
* "dbpedia-owl:" - przetworzone dane z infoboxów, wszystkie predykaty tworzą uporządkowaną ontologie OWL, aktualnie ilość danych jest znacznie mniejsza w stosunku do "dbpprop:" (plik infobox-mappingbased-loose.nt, types-mappingbased.nt)
* "foaf:" - [[http://xmlns.com/foaf/spec/]] (m.in. plik persondata_*.nt)
* "skos:" - [[http://www.w3.org/TR/2009/CR-skos-reference-20090317/skos.html]] - powiązania z kategorami wikipedii (skos:subject, plik articlecategories_*.nt, skoscategories_*.nt)
* "geo:" - [[http://www.w3.org/2003/01/geo/]], współrzędne geograficzne (plik: geo_*.nt)
* "georss:" - [[http://www.georss.org/georss/point]], współrzędne geograficzne (plik: geo_*.nt)
* "xsd:" - XML Shema
* "rdf:" - wykorzystywany rdf:type - powiązania zasobów z ontologią dbpedia-owl (plik: types-mappingbased.nt)
* "rdfs:" - wykorzystywane predykaty: rdfs:comment, rdfs:label
* "owl:" - wykorzystywane predykaty: owl:sameAs - linki do innych baz
Dla "rdf:", "rdfs:", "owl:" podałem tylko predykaty używane do opisu "haseł", opis ontologi wykorzystuje pełny RDFS / OWL-DL.
DBpedia linkuje do kilku innych baz wiedzy, szczegóły na [[http://wiki.dbpedia.org/Interlinking]]
** Ontologia **
* [[http://wiki.dbpedia.org/Ontology|strona na wiki.dbpedia.org]]
* Opis ontologi: [[http://downloads.dbpedia.org/3.2/en/dbpedia-ontology.owl]]
* Graf klas: [[http://www4.wiwiss.fu-berlin.de/dbpedia/dev/ontology.htm]]
* Ontologie można przeglądać za pomocą interfejsu HTML, np.: [[http://dbpedia.org/ontology/Place|klasa "Place"]], [[http://dbpedia.org/ontology/elevation|właściwość "elevation"]].
** Przykładowe hasło **
[[http://dbpedia.org/page/Berlin]]
** Dostęp do danych **
[[http://wiki.dbpedia.org/Architecture?v=1411]]
Dostępny jest interfejs SPARQL ([[http://dbpedia.org/sparql]]), SNORQL - interfejs do SPARQL w html ([[http://dbpedia.org/snorql/]]).
Zasoby mogą być prezentowane jako: [[http://dbpedia.org/page/Berlin|html]], [[http://dbpedia.org/data/Berlin.n3|n3]], [[http://dbpedia.org/data/Berlin.rdf|rdf/xml]].
Można także pobrać pełny dump bazy (format N3): [[http://wiki.dbpedia.org/Downloads32]].
** System parsujący dane z wikipedii **
Dokumentacja i link do kodu poprzez SVN: [[http://wiki.dbpedia.org/Documentation]], całość napisana w PHP, można pobrać pełny kod w tar.gz.
Kod jest bardzo czytelny i jego fragmenty mogą być podstawą do pisania własnego parsera wiki, np. wspomnianego wydobywania współrzędnych geo - w kodzie jest m.in. klasa "GeoExtractor".
==== Freebase ====
[[http://www.freebase.com/]]
[[http://www.freebase.com/view/freebase/faq]]
Freebase jest otwartą bazą wiedzy tworzoną przez użytkowników (ale część danych pochodzi także z innych zaimportowanych źródeł).
Freebase prezentuje trochę inne podejście niż pozostałe bazy wiedzy. Jest pełnym systemem prezentacji i edycji danych a dostęp Linked Data jest tylko kolejną możliwością przeglądania bazy, udostępnioną znacznie później niż inne interfejsy.
Baza zawiera bardzo uporządkowane dane w ściśle określonych kategoriach, dla każdego hasła są wybrane odpowiednie zestawy właściwości, pojedyncze właściwości mogą odpowiadać predykatom RDF (np. zestaw "Location" zawiera informacje o lokalizacji geograficznej).
** Przykładowe hasło **
[[http://www.freebase.com/view/en/berlin]]
** Dostęp do danych **
[[http://download.freebase.com/datadumps/|Download]] - pliki nie są w formacie RDF.
A full dump of Freebase assertions in a simple utf8 text format. This is a complete "low level" dump of data which is suitable for post processing into RDF or XML datasets. The format of the link export is a series of lines, one assertion per line. The lines are tab separated quadruples,