Rafał Gibas coolgibas@gmail.com
Dokuwiki plugin for presenting paper statistics for given persons from number of existing sources, including the BPP the DBLP the CiteSeerX.
Explicitly describe the APIs of the above sites!
In the wiki one writes e.g.:
^Osoba^BPP:2008^BPP:2008:LNCS^BPP:2008:IF^DBPL:2008^ <papers> Nalepa Grzegorz|http://home.agh.edu.pl/gjn, BPP:2008, BPP:2008:LNCS, BPP:2008:IF, DBPL:2008 </papers>
and gets
Osoba | BPP:2008 | BPP:2008:LNCS | BPP:2008:IF | DBPL:2008 |
---|---|---|---|---|
Nalepa Grzegorz | 14 | 2 | 0 | 11 |
Zmiany: Dodałem funkcjonalność pozwalającą podać adresy URL, na podstawie których będą generowane pozostałe.
Składnia:
dblpurl:http://dblp.uni-trier.de/db/indices/a-tree/o/Ogiela:Marek_R=.html;; bppurl:http://www.bpp.agh.edu.pl/bpp-show.phtml?s=b1&aut=1088;;
Dzięki temu mamy pewność znalezienia autora w bazie, oszczędzając jednocześnie na zapisie:
BPP:2008;; DBLP:2005;;
Zamiast
BPP:2008;http://www.bpp.agh.edu.pl/bpp-show.phtml?s=b1&aut=1088&R=2008;; DBLP:2005;http://dblp.uni-trier.de/db/indices/a-tree/o/Ogiela:Marek_R=.html;;
Zmiany:
safe_mode
i open_basedir
na serwerze php)Mam nadzieję, że teraz to zadziała :)
Dodano:
title:Publikacje Pana Bolesława Brzęczysława;;
)EXTRASPAN
dla wykresów, w których napisy pod osią nakładają sięDodano:
DBLP:2007-2008;;
)headers:Nazwisko;2006;2007-2008
)
Tymczasowo rozwiązałem to resetowanym limitem czasowym (set_time_limit
) przy wywoływaniu każdego zapytania curl
.
headers:Autor;2007;2008;2009;;
^nagłówek1^..^
wypisze osobną tablicę z nagłówkami).<papers> author:Kowalski;http://www.kowalski.com/;; headers:Autor;2006;2007;2008;Ogółem;; title:Publikacje Jana Kowalskiego;; options:TABLE;TEXT;CHART;CODE;HIDEAUTHOR;NOHEADERS;SHOWINFO;EXTRASPAN;; // Zbiór możliwych opcji // : + + + + + + + + // "-" = NZJ // ogółem: // BIBLIOGRAFIA:OPCJE;http://www.strona;ROK;; // : ; ; ;; <- separatory // po określeniu rodzaju, kolejność opcji nie gra roli; liczy się natomiast typ wartości (rok (liczba), adres strony (od "http://"), opcje (pozostałe, oddzielane przez ":")) DBLP:2006;http://dblp.blebleble...;; DBLP:2008;; // DBLP:2006;EXTRA;; // Porzucone: Advanced Search używa JavaScript do przekierowania na stronę z wynikami. Zwyczajne wyszukiwanie działa wystarczająco dobrze. BPP:2006;; BPP:IF;2005;; BPP:LF;2005;; BPP:MNiSW;http://bpp.blebleble...;; BPP:LNCS;2003;; author:Chuck Norris;; // Kolejny autor DBLP:http://www.dblp.bleble.chuck;; // Kolejne publikacje // CiteSeerX:2002;; // NZJ </papers>
BPP:LF;;
← twórcy bpp naprawdę nie widzą różnicy między LF a IFBPP:LNCS;;
(tylko wystąpienia 'LNCS')
Widać jeszcze drobne problemy, kiedy nie podamy stricte URL - nic nie stoi jednak na przeszkodzie, żeby podać URL w edytorze strony.
Pracuję nad umieszczeniem tego w Wiki
Prototyp jest, sprawdza publikacje, IF, MNiSW
OK, zliczam wystąpienia.
Udało mi się przygotować skrypt php pozyskujący dane z DBLP. Dane o ilości publikacji pozyskiwane są poprzez zliczenie wierszy w tabeli pod danym rokiem (wersja standardowa wyszukiwania).
Trudnościami, jakie napotkałem, były:
<img>
, </ul>
bez rozpoczęcia)XPath
- konieczność zaimplementowania przeszukiwania danych XML.file_get_content()
na serwerze student - konieczność działania na localhoście (na przykład).
Przydatne, choć dla DBLP można prościej z file_get_contents($url)
(mniej opcji i przekierowania domyślne).
Wpisując na stronie http://dblp.mpi-inf.mpg.de/dblp-mirror/index.php w pole formularza w nazwisko i datę „Nalepa 2008” otrzymujemy zapytanie http://dblp.mpi-inf.mpg.de/dblp-mirror/index.php#query=Nalepa%202008&qp=H1.11:F1.4:F2.4:F3.1. Odpowiedzią są publikacje w roku 2008.
Ilość publikacji zawarta jest w: span id=„autocomplete_H_boxes_1_subtitle”
zawierającym tekst: „zoomed in on 11 documents”
lub: „No hints” przy braku dopasowania.
Gotowy do współpracy.
biblioteka_agh_-_wyprawa_po_informacje
Informacje o publikacjach z BPP pozyskać można za pomocą formularza. Dla potrzeb projektu można wygenerować żądanie http odpowiadające metodzie GET wołanej z formularza.
Metoda: GET
Akcja: /bpp-show.phtml?s=c
Na: http://www.bpp.agh.edu.pl
Pole | name | możliwe wartości |
---|---|---|
Nazwisko autora | fsA | tekst |
Tytuł | fsT | tekst |
Źródło | fsZ | tekst |
Zakres lat od | odR | rok (0 wszystkie) |
Zakres lat do | doR | rok (0 wszystkie) |
Jednostka | fsW | nr wydziału/jedn. (0 wszystkie) |
Typ publikacji | fsRP | nr (-1 wszystkie rodzaje) |
LF | fsImFa | checkbox |
ukryty | s | „c” |
ukryty | stf | 1 |
Widać tutaj pewne niedociągnięcia w konwencji indeksowania - „-1”.
Publikacje wyświetlone w wyniku zapytania pojawiają się na liście o identyfikatorze ol-opis
. Aby pozyskać ich liczbę sugerowałbym użyć XPATH.
=== Autorzy systemu BPP ===
Jacek Kmiecik jk@uci.agh.edu.pl, Marek Wójtowicz wumarex@uci.agh.edu.pl — Uczelniane Centrum Informatyki, tel. (617-)34-77.
Metoda: GET
Akcja: http://citeseer.ist.psu.edu/cs
ENCTYPE: application/x-www-form-urlencoded|mainform
Pole | name | Wartość/typ |
---|---|---|
hidden | cs | 1 |
Find | q | text |
submit | submit | Documents |
submit | submit | Citations |
hidden | co | Citations |
hidden | cm | 50 ← max citations? |
hidden | cf | Any |
hidden | ao | Citations |
hidden | am | 20 |
hidden | af | Any |
Aby wyjaśnić wątpliwości dotyczące kwestii dostępności na liście filadelfijskiej wyłącznie publikacji posiadających impact factor
, udałem się do Oddziału Informacji Naukowej Biblioteki Głównej AGH. Tam uzyskałem odpowiedź:
impact factor
.Dodatkowo poinformowawszy, że mam zamiar pozyskiwać pewne informacje z BPP w ramach projektu z MIW, usłyszałem:
Wobec tego mam pytanie, czy musimy informować odpowiednie jednostki, skoro informacje pobrane z BPP są tylko wyświetlane w bardzo ograniczonej formie i nie są przechowywane w AiWiki.
Kolejnym pytaniem jest, czy AiWiki jest widoczne wyłącznie z sieci AGH. Jeśli tylko wewnątrz sieci, to wystarczy nam tylko uspokoić Panie z Biblioteki, że informacje nigdzie nie wypływają.
Zauważyłem na stronie BPP co nieco błędów, które mogą przeszkadzać trochę w pozyskiwaniu informacji:
Współczynnik Impact Factor (IF) jest podstawowym kryterium oceny i porównania czasopism pod względem ich wartości naukowej.
IF to wskaźnik wpływu czasopisma na środowisko naukowe, świadczący o tym, jak często cytowania artykułów opublikowanych w tym czasopismie pojawiają się w pracach naukowych na całym świecie. Impact Factor dla czasopisma jest obliczany przez podzielenie liczby cytowań artykułów z danego czasopisma przez liczbę artykułów opublikowanych przez to czasopismo w tym samym okresie 2 lat.
Termin lista filadelfijska oznacza wykaz czasopism i serii naukowych indeksowanych w bibliograficznych bazach danych, tworzonych przez ISI w Filadelfii (aktualnie ISI opracowuje i udostępnia kilkanaście baz danych). Wykaz ten nazwał skrótowo listą filadelfijską Andrzej Kajetan Wróblewski i nazwa ta przyjęła się w Polsce na dobre. Właściwa jednak i pełna nazwa listy to Thomson Scientific Master Journal List. (Thomson przejął ISI w 2004 roku.) Lista dostępna jest w wersji elektronicznej na stronie domowej tego instytutu pod adresem: http://www.isinet.com/cgi-bin/jrnlst/jloptions.cgi?PC=master