ひまつぶし雑記帖

doncha.net制作・発行:KindleやiBooks、楽天kobo、BOOK☆WALKERで読む電子書籍

東京都立図書館

2006/9/28 [00:07:59] (木) 天気

趣味は読書SNS に絡めて 東京都の図書館蔵書横断検索 というのが使えるかも、と画策してたのが前回までのあらすじ。えーっと伏線は追加記入分ね。

!/usr/local/bin/perl

use LWP::UserAgent;

my $ua  = LWP::UserAgent -> new;
my $url_root = 'https://metro.tokyo.opac.jp/';
my $url_post = $url_root . 'cgi-bin/j12crs2.cgi';
my $que = 'sitechk001049=on&isbn=439663059X&srchmode=2&';

my $req = HTTP::Request->new(POST => $url_post);
$req->content_type('application/x-www-form-urlencoded');
$req->content( $que );
my $res = $ua->request($req);

my $str = $res->as_string;
print $str;

↑これだけで、葛飾区の図書館を対象に、楢山芙二夫『非情の追跡』探してくる。ヒットしたら収蔵する図書館へのリンクと書誌詳細へのリンクが出てくる。ので、今度はそのリンクを開いてGETすれば詳しい情報も取れる。

問題は。とってきたHTMLを睨み倒して、必要なところを自動的に切り取るスクリプト。
わたしのトップページに、さりげなくかつわざとらしく、フジTVめざましテレビの星占いを貼り付けてあるけど、これも同じようなやり方(この頃はLWPなんて便利なモジュール知らなかったんで、socketだのbindだのガシガシと)やはり、番組改編なんかで、HTMLのデザインが変わるだけでアウトとなる。

東京都立図書館というパブリックサーバントがやってるんだから、納税者の利便を考えてXMLとかテキトーな統一規格(APIというんだっけか)にして欲しいなぁ。

臨時雇い派遣の身ながら、仕事がまだ回ってこないのでヒマ。いちんち中ぼーっとテレビみてボケていく定年後のオトウサン状態。
なもんで、ちっとうろついて見つけたのが
https://knezon.knecht.jp/
↑これ。クネゾンというんだけど、これがすごいのひとこと。
図書館のデータというのは全国の図書館でバラバラの形式。もう蓄積もされてるんで、いまさら全国統一形式にするのは無理っぽいらしい。
ところがこのクネゾン。そのバラバラの形式を個別に対応してプログラムを作り、検索サービスを提供しているのだ。こういうのを見せられると(そのポリシーも含めて)素直に脱帽。かっこええっすよ。

とりあえず。東京都に関しては都立図書館に頑張ってもらえれば、そこを橋頭堡に都内の図書館を検索してごにょごにょできそう、かなぁ。

 

»電子書籍制作代行についてはこちら

profile

profile

 
doncha.net
contact:
»運営者
@t2aki@tokoroten.doncha.net

ところてんx5

2024/4/25 00:49

だめだ。PDFをWordで開いたらレイアウトが微妙にくずれて行数が正しくない。かえって間違いのもとだ。

2024/4/24 13:43

pdfをWordで開いてみる手もあるか。空行、1ページの行数とか、pdfのまんまだったら行数表示で問題解決。だけど、実際どうだろ。帰ったら試す

2024/4/24 12:58

空行は目視しか確認方法がない…
windowsで半透明にするフリーソフトを見つけたので、各ページの幅で検知する。
全ページの行数を数えてたんじゃ絶対漏らす。そんな集中力はないわ

検索
<<2024/4>>
 123456
78910111213
14151617181920
21222324252627
282930

リンク

WINDOWS版サウンドノベル
おかえりください PC WINDOWS版サウンドノベル
『おかえりください』体験版