スクレイピングをブロックされるの巻

2019/3/19 [16:25:45] (火) 天気

ISBNをキーに本の情報(タイトル、著者、書影)を求めて三千里、だ。


あらすじその1

かれこれ15年以上、ずっと利用させてもらっていたAmazon(PA-API)の利用条件が変更となり、うちのように売上のほとんどないサイトだと利用するのが難しくなった。

状態を見ていると、使えたり使えなかったり、というかほとんど使えないんだけど、時々使えることがある、といった感じ。その条件がよくわからない。


あらすじその2

PA-APIがそんな状態なもんだから、Amazonの商品ページをスクレイピングしてのデータ取得に変更。すんなりデータが取れた、と思う間もなく(ほとんど7日以内)スクレイピングがAmazonにブロックされてしまった。

データが取れなくなったんで、取得するHTMLを眺めたら、自動アクセスしているようだけどAPIがあるからそちらを使いなさい、というコメントが入っていた。

そもそもアマゾンは規約でスクレイピングが禁止されてるので、やっちゃいかんのだ。


てことでamazonについては、ほぼ利用できなくなった。

(アフィリエイトタグ、リンクやアカウントには問題はない。データベースとしてAmazonが使えなくなったということ。念のため)


何度も書いてるように4月になったら国立国会図書館がAPIを公開するので乗り換えを検討。

ただ、どんなAPIなのかどんなデータが使えるのか、実際に公開されてから確認となる。

いま公開していて、ユーザーさんが利用してくれているサイトもあり、いままさにどうするのかということで、繋ぎでいいのでなんとかしなければならない。


AmazonのPA-APIが不定でたまにしか使えない(たまに使えるからかえって未練たらたらとなる)

Amazonに対するスクレイピングは規約も不可。


ということで、その場しのぎのでっちあげ、というわたしの得意技。

AmazonのAPIを使ってページを公開しているサイトをピックアップして、そちらをスクレイピングすることにした。

アマゾン本家ではなくAPIを利用しているコバンザメからデータを持ってくる便所バエ作戦だ。


本のデータを取得するためだけに、文字通り機械的にアクセスするわけだから、そのサイトにとっては何の利益にもならない、ただの無駄なアクセスとなる。amazonのようにインフラも強固巨大なサイトならともかく、規模的に小さなサイトだとちょっとした負荷も迷惑でしかない。

さすがに申し訳ない。

のべつ幕なしリクエストを投げるようなことを避けるために自鯖内で期間限定のキャッシュすることにした。


図式的には

・本の情報が欲しい時はまず自鯖のキャッシュを確認

・キャッシュされていればそれを利用

・キャッシュになければPA-APIを利用してデータ取得を試す

・PA-APIでデータ取得できればそれを利用。取得したデータをキャッシュ

・利用制限でデータ取得できなかったら他サイトをスクレイピング。

・スクレイピングでデータ取得できればそれを利用。取得したデータをキャッシュ

てことにした。


キャッシュするのは、ISBN・タイトル・著者の基本3点セット。さらにデータがあれば書影のURL。

本のタイトルや著者をキャッシュすることは問題ないはずだけど、書影(画像)についてはたぶん権利関係がらみで面倒くさいことがあるだろう。

画像をダウンロードして利用するなどもちろんアウト…というかただの犯罪行為。

公開されている書影のURLについては問題ないと思うけど、書影を公開しているサイトと書影(画像)の権利者とでどのような約束があるのか不明で、おそらくずっと同じURLで公開しない。もしかしたらアクセスのたびにURLが変わることも考えられる。なので自鯖でのキャッシュを期間限定とした。



今回のことでちょっと調べてみたら、スクレイピング行為がなにやらマーケティングだのなんだので使われていて、スクレイピングについてのスキルを持っているといろいろ重宝されて優位に立ち回れるとのこと。


いやいや、ちょっと待てよ、だ。

公開されているものとはいえ、他人の著作物から、自分の都合の良いデータだけ切り取ってもってくるのがスクレイピング。そしてそのデータは権利者の意図とは違う使い方をされるのがほとんどだろう。カタカナ言葉でなんかごまかそうとしているけど、単なるタダ乗り行為。


なんちゃら猛々しいんじゃねえのかとか、便所バエの自覚はないのかと昭和老害は思うわけですな。

image

て、オライリーからこんな本まで出てるんだなぁ。ううううむ。ほんまかいな。

PythonによるWebスクレイピング 第2版

『PythonによるWebスクレイピング 第2版』

Ryan Mitchell

電子図書館サービス

2015/3/19 [18:51:02] (木) 天気

いや、わたしの観測範囲だけど。

電子書籍を図書館に導入という話題がぼろぼろ流れてきている。


ひらたくいうと、図書館で電子書籍もかりられるようにしよう、ということ。

出版社、権利者にしてみれば、街の本屋だろうが図書館だろうが似たような蛇口のひとつだろう。粛々と図書館に向けての権利処理や利用方法・範囲のガイドラインなんかを詰めていけばいいだけのことだと思う。

(図書館に本の売上が食われて困るとかいう話もあったけど、図書館や学校が買い支えになって存続できる本もあるはずだから…なんとも)


以下のふたつのレポートとニュースがわかりやすい。


『KADOKAWA、講談社、紀伊國屋書店が設立した日本電子図書館サービスのビジネスモデル ── JEPAセミナーレポート』

http://www.wildhawkfield.com/2015/03/JEPA-seminar-JDLS-LibrariE.html

『楽天、米Overdriveの買収発表――電子図書館事業にも参入』

http://ebook.itmedia.co.jp/ebook/articles/1503/19/news123.html


(あれ? そういやこの楽天が買収したOverdriveってメディアドゥが業務提携したとかの話はどうなったんだっけ http://www.mediado.jp/corporate/1040/



そこでちょっと野次馬根性だったりするんだけど、やっぱここなのかなあと、過去雑記の焼き直し。


鷹野凌(@ryou_takano )さんのJEPAセミナーレポート

音声読み上げは?
TTS(合成音声)。読み上げ速度を可変できるようにしている。人が読み上げたオーディオブックも取り扱っていきたい。読み上げできない本もある(著作権者の許諾が必要)。


2014/11/11のレポート

『障害者差別解消法と公共図書館――電子図書館サービスへの期待とは』

http://ebook.itmedia.co.jp/ebook/articles/1411/11/news085.html

障害者差別解消法が施行されると、すべての公共図書館は障害のある人たちに対して合理的配慮が義務付けられる。点字図書や対面朗読といった従来の方法では、人員の面からも利用者の要求に応えることは難しくなるだろう。そこで注目されているものの1つが電子図書館サービスだ。


※内閣府「障害を理由とする差別の解消の推進」

http://www8.cao.go.jp/shougai/suishin/sabekai.html


法律の施行が平成28年4月1日てことは予算がつくのは今年の夏ぐらいか。

・法律で義務づけられる(罰則が入ると実効性が現実味を帯びるなあ)

・予算がつく(金が動くと普及に拍車がかかるよなあ)


電子書籍が対象の法律、というわけではないにしても、こんな具合に「図書館」+「電子書籍」の話題で盛りあがるのは電子書籍に追い風なことも確かだろう。

実際、電子書籍は「フォントの大きさが変えられる/画面のコントラストを変えらえる/音声を付けられる」とアクセシビリティということでいえば、この法律の要件を満たしているかも。


とはいえ、図書館に関しては。


「近畿視情協主催「どうなる! 電子書籍のアクセシビリティ ~ だれにも使える「本」の実現をめざして」#近畿視情協」

http://togetter.com/li/785303

という、まとめ記事の中に


しかし、公共図書館で電子書籍の話をするとデジタルバイドではないか、高齢者は紙の書籍を好むと言われて、意外と否定的な意見が多い。#近畿視情協201519

という意見もあって、たぶんこれが現場の現実感だと思うんで、なかなか簡単ではないような気もするし。



てことで、たまたま昨日、地元図書館で次の写経本を借りてきたのでありました。

全集や叢書の品揃え(?)は、図書館が強いなあ。

image

[更新]2026-02-01 09:36:18

3台目

2008/3/19 [02:27:53] (水) 天気

こないだヤフオクで落札したLibretto50は、ISAバス周りがおかしくて、バッテリーでは動かないのがどうしてもひっかかった。いや、入札時にわかってたことなんだけどね。

で、さらにヤフオクを粘着してみてたら、3千円ジャンク扱い、というLibretto50(基盤は60らしい)が出ていたのでついつい落札。

こいつも内蔵の時計用電池がダメ、というのがわかっていたシロモノ。だけど、うちにある2台の時計用電池を移植すればいいや、と気楽に考えてた。今日届いたブツを開いてみると、基盤が60のもの、というだけじゃなくクロックアップの改造までしてある。こりゃスゲーと思いつつ、さっさと内蔵電池だ、とバラしてみたら、内蔵電池の部分のコネクタがなく、直付けにされていた。吃驚。がっかり。2本出ているコードを途中で切ってつなげればできないこともないだろうけど、まあいいか。

クロックアップの発熱対策だろうか、CPUの上にあたるところに10円玉がはりつけてあったなぁ。発熱の心配をしなきゃいけないっぽい。

しかし、久しぶりにWINDOWS95の画面を見て、新鮮だった。消してしまうのもナニだし(もともと正当なWINDOWS95を持ってたことだし)HDDは保管。FreeBSD-4.11のHDDを突っ込んで稼動。一晩つけっぱなしで様子見してみよう。


なんでだかこのLibretto50の佇まいというかなんというか、好きなんだよなぁ。


また咳がひどくなってきた。花粉症じゃないことを祈る。週末歯医者だし、それまでに咳がおさまってくれないとキツイなぁ。


[更新]2013-02-19 17:37:34

ゆっくりいちんち

2006/3/19 [19:18:18] (日) 天気

以前に左下の歯を抜いたときと同じく、今回も当然ながら歯を抜いたら痛みはなくなったな。とはいえ、モノが噛めないので噛み合わせが変。クチの中を噛んでしまう。まいったなぁ。

相方が妙な、というか「ド」マイナーなスポーツ観戦に誘われて出かけたので、今日はいちんち部屋で指輪物語を流しっぱなしでごろごろ寝たきりだ。大学時代のサークル仲間が同好会でゴールキーパーやってて、ほんとうにおっかないんだから、と言ってたのを思い出すが、どうもぴんとこないスポーツでありますです。

ついでに、というか。日記帳スクリプトの作成。データベースに投げるのでらくちん。…なんだけど、やっぱり見た目を気にしだすと、めんどうくさい。スタイルシートにしてもFireFoxとIEで対応が微妙に違う。うううむ。とりあえず書き散らして、まとめられそうなルーチンはパッケージに放り込み、まとめられそうな表示指定は外部CSSに投げる、かな。


そいや、ファファード&グレイマウザーをまだ買っていないというのに、今度はハヤカワからエルリックが復刻。どばっとまとめ買いして、休みをいちんちつぶしてお茶飲みながらゆっくり読みたいなぁ。どっちもヒロイックファンタジーの傑作。でも、最近は文庫の値段も高いのでまとめ買いするにはブックオフさまの出番待ち…か。


メルニボネの皇子

『メルニボネの皇子』

マイクル ムアコック

[更新]2012-06-21 22:32:20

週末は人並に

2005/3/19 [11:47:28] (土) 天気

昨日は。朝から歯医者で水道橋。型を取ったんで、ようやく次でかぶせものをして終了らしい。といっても、虫歯じゃなく、歯周病なので、かぶせものをしたところで歯のぐらつきが治まるわけでもない。とりあえず多少補強される、程度だろう。

その後相方と合流して吉祥寺をぶらつく。昼飯にカンデラおばさんのペペロンチーノは美味。ぼーっと街歩きして清龍だ。4時半という時間なのでもしかして一番乗り、と思ったらもう楽しげな話し声。おじいちゃんおばあちゃんとかおっさんおばはんとか。相変わらず平均年齢の高い飲み屋だ。

…で、風邪気味もあって大徳利2本に2合飲んだらふらふらと。さらに場所をまたきやという飲み屋に移して轟沈。

いや日本酒はおいしゅうございます。って、無職のくせにこんなことでええんか、と思ってみたり。もっとも、週末は職安も休みだし動きようもない。猫をいじってまったりさせてもらおうか。


来週もまた職安通いだ。

[22:54:53]

って、月曜も祝日だなんてつい今まで知らなかった!うううううう。しょうがねえな。相方んちに居座って、少しずつ猫どもとの距離をつめていくか。アルファ波にたゆたうためにじっくりと、やな。

<<2026/03>>
       
1234567
891011121314
15161718192021
22232425262728
293031

【最近の10件】

日常読書映画アニメゲーム健康料理グルメカメラ写真ネタ仕事パソコンインターネットperlEPUB3電子書籍ActivityPub
検索: