ブログのアクセス制限

2025/9/25 [09:08:41] (木) 天気

去年あたりから、たぶんAIがらみでのコンテンツ収集と思うんだけど、クローラーやBOT=人間以外のアクセスが増えている。

当ブログのエントリを秒刻みで地引き網してるんで、さすがにそれどうなの?ということで今月からアクセス制限することにした。


今日時点でブログのエントリ数は3000ちょっとで、さらに個別、年月日別、カテゴリ別等々、リンク数はエントリ数の何倍かは多い。同じエントリなのに、リンクが違うといちいちアクセスすることになる。

この程度のボリュームで負荷どうこうはないはずだけど、レンタルサーバーに間借りしてる立場だし、ちょっと意識したほうがいいよなあ、と。


てことで。

アクセスのremote addrからhostnameを引いて、ドメインが取得できないもの、ccTLD(国別のドメイン)で日本語話者ではなさそうな国のドメインなど、かなりがっつり制限をかけた。


それらのアクセスはすべてホームページ「On Golden Pond」へ、301リダイレクト。


ホームページの方は、各ページが全部ペラ一枚の静的ページだし、アクセスが集中したところで表示速度に影響が出るようなこともないだろうし。


AIにコンテンツを収集されることに対して、特に問題とは思ってなくて、むしろ、ウチのイイ加減なデタラメをどっさり食べて、元気に育っておくれ、なんだけど!


アクセス頻度というかアクセスのやりかたを考えていただけませんかねえ。


image

青空文庫のルビや傍点をHTMLタグに変換

2015/9/25 [16:46:57] (金) 天気

小ネタ。

青空文庫形式で書かれたテキストをちょっといじる機会があったんで、例によってperlでごそごそと。


『青空文庫 組版案内』(http://kumihan.aozora.gr.jp)に詳細な資料や、青空記法で書かれたテキストをXHTMLに変換するrubyのスクリプトも提供されている。


青空文庫からXHTMLへはrubyのスクリプトを使わせてもらえばそれで解決なんだけど、用途・前提が青空文庫。当然ながら青空文庫用のcssが埋めこまれる。


電子書籍にするのにそのままでは使えない。

本文で青空記法が使われてるのはルビと傍点、太字程度だったので、その3つをHTMLのタグに変換するスクリプトをでっち上げ。



use strict;
use utf8;
use Encode;

my $emphasis = sub {
    my ($w, $t, $tag) = @_;
    $w = substr($w, 0, length($w) - length($t));
    if($tag eq ’sesami’){
        return $w . ’<span class="sesami">’ . $t . ’</span>’;
    }
    elsif($tag eq ’bold’){
        return $w . ’<span style="font-weight:bold">’ . $t . ’</span>’;
    }
};
while(<>){
    my $line = Encode::decode(’shiftjis’, $_);
    $line =~ s!([^[]+)[#「([^」]+)」に傍点]!$emphasis->($1, $2, ’sesami’)!eg;
    $line =~ s![#傍点]([^[]+)[#傍点終わり]!<span class="sesami">$1</span>!g;

    $line =~ s!([^[]+)[#「([^」]+)」は太字]!$emphasis->($1, $2, ’bold’)!eg;
    $line =~ s![#太字]([^[]+)[#太字終わり]!<span style="font-weight:bold;">$1</span>!g;

    $line =~ s![ \||]?([\p{InCJKUnifiedIdeographs}\x{3005}]+[\p{InHiragana}\p{InKatakana}]*)《([\p{InHiragana}\p{InKatakana}]+)》!<ruby>$1<rt>$2</rt></ruby>!g;
    $line =~ s!―!─!g;
    $line =~ s![(#|*)[^]]+]!!g;
    print Encode::encode(’utf8’, $line);
}

perlのスクリプト的には、漢字かななどの判定にUnicodeブロックが便利でおすすめ。

無名サブルーチンも便利。



意外なところで青空記法が使われててちょっとびっくりだった。

テキストデータ利用ということで、ボランティアさんが入力するのに青空記法はわかりやすくていいんだろうなあ。



青空EPUBの現バージョン3-1.1.0b45はepubcheckでエラーになる。

原因はnav.xhtmlのlandmark部、「Undefined property:title-page」で、ここを「titlepage」にすれば大丈夫。


image

自転車置き場の新顔…のわりに態度がデカイ。

さぶいぞ

2005/9/25 [20:13:37] (日) 天気

まったり日曜、なんだけど。朝から交通安全週間のテントの中で団地の婆さまたちと2時間みっちり世間話だ。B29に追いかけられた話とか、隅田川が死体で埋まった話とか、最近のねえちゃんたちは観音様丸出しだとか、駅前のシュークリームは一回食ったら十分だとか、スーパーがあぶないとか。濃ゆい話でゲップが出そうだった。しかし、爆撃機のB29の機関銃で狙われた、というのはすげー話で驚いた。


その後部屋に戻って明日に向かって撃ての画像をちょっといじってフラッシュにしてみる…ってGIFアニメで十分だったかなあ。

そいつを扉にして新たにページを作ってみる予定。トップページからCGIにするか、いっちょ奮起してPHPで書けるか試してみるか。どっちにしてもbiglobeじゃindex.cgiとかindex.phpは無理だったと思うんで、別サーバーでやってみるかな。


朝からの冷たい風が台風が通過しても変わらず。このまま一気に涼しくなってくれるとありがたい、ような、急すぎて困るような。


[20:47:46]

久しぶりのUO。giant beetle 捕獲にアリの巣ダンジョン。ナイトメアで行ったら6匹ぐらい殺してしまったので、キリンに切り替えてようやくゲット。

って、いまさらなにをやってんだか、と思いつつ地味な作業的ゲームというのも染み入るもんです。

ブリ一銀前をうろついたら、隔世の感。いや、みんな見たこともない格好をしてたり武器防具を持ってたり。うううむ。

忙しくなった

2003/9/25 [18:19:26] (木) 天気

さすがに仕事が溜まってきた。あははは。コミックス一冊分のチェック&校正をして、雑誌の原稿を片付けていく。

朝っぱらからの会議は例によって例のごとく危機的状況の報告会。その後、原稿の合間をみて昼飯は櫓のチキンカレー。いや美味い。ちゃちゃっと食ってちゃちゃっと戻って仕事。余裕のない一日だ。まだ机の前には校正しなきゃいけない原稿が山になって出てる。余裕のない上、ロングランな一日になりそう。


毎年、この時期になるとリフレッシュする上総センセが来社。その温泉地名産のプルーンを持ってきてくれたのだ。これがまた美味い。


うーん、体調は変わらず。ノドが痛いまま体がぼわっとしてる。まいったなぁ。


とまあ、なんかとっちらかってとりとめもないので、仕事に戻るか。やれやれ。

メモリ大尽じゃっ

2002/9/25 [18:53:09] (水) 天気

先週末に第一報が飛び込んできた、業界をかけめぐる噂話がどうやら現実になりそうだ。某社の某コミックスの発禁は避けられそうもない。さらに、ほんらいなら叱られて終わりの立場の人間まで「持っていかれる」ことになるかも、と。どういう対応したんだろう。。。


ただでさえ「成年マークつき」本を扱う(って、漫画だけじゃないよ)書店が減ってるというのに、とりあえず大丈夫だろうと思われていた漫画でこの騒動だと、ますます減る=部数確保ができなくなる。「成年マークつき」コミックスにとっては宮崎事件以来の打撃になるだろう。写真誌と同じように「消し」が入るようになると売上も激減するだろうし。


今年になってようやく参入できた「一般向けマークなし」コミックス以外にも、なんか手を打っておかないとヤバイなぁ。


ようやく外付けHDDのフォーマットも終わり、従来どおりの環境になったのが今日。でも、いざ稼動しはじめると、搭載メモリ512Mの威力はすげーぞ。作業してる最中、HDDにスワップすることなどほとんどないので、快適軽快!漫画家サンたちが最低512Mとか言ってるのを「贅沢なこと言ってんなぁ」と思ってたけど、いや、ほんとに「最低」512Mは必要だわ。

[更新]2026-01-31 19:12:42

<<2026/09>>
  12345
6789101112
13141516171819
20212223242526
27282930

【最近の10件】

日常読書映画アニメゲーム健康料理グルメカメラ写真ネタ仕事パソコンインターネットperlEPUB3電子書籍ActivityPub還暦生活
検索: