NARUTOにハマったり
ううううむ。初老ももう目前だというのにジャンプが面白い。「NARUTO」が面白い。今日は地元の古本屋で19巻までげっと(一冊150〜250円也)
やっぱり友情と勇気ですよ。
でもってNARUTOは、駄作なし3大ジャンル「潜水艦モノ・忍者モノ・スポ根モノ」のうちのひとつ、忍者モノ。面白くないわけはない。
ワンピースとかアイシールド21とか、まだまだジャンプは宝庫だ。
» ローカル環境で電子書籍を作る、Macアプリ・Windows版ツール 「かんたんEPUB3作成easy_epub」
五十音順ソート
五十音順でソートしたいと。いや 趣味は読書SNS で、せめて著者ぐらいは五十音順で並べたい、とずっと思いつつ、だった。JIS順てなにそれ機械の都合、なんだよなあ。
とはいえ、perlにしろpostgresqlにしろ、ひらがなカタカナアルファベットの「よみ」をつけないと五十音順は無理。
基本的にメンテフリーのつもりなので、わたしが登録される本を一冊ずつ見て「よみ」をつけて回るのは無理だし不可能。
基本的に入力項目は極力少なくしたいので、入力してくれるユーザー側に「よみ」の入力を促すのは却下。
とにかく「気楽さが最優先のSNS」だ。
で、せっかくサーバーのスペックも多少上がったことだし、kakasiを使うことにした。
kakasi -JH -KH
なんだけど、utf8に対応してないっぽい。…もしや、と思って検索したらCPANにText::Kakasiモジュールがあったので、インストール。ありがたいことにperlのEncodeを使ってutf8で使える。
さっそく「よみ」のテーブルを作ってごにょごにょ。そのままでも変換はかなり優秀だ。とはいえ「よみ」の修正もできるように管理画面にもあれこれ。
今までのメモリ512Mだとすぐにスワップ…ていうか常になにかしらスワップしてる状態だったけど、今度のメモリ2Gはスワップする気配すらない。無理してメモリ積んだだけのことはあったなあ。しみじみ。
» ローカル環境で電子書籍を作る、Macアプリ・Windows版ツール 「かんたんEPUB3作成easy_epub」
サーバーログ監視と自分メモその3
どうやら無事に稼働してるっぽい自宅サーバー、牛丼大盛りつゆだく号だ。とりあえずそこそこ快適なレスポンス。メモリをおごっただけのことはある、のかな。
で、稼働したばかりだしここ数日はapacheのログファイルの監視・チェックをこまめにやっていて、妙なアクセスとか豪快なクロウラーに気づく。
apacheのアクセスログ。
XXX.XX.XX:25なんてのがあった。なんでhttpで25番portなんだ?ぶっちゃけこれは謎。maillogやmessagesを覗いても同時刻にメールが動いた気配はない。whoisをみるとこのドメインはカリフォルニアのIPアドレス。アクセスしてきたのは台湾のIP。うううむ。なんだろ。
Baiduspiderという中国版google百度というサイトのクロウラーが豪快というか。そんなしょっちゅうこられても、そんな頻繁に更新してないし。おまけに、地引き網を始めると1秒ほでの間隔で片っ端からもっていく。わたしのサイトはほとんどがCGI。いちいち全部もっていくとかなりのページ数になるし、そもそもサーバーに負荷がかかる。今まで放置してたけど、今回はwhoisで調べて百度が使ってると思われるIPアドレスはすべて却下にした。中国のひとが金町のもつ焼き屋情報を欲しがってるとは思えないしなあ。
掲示板への広告スパムが相変わらず激しい。該当の掲示板は削除してあるのにかなりの頻度でやってくる。で、問題なのが、削除した掲示板はデータベースがらみでmod_perl2のスクリプト。こいつにアクセスされると、そんなファイルはありませんよ、と返事するのはmod_perl2なのだ。これはメモリの無駄遣いでしかない。ので、apacheのmod_rewriteで応答してもらうようにした。
wide charですよ、というutf8がらみの警告もなかなか取れていない。原因はわかっていて、SNSの方はutf8にしたけどこっちはまだeucとutf8が混じった状態なのだ。全部utf8にしたほうがいいんだけど、仕事が始まって、帰って食って寝るだけの平日、時間がほとんど取れないんだよねえ。今日もzaurusで電車内ネット…しょぼいよなあ。
てな感じで、アクセス制限をちまちま追加。
ネットワークやサーバー管理に関する知識を少しはまともに仕入れておかないとなあ。入り口のルーターで一部のportしか通さないはずだけど、意味不明のログが残ってると、不気味だぞ、としか対応できないのはいかがなものか。
でも、サーバーもperlもおもしれーっすよ
[2007/01/12 23:27:41]
なんで25番なのか、気持ち悪いのでapacheのログをもう一度チェック。リクエストがPOSTでもGETでもなくCONNECT。なんじゃそりゃと検索したらproxyとのトンネリングをどうのこうの、と。
…えっと、こいつは踏み台探しだ。カリフォルニアに用事でもあるのか。妙なアクセスがあるなあと思ったらほとんどが台湾のHINETなんだよなあ。
CONNECTを却下するとどんな影響があるのかわかってないので、今回もIPで弾くことにする。httpd.confのDenyばかりがやたら増えていくのは困ったものだ。
» ローカル環境で電子書籍を作る、Macアプリ・Windows版ツール 「かんたんEPUB3作成easy_epub」
utf8移行と自分メモその2
で、 趣味は読書SNS は、utf8環境となった、のかな。今まで全部eucだったんで、実際どんなところに影響するのかまだ把握できてない。jisにsjisにeucにutf8に、と。4つも違う文字コードがあるのっておかしいんじゃね。と語尾をちょっと上げてみる。utfに収斂されていく勢い、と思ってもどこかのベンダーが妙な拡張してまた違うコードが出てきたりして。
てのはともかく。
今さらだけど perl5.8は。
出入りするデータはただのバイト列として扱う。utf8を扱うにはutf8フラグを立ててperlにこれはutf8として扱ってね、と教える必要がある。encoding とか use utf8 なんかがフラグ立てに使われるらしい。
今後推奨されるのはスクリプトをunicodeで書いて use utf8 する書き方だそうだ。そうするとスクリプト内の文字列には utf8フラグがつくのでなにかと便利、なのかな。
わたしが混乱したところ。
文字コードとしてのutf8とperlのutf8フラグは「また別」。
postgresqlから取り出したばかりのutf8の文字「根性」とスクリプト内のutf8フラグの立ったutf8文字列「根性」をそのまま比較しても意図した通りにはならない
取れたての「根性」 != スクリプト内の「根性」
となる。取れたての「根性」にはutf8フラグが足りないのだ。
Encode::decode('utf8',「根性」)などと「根性」にutf8フラグをつけてやれば
「根性」==「根性」
となる。それじゃせっかくだしprintしてみるか、と「根性」を出すと wide char うんぬんと脅される。utf8フラグのついた文字列を表に出すとケチをつけられるのだ。
Encode::encode('utf8',「根性」)とやって今度はutf8フラグを落としてやると警告は出なくなる。
勘違いしてたんだけど、utf8フラグというのはperlの内部のフラグ。
これをくっつけて出力するわけではない。
リダイレクトすれば普通に「文字コード」utf8で書き込まれるだけ。データベースへのinsertも同じこと。
Encodeのdecodeとencodeてのは。
「jis、sjis、euc、utf8」で書かれた文字列にutf8フラグをつけるのがdecode(その文字列がどのコードで書かれているのか教えてutf8フラグをつける)
utf8フラグがついてしまえば自由自在でごにょごにょ。その後表に出すような時にエクセルで読むからシフトJISでお願いと言われたらencodeで「jis、sjis、、euc、utf8」に変換する。この時utf8フラグも落とすので上のwide char うんぬんの警告は出ない。
decodeでutf8フラグをつけて、内部処理が終わったらencodeでutf8フラグを落としましょう、ということかな。
unicodeで書かれたスクリプトにutf8フラグをつけると変数名に「日本語」が使えたりする。
use utf8
my $気合=10:
while($気合--){
print Encode::encode('utf8','喝');
}
喝喝喝喝喝喝喝喝喝喝
となる。スクリプトがわかりやすいぞ。
my $除夜の鐘=108;
my $鐘の音='ゴーン';
my $おやじギャグ='カルロス';
というのを見るだけでなにをしようとしてるのか分かるでしょ。
て、ネタを続けるのはうるさい、な。
postgresqlからselectなりで読み込んだらdecodeする必要がある(全部が全部というわけじゃないけど)。スクリプトのあちこちに散らばるselectを探していちいちdecodeなんちゃらと書き込むのは勘弁してほしい。ので検索してみると、decode encode のための wrapperを自前で作るひともいたけど、perl DBI DBD-Pgと postgreql だと connectしたら
dbh->{pg_enable_utf8}=1
で text と varchar のフィールドから取り出すものに関してutf8フラグをつけてくれる。ありがたい話だ。
今までのスクリプトをほとんどそのまま使える。ただ、wide char うんぬんの警告がうるさいこともあるんで、utf8::is_utf8(文字列) でutf8フラグがついてるかどうかをチェックするようにした。
cgiのformでの文字コードの扱いでもひっかかる。
いやutf8にしたいんだけど、と。
文字コードを変換するためにEncode::encodeを使うにはEncode::decodeでutf8フラグをつけてやる必要がある。ところがdecodeにはその文字列がどの文字コードで書かれているか教えてやる必要がある。
冒頭に書いたように流れてくるコードはjisだなんだで4種類。どのコードなのかわからないので推測するしかない。文字どおりGuessというのがあるんだけど、試しに「アイウエオ」とだけかいたファイルをeuc、sjis、jisの3種類用意して試したところ'shiftsiji or euc'というエラーで死ぬ。ネットで見てると、Guessはできるだけつかわないでね、と。弱ったなあと思いつつ駄目元でJcode.pmを同じファイルに使ってみたところちゃんと判定するじゃありませんか。…???。Encode.pmのwrapperになってるはずなので、結果は同じ(判定に失敗)と思ってた。
ここはありがたくJcode.pmを使わせていただくことに。
標準入力から受け取ったら、
Jcode::convert($str,'utf8')
と文字コードをutf8に。(互換のために参照渡しでもいいけど、参照渡しにする必要はないっぽい)多分文字コードを変える時にutf8フラグを落とすので、Jcodeで文字コードを変えたら
Encode::decode('utf8',文字)と、utf8フラグをつけてあげる。
もしかするとperlIOで上記の手間は不要かもしれないなぁ。
んで、urlエンコードする場合はutf8フラグを落としてやらないと、エンコードされす、日本語なんかがそのまま流れることになるので要注意。
昨日に続いて長文連載。どうせ忘れるに決まってるから、こうやってあちこちに自分メモ、だ。
こっちのページもutf8に移行するかなぁ。
» ローカル環境で電子書籍を作る、Macアプリ・Windows版ツール 「かんたんEPUB3作成easy_epub」
データ消失と自分メモ
趣味は読書SNS 用にサーバーをリプレースしたら、こっちのデータをいくつか取りこぼしてしまった。
今まで、約10ヶ月ほど、黙々と文句も言わずサーバーとして安定動作し続けてくれたDELLも、読書SNSでの登録冊数が2万冊を超えて、さすがに厳しくなってきた。去年の暮れ大晦日に思い立って秋葉原に走り、ソフマップの牛丼パソコン大盛りというのをつゆだく(メモリ2G)にして買ってきた。
この際、サーバー環境をutf8でやってみようとあれこれいじって、昨日DELLから牛丼にリプレースしたばかり。
というのが取りこぼしデータのあらすじ、かな。
自分用にメモしておくと。
FreeBSD-6.1releaseのフロッピーを FreeBSDの総本山 からもってきて起動。ところが牛丼パソコンの内蔵LANポートを認識してくれなかったので、慌ててPCI用のLANカード800円也を買ってくる。fdiskに当たるフェーズで「ジオメトリがおかしい」という警告に脅される。検索してみると「気にしなくていい」らしい…。
サーバー用に/varとか/とか/tmpなんかもデフォルトより多めに取ってみる。ルーターをDHCPに設定すると今度はすんなりネットワークに繋がって、あとは流れ込んでくるのを見てるだけだ。Xも使わないので気楽なもんだ(とはいえ、依存関係でXがらみのライブラリを要求してくるのがあるので、フルインストール)bash2だけpackageで入れていったん終了。
まずはportsでcvsupをインストール。supfile とか make.confとかいじりつつ、ソースを最新のものにアップデート。カーネルもいらないデバイスをはずしてpostgresql用にいくつか設定。make buildworldとかbuildkernelとかやってインストール世界をしたらバージョンが6.2-stableになっていた。CPUはpen4ななんだけど、コンパイルが早いんで驚いた(たぶんLibretto50だと3日がかりだろう)
portsからのインストール。
jless jvim の小物ふたつ。
apache20 mod_perl2。apacheはもしかしたら使うかも、と思ってMakefileでオプション扱いになっているproxyモジュールもコンパイルするようにちょっと書きかえ。httpd.confは今までのものをそのまま持ってきて、DocumentRootなど変更したところをいじった。
sslは、ssl.confはほとんどそのまま。自己認証を作り直し。ココの過去ログを見ながら。いや、役に立つページです、と自画自賛しておこう。
qmailはlocaltimeのパッチぐらいで普通にインストールしてtcpwrapperもインストール。メールを発信できるように。
ImageMagickとかssh2とかsudoとかlhaとかkakasiとかnkfとか、ユーティリティ類をインストール。
んでもって、どうしようと、けっこう真面目に悩んだpostgresql。今までどおり8.1でeucでいくなら、8.1をインストールすればいい。でも、良い悪いとか好き嫌いは別にして、世間はutf8へ邁進中。この際だから、うちもutf8にしてしまおうか、と。あーでもないこーでもない、とネット見ながらたかがこれだけのことで約二日ほど考えて、結局最新バージョンの8.2でutf8で行くことにした。
rc.dに入るシェルスクリプトのオプションが変だったのでちょっと修正して。
su - defaultuser
initdb --encoding=utf8 --lc-collate=C --no-locale
DELLのpostgresql-8.1側で
pg_dump -U pgsql -E utf8 > db.dump
文字コードをutf8にしてデータベースをdump
牛丼のpostgres-8.2の準備で
su - defaultuser
createdb -T template0 database_name
pgsql -U user -d database_name -f db.dump
で、あっさりデータベースのutf8化に成功…ナマのアクサンは化けてたけど。
今度はわたしがutf8を扱うための準備。
古いバージョンのteratermはutf8を扱えないので、puttyに設定…って、UTF-8じゃなくてUTF-8(CJK)で設定、なんてわからんかった。
jlessはLANGをja_JP.UTF-8にするとcore吐いて死ぬので、検索して lv というのをソースから。
肝心のemacsはutf8を普通に扱えるのは22かららしい。最新のportsに入ってるemacs22はまだdevel。とはいえエディタがなきゃしょうがないんで、develをインストール。apel、skk、mewはソースを持ってきてconfigureから。
簡単なスクリプトを試して、utf8でいけそうだと思ったので、portsでperlのモジュールをガシガシインストール。
use utf8;
とか
$DBH->{pg_enable_utf8}=1;
とか、書き出すと長くなるので、また明日、かな。
とりあえず。
» ローカル環境で電子書籍を作る、Macアプリ・Windows版ツール 「かんたんEPUB3作成easy_epub」
アマゾンISBN13桁対応…
昨日は仕事だったので雰囲気もくそもなかったんだけど、今日はゆっくり正月気分。生まれて初めて明治神宮に行ってみたり。
で、今年からISBNが13桁になってアマゾンはどうすんだろうと問い合わせてたんだけど、今日来た返事が以下のもので愕然。
▽▽▽
Amazon.co.jpアソシエイト・プログラムにお問い合わせいただき、ありがとうござ
います。
誠に申し訳ございませんが、ASINの生成方法につきましては、Amazon独自のシステ
ムならびに論理を利用したものとなりますので、公開はいたしておりませんことを何
卒ご容赦いただきますようお願い申し上げます。
△△△
てことは
「本に印刷されているISBNから、アマゾンのASINはわからない」
ということじゃん。なんでそんなものを非公開にするんだ。弱ったなぁ。
» ローカル環境で電子書籍を作る、Macアプリ・Windows版ツール 「かんたんEPUB3作成easy_epub」