WORDをテキスト保存した時のルビの捕捉

いや、あいかわらず雑なネタ。
.docx、ワードファイルではなくて、ワード文書を書式なしテキストで保存したテキストデータがたまにやってくる。基本的にシンプルなものが多くて流れ作業で済む。
…なんだけど、ルビのついたものがたまにあるのでその対応のメモ。
ワードの文書を書式なしtxtで書き出すとルビは
「これは漢字(かんじ)にルビがつく」
などと、ワード文書ではルビのところが、漢字と半角カッコでくくられたルビにわけられて保存されることになる。
そういや、以前もこんなことあったなあと思い出して、この雑記帖を検索したら出てきたのが
青空文庫のルビや傍点をHTMLタグに変換
https://t2aki.doncha.net/?id=1443167217
↑このエントリ。
青空文庫で使われている、青空記法は多くのひとに使われるように、よく練られているなあ、と感心した記事で、やっぱりさきほども改めて感心。
てことで、その時の記事からほぼ流用したのが以下のスクリプト。
ワードからテキスト保存のグループルビ用
my $_monoruby = sub{
my $str = shift;
my $err;
if( $str =~ m!([\p{InCJKUnifiedIdeographs}]+)\(([\p{InHiragana}\p{InKatakana} ]+)\)!){
my $k = $1; my $r = $2;
my @k1 = split(//, $k);
my @r1 = split(/ /, $r);
$err = ’!!!RUBY ERROR!!!’ if( scalar(@k1) != scalar(@r1) );
my @ruby;
while( my $kanji = shift(@k1) ){
my $yomi = shift(@r1);
push(@ruby, sprintf qq{%s<rt>%s</rt>}, $kanji, $yomi);
}
return $err . ’<ruby>’ . join(’’, @ruby) . ’</ruby>’;
}
else{
return $str;
}
};
perlで、Unicodeブロックを使った正規表現で漢字やかなを拾えるんで大助かり。
ただ、こいつはビミョーで、漢字に続いて半角カッコがあるのは、ワードが吐き出したルビだけとは限らないし、ルビの対象となる漢字の範囲がこれだけだと特定できない。
青空記法では問題にならないんだけど、ワードの吐き出しに多くは求められない。
なので、あくまでも初校作成時の手助け程度、かな。
にしても。
まだ5インチと3.5インチのフロッピーディスクが現役で、MSDOSは3.0が出た頃、NECの98シリーズが人気だった頃だからもう40年近く前の昭和の頃。日本ダービーでシンボリルドルフが皇帝になった頃。
Wizardryというゲームがやりたくてパソコンを買って、その後競馬データをこねくり回すために使いだしたawkやperl、unix環境。言ってしまえば、遊びでやってた当時の余録で、還暦すぎても小遣い稼ぎができるんだから、なにが役に立つのか立たないのかなんて、その時にはわからないもんだわな。
仙人の弟子の雑巾がけ庭掃除のネタは深いものがあるなあ(しみじみ)

引用文データ

これはいただき、というフレーズ、一節があって、小説は
http://t2aki.doncha.net/books.pl
ここでデータベース化。気がついたら入力して、ときどき眺めてはニマニマしてるんだけど、漫画はここには未収録。漫画のネームと小説の一節を一緒にするのはちょっと違和感があって、別スクリプトでやろう、と思ってもう十年は経つ。絵がないと面白くないし、絵をつけたりするとさすがに著作権うんぬんでまずいだろうし。
神竜剛次とか蛭魔妖一とか、ぞわぞわっとシビれる啖呵のキャラがいるのでネームを収録してみようと思いつつ。うまいやりかたを思いつかなくてアイディア段階で放置。漫画の場合、その絵が欲しいしねえ。
にしても、改めて眺めてると
http://t2aki.doncha.net/books.pl
は、人生の指針を示唆してくれる名スクリプトですなあ、と自画自賛芸。
ふと。本屋さんとか図書館とか。そこに並んでる本の数に呆然とすることがある。本の数だけ、ひとの思いや思想、哲学、世界があるわけで、そういったものがこれだけの数、一堂に会する場、というのは他には見ないよなあ、と。たまに、本屋さんとか図書館で、圧倒されて心拍数があがる。
[更新]2012-08-25 13:04:05
lolipop に Digest SHA PurePerl

まったく、ひと気、ひと通りがなく、放置気味だったアマゾンアフィリエイトサイト。ここも当然Amazonの認証に対応しないといけない。
てことで、
読書SNSの ttp://www.holeinthewall.jp/ と同じモジュールを入れた…んだけど、lolipop には Digest::SHA がインストールされていないようで、エラーになってしまう。
「lolipop Digest SHA Amazon」 で検索してみると、PurePerl版をcpanからもってきて自分のディレクトリに入れておく、てことで対応できると。さっそく持ってきてゴソゴソftpで置いて無事対応。
いろいろ大変だ。
メモ

メモ
FireFOX用スタイルシートひっぺがし他、なにかと便利なツール
https://addons.mozilla.org/firefox/60/
サーバーに負荷をかけてテスト…使い方要注意、というかDoS攻撃=威力業務妨害に取られかねないツール
http://jakarta.apache.org/jmeter/
こういうのは必要だったなぁ。
[更新]2026-02-05 09:23:30
迷う

1時間ほどの筆記は一般常識と作文だ。
ううう。いわゆる算数パズルっぽい問題で、たけしの平成なんちゃらとかに出そうなもの、なんだけど、これが苦手というか数字を見た瞬間終わった。結局たぶん正解を出せないままだったろう。後の祭りだが、テレビのパズル・クイズバラエティってのは雑学し入れるにも頭の使い方にもそれなりに役に立つかも知れないんだなぁ。
作文もテーマはなくて自由課題400字…ってこういう時ナニを書くものなんだろう。まったく見当もつかず、しかたないんで、今度引っ越したところは坂がない街なのですぐに方向を見失う、というのを阿刀田高っぽく書いてみた、つもりなんだけど、どうみてもできそこないの小学生の作文にしかなってない。
後で気づいたのだけど、こういう時の作文てのは、御社に入ったらどういうことをしたい、というビジョンを熱く語るか、業界周辺に関する知見を披瀝しかくあるべし、というポリシーを確固と述べるか、だよなぁ。やっぱし。
面接も感触はいまひとつ。10年後の自分はどうなってると思いますか、と言われて、機嫌よく過ごしていたいと思う、とマジメに考えてマジメに答える。(いや、反論すると、ビジョンとか目標なんてのを持ってると人間てのは弱くなるものだと思ってんだよなぁ、おれ。仙人の弟子と同じ。何のためにやらされてるかわからず苦しいけども、雑巾がけとか箒かけしてれば、気づいた時には仙人になってるもんでしょう。どんなことでも継続は力なり、ですね)
まったくもって、相手にしてみれば妙なのがきたな、といったところだろうか。しょぼいぞ、おれ。
んで、渋谷の職安に寄って求人端末で検索して、新着で編集募集があったので、紹介状。と思ったら、窓口での話で明日早々に面接となった。書類選考もしないなんて、なんだか学生のバイト募集みたいで、ちょっとナニでアレな予感もする。まあ行ってみて、わたしの方からも判断させていただくかしらん。
DDS2。フーリーの羽衣はビナーの2D画面、回廊を出て北の方だった。んでもって、ふたたびみたび、ルシファーのところに行ったのだが、仲間になってくれんしエデンとやらもどこにあるのかわからん。占い師に聞いても、魔界でやることがあるはず、としか言わない。フーリーの羽衣を持って城のルシファーに会うだけじゃだめなのか…。なんでもないところで詰まってる予感はあるんだけど。
引っ越してきた土地でも就職活動でもゲームでも、道に迷ってる、なんてシャレになってねえよなぁ。こんな日は酒でも飲んでちゃっちゃと寝てしまうに限る。
[更新]2026-02-04 14:37:26
| << | 2026/05 | >> | ||||
|---|---|---|---|---|---|---|
| 日 | 月 | 火 | 水 | 木 | 金 | 土 |
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 | ||||||
【最近の10件】


