ひまつぶし雑記帖

doncha.net制作・発行:KindleやiBooks、楽天kobo、BOOK☆WALKERで読む電子書籍

青空文庫のルビや傍点をHTMLタグに変換

2015/9/25 [16:46:57] (金) 天気

小ネタ。
青空文庫形式で書かれたテキストをちょっといじる機会があったんで、例によってperlでごそごそと。

『青空文庫 組版案内』(http://kumihan.aozora.gr.jp)に詳細な資料や、青空記法で書かれたテキストをXHTMLに変換するrubyのスクリプトも提供されている。

青空文庫からXHTMLへはrubyのスクリプトを使わせてもらえばそれで解決なんだけど、用途・前提が青空文庫。当然ながら青空文庫用のcssが埋めこまれる。

電子書籍にするのにそのままでは使えない。
本文で青空記法が使われてるのはルビと傍点、太字程度だったので、その3つをHTMLのタグに変換するスクリプトをでっち上げ。


perlのスクリプト的には、漢字かななどの判定にUnicodeブロックが便利でおすすめ。
無名サブルーチンも便利。


意外なところで青空記法が使われててちょっとびっくりだった。
テキストデータ利用ということで、ボランティアさんが入力するのに青空記法はわかりやすくていいんだろうなあ。


青空EPUBの現バージョン3-1.1.0b45はepubcheckでエラーになる。
原因はnav.xhtmlのlandmark部、「Undefined property:title-page」で、ここを「titlepage」にすれば大丈夫。

image
自転車置き場の新顔…のわりに態度がデカイ。

»電子書籍制作代行についてはこちら

profile

profile

 
doncha.net
contact:
»運営者
@t2aki@tokoroten.doncha.net

ところてんx10

2023/9/28 13:53

Announceのobjectがハッシュになってるケースもあるのか…Announceのobjectは対象のNoteのURL文字列だと思ってた。
まだまだいろんなケースがあるんだろうなあ。これ、おひとりサーバーだからいいけど、他人に使ってもらう・提供してるサービスだったら大騒ぎ&大...

2023/9/28 09:56

pleromaで弾かれるのは、webfingerで406だった。検索しまくってたらRFCでACCEPTは「application/jrd+json; charset=utf-8」が「MUST」だった。テキトーに「application/activity+json」だけでやっていて...

2023/9/28 01:30

にしても。SignatureとかRSAで悶絶七転八倒したせいで、ローカルのコマンドらいんでアクセスを試せるスクリプトを作っておいたのは怪我の功名というか瓢箪から駒というか。
回り道した分で充分以上に助かってる。
何が幸いするか役に立つかわからないもんだわ。

検索
<<2023/9>>
     12
3456789
10111213141516
17181920212223
24252627282930

リンク

WINDOWS版サウンドノベル
おかえりください PC WINDOWS版サウンドノベル
『おかえりください』体験版