ひまつぶし雑記帖

ルビのため perl unicode正規表現

2013/2/22 [09:13:24] (金) 天気

EPUB3::かんたん電子書籍作成 https://books.doncha.net/epub/ では、テキストデータにルビや縦中横のHTMLタグを自動で振るためのオプションを用意してある(※ ページ中ほどにある [スクリーンショット、ルビや縦中横タグを挿入するにはこちら] のリンク)

そのための perl の正規表現メモ。

縦中横。
半角の、「!?」「!!」「?!」と、連続するアルファベット、連続する数字に span タグで縦中横のクラス tcy をつける。


ルビ。
「漢字(るび) 」と漢字に続いて半角のカッコに囲まれたひらがな・カタカナをルビとして ruby rt タグをつける。
※ WORDのルビつき文書をテキストで出力すると半角カッコの中にルビが入る


縦中横のタグはけっこうよく使う正規表現なのですんなり。でもルビのための漢字判定がちょっとわからずグーグル様。perlは5.8以降、ユニコードによる正規表現が使えるようになって、文字クラスを下記のように指定することができる。



ルビもこれを使って正規表現。でも、スクリプトでは、どこからルビなのか判断できない。東京都千代田区(ちよだく)と書いてあったら、「千代田区」ではなく「東京都千代田区」に「ちよだく」のルビがつく。「千代田区」にルビですよということで「東京都[#ルビ]千代田区(千代田区)」などとテキストにマークアップする必要がある。

「EPUB3::かんたん電子書籍作成」  のコンセプトは
「何も考えずにテキストを放り込んだら、それっぽい電子書籍ができる」

面倒っぽく感じる・小難しそうなことは極力排除したいので、Wikiやはてなで使われるような独自記法・方言マークアップは却下とした。
レイアウトデザインを作り込みたいということであれば(字下げや文字方向一部変更など)EPUB3ファイルを解凍して直接xhtmlに対してタグをつけて、CSSを作れば可能。「かんたん電子書籍作成」で作るHTMLとCSSは、こんなでいいのかというぐらい手抜きレベルに単純なHTMLなので、編集加工がしやすい元素材でもある。

HTMLタグのついたテキストデータで小説原稿などを保存管理するのは面倒なので、元原稿はプレーンな状態にしておきたい。間違えて元データを消してしまって、HTMLタグのついたデータしか残ってない!という場合に。

テキストデータからHTMLタグを除去する正規表現


»電子書籍制作代行についてはこちら

【電子書籍発売中】

doncha.net制作・発行:KindleやiBooks、楽天kobo、BOOK☆WALKERで読む電子書籍

profile

profile

 
doncha.net
contact:
»運営者
@t2aki@tokoroten.doncha.net

ため池

[2025/03/23 18:35]
@k6s8@misskey.io @k6s8@misskey.io わたしは三波春夫が狂ったように意味のない歌詞で叫んでた大阪万博世代で、月の石とか目玉商品があったと思うんですけど、今どきは万博に限らず、いわゆる国を上げてのイベント ...

[2025/03/23 18:15]
【速報】万博に行きたいとは思わない74%
https://www.47news.jp/12345446.html
>大阪・関西万博に「行きたいとは思わない」が74.8%で、「行きたいと思う」の24.6%を上回った。

「上回った」とかいうレベルじゃないんだけどwwww ...

[2025/03/23 18:09]
ゴージャスでリッチ、すげー作り込んだページも、アクセスして観てもらうことが大前提。
表示に時間がかかって「戻る」されたら元も子もない。そのJavascript本当に必要?cookie食わせてDBと照合してる暇があったらとっ ...

@t2aki@tokoroten.doncha.net

検索
<<2025/3>>
      1
2345678
9101112131415
16171819202122
23242526272829
3031

リンク

WINDOWS版サウンドノベル
おかえりください PC WINDOWS版サウンドノベル
『おかえりください』体験版