word→textからルビをタグに

WORDのルビに関する小ネタ。
ワード文書を直接読み込んで、電子書籍・EPUB3に変換するソフトもあるみたいだけど、一度プレーンテキストに吐き出しておいた方が何かと使い勝手がいい・使い回しが効く。ただ、ワード文書をプレーンテキストに保存すると、文字装飾やレイアウト情報がすっ飛んでしまう。テキストなので当然といえば当然。
でも、せめてルビは残したいのが人情というもの。
ワードの文書をプレーンテキストに保存すると、
・般若心経(はんにゃしんぎょう)
・超新星(スーパーノヴア)
てな感じ。ルビ対象の文字に続けて半角のカッコの中にルビが入っている。これをEPUB3というかHTMLのタグに変換したい。
<ruby>般若心経<rt>はんにゃしんぎょう</rt></ruby>
<ruby>超新星<rt>スーパーノヴア</rt></ruby>
以前、何度かこの手のネタで記事に。
『ルビのため perl unicode正規表現』 2013/2/22
『WORD文書(docx)をテキストに』 2013/5/29
このあたりで書いたことは 『EPUB3::かんたん電子書籍作成』 に実装、組み込み済みなんだけど、ルビなどはどこからどこまでがルビ対象なのか・特殊なルビなど、見ながら決めたい。
・東京都千代田区(ちよだく)三崎町
だったら「千代田区」に対してルビがつくし、
・BOZE(ボウズ)バンズ
だったら「BOZE」に対してルビがつく。
ということで、ワードからテキストで保存した場合にエディタで開いて校正しながら
・東京都|千代田区(ちよだく)三崎町
と、ルビの開始位置に半角の「|」を入れておいて、後で一括置換する正規表現が以下。
検索
\|([^\(]+)\(([^\)]+)\)
置換
<ruby>\1<rt>\2</rt></ruby>
置換前
東京都|千代田区(ちよだく)三崎町
置換後
東京都<ruby>千代田区<rt>ちよだく</rt></ruby>三崎町
MacのCotEditorで確認。
WINDOWSのEmEditor や sakuraエディタでもイケるっぽい。→上記の書式中「\」を「¥」に置き換える。
といいつつ。ワードのルビ付き文書を、一太郎に読み込ませてルビ情報がそのまま生きていれば、たぶんそれがワードからEPUB3への一番簡単な方法だと思う
[08/15 14:51:11] 追記。
元ネタ、というか発端はこちら
https://twitter.com/kyozy_tohno/status/367675308977029121
[08/15 18:03:46] 追記。
http://hirakun.blog57.fc2.com/blog-entry-214.html
↑こちらはルビにタグをつけるワードのマクロを作成・公開されてます。
マクロがわかればこっちのが便利だ。感謝!
| << | 2026/4 | >> | ||||
|---|---|---|---|---|---|---|
| 日 | 月 | 火 | 水 | 木 | 金 | 土 |
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 | ||
【最近の10件】


