ひまつぶし雑記帖

doncha.net制作・発行:KindleやiBooks、楽天kobo、BOOK☆WALKERで読む電子書籍

WORDをテキスト保存した時のルビの捕捉

2023/5/31 [16:23:28] (水) 天気

いや、あいかわらず雑なネタ。

.docx、ワードファイルではなくて、ワード文書を書式なしテキストで保存したテキストデータがたまにやってくる。基本的にシンプルなものが多くて流れ作業で済む。

…なんだけど、ルビのついたものがたまにあるのでその対応のメモ。
ワードの文書を書式なしtxtで書き出すとルビは

「これは漢字(かんじ)にルビがつく」

などと、ワード文書ではルビのところが、漢字と半角カッコでくくられたルビにわけられて保存されることになる。

そういや、以前もこんなことあったなあと思い出して、この雑記帖を検索したら出てきたのが
青空文庫のルビや傍点をHTMLタグに変換
https://t2aki.doncha.net/?id=1443167217
↑このエントリ。
青空文庫で使われている、青空記法は多くのひとに使われるように、よく練られているなあ、と感心した記事で、やっぱりさきほども改めて感心。

てことで、その時の記事からほぼ流用したのが以下のスクリプト。


perlで、Unicodeブロックを使った正規表現で漢字やかなを拾えるんで大助かり。

ただ、こいつはビミョーで、漢字に続いて半角カッコがあるのは、ワードが吐き出したルビだけとは限らないし、ルビの対象となる漢字の範囲がこれだけだと特定できない。

青空記法では問題にならないんだけど、ワードの吐き出しに多くは求められない。
なので、あくまでも初校作成時の手助け程度、かな。


にしても。
まだ5インチと3.5インチのフロッピーディスクが現役で、MSDOSは3.0が出た頃、NECの98シリーズが人気だった頃だからもう40年近く前の昭和の頃。日本ダービーでシンボリルドルフが皇帝になった頃。
Wizardryというゲームがやりたくてパソコンを買って、その後競馬データをこねくり回すために使いだしたawkやperl、unix環境。言ってしまえば、遊びでやってた当時の余録で、還暦すぎても小遣い稼ぎができるんだから、なにが役に立つのか立たないのかなんて、その時にはわからないもんだわな。

仙人の弟子の雑巾がけ庭掃除のネタは深いものがあるなあ(しみじみ)
image

»電子書籍制作代行についてはこちら

profile

profile

 
doncha.net
contact:
»運営者
@t2aki@tokoroten.doncha.net

ところてんx10

2023/9/25 13:26

あー。フォローしてるひとがこちらをフォローしてるかどうかはどうでもいいのか。

フォローする=そのアカウントのアウトプットを読みたい。ので相互フォローの確認は不要。一方的で何も問題はない。

2023/9/25 13:16

wenfingerから辿らなきゃいけないんだったらちょっと面倒くさい

2023/9/25 13:15

miskkey系は確か表示のユーザー名とエンドポイントのユーザー名が違っててエンドポイントの方は一意のランダム文字列だったような

検索
<<2023/9>>
     12
3456789
10111213141516
17181920212223
24252627282930

リンク

WINDOWS版サウンドノベル
おかえりください PC WINDOWS版サウンドノベル
『おかえりください』体験版