WORD文書をEPUB3に変換

2013/4/5 [11:47:36] (金) 天気

文書ファイルを電子書籍のEPUB3ファイルにコンバートするケース。元ネタになる文書は、サイト用に作られたHTML文書だけではなくて、当然WORD文書もある。


って、わたしはプログラマではないので、アプリが出力するバイナリデータを直接触ってごにょごにょするのは無理。


「テキストデータに変換したものをもらえば対応できますのでゼヒゼヒ」と営業してきたけど、先方はライターから上がってくるWORD文書をそのままEPUB3にして欲しいに決まってるしなあ。と。


調べてみたら、最新バージョンのWORDで保存する、拡張子が .docx の文書はzipで固められたものらしい。unzipで解凍したものが以下。

image

xmlで保存されていて吃驚。

全部きちんと調べてないんだけど、どうやら「document.xml」が本文。これならAWSのAPIと同じ。XMLなら中身を見ることができるので、ざっくり文章を抽出することはできた。

perl の定番、 XML::Simple と Data::Dumper でデータを眺めると、位置情報やフォントサイズなどの属性も入ってるっぽい。画像も同様。WORD文書に見出しタイトルなどがついていれば、それを目次に登録してEPUB3文書にできる。


とはいえ、やはり検索してみるとすでにWORD文書をEPUB電子書籍に変換=コンバートするアプリは無料有料があるし、一太郎のEPUB3出力エンジンは定評のあるFUSEeなのでWORD文書を一太郎に読み込んでコンバートというやりかたもある。たぶん凝ったレイアウトなどもうまく再現できる、はず。


わたしが作るとしたら、大量にあるWORD文書をひとつひとつソフトに読み込んで、ひとつひとつ出力していく手作業よりも、WORD文書が入ってるフォルダをボトっとドロップしたらそれっぽいEPUB3文書にする。という大雑把なシロモノになるんだろうなあ。

スクリプトは手順どおりのことをさせるだけなので、面倒くさいけど難しいことはない。必要に迫られたら作ってみよう(本当だったらXMLの公式の仕様書を見ないとメンテができないけど。ね)


XMLってこんなところに使われてたのか。

https://twitter.com/dokusyo2/status/320721573483016192


[04/05 20:28:06] 追記。

ということで 『かんたん電子書籍作成』 に組み込んでみた。

ワードのファイル(.docxなので2010以降かな)をそのままアップロードできるように。ただ、レイアウトやフォントなどのデザイン情報は無視します。挿絵があったら、ダミーの画像を一枚差し込むようにしてみました。

ちなみに、ルビはワードそのまま大丈夫。縦中横もそれっぽいところは自動で指定しています。

(つむぎゆう・『わたし、おねえちゃんの犬になる』より)

image



[2014/02/14 14:25:34]

こちら、『かんたんEPUB3作成easy_epub』 にもWORDの文書を流し込んでEPUB3にする機能を追加。縦書き・横書き、ルビ、縦中横はワードの情報を生かします。



いつも何かとふぁっくなMSだけど、XMLで保存はイカしてるぞ!


<<2026/1>>
    123
45678910
11121314151617
18192021222324
25262728293031
検索:

【最近の20件】