ひまつぶし雑記帖

doncha.net制作・発行:KindleやiBooks、楽天kobo、BOOK☆WALKERで読む電子書籍

WORD文書をEPUB3に変換

2013/4/5 [11:47:36] (金) 天気

文書ファイルを電子書籍のEPUB3ファイルにコンバートするケース。元ネタになる文書は、サイト用に作られたHTML文書だけではなくて、当然WORD文書もある。

って、わたしはプログラマではないので、アプリが出力するバイナリデータを直接触ってごにょごにょするのは無理。

「テキストデータに変換したものをもらえば対応できますのでゼヒゼヒ」と営業してきたけど、先方はライターから上がってくるWORD文書をそのままEPUB3にして欲しいに決まってるしなあ。と。

調べてみたら、最新バージョンのWORDで保存する、拡張子が .docx の文書はzipで固められたものらしい。unzipで解凍したものが以下。
image 
xmlで保存されていて吃驚。
全部きちんと調べてないんだけど、どうやら「document.xml」が本文。これならAWSのAPIと同じ。XMLなら中身を見ることができるので、ざっくり文章を抽出することはできた。
perl の定番、 XML::Simple と Data::Dumper でデータを眺めると、位置情報やフォントサイズなどの属性も入ってるっぽい。画像も同様。WORD文書に見出しタイトルなどがついていれば、それを目次に登録してEPUB3文書にできる。

とはいえ、やはり検索してみるとすでにWORD文書をEPUB電子書籍に変換=コンバートするアプリは無料有料があるし、一太郎のEPUB3出力エンジンは定評のあるFUSEeなのでWORD文書を一太郎に読み込んでコンバートというやりかたもある。たぶん凝ったレイアウトなどもうまく再現できる、はず。

わたしが作るとしたら、大量にあるWORD文書をひとつひとつソフトに読み込んで、ひとつひとつ出力していく手作業よりも、WORD文書が入ってるフォルダをボトっとドロップしたらそれっぽいEPUB3文書にする。という大雑把なシロモノになるんだろうなあ。
スクリプトは手順どおりのことをさせるだけなので、面倒くさいけど難しいことはない。必要に迫られたら作ってみよう(本当だったらXMLの公式の仕様書を見ないとメンテができないけど。ね)

XMLってこんなところに使われてたのか。



[04/05 20:28:06] 追記。
ということで  『かんたん電子書籍作成』  に組み込んでみた。
ワードのファイル(.docxなので2010以降かな)をそのままアップロードできるように。ただ、レイアウトやフォントなどのデザイン情報は無視します。挿絵があったら、ダミーの画像を一枚差し込むようにしてみました。
ちなみに、ルビはワードそのまま大丈夫。縦中横もそれっぽいところは自動で指定しています。
(つむぎゆう・『わたし、おねえちゃんの犬になる』より)
image 


[2014/02/14 14:25:34]
こちら、 『かんたんEPUB3作成easy_epub』  にもWORDの文書を流し込んでEPUB3にする機能を追加。縦書き・横書き、ルビ、縦中横はワードの情報を生かします。


いつも何かとふぁっくなMSだけど、XMLで保存はイカしてるぞ!

 

»電子書籍制作代行についてはこちら

profile

profile

 
doncha.net
名前:
飯田哲章
mail:
t2aki@mrh.biglobe.ne.jp
twitter:
t2akii

WEBサービス制作/電子書籍制作

検索
<<2019/12>>
       
1234567
891011121314
15161718192021
22232425262728
293031

リンク

WINDOWS版サウンドノベル
おかえりください PC WINDOWS版サウンドノベル
『おかえりください』体験版

iPhone電子書籍アプリ
小説同人誌Select iPhone電子書籍アプリ
『小説同人誌Select』