ひまつぶし雑記帖

doncha.net制作・発行:KindleやiBooks、楽天kobo、BOOK☆WALKERで読む電子書籍

WORD文書(docx)をテキストに

2013/5/29 [11:56:45] (水) 天気

EPUB3制作の下準備として、渡される元データ、WORD文書を大雑把にテキストに変換。

(WORDの文書(2010以降の拡張子がdocx)をEPUB3にするネタでは、以前『WORD文書をEPUB3に変換』http://t2aki.doncha.net/?id=1365130056 に少し書いた)

スクリプトをappにして、Dropboxに保存して客先にいても使えるようにした。
https://dl.dropboxusercontent.com/u/10033521/_epub/CheckDocx.app.zip
(↑mac OSX10.8で確認。デスクトップにでも解凍。ワード.docxをドロップするとデスクトップにテキストファイルができる)

ワード原稿からEPUB3にするために、まず最初にやる作業として以下3点。
・ワードのファイルをテキストデータに変換する。
・テキストデータをxhtmlファイルに流し込んで配置する。
・見出しやキャッチなど適当なクラス(CSS)を指定する。

原稿のワードファイルはいわゆるマークアップされているわけでもなく、小見出しはボールドだったり、キャッチは背景色が黄色だったり、囲みは背景色が赤だったり、その時々でいろいろ。特に決まりもなく原稿ごとでばらばら。

わかっているのは色や文字装飾で指定されてくる、ということだけ。
image
こんな感じ。
このワード文書をxhtmlに流し込むためにワードでテキスト保存すると、色情報や文字装飾情報などがなくなってしまう。

xhtmlに流し込んだ後。ワードで文書を開いてそれを見て色指定などされている該当箇所を、テキストの方で探して確認してクラスを指定していく、なんて二度手間はしたくない。そもそも、ガサツな性格のわたしはほぼ確実に見落とす。
色や文字装飾がされている箇所を(大雑把でいいので)「文字、テキストで指定」しておけば、エディタの置換やスクリプトで一括処理対象にできる。見落としはない。

ということで、ワードの色情報、文字装飾情報を可視化した形でテキストデータにコンバートするスクリプトを作った。
image
こんな感じ。
文字指定にしておけば、スクリプトやエディタでクラスを置換するなり検索して埋め込むなり、かなり扱いやすいものとなるので作業効率があがる。後は、ワードの文書を見ながら、またはデザインガイドラインに沿ってスタイルシートを作れば本文のできあがり。

制作単価が下がってきてるので、少しでも効率よく回さないと、悲しい時給になってしまうんだ。よね。

»電子書籍制作代行についてはこちら

profile

profile

 
doncha.net
名前:
飯田哲章
mail:
t2aki@mrh.biglobe.ne.jp
twitter:
t2akii

WEBサービス制作/電子書籍制作

検索
<<2019/12>>
       
1234567
891011121314
15161718192021
22232425262728
293031

リンク

WINDOWS版サウンドノベル
おかえりください PC WINDOWS版サウンドノベル
『おかえりください』体験版

iPhone電子書籍アプリ
小説同人誌Select iPhone電子書籍アプリ
『小説同人誌Select』