OCRのデータを電書用のテキストに変換する

2026/4/8 [09:34:43] (水) 天気

国立国会図書館のOCRデータをepub3のリフロー型電子書籍にするためにテキスト化する下準備の覚え書き、が今回のエントリ。


印刷書籍から電子書籍にする時のボトルネックが「改行」処理。OCRうんぬんだけじゃなくて、インデザなんかのデータも一緒。

(いわゆる「空行」の扱いなんかも面倒くさい)


image

画像の出典:ボブ・ショウ 著 ほか『去りにし日々、今ひとたびの幻』,サンリオ,1981.10. 国立国会図書館デジタルコレクション https://dl.ndl.go.jp/pid/12632736 (参照 2026-04-08)


↑ このページをOCRで出力したテキスト↓

image

「一行」の扱い。

OCRでテキスト化したものは印刷書籍の「見た目の一行」が、そのまんま。


印刷書籍は「版面」という箱に、決まったサイズの文字を流しこんで並べるので問題はない。でも、電子書籍は「版面」みたいな決まった大きさの箱はなくて、文字サイズも決まっていない。


なもんで、見た目の一行通りに並べると、下のテキスト画像のように、文字の長さと表示部分の長さの不一致で無駄な余白が出たり、折り返しが不自然になったりする。


印刷書籍は「表示行」(物理行、レイアウト行とも言われる)

→ 一行は見た目の一行。

電子書籍は「論理行」

→ 一行は「改行」で区切られる/終了する。


電子書籍では、表示部分の幅や高さとは関係なく、「文章」が完結したところまでで一行になる「論理行」が必要。


【表示行1】「なかなかいいアイディアじゃないか」つやつやと光る壁を見まわしながら言う。「だけど、ひ

【表示行2】とつ欠点があるな、ジョン。これではどんどん部屋が狭くなっていく。そのうちすっかり隙間が

【表示行3】なくなってしまうぞ」


↑という3行の表示行を一行の論理行にする↓


【論理行】「なかなかいいアイディアじゃないか」つやつやと光る壁を見まわしながら言う。「だけど、ひとつ欠点があるな、ジョン。これではどんどん部屋が狭くなっていく。そのうちすっかり隙間がなくなってしまうぞ」


うまいやり方、これで決まり! というのも思いついてなくて、データの表示行(1行の文字数43字)を一行ずつを見て

  • 表示行の文字数いっぱいなら、次の表示行に繋っている
  • 表示行の文字数より短かかったら、そこに「改行」が入る

ということで、期待したところで「改行」された論理行の一行になる。

(表示行の文字数と「文章」の文字数がたまたま同じだったら、改行されなきゃいけないところなのに繋がってしまう…これはもう目視確認するしかないかなあ)


もうひとつ「空行」問題がある。

データに「改行」がないんだから、当然「空行」など存在しない。


そのために、OCRが出力するデータはテキストだけじゃなくて、JSON、XML形式のものがある。

以下はXML形式。

<LINE TYPE="本文"
 X="1178" Y="362" WIDTH="129" HEIGHT="5430" CONF="0.935" PRED_CHAR_CNT="1.000" ORDER="25" STRING="「なかなかいいアイディアじゃないか」つやつやと光る壁を見まわしながら言う。「だけど、ひ" />


JSONもXMLも「表示行」のX座標Y座標が入っているし、XMLの方には「TEXTBLOCK」というテキストの塊ごとに、そのエリアのサイズについての情報がある。

→ 最初のスクリーショットの赤囲み部分。

<SHAPE>
  <POLYGON POINTS="6500,551,6500,5820,7038,5820,7038,551" />
</SHAPE>

エリア四隅「左上,左下、右下、右上」のXY座標


このX座標(タテ書きの場合)の間隔を見て「空行」を判断するしかない、ここが広ければ空行。

基本、見開き単位の一段組とすると、ひとつのXMLデータには2つのTEXTBLOCK。


TEXTBLOCKの数が2つ以上あったら、タイトルや空行が入ったページ、ということでwarningを出して注意喚起。元の画像やPDFを目視確認して手作業で空行を入れる。


以上で、コマンドライン一発で完成とはいかないけど、ある程度流れ作業にすることができた。

この手順で、電子書籍化したのが先日のエントリ。

『去りにし日々、今ひとたびの幻』の表紙絵

https://t2aki.doncha.net/?id=3078

image


もう少し納得いくものになったらホームページの方にコードを掲載しておこう。


それよりなにより、こんなのをSNSに投稿したら多くのリアクションいただく今のご時世。

次々と公共の資源を潰していってる政府だし、国立国会図書館といえど安心してられない、かも。
新自由主義?ネオリベだっけ?とかでいつ有料になるかわからないし、なんならKPIがどーたらいいだして閉鎖されたらかなわない。
今のうちに所蔵・公開してくれてる本をPDFでダウンロードだけしておこうと思う。


国立国会図書館の膨大で貴重なデータをぜひ! 活用させてもらいましょう!!

Chromebookで電子書籍を読む

2023/4/8 [09:23:51] (土) 天気

正規のChromebookはgoogle playからアプリをダウンロードして使うことができる。

デスクトップやノートパソコンでAndroidアプリが使えるということになる。


やりたいことは。

ASUSのChromebook CX1101で電子書籍を読む、というか表示確認をしたい。


今のところ、ChromebookというかChromeOSで制作した電子書籍を確認するためには、

・WINDOWSのノートパソコンを起動して

・電子書籍ファイルを共有フォルダに保存して

・WINDOWS版のKinoppyを立ち上げて読む

これだけっちゃこれだけなんだけど、この「これだけのために」が面倒くさい。

手元のChromebookでそのまま確認できればらくちん。


てことで、ASUSのChromebook CX1101でも電子書籍を読めるように電子書籍リーダーを探してみた。


google play storeで確認したところ。

kindleとkinoppyはChromebookに対応していない。


kindleについてはgoogle play storeではなくて、Amazon アプリストアから直接ダウンロードすれば使えるらしいけど、いくつか手順が必要でそこまでやる?

https://www.itmedia.co.jp/news/articles/2206/15/news181_2.html

↑chromebookにamazon アプリストアをインストールする方法


大日本印刷のhontoがChromebookでも使える

https://play.google.com/store/apps/details?id=jp.co.dnp.eps.ebook_app.android

問題なくgoogle play storeからインストールできた。

すでにhontoで購入済みの本も本棚に同期されていて、すんなり読める。

image

ローカルの電子書籍、epubファイルを読ませるには、リーダーごとに指定された保存フォルダにepubファイルを保存する必要がある。


Andoroidアプリのhontoの場合は

/storage/emulated/0/Android/data/jp.co.dnp.eps.ebook_app.android/files/epub/

↑ここにファイルを保存する。


chromebookではどこに保存するのか探してみた。

chromebookの「ファイル」アプリで「マイファイル」→「Playファイル」

「すべてのPlayフォルダを表示する」にチェックを入れると出てくる

image
image

/mnt/chromeos/PlayFiles/Android/data/jp.co.dnp.eps.ebook_app.android/files/epub/

↑ここにファイルを保存する。


とりあえずはこれでOKかな。

ほんとは本体に保存するのではなくて、作業しているSDカードをlinkしたいところだけど、

ln -s

で権限がないとはねられる。Playファイル以下にあるフォルダ側の権限の問題っぽい。


最終的に納品前にkindle previewerでの確認も必要なので、WINDOWSを立ち上げることになるんだけど、途中途中のちょっとした確認はこれで手間がずいぶん省ける。


電子書籍を自分が読む時はスマホなんだけどね。

昭和の書籍の文字サイズは老眼には厳しいんで、古本ではなくて、文字サイズを変更できる電子書籍がありがたいんだよなあ(ポンコツ)

仕事効率化とオペミスをなくす方法

2020/4/8 [19:23:49] (水) 天気

前から言ってるように、わたしはわたしの操作、オペレーションを1mmも信用していない。

世の中「絶対」なんてことは絶対ありえないんだけど、ただひとつの例外が自分のオペミス。絶対にオペミスを起こすということやね。


たとえば、なにかを集計するような作業


その1)エクセルで範囲指定してステータスラインをみればそこに合計値が表示されているので、別シートに転記するだけ。

・所要時間3分

1範囲指定で間違える

2転記する時に間違える


その2)エクセルでsum関数を使って、結果を別シートに表示させる。

・所要時間4分

1範囲指定を間違える


その3)てな条件の作業でも、わたしはオペミスを起こすので、スクリプトを書く。

・所要時間10分

正解を確認しながらスクリプトを作るので結果は間違いがない。


時間がかかろうが、オペミスが入り込む個所がもっとも少ないその3を選択するのが正しい。

さらに言うと、「作業」というからには同じような作業が次もあること多くて、最初の一度、時間をかけてスクリプトを書いてしまえば、10分かかったその時間が次には2分で済む。


システム運用とか、システムなんちゃらな仕事。

たぶんよそから見るとなにやらITですごいことが行われてるように思われているかもしれないけど、まったくそんなことはなくて。

それこそエクセルの前で電卓を叩くようなことをやってる。

ツールを作る、あるいはツールを組み合わせれば、5分で済むような仕事なのに、手作業と目視確認で半日もかけるようなことがざらにある。


こうして、わざわざミスを増やすようなことやってるんでびっくりするしかない。

話はそれるけども。

100、200ものチェック項目があるのは「今までこんなミスがあったからだ」とエラソにいうけど、100、200ものチェック項目なんて全部見る集中力が人間にあるとでも思ってんのか。本当にクリティカルな項目だけに絞るのがマネージメントというやつで、それができないのはマネージャー失格。


なんでそんな手順を踏んでるのかと言えば

「今までそれでやってきて問題がなかったから」

ミスも減って、時間コストも激減する方法があることがわかっているのに、こういう話になる。

おそらくそれって、時間コスト、ひとを配置して、その対価としてクライアントに請求しているから、余計なことをしないほうがいいんだろう。

いやもう、あほくさくてつきあいきれん。


おそらく発注元が思ってる以上に外注先のITはクズだと断言しておこう。

ゴールドラッシュのシャベル売り

2013/4/8 [12:21:47] (月) 天気

kindleだ!ibookstoreだ!と個人出版の窓口が開いて、制作のノウハウや事務手続きについて手探りだったのが、ここにきてさすがに落ち着いた。と思う(アクセスされている記事をみての印象で具体的なデータではない)

また、読者側は、ガジェット好きな物好きにkindleも行き渡った頃合いかなあ、とも。


こうすれば売れる、電子書籍の展望は、などという周辺記事、ゴールドラッシュのシャベル売り記事ばかりが溢れるのが現状だろう。


底辺エロ出版社とはいえ、わたしは20年編集者として在籍して、退職時は漫画部門の編集長なんてのをやってたので、少しは出版についての知見がある。はず。だよあな。


てことでこの雑記帖の過去記事をざらっと漁って、シャベル売りっぽい記事を眺めた。


『愚痴じゃ』 2001/5/7

編集の仕事でナニが面白いかと言えば「新人のデビュー」。以前はそれが自由に・わたしの意思でできたのに、ここんとこそれがない。売れるのは、すでに売れてる名前のある作家であり、限られた狭いジャンルであり。


『あれこれと…ねぇ』 2002/5/13

某センセと電話してて、
「結局ストーリーどうなる?」「考えたんですけどありきたりなものでいくことになります」
たぶん、当人は気づいてないだろうけど、「ありきたりなもの」を描くというのは大変なことで、さらに、ありきたりなものを「描きます」と自分の口でいうのはもっと凄いことなのだ。この某センセ、去年は増刷を何冊もやってる男。


『赤字かぁ。。。。』 2003/11/10

最初、想定した読者層はどのような属性のひとたちなのか、そのマーケットはまだあるのか、彼らの購買行動に変化はあったのか。
現状の誌面から、どんな読者が買ってるのか・読んでるのか、想像できるかどうか、が全てだ。ここで想像できないようなら今たずさわってる雑誌にはまったく意味がない・売れなくて当然。


『11月なのに暑い』 2004/11/4

で、ふと思うと、今の状況の原因は宮崎事件にまで遡る…かも。成年マークをつけて区分販売されるようになって、市場・読者層が変わっていったということだろう。
普通にマンガとして売られていた頃は、大手のマンガよりエッチ描写が多い、というところで成り立っていたのがコンビニ流通のコットンやペンギンといったマンガ雑誌。
ところが、マークをつけるということになると、ちんぽこ・おまんこを描いてなんぼの商売が始まった。
それによって、マークをつけた本を扱う書店に行く人間とそうじゃない人間がまったく割れてしまい、中間の隙間に位置していたコットンあたりがもろに影響を受けた


『うだうだしてますですよ』 2004/12/1

紙媒体のものをそのままネットへというのが今のネットでの商売の中心なんだろうけど、それだけではどうなんだろう(ドストエフスキーとか、ありがたかったッス)かといって、巨大なカラオケと化してるネット上で、金を取るだけの価値をどうやって作る・認知させるのか、というコレという考えも思いつかんし。


これらは全部、だいたい10年前後前の過去記事。本を出す、読者に届ける、読んでもらう、ということだろうから、電子書籍になっても同じこと。


軽佻浮薄ゴクツブシ、甲斐性なしの割に当時は真面目に考えてたこともあったんだなあ、と自己懐古芸。歳くっちゃったなあ。


おかえりください

『おかえりください』

日野裕太郎

[更新]2026-02-02 07:45:06

第十四回文学フリマサークル配置図

2012/4/8 [15:34:33] (日) 天気

文学フリマ公式ページで、サークルの配置図が告知されたので、コミティア100の配置図に続いて、こちらもサイトに組み込んだ。


いや。しょうがないんだけど。イベントごとでスペース表記が違うし、配置数、配置の位置が違うんで面倒だよなあ、と。しょせん連番だし、ロジック考えて、自動生成するようにして使いまわせばいけんじゃね、と安直に思ってたら、難しかった。

なもんで、コミティアの配置図も文学フリマの配置図も、配置図そのものは、HTMLをベタ書き(listで記述)して、cssとjavascriptでごそごそ表示。

スクリプトがやってることは、データベースから該当するものがあったら、クラス名とかhidden属性のコンテナを書き込む、だけ。パズルゲームとしてのスクリプトは面白くもなんともない、ただの力ワザというか地引網。作ってる面白みはほとんどない。


とはいえ。実際こうやってサークル配置を「絵」で一目瞭然にするとコンテンツとしてはけっこう面白い。巡回順路が浮かぶというか。

たぶん、次の開催も同じく。配置図そのものはHTMLをべた書きしなきゃいけない力ワザだろうけど。気力が続いてれば、きっとやりますです。はい。


第十四回文学フリマ サークル配置図

http://books.doncha.net/happy-reading/taglist.pl?t=event3


コミティア100 サークル配置図

http://books.doncha.net/happy-reading/taglist.pl?t=event2


てのはともかく。今日、4月8日は、絶好の晴天。雲ひとつない真っ青な空。地元水元公園に出かけた。お供は、おにぎり、ビール、ワイン、パウンドケーキ。


いや。まじめに「桜が凄かった」


久しぶりじゃないかな。こんな真っ青な空を背景にしたピンクに煙る桜って。確か去年、おととしあたりは、週末、ちょっと曇ってたり雨だったり。今日のような花見は滅多にお目にかかれない、と断言しちゃうぞ。ベンチでべちゃくちゃしゃべって、遊歩道で桜を眺めて、花見客を眺めて、いやもうたっぷり堪能だった。


ずーっと。毎日、今日の花見のような日々が続けばいいなあ。とかいうと危ない。


デザインのルール、レイアウトのセオリー。

『デザインのルール、レイアウトのセオリー。』

伊達千代

[更新]2026-02-03 09:03:01

<<2026/04>>
   1234
567891011
12131415161718
19202122232425
2627282930

【最近の10件】

日常読書映画アニメゲーム健康料理グルメカメラ写真ネタ仕事パソコンインターネットperlEPUB3電子書籍ActivityPub還暦生活
検索: