『去りにし日々、今ひとたびの幻』の表紙絵

2026/4/5 [23:17:33] (日) 天気

国立国会図書館のPDFからOCRをして、テキストを引っ張り出せたので、ボブ・ショウの『去りにし日々、今ひとたびの幻』電書化のメドはたった。


そしたらやっぱり欲しいのが表紙画像。

タイトルだけじゃ寂しいし、かといって、というか、もちろんわたしは表紙絵なんて描けない。


てことで、AIに描いてもらったのがこれ。

image

ボブ・ショウのスローガラスを知ってるひとならわかってもらえる…かなあ、よねえ。

ちょっとビックリした。

絵面はテキトーでありえない構図なんだけど、スローガラスじゃないか!? これ!?


google colab の stable diffusionに渡したプロンプトが以下

High quality concept art,A spacious study with large windows, In the countryside are several large, glittering glass panels,rim light,wide angle,sharp focus,highly detailed,digital art illustration,art station trending,playstation5,4K


A.I.ってそれっぽいのを出してくるなあ。

国立国会図書館のOCR Liteを使ってみる

2026/4/4 [15:49:43] (土) 天気

サンリオSF文庫が読める国立国会図書館のデジタルアーカイブ。

国立国会図書館のデジタルアーカイブの本をOCRして(?)テキストを引っ張り出す、というのが今回のエントリ。


先日書いたように、これは各ページを画像として保存したもの。WEBで読みやすいようにページが工夫されてるんだけど、やっぱり手元、ローカルで気軽に読みたい。老眼に優しく文字サイズも調整できるepub3電子書籍にしておきたい。

そのためには「画像で保存されている文章」をテキストにする必要がある。そしてなんと!国立国会図書館では画像で保存されている文章をOCRによってテキストにするツールを公開してくれている。


NDLOCR-Liteアプリケーションのリポジトリ

https://github.com/ndl-lab/ndlocr-lite

↑ こちらの

https://github.com/ndl-lab/ndlocr-lite/releases

「release」から、最新版のv1.1.3


「ndlocr_lite_v1.1.3_linux.tar.gz」

「Source code (zip) 」


をダウンロード。


まずは「ndlocr_lite_v1.1.3_linux.tar.gz」を適当なディレクトリに解凍。

「linux」というディレクトリに展開される。

linux
├── data
├── lib
├── ndlocr_lite_gui
├── python3.12
└── site-packages

この中の「ndlocr_lite_gui」という実行属性のついたファイルをコマンドラインで叩くと立ち上がる。

image

デジタルアーカイブの画像をスクリーンショットして溜め込んだディレクトリを指定してOCRを実行すると、アウトプット用に指定したディレクトリに「テキスト」「JSON」「XML」の3種類のファイルが保存される。


image

今回114枚の画像で、だいたい17分ぐらい。

PCはMac mini Mid 2011

OSはLinux Mint


・ルビや圏点は反映されてない(?)

・JSONやXMLにはレイアウト、位置情報が入ってるっぽい。

epub3の電子書籍にするので、テキストだけで問題はない。ルビや圏点がなくても、わたしは大丈夫。そのうちきっと解決してくれると思う他力本願寺。


これだけでテキスト化できて、操作画面を見ながらこまかい指示を必要ともしないんで、コマンドラインで実行できるようにした。


ただ、わたしはpythonについてまったく知らなくて、何かあったら困るので調べ物。


「Source code (zip) 」を適当なディレクトリで解凍する。

「ndlocr-lite-1.1.3」というディレクトリ以下に展開される

ndlocr-lite-1.1.3
├── LICENCE
├── LICENCE_DEPENDENCEIES
├── README.md
├── dummy.dat
├── ndlocr-lite-gui
├── pyproject.toml
├── requirements.txt
├── resource
├── src
└── train

展開されたディレクトリに移動して以下のインストールが必要。

ndlocr-lite-1.1.3$pip install -r requirements.txt


ということだけど、わけもわからずインストールして、現在の環境に変な影響が出たら困る。

pythonは仮想環境で利用する(?)こともできるとのことなので、仮想環境を使うために以下をインストール


ndlocr-lite-1.1.3$sudo apt install python3.12-venv

インストールが終わったら

ndlocr-lite-1.1.3$. .venc/bin/activate

と叩いて仮想環境に入る

→コマンドプロンプトの左端に「(.venc)」と表示される。

(必要なものは「.venc」ディレクトリにインストールされるっぽい)

仮想環境に入ったことを確認して、上記の「pip」コマンドで必要なものを改めてインストール


「ndlocr-lite-1.1.3/src」ディレクトリに移動してndlocr-liteのpython3のコマンドを叩けばOK

  • --sourcedir
    スクリーンショット画像の入ったディレクトリ
  • --output
    テキストなどが出力されるディレクトリ

各ディレクトリはどこでも大丈夫。わたしは相対pathで指定した。

ndlocr-lite-1.1.3/src$ python3 ocr.py --sourcedir ../../image-out --output ../../_tmp

コマンドラインの方が気持ち早かった…かも。

指定したディレクトリにGUI版と同じものが出力されていた。


作業が終わったら仮想環境を抜ける。

ndlocr-lite-1.1.3$deactivate


テキストにさえなってれば電書化はそれほど難しくない、かな。

…冒頭一字下げや空行がなくなってるんで、そのあたりの判定をどうにかしないといけない。


とはいえ。

これで、絶版となって今は読めないサンリオSF文庫が読み放題だ!!

今回、真っ先にテキスト化したのは、ボブ・ショウの『去りにし日々、今ひとたびの幻』

https://dl.ndl.go.jp/pid/12632736

これが読みたかったんだよなあ。スローガラスというアイディアから広がるドラマがたまらない傑作。


ちなみに、この作業の中でページのスクリーンショットを撮るには。

個人向けデジタル化資料送信サービス

https://www.ndl.go.jp/use/digital_transmission_individuals

わたしは「本登録」済みなので

>「公開範囲」が「送信サービスで閲覧可能」「国立国会図書館内/図書館・個人送信限定」

の本は「印刷」できる=PDFファイルとしてダウンロードできる。

※一回100コマまで


PDFにすればあとはImageMagickの出番なんだけど、今日時点コマンドがよくわからないんで、手作業で1ページずつスクショしたというテイタラク。

これはまたそのうち、だなあ。


そういや。

「OCRする」って、「インターネットする」と似てるような…

OCRって「する」ものなんだろか。言葉を雑に扱ってる自覚はあります、すみません。



[04/05 08:30:27] 追記

印刷用PDFがでかすぎて、うちの貧弱な環境だとメモリが足りない。

GIMPはエクスポートをポチっとクリックしたら戻ってこない。

ImageMagickは

>convert-im6.q16: cache resources exhausted

で、終了する。


[04/05 16:47:09]追記その2

pdfseparate でPDFを1ページずつにバラして処理すれば、ImageMagickで期待どおりに画像に変換される。

convert
 -density 300
 -units PixelsPerInch
 -quality 90
 -profile JapanColor2011Coated.icc
 -colorspace cmyk
 -profile sRGB_v4_ICC_preference.icc
 -colorspace srgb
 -crop 8712x5990+759+527
 pdf/0001001.pdf
 image/001.png

> -density 300

コレは、いわゆる印刷レベルのクオリティ。さすがに時間がかかる。

(-quality 90 はjpeg画像用で、pngを生成するのに関係ないけど、ついでに入れてても害はなさそうなのでなんとなくそのまま)


あちらこちらで昔から言われているように。

lmageMagickは何でもできるんだけど、コマンドラインオプションが順番も含めてわけわかめ(死語)

[更新]2026-04-05 16:52:13

手書きで字を書こう、絵を描こう!

2026/3/30 [12:30:33] (月) 天気

パソコンのキーボードばかり、自分で字を書く機会が本当になくなった。老眼も進んで手元が怪しくて自分が何を書いて/描いてるのかよく見えなくなってる。

あきらかに40代の頃より字が汚なくなってる。もともと字が汚ない自覚はあるんだけど、それ以上に酷い。

エロ本編集をやってた20代の頃、穴埋め記事のイラストなんかを描いてたこともあった。それが今や絶望的に絵が描けない。

…てなことを痛感するんで、先日、無印のセールで2mmのシャーペンを買ってみた。これで少しずつでもいいから毎日「手書き」していくぞ、というのが今回のエントリ。


とりあえず。「ひとめに晒す」ことがだいじ。今さら恥もくそもない。

image

3次元を2次元に落としこむんだけど、脳ミソがテキトーなインチキ補正をしてしまう。

手先と脳が共謀して手抜きしやがる。


じっと我慢して対象を見て余計なことを考えずに、目の前にある・見てるものをそのまんま描きたいのに、手抜きしてラクな方に逃げてる・飽きてる。だからイイ加減なものになってしまう。

線がどうしたとか以前の問題だった。ただただ、雑なだけ。


image


字が汚ないのも同じ、というか絵より酷い・根が深い。

単純に、ちゃんと字を覚えてない/忘れてる。なもんだから、うろ覚え、形で「当たらずしも遠からじ」ぐらいで脳ミソが妥協してる。

元を知らずに再現できるわけがない。だから字が汚ないというより、字になってない。


image

わたしの大好きなベーやん(ベルゼブブ優一)をモデルに頑張る

国立国会図書館のAPI利用

2026/3/25 [22:39:56] (水) 天気

web本棚など、書誌情報の取得がすべての始まり。今年になって、書誌情報の取得先を国立国会図書館にしたので今さらだけどメモ。


一意のISBNを投げて、本の「タイトル、著者、書影」情報を返してくれる、ネタ元としてはWEBではAmazonがよく使われている。アフィリエイトにも繋がるし、本に関してはほぼほぼ網羅してる。


ウチも最初はAmazonのAPIを利用してたんだけど、

「Amazon Product Advertising API利用制限」

ひらたく言うと「売上のないサイトやアカウントはAPIを利用できなくなる」
さらにひらたく言うと、わたしのアカウントは売り上げがないので利用できなくなった。


ウチみたいな辺境限界個人サイトでアマゾンのアフィリエイトの売上などあるわけもなく、2019年の規約変更以降、AmazonAPIの利用ができなくなった。


その後はしかたがないんで小判鮫。

つまり、アマゾンのデータを利用しているサイトをクロールして利用、というなんか足下が安定しない運用。サイトをクロールしてるだけなので、データ取得先サイトのHTMLの構造が変わったらデータ取得に失敗する。複数のサイトを対象にしてたので即対応が必要というわけじゃないけど、その度にスクリプトの修正が必要。


そこで、以前から検討していた「国立国会図書館」のAPI利用に切り替えた。

「書誌情報データを求めて三千里」

だけど、書影がないのはほんと残念。
本棚を眺める楽しみのひとつ、というか欠かせないのが表紙だもんなあ。


改めて見てみると、書影が揃ってるのに吃驚というか感謝しかない。

そうなれば、ウチとしては十分なので、本棚の書誌情報の取得先にAPIを利用させてもらうことにした。


image

↑取得した書誌データ
「タイトル・著者名・書影」
(メモは自分で入力するエリア)


image

↑ISBNを入力するだけ


(今のところ)特に何らかの条件、OAuthなどでの認証が必要でもなくリクエストを投げるだけでデータを返してくれる。


スティーヴン・キングの『シャイニング』の書誌情報。

https://ndlsearch.ndl.go.jp/api/opensearch?cnt=1&isbn=9784167705633

URLにisbnを入れてリクエストすればいいだけ。


書影は別のAPI、URLに「isbn(13桁).jpg」をリクエストする。

https://ndlsearch.ndl.go.jp/thumbnail/9784167705633.jpg


セキュリティ強化のため、今年6月からログイン方式が変更されるらしいけど、APIについては、シンプルなままでお願いしたいところだ。


[03/26 13:55:24] 追記。

書影APIのサービス終了について(2026年3月31日(火))

https://ndlsearch.ndl.go.jp/news/20251217


…ということらしい。

これはめちゃくちゃ残念。書影は権利関係が難しそうだししょうがないのか。とはいえ、非営利の個人利用で、本棚=購入済のものだから大目に見てほしかったなあ。



ちなみに国会図書館のサイトには


『国立国会図書館デジタルコレクション』

https://dl.ndl.go.jp/

というページも用意されていて、ここで電子書籍が閲覧できる。所蔵されている本、ほぼすべてじゃないかな。

ひとつ残念なのが、EPUB3電子書籍ではなくて、PDF=画像データになっているところぐらい。これは原本保存が原則だろうからしかたがない。


絶版になってる、サンリオSF文庫が読める、というだけで老害SFマニアにはヨダレだよね

image

めっちゃ充実してるし、本好き/読書好きのひとにはたまらないんじゃないかな。

年金需給申請と介護保険のお知らせ

2026/3/23 [07:48:13] (月) 天気

65歳になって改めて年金需給の申請をしたら、介護保険のお知らせも届いていた。65歳過ぎて年金需給の老人も介護保険料を支払わなきゃいけないのかぁ、というのが今回のエントリ。

というか、いつ何が起こって何をしたかの記録。


去年、64歳は特別支給老齢年金の需給だった。

「年金請求手続きに行ってきた」

これは年金制度の変更に伴う救済措置みたいな年金で、今年、65歳から老齢年金と厚生年金、いわゆる二階建て、従来の一般的な年金の需給者となった。


年金の需給をします、という申請手続きは、誕生月の月初に送られてきた葉書1枚に名前記載してレ点にチェックして返送するだけだった。年金需給をいつからするのか、諸説あるようだけど、面倒くさいんでデフォルトの65歳から。


そしてちょっと驚いたのが、申請手続きの葉書とほぼ同時期に別途届いた介護保険のお知らせ。

考えてみれば当たり前の話で、いまのところまだ介護を必要としていないわけだから、介護保険料を支払う立場だ。

いつ自分が介護を受ける側になるかわからないし。


それより

原則、年金天引きでのお支払いになります

年金から「天引き」…「天引き」という単語が使われてることに吃驚。


わたしは、天に召されるのか、どこかほかのところに落とされるのかは知らないけど、年金から「天引き」はスゲーな。

これ、お役所の書類で使われる言葉なんだなあ。もう21世紀だってのにまだまだ「御上」文化ということか(閑話休題


それらに継いで、つい先日、介護保険のお知らせ第2弾で「介護保険被保険者証」が届いた。


介護サービスを受けようとするときは、必ずこの証を事業者又は施設の窓口に提出してください。

まだ、必要ではないかもしれないけど、だいじに保管しておくように、ということだな。


今にして思えば、40年以上前、大学のゼミで(まったく興味もなかった)老人福祉をかじって、地域の高齢者にアンケートをしてまわったのが始まりか。

40歳で無職になった時に、今はなきコムスンでヘルパー2級の資格を取ったり、デイサービスのベンチャーに関わってIT、パソコン係をやってたこともあった。


そのへんの経験から痛感したのが「健康第一」

ここんとこ腰痛が酷くて接骨院のお世話になってることだし、身体を動かすようにしないとなあ。


image
<<2026/4>>
   1234
567891011
12131415161718
19202122232425
2627282930

【最近の10件】

日常読書映画アニメゲーム健康料理グルメカメラ写真ネタ仕事パソコンインターネットperlEPUB3電子書籍ActivityPub還暦生活
検索: