音声の校正修正
電子書籍につける音声の調整については先日雑記に書いたとおり。
正解が分からないのでキリがない、というところ。ていうか、正解はあるんだろうか。
日本語の文法や言葉づかいとはまた別の「音」の世界。
鼻濁音とか無声音とかそこには別の概念があるようで知的好奇心(とかいうとカッコつけてるけどひらたく「野次馬根性」)を刺激される。
ひとつのコンテンツがいくつものレイヤーでその各々のメソッドで解釈されうるてことだよねえ(胡散臭いカタカナがみっつもあるのは勘弁してください)
読み上げ音声に関して、NHKの訓練されたアナウンサーでも「これでOK」とは言えないような気がする。実際にどのようなスタッフで共有して作成しているのか知らないけど、朗読会やDAISY図書は「正しい」音声をどういう扱いでやってるんだろう(興味津々)
今日、公開した音声付き電子書籍「苺の泉」(『猟人日記』ツルゲーネフ)
https://t2aki.doncha.net/?id=1425130349
は、句読点でバラしたフレーズが765個。今回はあきらかな読み間違いだけではなく、ちょっと頑張って765個の音声を聞いてイントネーションの調整もやってみた。
最低一回は聞く。読み上げる時間がそのまま最低限必要な時間で、読み間違いがあったら修正してそれを再生して確認する。イントネーションの調整もはいると、そのつど、修正+再生確認となる。
週末の一日をほぼこれで潰すこととなった(にもかかわらず、誤植誤読はあると思う)
でも、そもそも、その修正は正しいの?
…という疑問・疑惑が抜けきれない世界だ。
こいつを作業フローとして眺めると。
単純な「作業」にはならない。複数のスタッフで分担できるんだろうか。チェックボックスにチェックして次に回す、てな仕事にはならない。
めちゃくちゃ属人的(ひと頼み)の仕事にみえる。
音声合成、人工音声を使えば、従来の朗読音声を組み込むのと比べると格段に早いというのは分かるけど、それでもそんなに簡単なものじゃないなあ、というのが、今回ちょっと頑張って作ってみた実感。
わたしが使ってるのはSofTalk経由でAquestの音声合成エンジン。
SofTalkや棒読みちゃんに使われているし(素人だけど)わたしも納得の音声が得られる。
それなりの音声合成ソフト(ボイスソムリエネオやAITalkなど定評のある音声合成ソフト)を使っても同じこと。結局は微調整がはいる(「微」調整)といったって「やりなおし」には違いない、同じこと。
結局のところ、ひとがその音声を聞いて確認・修正する必要があるんだからね。
決して他人事じゃなくて。
わたしは、あまり目が強くないようで、音声付き電子書籍には期待するところがある。
両目とも歳を食ってから
「網膜血管硬化症」「網脈絡膜萎縮」
といった診断をされていて、さらに片目は盲点があって見えないブラックホールがあるらしい(…とか言われてもよくわからんのだけど)たぶん、緑内障、網膜剥離のリスクをかかえてるんだろう。
『網膜血管硬化症と網脈絡膜萎縮』
『週末を堪能…かな』
先週末あたりから、視界の中、細い白く光るロープが縄跳びをしているのを見るようになったんで、ビビって、今日6年ぶりだかで地元の眼科に行った。
とりあえず、網膜剥離も眼底出血も見られないので、まだ大丈夫らしい。…でもなあ。いつこの目がアウト宣告されるか分かったもんじゃないんで、音声付き電子書籍の普及を願いたい。
» ローカル環境で電子書籍を作る、Macアプリ・Windows版ツール 「かんたんEPUB3作成easy_epub」
何やら事件の痕と茶色の食卓
近所のいつもカモがいる人工の池。
先日行ってみたら、カモの羽が水面に散乱していて驚いた。
犬も猫も多いので何か起こったのかも知れない…梨木香歩の『ピスタチオ』的なことを考察してみようと思ったけど、わたしはただの無職初老、あの発想・描写はとても無理。
ああ、いよいよ食うに困ったらこっそりこいつらを絞めて食材にすることになるんだなぁ、ぐらいの感慨。
ここ最近の自作料理はほとんど茶色。
出汁を取って刻んだ昆布、縮緬ジャコ、沢庵の微塵切りを胡麻油で炒めたもの。
醤油・味醂・鷹の爪・胡椒。
濃いめで白米にピッタリ…これだけでモリモリ2膳は食える。
腿肉からひっぺがした鶏皮を煎餅に。
鶏皮煎餅で出た油で薄切りにした椎茸を炒めたもの。
ニンニク・鷹の爪・塩・胡椒・醤油・マーガリン。
鶏皮煎餅はもちろん、椎茸炒めは当然のようにコクがあってツマミにピッタリだった。
鶏皮と切干し大根をトウチで炒めたもの。
塩・胡椒・鷹の爪。
切干し大根にしっかり味がつくのでトウチの勝利。
ほうれん草としめじをホワイトソースで炒め煮。
ホワイトソースはテキトー目分量。牛乳を入れて小麦粉(薄力粉)を混ぜてトロっとしたらできあがり。
塩・胡椒・コンソメ。
ほうれん草を一束、むしゃむしゃ食って腹いっぱいだった。
トマトとタマネギの炒めもの。
タマネギをコンソメでしっかり炒めて、トマトは余熱で。
塩・胡椒。
トマトは熱を加えると甘味が増す、ような気がする。
» ローカル環境で電子書籍を作る、Macアプリ・Windows版ツール 「かんたんEPUB3作成easy_epub」
電子書籍につける音声の調教
「SofTalk」も「棒読みちゃん」もイントネーションやアクセントの調整ができる。
というか、両ソフトが利用しているAquestの音声ライブラリが音声の調整をしている。Aquest社のサイトに仕様書があって、それを読むと音声の細かい調整が可能で、単純な棒読みではなく、それっぽい読み上げ音声にしあがる。
Aquestの音声記号列仕様書
https://www.a-quest.com/download/manual/siyo_onseikigou.pdf (※PDF)
文章をそのまま読ませてみた。
「私がウスウスと眼を覚ました時、こうしたみつばちのうなるような音は、まだ、その弾力の深い余韻を、私の耳の中にハッキリと引き残していた。」
・「眼」を「がん」と読んでいる
・「こうした」は「こーした」の方が聞きとりやすい
・「時、」「は、」「を、」など読点直前の音が上がってしまっている。
音声記号でアクセントや区切りを指定した。
「私が,ウスウスと/めを覚ましたと'き,こーしたみつばちのうなるような音'わ,ま'だ,その弾力の深い余韻を、私の耳の穴の中にハッキリと引き残していた。」
これは、それっぽく聞きとれる。
語尾上がりになっていたところ(「とき」の「と」など)にアクセントを入れただけでずいぶん聞き取りやすくなった。
アクセントとポーズを調整するだけでかなり音声のクオリティは上がる。
なんでこんなこと調べたかというと。
今、スクリプトで作った音声付き電子書籍は句読点単位でバラして音声を作っている。
もしかして、センテンス(もっと長文)ごとで音声を付けた方が、SofTalkや棒読みちゃんがそれっぽく音声記号をつけてAquestのライブラリに渡してくれて自然な読みになるのでは、と。
でもやっぱり、それなりの調教は必要だなあ。ラクな道はないようで…。
ちなみに句読点単位でバラした方がそれっぽい、かも。
読点直前の語尾上がりがおさまっている…て、バラす時に読点を削除してるのでその副作用だけどね。
» ローカル環境で電子書籍を作る、Macアプリ・Windows版ツール 「かんたんEPUB3作成easy_epub」