スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
line

どうやってデジタルブックを作る?

 デジタルブックの形式は大きくわけると2種類あります。
テキスト形式と画像形式です。

 Amazonや出版社がデジタルブックを販売する場合、小説などはテキスト形式でコミックなどは画像形式で販売します。

 これはテキスト形式の方が容量が小さくて済み、文字の大きさを読みやすい大きさに変えても画面の大きさに合わせて自動的に改行してくれ、更に文字で容易に検索することも出来るためです。

 しかしこれにもデメリットはあります。
それはページのデザインが崩れてしまうことです。
例えばページをめくったらそこに犯人が! という風に、せっかく作者がページを意識した作りをしていても、行数が増えページの切れ目が変わってしまうと全て台無しになってしまいます。
あるいは、見開きのページに挿絵と台詞が並んでいたのがバラバラになってしまう事もあるでしょう。

 自分でデジタルブックを作る場合、小説もコミックも全て画像形式に成ります。
これはOCRで日本語を解析しても望み通りの結果が得られないからです。

 今時のOCRは優秀で普通の文章であれば95%程の成績を納められるようですが、小説などにはルビとページ番号が有ることが多く、その付近の解析で失敗してしまいます。
特にルビがあるとそこを横向きの文章だと誤解してしまい、メチャクチャな文章になってしまいます。
ルビに対応したOCRも有るようなのですが高額のためちょっと手が出せません。

 ということで技術的・金銭的に画像形式しか選ぶことは出来ないのですが、画像形式にはページのレイアウトや文字フォントを保持できる事や、手書きのメモなどがそのまま残っているなどのメリットもあります。
<追記>
 調べたところMeTilTranというソフトを使うとルビやページ番号(ノンブル)を削除することが出来ます。
 処理をしたあとOCRにかけたところ飛躍的に誤訳が減りました。
 しかしAcrobatのOCRがスカタンで、理解できない事をします。
 行間をいじれば対応できそうな気もしますが、それだと透明文字としては?な事になりそうで
 純粋にテキストを抜き出す目的ならいいんでしょうけど・・・
 色々試してみます。

 さて、ではどうやって本をデジタル化するか。
短いですよw

1.本を1枚ずつバラバラにします
2.スキャナでスキャンします(JPG形式で読む場合はここで完了です)
3.PDF化します(スキャンする際に自動でPDF化まで行うことも可能です)
4.必要ならOCRソフトでテキスト化し、画像の上に透明文字を付与します(検索の手助けになります)

 以上!


次回は出来るだけ安くデジタル化する方法を。






http://pdfhon.web.fc2.com/
スポンサーサイト

theme : 電子書籍
genre : 本・雑誌

line
line

comment

管理者にだけ表示を許可する

line
line

FC2Ad

line
プロフィール

本をPDFに

Author:本をPDFに
FC2ブログへようこそ!

line
最新記事
line
最新コメント
line
最新トラックバック
line
月別アーカイブ
line
カテゴリ
line
FC2アフィリエイト
line
検索フォーム
line
RSSリンクの表示
line
リンク
line
ブロとも申請フォーム

この人とブロともになる

line
QRコード
QRコード
line
sub_line
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。