電子書籍のデータ量と画質を0.1mmスケールテンプレートで評価するとともに古書の修復等について紹介している。
(The latest update: 2024年12月7日)
(The first upload: 2019年4月27日)
おいでやす
.
公的図書館では、見開きページをそのままカラーでスキャンしているので解像度は得られているが傾きや変色があり読みずらい場合が多い。ここでは、個人所有の書籍を裁断した上で、原画に適した方法でスキャンし1ページ毎に退色補正等を行っている。そのため 、特に古い書籍を綺麗に仕上げるにはその都度条件に応じた工夫と労力とを要する。
電子化の主な利点
- 検索、拡大縮小等の利便性の向上。
- スペース、重量を一挙に低減(1冊平均重量750gx1000冊で750kgの重量低減と1冊平均厚さ1.5cmx1000冊=15m分のスペース低減)。
- 清潔さ、保存性を向上。古い書籍は黄ばみ変色が避けられないが電子化すれば補修後綺麗な状態を維持することができる。
次に検索例を示す。これは、筆者の著書に検索キーワードを付加した場合で、左側で検索キーワードとして”面内ひずみ”を入力すると複数の候補が抽出される。上から3番目の”面内ひずみベクトルε、垂直せん断ひずみベクトルγ、曲率の変化を表”をクリックすると右側にそのページ(p28)が表示される。
電子化の留意点
- 書籍全体のデータ量、各ページの画質を考慮してスキャン方法を決める。
- 古い書籍の劣化(変色、裏映り等)の修復方法を検討する。
データ量と画質
次のグラフは、筆者が所有電子化した書籍について1ページ当たりのデータ量を調べたもので、横軸は1ページ当たりのデータ量、縦軸は書籍の数であるが、この書籍の数とは単行本を1冊として扱うが、同一シリーズや上下巻は1冊とみなしまた同一タイトルの書籍例えば月刊誌の場合数10冊あっても1冊としてみなして、それらみなし1冊分の平均をとった上で1ページ当たりのデータ量を求めている。すなわち縦軸の書籍数はみなし1冊を含んでいる。奥行は書籍の種類で、教科書(小学校~高等学校)、専門書(大学以降)、雑誌の2種類に分類した。教科書は比較的データ量は少なく、専門書は教科書よりも大きい。雑誌についてはその内容によって大きく異なりフルページのカラー写真を高画質で電子化しようとすれば1ページ当たりのデータ量は非常に大きな値となる。
尚、1冊当たりのデータ量でみると、最大は上限の2GBであるが、最小は岩波書店の数学公式集Ⅰ(微分積分・平面曲線、354ページ)の14MBとなっている。
スキャンする場合には、画質とともにデータ量に注意しなければならない。PDF化書籍のデータ量を2GB以下に抑えつつ最高画質を得るには原画の種類毎にスキャン方法を変更する必要がある。カラー写真(600dpi、画像サイズ:4903x6880)のデータ量は28.4MBでテキスト(画像サイズ:4846x6926)のデータ量5.21MBの約5.5倍となっている。もしテキスト画像サイズを実用サイズの1200x1715とすればそのデータ量は755kBと大幅に削減できる。画像サイズがページ毎に変化しても表示では自動スケーリングされる。
スキャン時の解像度による画質の違い
ここでは、具体例としてスキャン時の解像度を変化させたときの画質を調べる。
0.1mm間隔のスケールとグリッドをスキャンした場合
ここではデジタルマイクロスコープ用に作成されたテンプレートから0.1mm間隔のスケールとグリッドをスキャンした場合について検討する。
- 150dpi
- 300dpi
- 600dpi
- 1200dpi
150dpiの場合
下の画像のようにほとんど読み取ることができない。
300dpiの場合
300dpiの場合を次に示す。150dpiよりは改善されているが読み取りは不十分である。
600dpiの場合
600dpiの場合を次に示す。600dpiでは150dpi、300dpiに比べて大幅に改善され実用上十分だと言える。
1200dpiの場合
1200dpiの場合では600dpiに比べて更に改善されていることがわかる。
プリント写真からスキャンした場合
対象として約20年前に撮影したプリント写真(銀塩フィルム写真のサービス版)をスキャンする。被写体としては筆者が所有していた米Collins社のR-390Aという受信機のRFデッキを用いることにした。このRFデッキの金属パネルの一部に印刷されている英数字の読み取りを画質の判定に用いることにする。
注)Collins社のR-390Aは、1954~1985年まで累計54,000台以上生産されCollins方式として長期間にわたり世界最高の性能を有していたが、1965年に米ナショナルが発売した世界最初のソリッドステートシンセサイザー受信機HRO-500以降シンセサイザー受信機が主流となった。
被写体となるRFデッキ全体の写真を次に示す(筆者撮影)。上記プリント写真としてRFデッキ全体(下の写真)を次の4通りの解像度でスキャンした上で下の写真の左側の赤枠で囲った部分を抜き出して文字の読み取りの差を調べることにする。
- 150dpi(RFデッキ全体のデータ量: 135kB)
- 300dpi(RFデッキ全体のデータ量: 395kB)
- 600dpi(RFデッキ全体のデータ量: 1.227MB)
- 1200dpi(RFデッキ全体のデータ量: 4.392MB)
150dpiの場合の赤枠内の文字を下の写真に示す。下の写真ではほとんどの文字は読み取ることができない。
300dpiの場合の赤枠内の文字を下の写真に示す。下の写真で左上の文字には正確に読み取り困難な部分がある。
600dpiの場合の写真を下に示す。下の写真のように実用上ほとんど問題なく全ての文字を読み取ることができる。
1200dpiの場合の写真を下に示す。下の写真でわかるように文字を全て問題なく読み取ることができる。
以上のようにスキャン解像度に違いによって文字の鮮明度が異なるが、一方データ量も異なるので使い分けることが重要となる。
古書の価値
ウェブ検索は現代において必須であることはいうまでもないが、例えば事象の源流、歴史的経過をたどりたい場合に項目や概要は得られても詳細な情報は得られない場合が少なくない。そのような場合に古書は有益で、ここでは筆者が所有する書籍の中からいくつかを紹介する。
1) 東京オリンピック(1964年)での通信衛星による世界初のテレビ同時中継
1964年の東京オリンピックでは世界で初めて通信衛星によってテレビの日米同時中継が行われた。カリフォルニア州の米海軍ミサイルセンター、ポイントマグー地上局の85フィートアンテナを使って1964年の東京オリンピックのテレビ画像がシンコム3号を中継して米国、カナダへ送信された。このときの仕組みとポイントマグー地上局が電波技術1964年12月号に紹介されている。
2) 日米海底ケーブル(1964年)
海底ケーブルは重要なインフラの1つであって最近ではクリーンネットワークの1要素として注目を浴びている。第2次世界大戦以後の日米の海底ケーブルは1964年に開通した。神奈川県からグァム、ミッドウェイを経てハワイまで9,800kmあり、そこで既設のハワイ~米本土間の3,900kmケーブルに接続される。そのときの様子がラジオの製作1964年8月号に掲載されている。
3) アポロ11号(1969年)の通信システム
アポロ11号は月面着陸とともにテレビ同時中継も世界を驚かせたが、その技術的な仕組みを解説した記述した記事は新聞、テレビを問わずほとんどないため様々な憶測、誤解や陰謀説を招くことになった。ラジオ技術1969年12月号の”ラ技アンテナ”では”アポロのラジオシステム”について紹介されている(p53)。この中に、アポロの通信システムが、UHF、VHFを組み合わせたものであることや宇宙飛行士、着陸船、指令船、地球の間の通信の仕組み、また、当時の通信業界を牽引していたコリンズ(上記スキャン時の解像度による違いで紹介したCollins)、モトローラ、レイセオン等が関係していたことが記述されている。
4) 尖閣諸島
古い地図には日本と外国との国境線が明確に描かれている。
1965年の新詳高等地図(帝国書院発行)の72ページには尖閣諸島付近が描かれており、日本と中国との国境線の日本側に尖閣諸島が描かれている。 海上保安庁のホームページに中国海警局の行動が掲載されている(下記URL)。
5) 竹島
1965年の新詳高等地図の29ページに竹島付近の地図が明確に描かれており、日本と韓国との境界線が竹島の北側に引かれていること、日本海の英語表記が"See of Japan"と期されていることがわかる。
6) 北方領土
1965年版の新詳高等地図のp92には、北方領土について、日本と旧ソ連との国境線が描かれている。それによれば千島列島の北端にある占守島(シュムシュ島)の北に赤線で線引きされている。
古書の劣化の修復
1) 変色の修復
古書では変色(黄ばみ)を避けることはできない。特に周辺部は光にさらされるので変色する場合は多い。変色している場合でも適切に処理するときれいにすることができる。
2) 裏映りの修復
古書では変色、退色、裏映りが混在していることが多い。変色(黄ばみ)、裏映りがひどくまた退色している場合でもを適切に処理すると修復することができる。裏映りは反対側の印刷が滲んでくるもので特に古い雑誌の場合に顕著となる。裏映りを除去すれば格段に品質が向上する。
3) 写真とテキストが1ページ内に混在している場合の最適化
テキストのみの場合にはドキュメントスキャナーで白黒でスキャンすればきれいに仕上がる場合が多いが、写真や画像とテキストが混在する場合には白黒では写真の階調がでない。反対にグレースケールではテキストの黄ばみが黒ずみとなって残るので工夫を要する。白黒でスキャンするとテキストは鮮明であっても写真の階調が再現されない。適切にスキャンすればテキストとともに写真も鮮明となる。
筆者が小学1年生の時に白い画用紙の上に描いた絵の修復例を示す。上図はオリジナルで黄ばみ、変色、退色が見られる。この絵を下図のように修復することができる。
(オリジナル)
(修復後)