2012年4月23日 13:49

「コピペできない文章」なんぞ10年前からあったわ！（温故知新エントリ）

スポンサードリンク

今、ネットではブラウザに表示されたHTML文書内の文章をコピー＆ペーストしても、意図した文字列が貼りつけできない、というネタが流行しているみたいです。

絶対にコピペできない文章を作ったったwwww - てっく煮ブログ [d.hatena.ne.jp]
「コピペできない文章」がコピペできなかった理由 - てっく煮ブログ [d.hatena.ne.jp]

しかし、印刷業界ではこのネタはもう10年以上前に発生していたのです！！

愛媛県 / 第５次愛媛県地域保健医療計画第4章医療提供体制の現状、目標及び整備方針
http://www.pref.ehime.jp/h20180/keikaku/keikaku/pdf/07chap4-1.pdf [www.pref.ehime.jp, PDF]
熊谷市土砂災害ハザードマップ
http://www.city.kumagaya.lg.jp/kurashi/kankyo_sumai/bousai/dosyasaigai-map.files/dosya_kasikiokanisi.pdf [www.city.kumagaya.lg.jp, PDF]

これらのPDFは、コピー＆ペーストすると、変な文字列に化けてしまっています。

▲日本語をコピペしたのに暗号

これの種明かしをすれば、当時の印刷業界向けシステムでは、文字データと同時にフォントも一緒に書き出す（HTMLでいえば、HTMLの中にCSSを書いてデータURIスキームにウェブフォントを仕込ませるようなもの）が始まったばかりで、最大256文字までしかグリフを入れられないType1フォントという仕様を使ってむりくり実現しちゃったせいなのでした。

印刷用の原稿データにするのならば、これでも全然問題なかったわけですが、PDFにするということは、当然ネットに公開するという用途もありますよね。

こんなPDFをネットにアップしていると、Googleは本文の内容を「ABCDEF……」と認識してインデックスしていますので、とっても残念なことになります（Googleで「filetype:pdf 0123456789」を検索するとわんさか。）。今更こんな設定になっているマシンやソフトがまさか残っていないと思いますが、もし業務でやっているのであれば、PDF書き出しした後は、ちゃんと「機械が読めるようになっているか」を確認するのも仕事の範疇だと思うのです。

【宣伝】

このような印刷とウェブまわりの余計な知識などを満載した僕は現在求職中です。サーバインフラ、ウェブプログラミングもできますので、もしなにかお役にたてるような業務がございましたら、Twitterアカウント（@CLCLCL）でご連絡くださいますと大変うれしゅうございます。

一応、会社から解放された記念で、2012年4月28日に新潟でPerlの小ネタを発表させていただくつもりでございます。
Niigata.pm tech talk #1 : ATND [atnd.org]

2012.04.23 13:49 投稿　大野義貴 [PDF] | 固定リンク |