M.C.P.C.

―むり・くり―プラスコミュニケーション(更新終了)


| トップページ |

2012年4月23日 13:49

「コピペできない文章」なんぞ10年前からあったわ!(温故知新エントリ)

このエントリーをはてなブックマークに追加 mixiチェック

今、ネットではブラウザに表示されたHTML文書内の文章をコピー&ペーストしても、意図した文字列が貼りつけできない、というネタが流行しているみたいです。

しかし、印刷業界ではこのネタはもう10年以上前に発生していたのです!!

これらのPDFは、コピー&ペーストすると、変な文字列に化けてしまっています。

Pdfcopipeerror
▲日本語をコピペしたのに暗号

これの種明かしをすれば、当時の印刷業界向けシステムでは、文字データと同時にフォントも一緒に書き出す(HTMLでいえば、HTMLの中にCSSを書いてデータURIスキームにウェブフォントを仕込ませるようなもの)が始まったばかりで、最大256文字までしかグリフを入れられないType1フォントという仕様を使ってむりくり実現しちゃったせいなのでした。

印刷用の原稿データにするのならば、これでも全然問題なかったわけですが、PDFにするということは、当然ネットに公開するという用途もありますよね。

こんなPDFをネットにアップしていると、Googleは本文の内容を「ABCDEF……」と認識してインデックスしていますので、とっても残念なことになります(Googleで「filetype:pdf 0123456789」を検索するとわんさか。)。今更こんな設定になっているマシンやソフトがまさか残っていないと思いますが、もし業務でやっているのであれば、PDF書き出しした後は、ちゃんと「機械が読めるようになっているか」を確認するのも仕事の範疇だと思うのです。


【宣伝】

このような印刷とウェブまわりの余計な知識などを満載した僕は現在求職中です。サーバインフラ、ウェブプログラミングもできますので、もしなにかお役にたてるような業務がございましたら、Twitterアカウント(@CLCLCL)でご連絡くださいますと大変うれしゅうございます。

一応、会社から解放された記念で、2012年4月28日に新潟でPerlの小ネタを発表させていただくつもりでございます。
Niigata.pm tech talk #1 : ATND [atnd.org]

投稿 大野 義貴 [PDF] | |

トラックバック(0)

トラックバックURL: http://blog.dtpwiki.jp/MTOS/mt-tb.cgi/3931

コメントする