ディスカッション (10件)
長年ドキュメントのデファクトスタンダードとして君臨してきたPDF。しかし、データ抽出の難しさやレスポンシブ非対応など、現代の開発現場では「負の遺産」としての側面が目立ってきています。今、そんなPDFの限界を打ち破り、よりWebフレンドリーな形式へと移行しようとする「PDFとの戦い」が世界中で熱を帯びています。
いやはや、ひどい記事だな。出来の悪いソフトウェアがPDFの扱いに苦労しているとか、アクセシビリティが後回しにされているとか(悲しいかな、ほとんどのものがそうだけど)、そんな話ばかり。自分たちが車輪の再発明ができると思い込んでいる小規模なグループがいるみたいだけど、HTMLやPDFが持つ先行者利益を覆すには相当な努力が必要だっていう事実を完全に無視してる。このコメントの方が、その「無視している」という一文のおかげで元の記事より情報量が多いよ。
しかし、PDF協会の代表であり、このフォーマットの守護者であるDuff Johnsonは、悪いのはファイル形式ではなく我々自身だと主張している。開発者がPDFを扱えるボットを作れない理由はないというわけだ。Adobe Acrobatに組み込まれているAIアシスタントは、まさにそれを実現するために設計されていると、同社のPDFの第一人者であるLeonard Rosentholは指摘している。
設計されているのは分かったけど、記事の前半で指摘されていたような問題を抱えずにちゃんと機能しているのかね?
Factifyっていうイスラエルのスタートアップの宣伝にしては説得力に欠けるな。彼らの新しいドキュメント形式は「クローズドソース」らしいけど、今の世の中、不信感が渦巻く中で、広く世界中で使われるPDFの代替品として出すには致命的じゃないかな。PDFを置き換えるべきだっていう説得力のある根拠は、正直ないと思う。
PDFといってもピンキリなんだよね。
自分が目にするPDFの多く(ほとんど?)は、Microsoft Wordやその他のMS製品から生成されたもので、構造なんてこれっぽっちもない。
MS製品を使う大多数の人は、構造なんて理解していないし、どうでもいいと思っているんだ。
WYSIWYG(見たままが得られる)という呪縛のせいで、テキストを「見出し」として定義することなく、フォントサイズや色、装飾などのマークアップばかりが詰め込まれる。
段落、改ページ、段組みなんかも同じだ。
作成者にとって、そのドキュメントは見た目さえ合っていればOKなんだよ。
Wordのバージョンやフォントが違う他の人には、めちゃくちゃに見えるのにね。
だから作成者は、この無数の環境差異を乗り越えて見た目を統一するために、フォントを埋め込んだPDFを書き出すハメになる。
その結果出来上がるのは、見た目を制御するための情報と中身がごちゃ混ぜになっていて、人間にも読めないし、見出しや図表、段落、注釈といった元のドキュメント構造なんて微塵も残っていないシロモノさ。
さらに言えば、単にテキストページの画像が並んでいるだけのPDFだってある。
スキャンが綺麗なら、優秀なOCRでなんとか内容を復元できるかもしれないけどね。
結局何が言いたいかっていうと、ツールがどうこうじゃないんだよ。
作成者が意味のあるセマンティックな方法で構造や書式をエンコードしない限り、何を使っても同じことだ。
PDFとの戦いって、AIが馬鹿すぎてPDFを読めないっていうのが根拠なの?それってAIの非力さを物語っているだけで、PDFが悪いわけじゃないよね。私という自然知能(人間)なら、PDFなんて簡単に読みこなせるんだから。
PDFという名の画像集の山として送られてくるドキュメントを読み解く作業、恋しくなるんだろうな。