HN🔥 205
💬 86

1911年版ブリタニカ百科事典が爆誕!構造化データで蘇る知識の宝庫

ahaspel
約11時間前

ディスカッション (11件)

0
ahaspelOP🔥 205
約11時間前

「Britannica11.org」は、歴史的価値の高い1911年版ブリタニカ百科事典を、現代のエンジニアが扱いやすい構造化データ形式で再構築したプロジェクトです。膨大な知識ベースが整理され、検索や活用が非常に容易になっています。

1
ahaspel
約11時間前

1911年版ブリタニカ百科事典を、クリーンで構造化された、ナビゲートしやすいサイトとして作り直してみました。

https://britannica11.org/ (https://britannica11.org/)

何ができるか:

– 原本から復元した約3万7千件の記事
– セクションレベルの構造化(記事内で目次をクリック可能)
– 相互参照の抽出とリンク化
– 寄稿者のインデックス化と検索機能
– 原本の巻数とページ参照の保持(閲覧中に表示)
– 各ページのオリジナルスキャン画像へのリンク
– 付帯資料(序文、略語一覧など)の収録
– トピックインデックスの再現とリンク化
– 記事メタデータ(長さ、巻数など)を含む全文検索

作業の大半は解析と再構築に費やしました。見出し、複数ページにまたがる記事、表、数式、多言語、脚注、図版など、こういった作品特有の細かい例外処理への対応が大変でした。

コンセプトは「オリジナルに近い感覚を残しつつ、実際に使いやすいものにする」ことです。

特に以下の点についてフィードバックをいただけると嬉しいです:
– 検索の質
– ナビゲーション(セクション、相互参照)
– 構造的におかしい箇所

パイプラインやデータモデルに関する質問があれば何でも聞いてください。

2
robin_reala
約11時間前

本当に些細なバグ報告で申し訳ないんだけど、選んでいるフォントが「℔」(重量ポンド)に対応していないみたいで、https://britannica11.org/article/22-0688-s2/putting_the_shot のような記事が見づらくなってるよ。最近よく使われる「lb」に書き換えるのはどうかな?

3
rustyhancock
約11時間前

2021年版のEncartaやブリタニカのコピーを入手する方法がないか、ずっと探してたんだ。

LLM以前、そしてコロナ禍以降の情報で、AIに汚染される前の最後の良質な情報源として期待してるんだよね。

子供の頃、CD-ROM版の百科事典が宝物だったんだ(インターネットが普及するずっと前の話だけど)。なぜあんなに好きだったのかわからないけど、雨の日の午後に気に入った記事を開いては、あれこれ読むのが楽しかったよ。

4
realityfactchex
約11時間前

めちゃくちゃ最高。脱帽です。自分も何年も前から、もっと小規模な形で同じことをやろうと考えていたんだ。

知らない人のために補足すると、1911年版ブリタニカはいくつかの理由で高く評価されている(もちろん、嘆かわしい理由で批判されることもあるけれど)。最も有名なのは、第一次世界大戦前の最後の百科事典であり、「あらゆる戦争を終わらせるための戦争」という概念に毒される前の、第1・第2次産業革命や「進歩主義の時代」特有の熱気と楽観主義が色濃く残っていることだね。

実際に https://britannica11.org を試してみたけど、適当に検索した「Portuguese East Africa(ポルトガル領東アフリカ)」の記事がすぐに出てきたよ。

厚かましいお願いかもしれないけど、あったら嬉しい機能として一つ。もし可能ならなんだけど、テキストと元のスキャン画像を並べて表示するオプション(あくまでオプションで!)があると最高だな。すべてのページ画像を記事と一緒に読み込んで、OCRが正確かどうかを確認したり、美しい組版を同時に見たりできたらいいなと思って。現状だと、いちいち画像ページを開いて管理するのが大変なんだよね。最初は「画像もあるんだな」と気づいたけど、サイドリンクがどこにあるか見つけるのに3回もクリックが必要だったし。サムネイルを中間サイズとして表示できれば解決するかも。

とにかく素晴らしい出来だし、動作も速い!

5
Aardwolf
約10時間前

すごくいいね!

いくつか気になったバグを報告するよ:

「Zurich」を検索すると、市ではなく「チューリッヒ州」の記事に飛んでしまう。その記事内にある「Zürich (city)」のリンクをクリックしても、また同じ州の記事が開いてしまうんだ。

記事を閲覧中、左端の検索ボックスが(Firefoxで)全く機能しないみたい。メインページに戻るとちゃんと動くのに。

右側に小さなホームボタンがあるけど、他のサイトの使い慣れた操作感だと、左上の大きなタイトル「Encyclopædia Britannica, 11th Edition」をクリックしてもホームに戻れることを期待しちゃうかな。

6
shantara
約10時間前

現代のテキストと比べて、記事のトーンも構成も全然違ってて面白いな。

例えば「コペンハーゲン」の記事:https://britannica11.org/article/07-0111-copenhagen/copenhag...
地理情報や主要な見所は正確に記述されているけど、著者が自分の感情的な形容詞や、「興味深い・奇妙だ」という主観的な意見を遠慮なく盛り込んでるんだよね。あと、後半のコペンハーゲン海戦に関する巨大な記述は、完全にジャンルが変わってしまっていて、地理解説から海戦の詳細なナレーションに移り変わっているのが興味深い。

7
neonscribe
約10時間前

「思春期(Adolescence)」の記事にあるような、今となっては衝撃的な信念も垣間見えるよね:

「少女の場合、人生の最初の12年間ほどは、兄弟と一緒に走ったり跳ねたり登ったりさせるとよい。しかし思春期が近づき、それに伴うあらゆる変化やストレス、緊張が生じると、生活を適切に修正すべきである。この初期の生理期間中は安静を強制し、それ以外の時期にはより穏やかで漸進的な運動をさせること。同様に、あらゆる精神的ストレスも軽減されるべきである。この時期に知的な教育を過度に強いることは避けるべきであり、学校や本に費やす時間は減らすべきである。教育はより広く、基本的な線に沿うべきであり、多くの時間は戸外で過ごすべきである。」

8
spudlyo
約10時間前

裏側でどうやって情報を構造化しているのか興味があるな。最近、デジタル人文学でXML-TEI形式を使ってこういう作品を意味付けしていることを知ったんだ。XML-TEIでエンコードされたラテン語・英語の「Lewis & Short」辞書を調べているところでね。

BaseXやXQueryをいじって、「全コーパスの中で一度しか登場しない単語(ハパクス・レゴメナ)を書いた古典作家は誰か」「一番長いハパクスは何か(大抵変な単語なんだよね)」といったことを調べるのはすごく楽しいよ。これを公開してくれているタフツ大学に感謝!

1911年版ブリタニカもBaseXに読み込ませて、XQueryで面白い分析ができたら最高だな!

9
doctor_blood
約9時間前

奇遇だね。自分も今、EB第9版のスキャンデータをMediaWiki形式でオンライン化しようと整理しているところだよ。図版も含めて全部載せようとしているから、まだ3分の1くらいしか終わってないけど。

いろいろなOCRツールを試したけど、今のところ「paddleOCR」が一番いい感じだね。テキストの段組みを正しく分離して、図版にラベルを付けたり、欄外の注釈を拾ったりしてくれるんだ。

とはいえ完璧じゃないから、表の一部は手作業で修正中だよ。スキャンしたページ画像と電子テキストを切り替えられるように、元のページ画像も公開する予定。

10
8bitsrule
約6時間前

読んでて面白い部分も……。例えば「星(stars)」の記事[0]とかね…

「星の均一な分布が無限に広がる宇宙の限界に達することはありえない。星が無限の空間に分布する密度がどこであれある一定の限界(どれほど小さくてもよい)を下回らないと仮定すれば、それらから受ける光の総量は(宇宙空間での光の吸収がないと仮定して)無限に大きくなり、夜空の背景は眩いばかりの光で輝くはずである……」

[0] https://britannica11.org/article/25-0806-star/star#section-1...