HN🔥 31
💬 3

AIの力で100年前の古文書をデジタル化!ClaudeとMistralを活用した個人開発の裏側

dogline
約15時間前

ディスカッション (4件)

0
doglineOP
👍31約15時間前

私の曾祖父、ルーベン・P・ボックスは北カリフォルニアの森林警備隊(USFS)員でした。私は、彼が1927年から1945年にかけて綴った日誌を所有しています。大恐慌、第二次世界大戦、民間資源保護局(CCC)の活動、そして数多の山火事を生き抜いた日々の記録です。今回、その全ページをスキャンし、Claudeを活用して文字起こし、インデックス作成、そしてWebサイト構築を行い、こちらに公開しました。https://forestrydiary.com/。これは長年温めていたプロジェクトでしたが、ClaudeやMistralが手書き文字の認識を助けてくれたおかげで実現しました。さらにAIの力を借りて、各ページを自動スキャンしてデータベースに格納するカスタムスキャンアプリまで自作し、一気に作業を進めることができました。私の知る限り、全ページがデジタル化され公開されている米国の森林警備日誌はこれが唯一のものです。他にもコレクションとして存在する日誌はあるようですが、スキャンまでされているものはないはずです。誰かの役に立つことを願っています。これこそ、ClaudeやAIが真価を発揮するタイプのプロジェクトだと言えます。ずっと棚上げになっていた個人的なプロジェクトが、AIの助けによって、空き時間に完成させられる現実的なタスクに変わりました。これで稼ごうとは思っていません。ただ、私たちの歴史と知識をほんの少しアップデートしたかっただけなのです。

1
dogline
約15時間前

あと、一応補足しておくと、7488ページ全部自分でスキャンしたんだ(Fujitsu ScanSnap ix500を使用)。Claudeの助けを借りて、SANEのドキュメントに載っていないオートクロップと補正機能を見つけて、LinuxのPythonスクリプトで自動スキャンしながらPostgresデータベースに保存していった。別のスクリプトで文字起こし、要約、自動インデックス作成も行ったよ。「mistral-ocr-latest」は、かなり細かくて小さい手書き文字も驚くほど正確に書き起こしてくれた。そのあと、またClaudeのAPIを叩いて、月ごとの要約を作ったり、全データから人物や場所を抽出したりした。最後は、最初Flaskで作っていたアプリから、Claudeを使って静的なHTMLページを生成して、Dreamhostで公開したんだ。

2
reaperducer
約15時間前

豆知識:「Government mule(政府のラバ)」っていうのは単なる言い回しじゃなくて、実在するものなんだ。アメリカ政府(森林局とか)は、今でも他の方法では辿り着けない場所に荷物を運ぶために、ラバのチームを雇っているんだよ。

3
toomuchtodo
約15時間前

お見事!これらのスキャンデータはInternet Archiveにアップロードした?もしそうでないなら、ぜひ検討してみて。 https://help.archive.org/help/uploading-a-basic-guide/ (https://help.archive.org/help/uploading-a-basic-guide/) https://help.archive.org/help/managing-and-editing-your-item... (https://help.archive.org/help/managing-and-editing-your-items-a-basic-guide/) Trail Crew Storiesもこれに興味を持つかもしれないね。 https://www.trailcrewstories.com/ (https://www.trailcrewstories.com/)