ディスカッション (11件)
Mac用文字起こしアプリ「Trace」を個人開発しました。また会議アプリか、と思うかもしれませんが、少しばかり斬新な工夫を詰め込んでいます。
開発のきっかけは、自分自身の悩みでした。これまでMacWhisperを使っていましたが、会議のたびに準備が面倒で、結局録画を忘れてしまうことが多々ありました。そこで「爆速で起動し、邪魔にならないこと」を最優先に開発しました。グローバルショートカットで起動でき、画面下部に控えめなバーが表示されるUIを採用しています(完全に非表示にすることも可能です)。
こだわったのは、以下の2つの機能です。
- 会議中に「ここ重要!」を即座にマーク:ショートカットキー一つで、その瞬間にメモを挿入できます。会議中にObsidianなどの別アプリにメモを移す手間が省け、LLMに渡す際も重要な箇所が強調されるため、議事録作成の効率が段違いです。
- ライブリキャップ機能:字幕のように、直前の会話を素早く確認できます。
TraceはmacOS標準の録音APIを使用して両者の音声を分離録音し、デバイス上でダイアライゼーション(話者分離)を行います。音声処理や文字起こしはすべてPC内で行われるため、完全オフラインで動作し、データが外部に送信されることはありません(初回のみHugging Faceからモデルをダウンロードするために通信が必要です)。
結果はMarkdown形式で保存されるため、必要に応じてChatGPTなどのAIに渡せば完璧な議事録が完成します。Googleカレンダー連携も可能ですが、こちらはネットワーク接続が必要です。
Mac App Storeで9.99ポンドで提供中です。日々のワークフローを劇的に改善できた自信作ですので、ぜひフィードバックをいただけると嬉しいです。
JohnBizに同意。フラグ立ての瞬間が面白いしユニークだよね。パッシブな文字起こしとはいい対比になってる。最近MacWhisperのことを知ったばかりなんだけど(普段はWindowsメインなので)、Pro版の価格が高すぎてびっくりしたよ。今の時代、DIYでそれなりの精度の文字起こしなんて簡単にできるのに、プレミアムな価格がついてるのが信じられないな。
ダイアライゼーション(話者分離)のパイプラインは何を使ってるの?Pyannote?
自分はLLMによるクリーンアップで超長尺コンテンツを要約・圧縮していくアプローチをとってたけど、ターゲットを決めて「ここを注意!」とフラグを立てるっていうアイデアは面白いね。
いいアプローチだね。ただ、12ヶ月以内にはmacOSの標準機能になりそう。Appleの製品ロードマップに完全にフィットする内容だと思う。
めちゃくちゃ興味深い!ローカルモデルでの文字起こしの精度って、Google MeetとかOtter、Granolaなんかのクラウドサービスと比べてどうなの?
まさにこれを探してたんだ!
App Storeを介さない購入オプションがあれば最高なんだけど。MacでAppleアカウントを使ってないから、Traceを試してみたいんだけどな。
Speech-to-Textには何を使ってるの?設定で変更できたりする?英語以外の言語対応にはそこが重要になると思う。macOS標準のモデルだとドイツ語は全然使い物にならないからさ。
いいね!この手のアイデアのバリエーションがたくさん出てくるのは大歓迎。MacWhisperは昔は良かったけど、今はバグだらけで散々だよ。
自分でも個人用ツールを作ってるんだけど、色々調査した結果、どれも根本的なところが抜けてるんだよね。
ぶつかった主な問題はこれ:
-
クラッシュリカバリ。ほとんどのアプリが信じられないほどバグだらけで、すぐクラッシュする。しかも録音中の音声データごと道連れにされる。MacWhisperのこの点は本当にひどい。
-
ディスク容量。多くのアプリがwavファイルをそのままディスクに保存するから、数時間の会議を録音しただけで数GBも食いつぶされる。
-
マイクの音漏れ。常にヘッドホンを使えるわけじゃないから、システムのマイクがスピーカーから出る音を拾ってしまって、音声が(近似的に)二重に文字起こしされてしまう。
これら全部を正しく解決して、なおかつ高品質な文字起こしができるツールにはまだ出会えてないんだ。
ちなみに、この手のアプリの多くは https://github.com/FluidInference/FluidAudio をベースにしてるみたいだね。気になるなら見てみて。READMEに似たようなアプリのリストも載ってるよ。
これすごく良さそう。ダウンロードしようかと思ったけど、10ドル払うくらいならClaudeに頼んで同じようなものを実装してもらう方を試したいかな。もしオープンソースで、ビルドして試せるなら購入するんだけど。
10ポンド払うのは全くやぶさかではないね。ただ一つ質問。音量を下げたりミュートにしたりしても、会議の文字起こしは継続されるのかな?
すごくいいプロダクトだね。ずっとこういうのを求めてた。ただ、会議の大半は会社のMacでやってるんだけど、そういう環境だとこういうソフトのインストールは許可されないんだよね……自腹を切ってでも買いたいんだけど。