HN🔥 210
💬 96

【Mac限定】データ流出なし!100%ローカルで動く爆速音声入力ツール「Ghost Pepper」

MattHart88
約6時間前

ディスカッション (11件)

0
MattHart88OP🔥 210
約6時間前

「自分のPCから一切データを出さずに、100%ローカルモデルだけで音声入力アプリがどこまで使い物になるか」を突き詰めたくて開発しました。個人的には、コーディングやメール作成にめちゃくちゃ使い倒しています。最近は、他の自作エージェントを操作するための音声インターフェースとしても実験中です。100%オープンソース(MITライセンス)で公開しているので、フィードバックやPR、今後の進化についてのアイデアなど、ぜひコメントお待ちしています!

1
charlietran
約6時間前

共有ありがとう!ローカルでのスピードとプライバシーを重視してるのがいいね。似たような目的のHex (https://github.com/kitlangton/Hex) を今使ってるんだけど、それと比べてどんな感じか教えてくれる?

2
goodroot
約6時間前

いいね!Linuxユーザー向けに https://github.com/goodroot/hyprwhspr を作ったよ。Linuxなら最新のCohere Transcribeモデルが使えて、これがめちゃくちゃ精度いいんだよね。GPUは必要だけど。大きめのローカルモデルなら、基本的にはクリーンアップ用のサブモデルは要らないはず。WhisperKitとfaster-whisperとかを比較してみた?turbov3ならうまく動いて、クリーンアップの手間もなくせるかも。ちなみに、AppleがいつネイティブのSTT(音声文字起こし)を出して、この界隈を全部かっさらっていくのかとヒヤヒヤしながら待ってるよ(笑)。

3
parhamn
約5時間前

Whisper関連のツールをよく見かけるけど、これって昔のOpenAIのWhisperのままなの?それともかなりアップデートされてるのかな?俺はParakeet v3を使ってるんだけど、これ最高だよ(しかも超軽量)。かなり開発が進んでるはずなのに、いまだにWhisperばかり目にするのがちょっと不思議なんだよね。

4
ericmcer
約5時間前

この手のツールは結構あるけど、自分にとってのキラー機能は自分の声に合わせてモデルをファインチューニングできることかな。例えば、名前が「Donold」(ドナルドと同じ発音)だったとしたら、今のところ正しく書き起こせるモデルなんて存在しない。つまり、自分の名前やメールアドレスを打つのは諦めるしかないってこと。話し方の癖とか、よく使う業界用語とかと組み合わせられたら、もっと便利なツールになるはず。「この音声データに一致する一般的な単語を予測する」選択肢は山ほどあるけど、「『自分にとって』最も一般的な単語を予測する」セットアップは見当たらないんだよね。

5
primaprashant
約4時間前

音声文字起こしは、自分の開発フローに欠かせないものになってる。特にLLMやコーディングエージェントへの詳細なプロンプトを口頭で指示するときにね。プラットフォームごとに分類した、最高のオープンソース音声入力ツールをawesome形式のGitHubリポジトリにまとめてみたよ。みんなの役に立つといいな! https://github.com/primaprashant/awesome-voice-typing

6
atlgator
約4時間前

このスレッド、それぞれが独自に同じようなmacOS用音声文字起こしアプリを作っちゃった人たちの互助会みたいになってるな。

7
arkensaw
約2時間前

これ素晴らしいと思うし、けなしてるわけじゃないんだけど、この手のアプリを見るたびに自分のスマホを思い出すんだよね。2021年のGoogle Pixel 6は、オフラインでも音声文字起こしができるし、文脈に合わせた修正もしてくれる。喋ってる途中でミスをしても、後から文の前の方を遡って修正してくれるんだ。Googleが5年も前から詰め込んでる、WhisperやQwen以前の技術って一体何なんだろう?なんで今さら、もっと強力なプラットフォームで1GBものTransformerが必要になるのか不思議だよ。

8
raybb
約2時間前

https://github.com/openwhispr/openwhispr と比べてどうなのかも知りたいな。openwhisperはデバイス上でも動かせるし、リモートプロバイダーも設定できるのが気に入ってるんだ。

10
fiatpandas
約1時間前

クリーンアップ用のプロンプトを調整する必要があるね。一人称視点でAIアシスタントに話しかけるような内容だと、指示を完全に無視して「返答」しようとしちゃうんだ。プロンプトをいじってみたけど、AIアシスタントっぽく振る舞わせないようにする方法が分からなかった。