ディスカッション (11件)
Hacker Newsにて、Wispr Flow、Superwhisper、Monologueといった人気AI音声入力ツールの無料代替(オルタナティブ)が紹介されました。これらは通常、高度なAI書き起こし機能を提供するサブスクリプション型ツールですが、今回登場したのはそれらに代わるフリーの選択肢です。AIを活用して「話すように書く」体験をコストを抑えて実現したいエンジニアにとって、非常に注目すべきプロジェクトとなっています。
この手のツール、かなり需要ありそうだね。優れたローカルモデルがあるから、API経由の文字起こしはあんまり好きじゃないんだ。全部ローカルに保存して、完全にオープンソースなAxii(https://github.com/bwarzecha/Axii)を作ってみたよ。どんな企業でも簡単に使えるし、どこにもデータは送信されない。
macOS向けにVoiceInkっていうオフラインで動くソフトウェアもあるよ。Groqとか外部のAIは必要なし。https://github.com/Beingpax/VoiceInk
今朝ちょうどこれ探してて、結局 https://handy.computer/ に決めた。
キーバインドのカスタマイズってできる?この手のサービスの大半はキーバインドが変えられるし、プッシュ・トゥ・トークの切り替えにも対応してるんだよね。
似たような機能のアプリについて聞いてる人が多いから書くけど、俺はMacWhisperに大満足してる。Parakeetが使えて、長い独り言もほぼ一瞬で文字起こししてくれる。全部ローカルだよ。追記:あ、でもParakeetは無料じゃなかったかも。それでも買い切りアプリとして十分価値はあるけどね!
ちょっと違うアプローチでVoibeを作ってみた。精度の最大化(Whisperよりずっといい)のために、カスタムプロンプトを設定できるgpt-4o-transcribeを使ってる。自分のOpenAI APIキーが必要。https://github.com/corlinp/voibe。今は名前が有料サービスに取られちゃってるみたいだけど……残念。
こういうツールを毎日使ってる人は、録音とキャンセルに何のキーを組み合わせてる?自分は今はCaps Lockを使ってるんだけど、他の人はどうしてるか気になって。
このスレを見てると、各ツールを比較したブログ記事があったら便利そうだね。
Appleが今出してるひどい音声入力を置き換えられる、iOSキーボードとして動くやつってある?
NaturalReaderの代わりをバイブスで自作しちゃった。サブスクが年110ドルだったから……たった今解約したよ。音声生成はChatterbox TTS (Resemble AI)で、WhisperXで単語レベルのタイムスタンプを出してクリックでジャンプできるようにした。FastAPIでSSEストリーミングを組んで、生成が全部終わる前に再生が始まるように繋いである。最初のチャンク生成に5秒くらいバッファがあるけど、その後はリアルタイム以上の速度でストリーミングされるから、再生が止まることはほぼないね。今日4時間くらいで作れた……やばいな。