ディスカッション (2件)
Hacker Newsの皆さん、Stefanです。これまで前職で運用してきた「Autofit2」をオープンソース化しました!主に自動テキストモデレーションで活用されてきましたが、あらゆるドキュメント分類タスクに適用可能です。実際に20以上の言語で攻撃的なテキストを判別するモデル構築に成功しており、データセットは github.com/neospe/dataload で公開しています。Autofit2は、前処理から学習、評価までをカバーする多言語テキスト分類用の統合パイプラインです。Sentence Transformersをベースに、少量のデータ(数十件程度)でも精度が出せるFew-shot学習技術「SetFit」を実装しているため、CPU環境でも高いスループットを誇ります。PyTorchベースなので依存関係は最小限に抑えています。使い方はシンプルで、ベースモデルとJSON形式の構成ファイルを用意するだけ。出力としてTorchServe用のモデルアーカイブとモデルカードが生成されます。モデルカードには、タスクのベンチマーク結果や自己整合性テスト、ファインチューニング時のCO2排出量推定、エントロピーベースのバイアス分析が含まれます。特にバイアス評価には50言語分の小規模テストコーパスが同梱されており、私の開発したSentence Transformersのフォーク版「EAR(Entropy-based Attention Regularization)」と組み合わせると最高のパフォーマンスを発揮します。フィードバックお待ちしています!
これってSetFitと何が違うの?単なる別実装ってこと?Hugging Face版はかなり優秀で、多言語分類でもよく機能するよ。インテントマッチングに使ってみたけど、英語の学習データだけでポーランド語やドイツ語なんかでも(翻訳済みの)インテントが「そのまま」うまく動いてびっくりしたよ!https://github.com/huggingface/setfit (https://github.com/huggingface/setfit)