r/Python🔥 14

💬 40

【依存地獄へGO！】一つのアプリに詰め込んだOSSライブラリ、最大いくつ？

Floppy_Muppet

8か月前

ディスカッション (40件)

Floppy_MuppetOP

👍148か月前

皆さん、こんにちは。

今朝、新しいプロジェクトで依存関係の迷宮に迷い込んでしまい、ふと疑問に思いました。node_modulesのミームは皆さんご存知でしょうが、私たちのアプリケーションがいかに多くの素晴らしい無償の成果物の上に構築されているかを見失いがちです。

私が開発しているオープンソースのAIエージェントをチェックしたところ、驚くべき数字が出てきました。なんと、約250ものオープンソースライブラリが使われているのです。

これはLLMの自己チューニングを行う自律エージェントなので、ベクトルデータベース、検索インデックス、SLM推論、可観測性とトレーシング、Webフレームワークなど、様々なスタックが必要です。しかし、これらすべてが並んでいるのを見ると、私の「プロジェクト」は、決して会うことのない何千人もの開発者による数十年の努力の上に構築された、ほんの薄いオーケストレーションのレイヤーに過ぎないのだと思い知らされます。

まさに「巨人の肩に乗る」という言葉を実感します。貢献しなければという責任感も湧いてきますね。

そこで、皆さんの数字が気になりました。これまで依存関係の迷宮にどれだけ深く入り込んだことがありますか？そして、それはどのようなプロジェクトでしたか？

Floppy_Muppet

👍48か月前

ちょいと俺の数字について補足すると、プロジェクトの核がLLM用の自己チューニングエージェントだから、依存関係が雪だるま式に増えるんだよね。API用のFastAPIみたいなのは当然として、可観測性のためにLangFuseを入れると、そいつ自体も依存関係の塊を抱えてる。さらに、lexical search用にMeilisearch、vector search用にQdrantを入れると、それぞれクライアントが必要になるし。OSSエコシステムの力を思い知らされる、壮大で最高な証だよ。

durable-racoon

👍68か月前

依存関係の依存関係のさらに依存関係まで追跡しないと、数えるの難しいよね… がんばって。

Floppy_Muppet

👍48か月前

返信先:>>2

俺の依存関係の一つは、依存関係を数えるために使われてるんだぜ 😆 -- Apache 2.0ライセンスでアプリケーションのコードベースをきちんとセットアップするために、法的に必要だったんだ。

DuckDatum

👍38か月前

返信先:>>2

よし、素粒子レベルまで掘り下げたぞ。すべての依存関係を把握。ちょい質問：Electronはオープンソースとしてカウントされる？

kuzmovych_y

👍28か月前

返信先:>>4

ええ、でもまだ完全に依存関係をリバースエンジニアリングできてないんだ。

george-cox-gjvc

👍28か月前

返信先:>>5

pipdeptreeね

Floppy_Muppet

👍18か月前

返信先:>>4

そう、各バージョンごとにね。重ね合わせの状態じゃない限り。

tunisia3507

👍208か月前

返信先:>>2

依存関係の依存関係のさらに依存関係まで追跡しないと、数えるの難しい

え？めっちゃ簡単じゃん。 pip install . && pip freeze | wc -l

Floppy_Muppet

8か月前

返信先:>>8

💯 その通り！ Pythonだけなら、まさにその通りだね。
俺の~250っていう数字は、コンテナ化されたスタック全体のこと：Next.jsのフロントエンドとか、vector DBとか。マジで深い沼だよ！

編集： 🤦‍♂️一本取られた

durable-racoon

👍18か月前

返信先:>>8

待って、マジだ。

cgoldberg👍 62

8か月前

RustとかNode/JSだと、100個以上の依存関係がないプログラムを書く方が珍しいくらい。

Pythonは"batteries included"だから、そこまでひどくないけど… いくつかパッケージを追加すると、すぐに数十個の推移的依存関係を抱えることになる。

Floppy_Muppet

8か月前

返信先:>>11

💯 最高でいくつまで数えたことある？

F4Color

👍198か月前

返信先:>>12

依存関係の数なんてほとんど重要じゃないから、気にしてる人なんていないと思うよ。

Floppy_Muppet

8か月前

返信先:>>13

サイズは関係ないって？

F4Color

👍68か月前

返信先:>>14

パッケージをインストールしてみて。依存関係の解決に時間がかかりすぎる？もしそうなら、減らせないか試してみて。でも、依存関係の数自体は重要じゃないよ。

cgoldberg

👍18か月前

返信先:>>15

互換性、脆弱性、ライセンスコンプライアンスを把握するためには重要だよ。直接的および推移的な依存関係が多ければ多いほど、検証する必要があるものが増える。フェッチやインストールにかかる時間の問題だけじゃないんだ。

No_Dig_7017

👍128か月前

空間データ補間のためのRライブラリをまだ動かしてるんだけど、依存関係が400以上あるんだよね。今考えると、マジで良くないプラクティスだわ。200くらいまで減らせると思うけど、めっちゃ大変そう。

Floppy_Muppet

8か月前

返信先:>>17

Rで400以上の依存関係を抱えて空間データを扱ってるなんて、マジですごい。このスレッドでハイスコア取ったんじゃない？

維持してるのもリスペクトだわ。

notkairyssdal

👍78か月前

NetflixのJavaのプロダクションアプリで、1000以上のjarを見たことあるよ。

Floppy_Muppet

8か月前

返信先:>>19

それはすごい数だね。エンタープライズJavaの世界は、まったく別のレベルの複雑さで動いてるんだな🤯

その依存関係グラフがどんな風になってるか想像すると、感心すると同時にちょっと恐ろしくもなるよ。それを動かし続けてるエンジニアに乾杯🥂

morgancmu

👍18か月前

めっちゃ興味深いんだけど、プロジェクトは何してるの？「LLMの自己チューニング」ってところで食いついちゃった。

me_myself_ai

👍68か月前

マジか、負けた！俺のオープンソースAGI（😉）は、サブ依存関係込みで239しかないよ。とは言え、google-api-python-client、markitdown、dspy-aiがかなりの割合を占めてるんだよね。特に最後のはヤバい。明らかに、アカデミックな人たちはバンドルサイズなんて気にしてないんだな！

Floppy_Muppet

8か月前

返信先:>>22

マジかよ、ついにやったやつが現れた。AGIを完成させたのに、Redditのスレッドでさりげなく発表してるの？！😉 🫶

それに、アカデミックなパッケージについては全くその通りだね。dspy-aiはゲームチェンジャーだけど、pip installを実行すると、スタンフォード大学のCS学部を半分ダウンロードしてる気分になる。

einkelflugle

👍98か月前

返信先:>>23

コメントごとにAIを使って返信を書いてるの？悲しいね。

Floppy_Muppet

8か月前

返信先:>>24