たった1分で高精細な動画を生成!26億パラメータのオープンソース世界モデル「SANA-WM」が登場
SANA-WMは、720p・1分間の動画を生成可能な、26億パラメータを誇るオープンソースのワールドモデルです。
海外掲示板から厳選した技術情報を日本語でお届け
海外の人気投稿を毎日自動翻訳
SANA-WMは、720p・1分間の動画を生成可能な、26億パラメータを誇るオープンソースのワールドモデルです。
MCP(Model Context Protocol)の概要や基本概念を解説するページです。AIと外部システムを繋ぐ新しい標準規格について、まずはここからチェックしましょう。
既存の電圧計を改造して時計にするプロジェクトを、さらに洗練されたデザインへとアップデートしました。見た目の良さと機能性を両立させた、デスク周りを彩るDIYガジェットの決定版です。
Zerostackは、Unixの設計思想に強く影響を受けた、Rustのみで記述されたAIコーディングエージェントです。シンプルさとモジュール性を重視したこのツールが、開発ワークフローをどう変えるのか注目が集まっています。
ずっとTailscaleを愛用していて、その安定感には大満足しています。ただ、最近ネット上でNetBirdを好んで使っている人をよく見かけるので、率直に理由が知りたいです。 単純に「セルフホストの自由度」が高いからでしょうか?それとも価格設定、プライバシー、ACLの柔軟性、あるいはOIDC/SSO周りの機能など、何かTailscaleにはない決め手があるのでしょうか。 TailscaleからNetBirdへ乗り換えたという方に聞きたいのですが、日々の運用において乗り換えるだけの価値は本当にありましたか? 大規模な企業ネットワークではなく、あくまで個人開発やホムラ(ホームラボ)環境での利用を想定しています。皆さんの意見を聞かせてください!
Googleにおける統合開発環境(IDE)の歩みと、その進化の歴史を振り返ります。巨大なコードベースを抱えるGoogleがいかにして生産性を追求してきたのか、その知られざる裏側に迫ります。
「Orthrus」は、Qwen3-8Bなどの既存モデルの重みを固定したまま、推論を劇的に高速化する画期的な手法です。出力分布を完全に維持しつつ、最大7.8倍のトークン生成速度を実現します。 * Code: [https://github.com/chiennv2000/orthrus](https://github.com/chiennv2000/orthrus) * Paper: [https://arxiv.org/abs/2605.12825](https://arxiv.org/abs/2605.12825) * HF: [https://huggingface.co/chiennv/Orthrus-Qwen3-1.7B](https://huggingface.co/chiennv/Orthrus-Qwen3-1.7B) ; [https://huggingface.co/chiennv/Orthrus-Qwen3-4B](https://huggingface.co/chiennv/Orthrus-Qwen3-4B) ; [https://huggingface.co/chiennv/Orthrus-Qwen3-8B](https://huggingface.co/chiennv/Orthrus-Qwen3-8B) * 開示: 共同著者です。 ### 仕組み 固定された自己回帰型(AR)Transformerの各層に、学習可能な拡散アテンションモジュールを注入します。両方のヘッドでKVキャッシュを共有し、拡散ヘッドがK=32トークンを並列投影。その後、ARヘッドが検証を行い、最長の合致プレフィックスを採用します。これにより、元のモデルと論理的に同一の出力分布を保証します。 ### 主な結果 * 推論効率: MATH-500ベンチマークにてTPF(トークン/フォワード)で最大7.8倍、実効速度で約6倍の高速化。 * 学習効率: パラメータの16%を学習。10億トークン未満、8×H200環境で24時間で完了。 * 既存手法との比較: * Diffusion系(Dream, Fast-dLLM-v2等): ベース重みを変更するため精度が低下しますが、Orthrusはベースを固定するためQwen3-8Bの精度を完全に維持。 * Speculative Decoding系(EAGLE-3, DFlash等): 外部のドラフター不要、キャッシュの分離不要で、TTFT(初トークン生成時間)のペナルティもゼロ。KVオーバーヘッドはO(1)(約4.5MiB)で、MATH-500でのアクセプタンス長は11.7と圧倒的です。 * 高速化の鍵: 多段階ではなく単一段階のデノイジング、およびKLダイバージェンスを用いた蒸留が効果的でした。 ### 制限事項 ベースモデルの制約(バイアス、ハルシネーション、知識の欠如)をそのまま引き継ぎます。現状の評価はQwen3のみで、貪欲法(Greedy)+リジェクションサンプリングのみ対応しています。
Jetson Orin NX 16GBを心臓部に搭載し、完全オフラインで稼働する自律型スーツケースロボット「Sparky」を構築しました。Wi-FiもBluetoothも一切不要。Gemma 4 E4Bを搭載し、独自の判断で意見を述べることも可能です。 ハードウェア構成: ・モデル: Gemma 4 E4B (Q4_K_M量子化、llama.cpp、q8_0 KVキャッシュ、flash attention使用) ・性能: 12Kコンテキスト、TTFT(最初のトークン生成までの時間)は約200ms、安定して14-15 tok/sを記録 ・音声処理: STTにSenseVoiceSmall、TTSにPiperを使用し、43Hzで口の動きを同期 ・インターフェース: 蓋のディスプレイにはPixiJSで描画した顔を表示 ・センサー: 30以上のセンサー情報を自然言語として毎ターンプロンプトに統合 今回の最大の技術的成功は、キャッシュ安定化のためのプロンプト構造です。ペルソナとツールを最上部に、履歴を中間に、動的なセンサー・視覚データを最新ユーザーターンの末尾に配置しました。これにより、動的なコンテキストをシステムブロックから分離し、TTFTを数秒から約200msまで劇的に短縮できました。 物理操作: ネットワークインターフェースは皆無。ボタン列、ジョイスティック、アナログエンコーダーノブを使用して、すべてデバイス上で完結する設定機能を実装しています。 現在、OrinクラスのハードウェアでE4Bを動かしている方は他にいますか?トークン生成速度の比較や、プレフィックスキャッシュを圧迫せずにセンサーやツールコンテキストを扱う手法について、ぜひ情報交換したいです。
元記事はこちら: https://www.fastcompany.com/91542655/bitwarden-scrubs-always-free-and-inclusion-values-from-its-website-as-longtime-execs-step-down 「後任のマイケル・サリバン氏は、AcquiaとInsightsoftwareの両社でCEOを務めた人物。自身のLinkedInでも、大手プライベートエクイティ企業との連携を含む『M&Aのあらゆる側面』に精通していることを強調しています」 現時点でBitwardenがセルフホスト版のサポートを打ち切ったり、アプリからセルフホストサーバーへの接続オプションを削除するという明確な証拠はありません。しかし、長年の幹部が退任し、買収のプロが指揮を執ることになった現状、Bitwardenの将来について少し嫌な予感がするのは私だけでしょうか…?
イベントソーシングにおけるデータ操作を劇的にシンプルにする、SQLライクな新しいクエリ言語が公開されました。イベントストアからのデータ抽出や分析を、直感的な構文で効率化できる注目のプロジェクトです。
PET(陽電子放出断層撮影)検査は、現代医療において欠かせない診断技術ですが、その仕組みを支えているのは高度な原子核物理学です。PET検査がいかにして放射性同位体の崩壊を利用し、私たちの体内を可視化しているのか、その技術的な基盤について解説します。
インターネット文化の黎明期を支えた膨大なテキストファイルと歴史的価値のあるデータが、Jason Scott氏によって保存されています。以下のリンクから、当時の空気感をそのまま残した貴重なアーカイブの数々にアクセスできます:https://web.archive.org/web/20260501220231/https://ascii.textfiles.com/
自動運転タクシーを展開するWaymoが、走行中に水たまりへ突っ込んでしまうというトラブルを受け、約3,800台の車両に対して緊急のソフトウェアアップデートを実施しました。自動運転システムの判断ミスを防ぐための重要な修正となります。
ABC NewsがFiveThirtyEightの過去記事をすべてオフラインにしました。これにより、貴重なデータジャーナリズムや政治分析のアーカイブがインターネット上から閲覧できない状態となっています。
OCamlが宇宙空間で活躍する、そんな驚きのプロジェクトについて探求します。高信頼性が求められる宇宙ミッションにおいて、関数型プログラミングがどのように貢献しているのか、その技術的な背景や可能性を深掘りします。
ブラウザ上で動作するPPO(Proximal Policy Optimization)の学習デモを公開しました。tinygradの「TinyJit」から「WebGPU」カーネルへの変換機能によって実現しています。動作にはWebGPU対応ブラウザが必要です。
「Image-blaster」は、1枚の画像から3D環境、効果音(SFX)、そしてメッシュデータを丸ごと生成できる革新的なツールです。これ一つで、静止画から一気にリッチな3Dアセットを作り出すことが可能になります。
ミクロなスケールで行うテルミット反応についての投稿です。化学的な爆発的反応を安全に、かつ視覚的に分かりやすく実験した様子が記録されています。詳細な実験手順や使用する酸化鉄とアルミニウム粉末の比率については専門家の監修のもとで行うことが推奨されます。
Windows XPのデスクトップ環境を再現したUIでWikipediaを楽しめる面白いプロジェクトです。あの頃の懐かしい雰囲気の中で、知識の海を探索してみませんか?
米司法省(DOJ)がAppleとGoogleに対し、特定の「車いじり(car-tinkering)」関連アプリのユーザー10万人以上の個人情報を開示するよう要求したことが判明しました。プライバシー保護の観点から、テック業界に大きな波紋を広げています。