AIトークンコストを最大100分の1に削減と主張、米新興Engramが約159億円を調達しステルスから脱却
2026年6月28日 01:16
企業向けAIのコスト高騰が深刻な課題となるなか、米スタートアップのEngram(エングラム)が9800万ドル(約159億円)を調達してステルス状態から脱却した。同社は、独自の「カートリッジ」アーキテクチャにより、最先端モデルと同等の性能を維持しつつ、トークン消費量を最大100分の1に削減できると主張している。ただし、この性能向上に関する主張は現時点で第三者による検証が行われておらず、今後の実証が待たれる。
■ステルス脱却と巨額調達
設立わずか8ヶ月のスタートアップ企業が、企業向けAIにおける最も高コストな構造的課題の解決を目指し、9800万ドル(約159億円、1ドル=162円換算)の資金を調達してステルス状態から脱却した。サンフランシスコを拠点とし、スタンフォード大学のAI研究所から直接スピンアウトしたEngram(エングラム)は、すでにMicrosoft、Notion、そしてリーガルAI分野のHarveyとの提携を発表しており、設立間もない企業としては異例の顧客リストを誇る。
同社によると、その技術は最先端のフロンティアモデルと同等以上の性能を発揮しつつ、トークン消費量を最大100分の1に削減できるという。トークンは、ほぼすべての企業向けAIプラットフォームが課金基準としているクエリごとの単位だ。大企業のAI予算が予測を上回るペースで消費され、トークン管理が取締役会レベルの懸念事項となるなか、Engramのデビューは絶妙なタイミングとなった。
今回の投資ラウンドはGeneral CatalystとModern Capitalが共同でリードし、Kleiner Perkins、Sequoia Capital、Factory、Amplify Partners、Neoなども参加した。エンジェル投資家には、OpenAIの共同創業者で2026年5月にAnthropicの事前学習チームに加わったアンドレイ・カルパシー(Andrej Karpathy)氏をはじめ、Wizの共同創業者アサフ・ラパポート(Assaf Rappaport)氏、バークレーAI研究(BAIR)の共同ディレクターであるピーター・アビール(Pieter Abbeel)氏らが名を連ねる。
Kleiner Perkinsのパートナーであるリー・マリー・ブラスウェル(Leigh Marie Braswell)氏は、この機会を次のように端的に表現した。「データの爆発とコストの爆発が同時に起きている。Engramは組織のデータをマッピングし、桁違いに安価な出力を提供する」
公開された製品がなく、性能の主張も未検証である13人の企業に対し、6億ドル(約972億円)の評価額がつけられたことは、チームの学術的背景と、解決しようとしている課題の大きさに対する投資家の強い確信を反映している。例えば、Uberは5,000人のエンジニアにAIコーディングツールへのアクセスを提供した結果、2026年のAI予算を4月までに使い果たしたと報じられている。また、Metaの従業員は1ヶ月で73.7兆トークンを消費し、同社は中央集権的な支出管理の導入を余儀なくされた。Engramは、「モデルが事前に組織を学習していれば、リソースを無駄に再学習する必要はないのではないか」という問いに賭けている。
■企業向けAIが「すべてをゼロから再学習」し続ける理由
Engramが標的とする構造的課題は、単なる価格設定の問題ではない。それは、現代の言語モデルが情報を処理する方法に組み込まれた、アーキテクチャ上の問題である。
トランスフォーマーベースの言語モデルはすべて、テキスト処理に「自己注意(セルフアテンション)」と呼ばれるメカニズムを使用する。推論(ユーザーのクエリに対する回答生成)の際、モデルは「キー・バリュー(KV)キャッシュ」を構築する。これは、会話内で処理したすべてのトークンの保存された表現である。このキャッシュにより、モデルは文書内の離れた部分同士を関連付けることができる。しかし、その構築と維持にかかる計算コストは、コンテキスト長の2乗に比例して増加する。コンテキストを2倍にするとメモリ要件は約4倍になり、3倍にすると9倍に膨らむ。
実質的な影響は劇的だ。Engramの共同創業者兼最高技術責任者(CTO)であるサブリ・エユボグル(Sabri Eyuboglu)氏によると、AIシステムが7万語の法的契約書(生のテキストで約400キロバイト)を処理する場合、その内部KVキャッシュは100ギガバイト以上のGPUメモリに拡大する可能性があり、これは元の文書の25万倍の膨張に相当するという。スタンフォード大学の研究者らは、このメモリコスト問題を解決するために設計された「カートリッジ(Cartridges)」アプローチを説明する際、2025年9月にこの数値を発表した。
この膨張は、クエリごとに新たに発生する。新しい質問が届くたびに、モデルは文書全体を再読み込みし、KVキャッシュをゼロから再構築するため、計算とメモリの全コストが再び発生する。
これが、現在の企業向けAIメモリの主流アプローチである「検索拡張生成(RAG)」が部分的に対処できても解決できない根本的な非効率性である。RAGは推論時に関連文書をプルしてコンテキストウィンドウに追加するが、モデルはクエリごとにその取得されたコンテンツを処理し、毎回KVキャッシュの全コストを支払う。コストは先送りされるだけで、排除されるわけではない。
■Engramの「カートリッジ」アーキテクチャの仕組み
エユボグル氏が共同執筆し、2025年6月にスタンフォード大学で発表され、ICML 2025で口頭発表された論文に根ざすEngramのアプローチは、メモリステップと推論ステップを完全に分離する。
推論時にオンデマンドでKVキャッシュを作成する代わりに、Engramは各組織のコーパス(データ群)に基づいて、オフラインで「カートリッジ(Cartridge)」と呼ばれる小さく圧縮されたKVキャッシュをトレーニングする。カートリッジはコンパクトなメモリ表現であり、クエリが届いたときにモデルがロードするため、文書の理解をゼロから再構築する必要がない。
圧縮されたキャッシュを単なる暗記された要約ではなく、真に有用なものにする鍵は、スタンフォードのチームが「自己学習(self-study)」と呼ぶトレーニングアプローチにある。単なる次のトークンの予測(これでは文書テキストをそのまま吐き出すだけのキャッシュになってしまう)ではなく、モデルはコーパスに関する合成会話(実際のユーザーが尋ねる可能性のある模擬質問と、文書自体から導き出された回答)を生成する。その後、それらの合成対話に適用されるコンテキスト蒸留(context-distillation)目的関数を使用してカートリッジがトレーニングされる。その結果、一言一句をそのまま取り出すだけでなく、コーパスに関する一般的な質問に迅速かつ正確に回答できるコンパクトなメモリ表現が得られる。
スタンフォードの論文によると、難易度の高いロングコンテキストのベンチマークにおいて、自己学習でトレーニングされたカートリッジは、インコンテキスト学習の性能を維持しつつ、メモリ使用量を38.6分の1に抑え、スループットを26.4倍に向上させたという。トレードオフは事前の計算コストである。80億パラメータ(8B)のモデルでカートリッジをトレーニングするには、1つのコーパスあたり8基のH100 GPUノードで約30分を要する。このコストは、そのコーパスに対するその後のすべてのクエリに分散されるため、組織の文書がクエリされる回数が多いほど、経済的なメリットは大きくなる。
Engramは、スタンフォードの論文には含まれていなかった追加機能である「オンライン継続学習(online continual learning)」を備えたカートリッジアプローチを製品化した。システムは、新たに提出された法的準備書面、更新された社内規定、最新の顧客とのやり取りなどの新しい情報を、完全な再トレーニングを行うことなく、数秒から数時間以内に取り込むことができる。これは、機械学習が長年直面してきた「安定性と可塑性の問題」(すでに知っていることを上書きせずに、トレーニング済みモデルに知識を追加する方法)に対処するものだ。
共同創業者兼CEOのダン・バイダーマン(Dan Biderman)氏は、この変化を「準備」と「即興」の違いとして説明している。「現在、AIがあなたについて知っていることはすべて、その場で即興で作られたものだ。過去についての付箋や、会話の途中で引っ張ってきた文書のようなものだ。もし私たちがあなたのインタラクションを予測できれば、その場で貼り付けるのではなく、事前にメモリを準備しておくことができる。」
バイダーマン氏は、EngramのモデルがOpenAIやAnthropicの最先端システムよりも普遍的に優れているわけではないと率直に認めている。同社の主張はより限定的だ。AIエージェントが同じ組織内の知識(同じ契約書、コードベース、ポリシー、コミュニケーションなど)と繰り返し対話する組織において、Engramの特化型メモリは、それらの特定のタスクにおいて、汎用的な最先端モデルと同等以上の性能を、わずかなトークンコストで発揮できるという。「私たちは既存のメモ取りを超え、人間が持っていて現在のモデルにはない直感のレイヤーを構築しようとしている」とバイダーマン氏は語った。
■Microsoft、Notion、Harveyが「企業メモリ」をテスト
設立8ヶ月、従業員13人の企業としては、Engramの初期の商業的牽引力は異例の具体性を示している。
Microsoftは、Microsoft 365環境内でEngramのモデルをテストしており、DappleおよびAzureインフラ全体でGPU容量を割り当てている。MicrosoftのAIパートナー・カタリスト担当コーポレートバイスプレジデントであるジェイソン・グレーフェ(Jason Graefe)氏は、このアプローチが、長期稼働するエンタープライズエージェントをサポートしながら、組織がAIメモリを構築・維持するのに役立つ可能性があると述べた。
Notionは、カスタムAIエージェント内でこの技術を試験運用している。Notionの共同創業者であるサイモン・ラスト(Simon Last)氏は、エージェントが基礎となるワークスペースの理解をすでにメモリにエンコードした状態で起動するため、すべてのタスクにおけるコンテキスト再構築のトークンコストが削減され、初期の効率向上が見られたと報告している。
リーガルAI企業のHarveyも、大規模な文書環境で動作するエージェント向けに同様のアプリケーションを模索している。Harveyの共同創業者兼プレジデントであるゲイブ・ペレイラ(Gabe Pereyra)氏は、法律事務所はコンテキストウィンドウや検索が追いつくよりも早くコンテキストを蓄積するため、安全でコスト効率の高い学習済みエンタープライズメモリがそのギャップを直接埋めることになると指摘した。
■重要な局面における全員が研究者出身の創業者チーム
Engramの13人の従業員は、異例の密度で研究実績を誇っている。
バイダーマン氏はコロンビア大学で計算神経科学の博士号を取得し、スタンフォード大学のAI研究所で研究を行った。エユボグル氏はスタンフォード大学で博士号を取得し、カートリッジ研究の筆頭著者である。共同創業者のジェシー・リン(Jessy Lin)氏(バークレー校博士)とジャック・モリス(Jack Morris)氏(コーネル大学博士)は、いずれもMetaのFundamental AI Research(FAIR)研究所で研究を行っていた。この分野をリードする機械学習研究者の一人として広く知られるスタンフォード大学教授のクリス・レー(Chris Ré)氏も共同創業者である。スタンフォード大学のメモリ研究者であり、同社の最初の従業員であるナタリー・バイダーマン(Natalie Biderman)博士がコアチームを締めくくっている。
社名は意図的に選ばれた。「エングラム(記憶痕跡)」とは、学習された経験が脳に残す物理的な痕跡を指す神経科学の用語であり、その再活性化が記憶の想起を構成する特定のニューロンの集まりを意味する。ダン・バイダーマン氏は、このコンセプトが生涯の関心事であると説明している。彼の祖母が記憶を失い始めたときに始まり、その後の計算神経科学の博士課程の研究や、AIが永続的な組織メモリを形成できないのは知能の限界ではなくアーキテクチャの限界であるという確信を形成した。
調達した資金は、モデルトレーニング用の計算資源の拡張とエンジニアリングチームの拡大に使用される。同社はサンフランシスコに拠点を置いている。
■性能主張は未検証:企業バイヤーが知っておくべきこと
Engram의 核心的な性能主張(同社のモデルが最大100倍少ないトークンを使用して最先端システムと同等以上の性能を発揮できるという点)は、第三者による独立した検証が行われていない。
この数値の主な情報源はEngram自身の資料とパートナーの声明であり、名前の挙がっている第三者のベンチマーク機関は、これを裏付ける結果を公表していない。メモリレイヤーソリューションを評価する企業のバイヤーは、社内テストから得られた総合的な主張ではなく、自社のワークロードを代表するドメイン固有のベンチマークにおける、独立して監査された性能結果を要求すべきである。
同社はまた、自社のモデルが最先端AIの一般的な代替品ではないことも認めている。これらは特化型であり、その特化は、トレーニングされた企業コンテキスト以外の機能を犠牲にする可能性がある。AIエージェントが、新しい法的理論、新しい製品カテゴリ、珍しい顧客の状況など、不慣れな領域にわたって推論する必要がある組織では、Engramのアプローチが要求する特化が、それらのタスクにおける汎用化の妨げになる可能性がある。そのトレードオフの度合いも、現時点では独立して文書化されていない。
Engramが参入する広範な市場には、モデルルーティング、プロンプトキャッシング、コンテキスト圧縮、RAG最適化、カスタム推論チップなどのインフラレベルのソリューションなど、同じ企業向けAIコスト問題の解決を主張するアプローチがひしめき合っている。Engramの賭けは、クエリ時の手法ではなく、事前トレーニングされた再利用可能な企業固有のモデルメモリこそが、規模に応じた企業向けAIの経済性を定義するアーキテクチャレイヤーになるという点にある。
■注目ポイントQ&A
●AIトークンとは何ですか?また、トークン単価が下がっているにもかかわらず、企業のコストが上昇し続けているのはなぜですか?
トークンとは、AIモデルが処理するテキストの基本単位で、英語では約4分の3語に相当します。企業向けAIプラットフォームは、入力として送信されたトークンと、出力として生成されたトークンの両方に課金します。2024年以降、トークン単価は大幅に下落していますが、企業の総支出は増加しています。ガートナーによると、計画、ツールの使用、自己修正を行い、1つのユーザータスクに対して複数のモデル呼び出しを繰り返す「エージェント型AI」システムは、単純なチャットボットのクエリと比較して、タスクあたり5倍から30倍のトークンを消費する可能性があるためです。利用ボリュームの増加が、単価の下落を上回っています。
●Engramのメモリレイヤーアプローチは、検索拡張生成(RAG)とどのように異なりますか?
RAGは、推論時に関連文書を取得してコンテキストウィンドウに追加します。モデルはクエリごとにその取得されたコンテンツを処理するため、毎回KVキャッシュの全コストを支払うことになります。一方、Engramはクエリが届く前に、組織のコーパスに基づいて「カートリッジ」と呼ばれる圧縮されたKVキャッシュ(コンパクトなメモリ表現)を事前トレーニングします。クエリが届くと、モデルは生の文書を再読み込みするのではなく、事前トレーニングされたカートリッジをロードします。メモリが一度準備され、クエリ間で再利用されるため、主張されているようなトークンの節約が可能になります。
●KVキャッシュとは何ですか?なぜそれほど多くのGPUメモリを消費するのですか?
KV(キー・バリュー)キャッシュとは、トランスフォーマーベースの言語モデルがテキストを処理する際に構築する、保存された内部表現のことです。これは、コンテキスト内のすべてのトークンが他のすべてのトークンとどのように関連しているかをエンコードするもので、モデルが文書の前の部分で読んだ内容を「記憶」できるようにする仕組みです。アテンション(注意)計算では、新しいトークンを過去のすべてのトークンと同時に比較するため、キャッシュはコンテキスト長の2乗に比例して増加します。つまり、文書の長さを2倍にすると、キャッシュサイズはほぼ4倍になります。生のテキストとして400キロバイトを占める7万語の文書は、100ギガバイトを超えるGPUメモリを消費するKVキャッシュを生成することがあります。
●Engramの性能主張は、第三者によって検証されていますか?
いいえ、検証されていません。最大100倍少ないトークンで最先端システムと同等以上の性能を発揮できるというEngramの主張は、同社自身の資料に基づくものであり、裏付けとなるのは同社と財務関係にある商業パートナーの声明のみです。標準化された評価において、この100倍という数値を裏付ける結果を公表した独立したベンチマーク機関は存在しません。企業のバイヤーは、インフラへの投資を決定する前に、未検証のベンダーの主張を自社のワークロードでテストすべき仮説として扱う必要があります。
元記事: Enterprise AI Token Costs: Engram Exits Stealth With $98M, Claims 100x Cut