Baiduがオープンソースの「Unlimited OCR」を公開、新アーキテクチャで長文処理時のGPUメモリ問題を解決と主張

2026年6月26日 17:42

印刷

記事提供元:Tech Times

中国のBaidu(百度)は2026年6月22日、長文文書の解析時にGPUメモリ消費が肥大化する問題を解決したとするオープンソースの文書解析モデル「Unlimited OCR」を公開した。新開発のアテンション機構「R-SWA」により、出力の長さに関わらずメモリ使用量を一定に維持できるとしている。一方で、中国の国家安全保障法制に伴うデータアクセスのリスクや、長距離の相互参照における構造的な制限など、導入にあたって留意すべき点も指摘されている。

■長文文書解析における「メモリの壁」とBaiduの解決策

Baiduは2026年6月22日、MITライセンスを採用したオープンソースの文書解析モデル「Unlimited OCR」を公開した。これは、PDFやスキャンされた契約書、学術論文などを処理するAI開発チームが直面してきた「文書が長くなるほどGPUメモリの消費量が増大し、システムが停止するか、ページごとの分割処理を余儀なくされる」という課題の解決を目指したものだ。

同モデルは「Reference Sliding Window Attention(R-SWA)」と呼ばれる新しいアテンション機構を採用しており、出力の長さに関わらずメモリ使用量を一定に保つことができるという。ベンチマークテストでは、既存の主要なオープンソースモデルと比較して、同等のシーケンス長において精度が約6ポイント向上し、1秒あたりの処理トークン数(TPS)が約12%向上したと報告されている。

この発表が行われた週は、エンタープライズ向け文書AI分野での競争が活発化していた。翌日にはMistral AIが、規制の厳しい企業向けに独自のアーキテクチャを採用した「Mistral OCR 4」をリリースしている。両モデルとも、これまで文書解析パイプラインが依存せざるを得なかった、不安定なページ分割処理という根本的なインフラ課題の解決をターゲットにしている。

■従来のOCRが長文で破綻する理由と「R-SWA」の仕組み

従来のデコーダーベースのOCRモデルは、過去に出力したすべてのトークンを参照しながら1トークンずつ出力を生成する。このために保存される中間表現(KVキャッシュ)は、出力の長さに比例して肥大化する。50ページの論文を解析すれば生成された全文字分のメモリが蓄積され、契約書アーカイブ全体を処理しようとすれば、メモリが枯渇してGPUが停止することになる。

実務上の回避策として、文書をページごとに分割してループ処理し、ステップごとにメモリをリセットする方法がある。しかし、この方法ではページをまたぐ文脈の連続性が失われ、分割された断片を管理するための外部システムが必要になる。Unlimited OCRの研究チームは論文の中で、「既存のモデルでは、1回の処理で10ページすら解析することはできない。ループ処理による回避策は、真の長文タスクに対応するための進歩ではなく、単なる技術的な妥協にすぎない」と指摘している。

この課題を解決するためにBaiduが開発したのが「R-SWA」である。これは、モデルが固定された参照入力(OCRにおける文書画像、音声認識における音声、翻訳における原文など)を参照しながら、長い出力を生成するタスクに特化して設計された。

R-SWAの設計は、人間が文章を書き写す際の動作に着想を得ている。人間は、自分がすでに書いた文章をすべて読み直すわけではなく、直前に書いた数文字に目を配りつつ、元の文書全体を視野に入れている。R-SWAはこのパターンを再現しており、各出力トークンは文書画像全体(ビジュアルトークン)を参照する一方で、過去に出力した履歴への参照は、デフォルトで直近128トークンのスライディングウィンドウに制限する。

これにより、KVキャッシュは固定サイズのキューとして実装され、新しいトークンが生成されると最も古いトークンが破棄される。キャッシュの総サイズは「ビジュアルトークン数(m)+ウィンドウサイズ(n=128)」に制限され、出力が1,000トークンであっても100,000トークンであっても、キャッシュサイズは変化しない。

また、R-SWAはマルチモーダルタスクにおける従来のスライディングウィンドウ方式の弱点も克服している。従来方式では、デコードが進むにつれて視覚特徴が徐々にぼやけ、認識精度が低下する問題があったが、R-SWAでは視覚トークンを状態遷移から完全に排除することで、生成プロセス全体を通じて文書画像を鮮明に参照し続けることができるとしている。

■効率性を支えるアーキテクチャと動作環境

Unlimited OCRは30億パラメータのMixture-of-Experts(MoE)モデルであり、1回の処理でアクティブになるのは500万パラメータ(5億パラメータ)のみである。Baiduの開発チームは「DeepSeek OCR」のエンコーダをそのまま採用し、1024×1024のページ画像を256のビジュアルトークンに圧縮(16倍の圧縮率)した上で、デコーダのアテンション層をR-SWAに置き換えた。モデルはゼロからトレーニングされたわけではなく、DeepSeek OCRのチェックポイントから、128台のA800 GPUを用いて約200万の文書サンプルで4,000ステップの追加学習(エンコーダは固定し、R-SWAデコーダのみを学習)が行われた。

5億のアクティブパラメータと固定KVキャッシュの組み合わせにより、同モデルはコンシューマー向けグラフィックボードを含む単一のGPUで動作可能とされている。開発者コミュニティのHacker Newsでは、RTX 4090を使用して200ページの日本語文法PDFを約1時間で正確にテキスト化したというユーザー報告も上がっている。この数値は第三者による検証は経ていないものの、同アーキテクチャが実現する実用的な導入イメージを示している。

■ベンチマーク結果とOCR以外の応用可能性

エンドツーエンドの文書解析ベンチマークである「OmniDocBench v1.5」において、Unlimited OCRは約93.23を記録し、ベースラインであるDeepSeek OCRを約6.22ポイント上回った。より新しい「OmniDocBench v1.6」では約93.92に達し、論文内の比較表で最高スコアを記録している。テキストの編集距離の短縮、数式認識の向上、表認識スコアの上昇など、難易度の高いカテゴリ全体で精度向上が見られた。効率性の向上と精度の向上がトレードオフにならずに両立した点を、研究チームは強調している。

処理速度(スループット)においても、同一シーケンス長でUnlimited OCRは約5,580 TPSを記録し、DeepSeek OCRの約4,951 TPSに対して約12.7%の向上を示した。出力が長くなるほどその差は顕著になり、6,000トークンの出力制限下では、キャッシュの肥大化がベースラインの負荷となるため、Unlimited OCRが約35%高速に動作したという。

Baiduの開発チームは、R-SWAをOCR専用の技術ではなく、汎用的な解析アテンション機構と位置づけている。長時間の音声認識、長文の機械翻訳、文書を対象とした質問応答(QA)など、固定の参照入力を持ちながら長い出力を生成するあらゆるタスクにおいて、同様のメモリ管理効果が期待できるとしている。

■中国発モデルの採用における法的・安全保障上の留意点

Unlimited OCRなどの中国に本社を置く企業がリリースしたモデルやソフトウェアを採用するにあたり、開発者や企業の調達チームは、中国政府に対する企業の法的義務を理解しておく必要がある。

中国の国家情報法(2017年)第7条は、中国の管轄下にあるすべての組織および市民に対し、国家情報活動への支持、協力、協調を義務づけている。この義務は、サーバーの所在地やエンジニアの勤務地、企業のプライバシーポリシーに関わらず、Baiduに適用される。これは性能とのトレードオフで評価すべきリスクではなく、中国法の下で事業を行う上での固定された法的条件である。

また、データセキュリティ法(2021年)はデータの分類・格付けシステムを確立し、国家安全保障に影響を与える可能性のあるデータ活動に対するセキュリティ審査を義務づけている。さらに、2026年1月1日に改正施行されたサイバーセキュリティ法(2017年)は、ネットワーク事業者に対して政府の検査への協力を求め、中国政府が保存データにアクセスすることを可能にしている。

2026年2月、米国国防総省は国防授権法(NDAA)第1260H条に基づき、Baiduを「中国軍事企業リスト」に追加し、同年6月9日にこの指定を再確認して公表した。この指定は自動的に制裁を課すものではないが、国防総省がBaiduと直接契約することを禁止し、政府によるBaidu製品やサービスの調達を制限する。Baidu側はこの指定を「根拠がない」とし、リストからの除外を求めて法的措置を検討していると表明している。

2024年のCitizen Labの報告書では、Baiduのキーボードアプリにおいて暗号化の不備による重大なセキュリティ脆弱性が指摘され、送信中にユーザーデータが漏洩する可能性が示された。報告書によると、Baiduは最も深刻な問題に対処したものの、一部は未解決のままであるという。なお、Unlimited OCR自体に対する独立したセキュリティ監査は公表されていない。

このモデルを統合する開発者は、自社のワークフローに、中国法に基づく政府アクセスの対象にしたくないデータ(法的契約書、医療記録、財務書類、個人識別データなど)が含まれているかどうかを検討すべきである。推論実行環境をネットワーク的に隔離し、外部への接続を制限することが実務的な第一歩となる。HIPAA、GDPR、または政府のセキュリティ分類要件が適用されるデータを扱う場合は、導入構成が十分な緩和策となるかについて法的な助言を求めることが推奨される。

■Unlimited OCRの限界と課題

Hacker Newsのディスカッションでは、OCR製品で10年の経験を持つParseurの創業者(Joss82氏)が「2026年になってもOCRは依然として発展途上である」と指摘している。手書き文字、著しく劣化したスキャン、非標準フォント、複雑なLaTeX数式の変換が必要な文書などは、本モデルを含むエンドツーエンドのモデルにとって依然として困難なカテゴリである。

また、R-SWAの128トークンという出力用のスライディングウィンドウは、複雑な相互参照構造を持つ極めて長い文書において構造的な制約となる。定義や重要な記述が出力ウィンドウの外に押し出されると、モデルはそれを直接参照できなくなる。メモリ問題を解決する固定キュー設計は、このトレードオフを生み出す原因でもある。さらに、DeepSeek OCRに対する約35%の速度優位性は長文出力時に特化したものであり、短い文書ではその効果は限定的となる。

ベンチマークであるOmniDocBenchのスコアは、標準的な学術論文や財務報告書などの構造化文書における性能を示すものであり、実際の運用環境で遭遇するあらゆる文書タイプで同等の性能を保証するものではない。

■注目ポイントQ&A

●Unlimited OCRはどのようにしてGPUメモリの枯渇を防いでいるのですか?

「Reference Sliding Window Attention(R-SWA)」と呼ばれる新しいアテンション機構を採用しています。これは、文書画像全体を参照しつつ、過去に出力した履歴への参照を直近128トークンに制限する仕組みです。これにより、作業メモリ(KVキャッシュ)が固定サイズに保たれるため、文書の長さに関わらずGPUメモリの消費量を一定に抑えることができます。

●複数ページのPDFを分割せずに処理できますか?

はい、可能です。標準的な最大シーケンス長(32,768トークン)の範囲内であれば、数十ページの文書を1回の処理で解析できるように設計されています。付属の推論スクリプトを使用することで、複数ページのPDFを画像に変換し、一括で処理できます。

●中国企業が開発したオープンソースモデルを使用する際のリスクは何ですか?

モデル自体はMITライセンスでローカル環境でも実行可能ですが、開発元であるBaiduは中国の国家情報法(2017年)などの適用を受け、政府のインテリジェンス活動への協力義務を負っています。機密文書を扱う場合は、ネットワークから隔離した環境での実行や、法的なデータ分類基準の確認が推奨されます。

●Mistral OCR 4などの他の最新モデルと何が違いますか?

Mistral OCR 4は構造化データの抽出や自己ホスト型の単一コンテナ提供に強みを持つのに対し、Unlimited OCRはメモリ消費を抑えて長文を一括処理できるアーキテクチャに強みがあります。ベンチマーク(OmniDocBench v1.5)のスコアは、Unlimited OCRが約93.23、Mistral OCR 4が93.07と拮抗しています。

元記事: Baidu OCR Breaks Long-Document Memory Wall: New Architecture Beats DeepSeek

※この記事はTech Timesから提供を受けた記事を日本向けに翻訳・編集したものです。

関連キーワード

関連記事