150億パラメータ規模で世界最高性能、日本語VLM「Heron-NVILA-Lite-15B」を公開、2BモデルはiPhone上でローカル高速推論

プレスリリース発表元企業：TURING

配信日時: 2025-05-12 11:00:00

世界最大規模の自律移動データセット「STRIDE-QAデータセット」も一部無償公開

Turing 株式会社（本社：東京都品川区、代表取締役山本一成、以下「チューリング」）は、新たな日本語VLM「Heron-NVILA-Lite-15B/2B/1B」を公開しました。150億パラメータの15Bモデルは「Heron-Bench」で73.5を記録するなど、複数の日本語視覚-言語ベンチマークで同パラメータ規模のオープンモデルを上回る性能を達成。20億パラメータの2BモデルはiPhone上で完全ローカルかつ高速に推論可能です。
本開発は、経済産業省/NEDO による生成 AI 研究支援プログラム「GENIAC」の一環として実施しました。
上記のほかにも、インターリーブ形式(※1)で構築した世界最大(※2)の日本語 - 画像の大規模データセット「MOMIJI 」や、世界最大規模の言語と三次元情報を伴う自律移動データセット「STRIDE-QAデータセット」など複数成果を公開しています。
※1:順序を保ったままデータを収録することで文章と画像の対応関係や前後の文脈を自然に学習できる方式
※2:自社調べ、インターリーブ形式の日本語 - 画像のデータセットとして
[画像: https://prcdn.freetls.fastly.net/release_image/98132/65/98132-65-fbaf3a3b2906ee856655a2c3f6544d23-1200x675.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]

背景
　完全自動運転の実現には、あらゆるシーンにおいて即座に状況を把握し、安全に動作する知覚・判断システムが不可欠です。その中核となるのが画像(視覚)やテキスト(言語)など複数種類のデータを学習することで人間のような常識や背景、文脈の理解を獲得したマルチモーダル大規模言語モデル (以下、MLLMs)や、同モデルを基盤として実世界におけるセンサ入力から制御出力までを一貫して学習した身体性のあるマルチモーダル基盤モデルです。しかし、視覚と言語を同時に扱える日本語かつ高品質な学習データは極めて限られており、車載実装を前提とした軽量かつ高性能なMLLMsおよび身体性のあるマルチモーダル基盤モデルの研究事例はほとんど存在しません。

　こうした背景を踏まえ、チューリングはこのたびマルチモーダルモデルの高度化、三次元情報を含む自律移動データセットの構築、身体性ある自動運転モデル等、複数の研究開発をGENIACの一環として実施し、モデルファイルおよびソースコードを公開しました。
Heron-NVILA-Lite-15Bについて
　日本語圏における背景や文脈を理解した150億パラメータのオープンソース視覚-言語モデルです。日本語-画像応答ベンチマーク「Heron-Bench」ではスコア73.5を記録しており、同規模の最新公開モデルを上回りました（2025年5月時点、当社調べ）。また、今回の開発では画像とテキストを交互に学習させるインターリーブ形式が日本語の事前学習に事前学習に効果があることも確認しました。
　本モデルのソースコードは Hugging Faceで公開しているほか、学習方法については再現可能な形で当社のテックブログにて詳しく解説しています。
　Hugging Face：https://huggingface.co/turing-motors/Heron-NVILA-Lite-15B
　テックブログ：https://zenn.dev/turing_motors/articles/7ac8ebe8756a3e
Heron App for iOSについて
　スマートフォン上でローカル高速推論可能な画像解析AIアプリです。Heron-NVILAのパラメータ数を20億まで削減することでモバイル端末でもオフラインで高速動作するよう最適化しています。なお、本アプリは後日、「Heron App for iOS」としてApp Storeに公開するほか、当社のテックブログで開発方法や推論の工夫などについて詳しく解説予定です。
MOMIJIについて
　MOMIJI (Modern Open Multimodal Japanese filtered Dataset)は、インターリーブ形式で構築した日本語視覚-言語モデルにおける世界最大の事前学習用大規模データセットです。データセットは2億4900万枚の画像URLとテキストJSONL形式で公開しており、後日、当社のテックブログで詳しく解説予定です。
　Hugging Face：https://huggingface.co/datasets/turing-motors/MOMIJI
STRIDE-QAデータセットについて
　STRIDE-QA (SpatioTemporal Reasoning In Driving Environments QA)は、チューリングが東京都内で収集した3500時間超のカメラ/LiDAR/各種センサの運転データをもとに100 時間/20,000 シーンを抽出し構築した、世界最大規模の三次元自律移動データセットです。
　各シーンでは車両や歩行者などすべての交通オブジェクトに一貫した ID と三次元バウンディングボックスを付与し、空間だけでなく前後の時間関係まで連続的に追跡できる構成となっています。さらに「横断歩道に歩行者はいるか」「２秒後に前方車との距離は？」といった対象物視点と自車視点の質問‐回答を計1,263 万組生成しており、AI が状況を言語で説明し、将来を推測する性能まで評価可能です。
　データセットはSTRIDE-QA-miniとして200 シーン/約10万組 Q&Aを学術機関向けに公開済みで、今後は全データを含むフルセットも公開予定です。
　Hugging Face：https://huggingface.co/datasets/turing-motors/STRIDE-QA-Mini

　本プレスリリースにおける成果は、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構（NEDO）が実施する、国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC（Generative AI Accelerator Challenge）の支援を受けて得られた結果に基づき公開しています。
　参考プレスリリース：https://tur.ing/posts/Uzy-Xzx3

　チューリングは今後も、軽量かつ高性能なMLLMsおよび身体性のあるマルチモーダル基盤モデルの領域において最先端の研究開発を続けることで自動運転領域における技術革新を推進し、完全自動運転車実現を目指していきます。
会社概要
会社名：Turing株式会社
所在地：東京都品川区大崎1丁目11−2 ゲートシティ大崎イーストタワー4階
代表者：代表取締役山本一成
設立：2021年8月
事業内容：完全自動運転技術の開発
URL：https://tur.ing/
採用情報
　チューリングは、日本発の完全自動運転実現により世界を変える仲間を積極的に募集しています。ぜひ採用ページをご覧ください。また、オープンオフィスやテックトーク等のイベントも定期的に開催しています。詳しくはConnpassページをご覧ください。

PR TIMESプレスリリース詳細へ

スポンサードリンク

「TURING」のプレスリリース

スポンサードリンク

150億パラメータ規模で世界最高性能、日本語VLM「Heron-NVILA-Lite-15B」を公開、2BモデルはiPhone上でローカル高速推論

「TURING」のプレスリリース

最新のプレスリリース

人気のビジネス書籍