|
|
「日本はAIで完敗」は大間違い…エヌビディアもテスラもマネできない日本だけが持っている"最強の資産" / 1/9(金) / プレジデントオンライン
世界最大のテクノロジー見本市「CES」が1月6日(米国時間)から米ラスベガスで開かれている。2026年のテック業界はどのような方向に進むのか。日本工業大学大学院技術経営研究科の田中道昭教授が現地からリポートする――。
【写真をみる】CESで「新しい勝ち筋」を示した日本企業
※本稿は、富士通「テクノロジーニュース」の記事〈フィジカルAIの時代〉(1月8日公開)を再編集したものです。
■「AIの主戦場」が明確に変わった
エヌビディアのジェンスン・フアンCEOは、CES2026の基調講演で、象徴的な一枚のスライドとして重要なメッセージを提示した。タイトル「AI Scales Beyond LLMs」が示す通り、AIの進化軸はもはやLLM(大規模言語モデル)に留まらず、行為・物理世界・自然法則へと拡張されたことが明確に宣言されている。これは単なる技術トレンドではない。産業競争の単位が「モデル」から「世界」へ移ることを意味する。
中央に位置するのが、フィジカルAI――「PHYSICAL AI TAKES LEAP」である。AIはデジタル空間を出て、ロボットや自動運転として物理世界で転び、壊し、学ぶ段階に到達した。これは応用分野の拡大ではなく、Agentic AIと計算力、物理シミュレーションが結合した新しいAIの標準形の成立を意味する。さらに「AI LEARNS LAWS OF NATURE」は、AIが自然法則そのものを学習・探索する存在へ拡張することを示し、創薬や材料、エネルギーといった科学領域が同一基盤で扱われる段階に入ったことを示唆する。
本稿では、「AIの主戦場が言語(LLM)から“世界そのもの”へ移行した」ことの象徴としてのフィジカルAIに焦点を当てて論考していきたい。
■CES2026現地で見えた「新たな主役」
ラスベガスで開催されたCES2026の会場を歩きながら、私は強い既視感を覚えていた。それは「驚き」ではなく、「確認」に近い感覚だった。昨年のCES2025。最大のメガトレンドは間違いなく、エヌビディアが提示した「AIエージェント」だった。単に文章を生成するAIではなく、自ら状況を理解し、目的を設定し、複数のツールやソフトウェアを使い分けながら、タスクを完遂する。
そんな「自律的に振る舞うAI」が、一気に産業の主役へと押し上げられた年だった。そしてCES2026。会場で私が感じたのは、こういうことだった。昨年、エヌビディアがすでに提示していた“もう一つのAI”が、今年、はっきりと主役に躍り出た。それがフィジカルAIである。
これをCES2026の広大な展示場で感じたのは、そこがロボティクス・自動運転・産業用AIで埋め尽くされていたからだけではない。フィジカルAIの意義や本質が視覚的に露わになったからだ。搬送やピッキングのデモ、工場内での複数機体の協調、屋内外を跨ぐ移動と作業の統合。個体性能の競争とともに、「空間の秩序」を見せる展示も目立った。
■「フィジカルAI」とは何か
フィジカルAIとは何か。専門用語を避けて言えば、こう定義できる。フィジカルAIとは、物理世界を理解し、その中で判断し、実際に行動するAIである。文章を書くだけのAIではない。画面の中で完結するAIでもない。ロボットが物を掴む。自動運転車が交差点を判断する。工場で複数の設備が協調して動く。
こうした「現実世界への介入」そのものを担うAIだ。重要なのは、単にロボットが賢くなった、という話ではないという点である。
ロボットも、自動運転も、工場の自動化も、決して新しいテーマではない。ではなぜ、いま改めて「フィジカルAI」という言葉がこれほどの存在感を放ち始めたのか。理由は明確だ。これまで別々に語られてきたものが、ひとつの構造として“つながってしまった”からである。昨年のAIエージェントは、「知的判断」を自律化した。今年のフィジカルAIは、その知的判断が物理世界に接続された状態を示している。判断だけで終わらない。行動まで含めて完結する。失敗と学習を繰り返す。
この段階に入ったことで、AIは「便利なツール」から産業構造を変える主体へと質的に変わった。
■企業間に「差」が生まれ始めた
CES2026の展示を見ていて、もう一つ強く感じたことがある。それは、ロボット、自動運転、工場、倉庫をそれぞれ別の産業として語ること自体が、すでに現実とズレ始めているという事実だ。会場で提示されていたのは、ロボット単体の性能競争ではない、自動車メーカー同士の競争でもない、工場設備の高度化だけでもないということだ。「物理世界をどう理解し、どう制御するか」という共通の問いに対する解答だった。この共通項を見抜けるかどうか。ここで、企業や国の理解力に明確な差が生まれ始めている。
この変化を貫く中核概念が、World Foundation Model(WFM、世界基盤モデル)である。WFMとは、物理世界の構造、因果関係、時間変化を学習し、「この世界で何が起きているか」「次に何が起こりうるか」を内在的に理解・予測するAIを指す。重要なのは、これは「ロボット専用AI」ではないという点だ。ロボットも、自動運転も、工場も、倉庫も、同じWFMに接続された異なる“実行体”にすぎない。CES2026は、この構造がもはや概念ではなく、現実の産業として立ち上がり始めたことを示していた。
■「世界を理解するAI」の時代へ
本稿では、CES2026で見えたこの変化を、個別技術の解説ではなく、デモの羅列でもなく、「構造」として読み解く。具体的には、フィジカルAIの全体構造(横軸×縦軸)、その中枢にあるWFMの正体、エヌビディアとテスラという2つの実践モデル、そして、日本企業がどこを担うべきかを、一気通貫で整理する。フィジカルAIの時代とは、ロボットの時代ではない。世界を理解するAIが、産業と社会の中枢に入り始めた時代である。CES2026は、その始まりをはっきりと告げていた。
----------
【注】本稿でいうWorld Foundation Model(WFM、世界基盤モデル)は、ロボット工学の分野で議論されてきた視覚・言語・行動を統合する基盤モデルを技術的に包含したうえで、その射程をロボット単体に限定せず、自動運転や工場といった複数の実行体に共通する世界理解の中枢として再定義した概念である。各実行体は、この共通の世界理解に接続することで、身体や役割の違いを超えて一貫した判断と行動を生成できるようになる。
なお、WFMという用語は、エヌビディアが自社の取り組みを説明する際に明示的に用いている概念である。一方で、テスラをはじめとする他の先進的企業は、必ずしも同一の用語を使用してはいないものの、物理世界の構造や因果関係を統合的に学習し、複数の実行体(自動運転車、ロボット、工場システム等)に共通の世界理解を提供するという点において、構造的に同型のアプローチを採用している。
本稿では、こうした用語上の違いを超えて、「物理世界を横断的に理解し、その理解を多様な実行体に供給する中枢知能」という構造的共通性に着目し、エヌビディアが明示的に提示するWFMのみならず、テスラのように別の表現や実装形態をとりながら同等の世界理解構造を内包する取り組みについても、分析概念としてWFMと総称している。これは特定企業の用語を拡張して流用するものではなく、フィジカルAI時代に出現しつつある世界理解AIの共通構造を抽象化した分析枠組みとしてWFMという呼称を用いている点を、あらかじめ明確にしておきたい。
ここで重要なのは、フィジカルAIの競争を「ロボット市場の競争」として捉えた瞬間に、私たちが“誤ったゲーム”を戦い始めてしまうという点である。エコシステム・ディスラプション論が示す通り、勝敗を分けるのは既存ゲームの中での勝利ではなく、価値構造そのものの組み替えである。WFMを中枢に、ロボット・自動運転・工場・倉庫が単一の構造へ収束し始めている現在、競争の単位は「製品」でも「市場」でもなく、最小成立する新エコシステム(MVE=Minimum Viable Ecosystem、単体の製品やサービスではなく最小構成で自走できる価値循環を成立させた生態系の最小単位)をどこで作り、どの順序で拡張するかへ移っている。
----------
■「本質」はロボットでも、自動運転でもない
●第1章:フィジカルAIの全体構造
――なぜ、同じ技術を使っても「成立するAI」と「止まるAI」が生まれるのか
フィジカルAIについて語ろうとすると、議論はすぐに次のような方向に散らばる。ロボットが賢くなった。自動運転が進化した。工場の自動化が高度化した。いずれも事実だ。しかし、これらを個別の進化として並べるだけでは、本質は見えない。なぜなら、いま起きているのは個別技術の進歩ではなく、構造の転換だからである。その構造を理解するためには、まず「何が共通で、どこが競争になるのか」を切り分ける必要がある。
フィジカルAIと呼ばれるものには、分野を問わず共通する内部構造が存在する。それは次の循環である。
----------
1.認識(Perception)
2.推論・計画(Reasoning/Planning)
3.行動(Action)
4.データ・学習(Learning/Feedback)
----------
この流れは、ロボット、自動運転、工場・倉庫のいずれにおいても変わらない。重要なのは、これは単なる処理フローではなく、物理世界と関係を結び続けるための循環構造だという点である。
フィジカルAIにおける認識は、カメラやセンサーで「見る」ことではない。世界がいま、どのような状態にあるかを推定することである。物理世界は常に不完全で、センサーはノイズを含み、物体は隠れ、人は予測不能に動く。だから認識とは、確率的に世界を仮定する行為に近い。
■「データが循環しないAI」は必ず行き詰まる
推論とは、条件分岐の選択ではない。フィジカルAIは常に、この行動を取ると何が起きるか、別の行動のほうが安全ではないか、失敗した場合の影響はどれほどかといった未来を仮想的に試し続けている。つまり、推論・計画とは、内部に持つ“世界のモデル”を使って未来をシミュレーションする能力である。
行動は、フィジカルAIにおいて最も重い意味を持つ。なぜなら、行動は不可逆だからだ。物を落とす、人に触れる、機械を動かすといった瞬間、AIは現実世界に影響を与える主体になる。したがって、行動とは、AIが世界と“契約”を結ぶ行為だと言える。
行動の結果は、必ずデータとして返ってくる。成功・失敗・人の介入。このデータが次の判断を変える。ここで重要なのは、フィジカルAIにおいて、データは副産物ではなく、知能そのものの一部であるという点だ。データが循環しないAIは、必ずどこかで行き詰まる。
■フィジカルAIを支える「4つの基盤」
ここで強調しておくべきことがある。この横軸は、競争のための軸ではない。どのフィジカルAIも、この構造から逃れることはできない。だから、横軸の正しさでは差はつかない、差が出るのは別の場所であるという結論に至る。
現実には、PoC(概念実証)で止まるAI、デモでは動くが現場では使えないAI、一度の事故で消えるAIが数多く存在する。これは、横軸の理解不足ではない。横軸を“回し続ける条件”が欠けていることが原因である。
フィジカルAIが現実世界で成立し続けるためには、次の4つの基盤が同時に成立していなければならない。
----------
L1:知能・計算の成立基盤
横軸全体を統合し、世界を理解し、未来を予測し、行動計画を生成する判断の中枢である。この層が弱いAIは、環境が少し変わるだけで破綻する。
L2:身体・感覚の成立基盤
賢さを、現実世界の動きに変換する「器」。アクチュエータ、センサー、力制御、安全設計。これらが弱いと、どれほど賢いAIでも使われない。
L3:学習加速の成立基盤
横軸を、使うほど賢くする、失敗を学習に変えるための仕組み。シミュレーション、デジタルツイン、データ循環といったものがここに含まれる。
L4:社会・需要の成立基盤
最後に、最も見落とされがちだが決定的な層。事故時の責任、説明可能性、規制・受容性、ROI(投資収益率)で止まるAIは、どれほど優秀でも社会に残らない。
----------
重要な点を確認しておこう。4階層は、下から順に積み上げる工程ではない。L1だけあっても失敗する、L2だけあっても失敗する、L3だけあっても失敗する、L4だけあっても失敗する。4つが同時に成立して初めて、フィジカルAIは回り続ける。これが「成立基盤」と呼ぶ理由である。
ここまでの整理から、次のことが明確になる。フィジカルAIの競争は、アルゴリズムの競争ではない。成立基盤を同時に維持できるかどうかの競争である。そして、この成立基盤の中枢に位置するのが、WFMである。
■言語AIとフィジカルAIの「決定的な違い」
第2章:World Foundation Model(WFM)という中枢
――フィジカルAIは、なぜ「プラットフォーム産業」になるのか
フィジカルAIの核心は「ロボット」ではない。ここまでの議論で明らかになったのは、フィジカルAIの本質がロボットの高性能化・自動運転の高度化・工場の自動化といった個別成果にあるのではない、という点である。真に問うべきなのは、次の一点だ。AIは、物理世界そのものをどのように理解し、どのように扱っているのか。この問いに正面から答えようとしたとき、従来の「タスク特化AI」や「ロボット用AI」という枠組みは、明らかに不十分になる。
言語AIとフィジカルAIの最大の違いは、扱う対象の性質にある。言語の世界は、記号的で可逆的で間違えてもやり直せる。一方、物理世界は、連続的で不確実で不可逆である。物を落とす。人に触れる。機械を止める。その一度の判断が、取り返しのつかない結果を生む。この世界を扱うためには、「認識してから反応する」だけでは足りない。行動する前に、その結果を“想像できる知能”が必要になる。
ここで登場するのが、WFMである。WFMとは、物理世界の構造・因果関係・時間変化を内部に世界として保持し、その世界の中で行動を仮想的に試し、結果を予測した上で現実の行動を生成する基盤AIである。重要なのは、WFMは「タスクを解くモデル」ではないという点だ。WFMは、世界そのものを扱うモデルである。
■WFMは「タスク」ではなく「世界」を解く
WFMは、内部に少なくとも次の4層を持つ。
----------
1.世界表現
空間、物体、人、意味、行動可能性を含む表現
2.世界ダイナミクス
力・摩擦・慣性・人の動きといった時間変化の理解
3.計画・意思決定
未来を仮想的に試行し、最適な行動系列を選ぶ能力
4.実行接続
高レベル判断を低レベル制御へ安全に落とす仕組み
----------
これによりAIは、「いま何が起きているか」だけでなく、「次に何が起きうるか」を理解したうえで行動できる。
ここで決定的に重要な点を確認しよう。WFMは、ロボットのため、自動運転のため、工場のために個別に作られるものではない。なぜなら、これらはすべて同じ世界を生きているからである。ロボットも、自動運転車も、工場も、倉庫も、同一の物理世界を共有している。違うのは、どんな身体(実行体)を持っているか、どの行為を担当しているかだけだ。つまり、WFMとは、同一の世界理解に、異なる実行体を接続するための中枢である。
■フィジカルAIの「本質」を理解している2社
この視点に立つと、これまで分断されてきた産業が一気につながる。
----------
・自動運転→車両という実行体を持つWFM
・ロボット→人型、腕型という実行体を持つWFM
・工場、倉庫→設備群という集合体の実行体を持つWFM
----------
これらは別の技術領域ではない。同一のWFMを中心に、実行体だけが異なる一つの産業構造である。
この構造を、理論ではなく実装前提で理解している企業は、現時点で二社しかない。
----------
エヌビディア
・仮想世界(シミュレーション)を先に構築
・WFMをプラットフォームとして外部に提供
・実行体は顧客側に委ねる
→WFMを「産業OS」として配布する企業
テスラ
・実世界(車両フリート)で直接学習
・WFMを自社内に垂直統合
・車両とヒューマノイドを同一知能で駆動
→WFMを「自社中枢」として独占的に育てる企業
----------
アプローチは正反対だが、立っている地平は完全に同じである。
■WFMが「プラットフォーム」になる必然性
WFMがプラットフォームになる理由は明確だ。
----------
①世界解釈という「共通前提」を握る
世界をどう理解するかは、すべての判断の前提になる。
②実行体が増えるほど価値が増す
異なる身体・環境での経験が、世界理解を深める。
③単一企業では完結しない
データ・身体・運用の多様性が必要なため、必然的にエコシステム構造になる。
----------
WFMを中心とした構造は、上流→下流、モノの流れ、取引関係では説明できない。必要なのは、中枢(WFM)を中心に、身体・学習・社会実装が同時に存在するレイヤー構造という理解である。これは、OSとアプリの関係に近い。
WFMを単なる「高性能AI」と捉えると、ロボットごとにAIを作る、工場ごとにモデルを分ける、分野ごとに学習をやり直すという致命的な非効率に陥る。同じ世界を、何度も一から学び直す産業構造は、もはや成立しない。
WFMとは、フィジカルAIにおけるプラットフォームであり、エコシステム基盤である。ロボット、自動運転、工場、倉庫は、もはや別の産業ではない。同一のWFMに接続された異なる実行体として、一つの巨大な産業へと統合されつつある。
■エヌビディアとテスラの「意外な共通点」
第3章:World Foundation Model(WFM)を実践する2大企業
――エヌビディアとテスラは、なぜ同じ地平に立っているのか
WFMという言葉は、一見すると抽象的で、学術的な概念に見えるかもしれない。しかし、現実はすでに違う。WFMという概念を“前提として持っている企業”と“まだ個別最適で考えている企業”の間には、もはや埋めがたい断絶が生まれている。その分岐点の向こう側に立っている企業が、現時点で二社しか存在しない。エヌビディアとテスラだ。両社は、業態も歴史も異なる。しかし、世界の見方は驚くほど一致している。
エヌビディアとテスラを理解するための第一歩は、両社が次の前提を共有していると認識することだ。ロボット・自動運転・工場は、別の技術問題ではない。すべては「物理世界をどう理解し、その中でどう行動するか」という同一問題の別表現である。この前提に立つと、従来の産業分類は意味を失う。自動運転AI、ロボットAI、工場AIという分け方は、WFM以前の思考様式にすぎない。
■エヌビディア:WFMを「明示的に構築する企業」
エヌビディアの戦略の核心は、「まず世界を作る」という点にある。現実世界を直接相手にするのではなく、物理法則を持った仮想世界、時間変化を伴う3D空間、人・機械・物体が相互作用する環境をデジタルツインとして先に構築し、その中でAIを鍛える。これは、WFMを“仮想世界で育てる”アプローチと表現できる。
エヌビディアにとってWFMは、ロボット用でも車両用でも工場用でもない。「世界理解そのものを担う中枢」である。だからこそ、ロボット向け(Isaac:ロボットが世界を理解して動くための基盤)、自動運転向け(Drive:車両が周囲を理解して判断するための基盤)、工場・倉庫向け(Omniverse/Factory:工場や倉庫の状態を理解して最適化するための基盤)といった製品群が、一つの思想の下で整然と並ぶ。エヌビディアは、WFMを“共通OS”として提供し、実行体は顧客に委ねる。
----------
エヌビディア型の強みと制約
強み
・あらゆる産業を横断できる
・特定用途に依存しない
・エコシステムが拡張するほど価値が増す
制約
・現実世界の“生の失敗”を直接持たない
・実行体の最終責任は顧客側に残る
----------
つまりエヌビディアは、WFMを“地形”として提供する企業であり、自らはその上を走らない。
■テスラ:WFMを「暗黙的に実装する企業」
テスラは、WFMという言葉をほとんど使わない。しかし、それは理解していないからではない。あえて言語化していないのである。テスラの戦略は、極めて一貫している。実世界で走らせる。実世界のデータを集める。実世界で失敗し、修正する。世界理解は、現実の中で鍛えるものという思想だ。
テスラにとってWFMは、論文の概念でも製品カテゴリでもない。自動運転を成立させるために必然的に生まれた“内部構造”である。だからテスラは、車両という身体で鍛えた世界理解をそのままヒューマノイド(Optimus/オプティマス:テスラが自動運転で培った世界理解を人型の身体で実行することを目的としたロボット)へ接続するという選択を、一切の迷いなく行える。
----------
テスラ型の強みと制約
強み
・実世界データの圧倒的量
・世界で最も厳しい社会条件(公道)で鍛えられる
・WFMと実行体を完全に一体最適化できる
制約
・巨大な資本と時間が必要
・失敗の社会的コストが極めて高い
・他社が模倣できない前提条件に依存
----------
つまりテスラは、WFMを“自社専用の中枢”として垂直統合する企業である。
■同じWFM、真逆の実装戦略
ここで改めて、エヌビディアとテスラという二社を構造的に対比してみよう。
一見すると、両社はまったく異なる道を歩んでいるように見える。だが、視点を「World Foundation Model(WFM)」という中枢に据え直すと、実は同じ地平に立ちながら、真逆の実装戦略を選択していることがはっきりと浮かび上がる。
まず、WFMの扱いである。
エヌビディアはWFMを明示的に掲げ、それを「誰もが接続可能な共通基盤」として設計している。Omniverse、Isaac、Cosmosに代表されるように、物理世界を理解・予測するためのモデル群を、開発者や企業が横断的に利用できる形で提供する発想だ。
一方のテスラは、WFMという言葉を用いない。だが実態としては、車両・工場・ロボットを貫く世界理解モデルを完全に内製し、暗黙知として抱え込む戦略を取っている。名前を与えないことで、他社と共有する前提そのものを排除していると言ってよい。
次に、学習の場が決定的に異なる。
エヌビディアのWFMは、まず仮想世界で鍛えられる。高忠実度シミュレーション空間で何百万回もの試行錯誤を行い、失敗コストをゼロに近づけながら汎化能力を高めていく。
対照的にテスラは、徹底して実世界で学習する。走行中の車両、稼働する工場、現実の失敗と例外処理そのものが教師データとなる。仮想で完結させず、現実で起きた事象を次の改善に直結させる設計思想だ。
■戦略全体の方向性に直結する「違い」
実行体の所在も正反対である。
エヌビディアのWFMは、自らが行動する主体ではない。実行体はあくまで顧客側――自動車メーカー、ロボットメーカー、工場運営者である。エヌビディアは「世界を理解する頭脳」を提供し、その頭脳をどう使うかは利用者に委ねる。
一方、テスラでは実行体が完全に自社に内包されている。WFMを使うのも、行動するのも、結果責任を負うのもテスラ自身だ。モデルと実行体が分離されていない。
この違いは、戦略全体の方向性に直結する。
エヌビディアは横断プラットフォーム戦略を取る。業界・用途・実行体を越えてWFMを配布し、エコシステム全体を束ねるハブになることを目指す。
テスラは垂直統合戦略である。モデル、データ、実行体、改善ループを一気通貫で自社に閉じ、最適化速度そのものを競争力に変える。結果として、拡張性の性格も大きく異なる。
エヌビディアのWFMはエコシステム型だ。多様なプレイヤーが参加することで用途が拡張され、結果として標準に近づいていく。
テスラのWFMは自社最適型である。他社への展開は前提とせず、自社の世界理解を極限まで洗練させることで優位性を維持する。
■誰が世界を理解する「OS」を握るのか
ここで最も重要なのは、どちらが正しいかという議論ではない。本質は、エヌビディアとテスラのいずれもが「WFMという同じ地平」に立っているという点にある。
両社とも、
----------
・ロボット
・自動運転
・工場、倉庫
----------
といった異なる実行体を、個別最適ではなく「世界理解の中枢」から統合しようとしている。
つまり彼らはすでに、
「どの製品が強いか」
「どの業界で勝つか」
という議論を超え、
「誰が世界を理解するOS(基本ソフト)を握るのか」という競争に突入している。
この事実を見抜けているかどうか――それ自体が、フィジカルAI時代における最大の分岐点なのである。
多くの企業が、この地平に立てない理由は明確だ。組織が縦割りで、世界理解を共有できない。製品単位で思考し、世界単位で考えられない。成功と失敗のフィードバックループを持たない。WFMを前提にすると、組織・投資・戦略の全てを再設計する必要がある。それに耐えられる企業は、まだ極めて少ない。
この章の最も重要な結論は、ここにある。フィジカルAIの競争は、技術の競争ではなく、“世界の捉え方”の競争である。エヌビディアとテスラは、世界をどう理解するか、その理解をどう育てるか、どの実行体に接続するかという問いに、すでに一段先の答えを出している。
■「日本はAIで出遅れた」は大間違い
第4章:日本企業はどうするべきか
――World Foundation Model(WFM)時代、日本にしか担えない役割がある
フィジカルAI、WFMをめぐる議論において、日本について語られるとき、ほぼ反射的にこう言われる。日本はAIで出遅れた、米中に勝てない、基盤モデルを作れない。しかし、ここまで本稿で整理してきた構造に立てば、この問いそのものが前提を誤っていることが分かる。なぜなら、WFM時代の競争は、「誰が最も大きなモデルを作るか」ではなく、「世界理解AIを、どこで・どう成立させ続けられるか」という競争だからである。この競争のルールにおいて、日本は決して“周回遅れ”ではない。むしろ、他国にはない位置に立っている。
まず、日本がやるべきでないことをはっきりさせよう。
①WFMの「巨大事前学習」を正面から狙う
これは、超大規模GPU投資、世界規模のデータ収集、長期赤字を許容する資本構造を前提とする。これは、エヌビディア型、テスラ型の主戦場であり、日本企業が同じ土俵で競うべき場所ではない。
②テスラ型の完全垂直統合を模倣する
テスラは、自動車という大規模実行体、公道という世界最大級の実環境、ソフトとハードを一体で最適化できる組織という、極めて特殊な条件を持つ。テスラは“戦略のヒント”にはなるが、“模倣対象”ではない。
■世界的に優位を持つ「3つの成立基盤」
では、日本はどこを担うべきなのか。結論は明確だ。日本は、WFMを“作る国”ではなく、“成立させ、育て、止めずに回す国”になるべきである。この役割は、WFM×成立基盤4階層の構造において、きわめて明確に位置づけられる。
①L2:身体・感覚の成立基盤――WFMを現実に降ろす「器」を握る
WFMがどれほど高度でも、それを実行する身体が未成熟であれば、現実世界では使われない。ここで日本は、圧倒的な強みを持つ。例えば、精密アクチュエータ、力制御・トルク制御、高信頼センサー、安全設計・冗長設計、長期運用・保全の知などだ。
日本は、WFMが“壊れず・怖くならず・使われ続ける”ための身体条件を設計できる数少ない国である。ロボメーカーの価値は、「ロボットを作ること」ではない。WFMが安心して降りてこられる身体を提供することにある。
②L3:学習加速の成立基盤――工場を「世界理解AIの訓練場」に変える
日本最大の戦略資産は、疑いなく工場である。工場は、現実の物理世界、制御された環境、正解が定義された作業、日々の改善と例外処理、人間の介入という高品質教師をすべて併せ持つ。工場とは、WFMにとって世界最高水準の“現実トレーニング環境”である。日本が工場を、ロボット導入の場ではなく、WFMを育てる学習基盤として再定義できるかどうか。ここが、日本の将来を決める。
③L4:社会・需要の成立基盤――「止められるAI」を設計できる国
フィジカルAIは、必ず失敗する。重要なのは、失敗しないことではない。なぜ失敗したのか説明できるか。その場で止められるか。再発を防げるか。この問いに答えられないAIは、一度の事故で社会から排除される。日本は、安全文化・品質文化・現場と社会の合意形成・責任分界の設計において、他国にない蓄積を持つ。日本は、フィジカルAIを“暴走させない設計”ができる国である。
■日本の強みは「役割分担構造」
WFM時代における日本の強みは、単独企業ではなく、役割分担構造にある。
----------
製造業(ユーザー)
・工場という訓練場の提供
・作業、品質、例外、人介入のデータ化
・工程知を世界理解AIの学習資源に変換
→WFMの学習を加速させる主体
ロボメーカー
・WFMに適合する身体の設計
・力制御、安全制御、耐久性
・複数実行体の共存前提設計
→WFMの実行体を担う主体
SI・IT企業(例:富士通)
・複数WFM/RFMの統合
・空間、群制御、運用OS
・学習ループと社会実装の管理
・停止、監査、責任設計
→WFMエコシステムを“現実で回す中枢”
----------
■工場こそ「最も誠実な出発点」である
誤解してはならない。工場から始める戦略は、リスク回避でも消極策でもない。工場は、フィジカルAIにとって最も高度で、最も誠実な出発点である。制御可能な現実で鍛え、十分に成熟してから社会へ出す。これは、技術的にも社会的にも最も合理的な進化の順序だ。
日本が世界に提供できる価値は、「AI」そのものではない。世界理解AIを、現実世界で“成立させ続ける方法”である。壊れない、怖くならない、改善し続ける、社会に受け入れられる。この知は、エヌビディアにもテスラにも代替できない。
WFM時代において、世界は二種類の国に分かれる。「WFMを作る国」と「WFMを成立させる国」だ。日本は、後者になれる。そしてその役割は、決して二番手ではない。世界を理解するAIが、現実の中で生き延び、成長し続けられるかどうか。その成否を握るのが、日本である。
■CES2026で富士通が示した「意思表示」
第5章:富士通はフィジカルAI/WFM構造の中でどこに位置づけられるのか
――「WFMを作る企業」ではなく「WFMを成立させる企業」への明確な一歩
結論から言おう。富士通は、WFM時代において、日本企業として「正しい場所」に立っている。まず結論をはっきりさせておく。富士通は、WFMを自社で巨大に構築する企業ではない。しかし、WFM時代において“最も価値の高い役割”を担える場所に立っている。その役割とは何か。WFMを、現実の物理世界・社会の中で“成立させ、回し続ける中枢”を担うことである。CES2026で富士通が示したのは、この立ち位置に対する極めて一貫した意思表示だった。
CES2026の富士通ブースで最も印象的だったのは、特定のロボットやハードウェアの性能を誇示していなかった点だ。代わりに前面に出ていたのは、人・ロボット・物体が混在する空間、未整備環境における複数ロボットの協調、衝突・滞留・デッドロックを起こさずに動き続ける秩序だ。すなわち、「空間そのものを知的に扱う能力」である。ここで富士通が提示したのは、単体ロボットの賢さではなく、“複数の実行体が同時に存在する現実空間をいかに破綻させずに運用できるか”という、フィジカルAIの中でも最も難度の高い問題設定だった。
■エヌビディア・テスラとは違う「ポジション」
富士通が展示の中核に据えた空間World Model(Spatial World Model)は、3Dマップの高度化、群制御アルゴリズム、マルチロボット制御といった個別技術の集合ではない。人・ロボット・設備が共存する空間全体を、一つの“予測可能な世界”として扱うための中間知能である。これは、WFMそのものではない。しかし同時に、WFMが現実世界に降りてきたとき、必ず必要になる“現実側の中枢”でもある。
ここで、富士通のCES2026出展を成立基盤4階層にマッピングし直そう。
----------
L1:知能・計算の成立基盤――「WFMの応用中枢」を担う企業
富士通は、エヌビディアのようにWFMそのものを構築・配布する企業ではない。また、テスラのようにWFMを自社実行体に垂直統合する企業でもない。富士通が狙っているのは、複数のWFM/RFM(Robot Foundation Model、ロボット基盤モデル)を前提に、それらを現場で“機能させるための統合知能”というポジションである。空間World Modelは、WFMを現実空間で使うための“翻訳層・調停層”として設計されている。
L2:身体・感覚の成立基盤――身体を持たないからこそ成立する強み
富士通自身は、ヒューマノイドや産業ロボットを製造していない。しかしCES2026では、人型・動物型・作業用・清掃用といった異なる身体を同一空間で共存させていた。これは偶然ではない。富士通は、特定の身体に最適化するのではなく、“身体が違っても成立する空間秩序”を設計している。この立ち位置は、ロボメーカーとは競合せず、むしろすべてのロボメーカーにとって必要不可欠な上位レイヤーになる。
L3:学習加速の成立基盤――「ロボットが学ぶ」のではなく「空間が賢くなる」
富士通のアプローチで最も重要なのは、学習の単位をロボットではなく「空間」に置いている点だ。ロボットの失敗、人の動線の変化、滞留・衝突の発生、役割分担の切り替えのすべてが、空間World Modelにフィードバックされる。学習の主体が、ロボットから“空間”へ拡張されている。これは、WFM的発想と完全に整合する。
L4:社会・需要の成立基盤――最も難しい現実を正面から扱っている
展示環境が、完全に整備された工場ではなく、人が混在する未整備空間であった点は、極めて重要な意味を持つ。なぜなら、フィジカルAIが最終的に失敗するのは、技術ではなく社会条件だからである。富士通は、予測不能な人の動き、社会的安全性、実運用における責任を、最初から設計対象に含めている。これはL4(社会成立基盤)を“後付け”にしていない、という強いメッセージだ。
----------
■2025年の「エヌビディアとの提携」が意味するもの
2025年に発表された富士通とエヌビディアの提携は、単なる技術提携ではない。構造的に見れば、この提携は極めて合理的だ。エヌビディアは、WFMを“仮想世界・基盤モデル”として提供する。富士通は、WFMを“現実空間・社会運用”に接続する。WFMエコシステムにおける明確な役割分担が成立している。これは、日本企業がWFM時代に“どこを取りに行くべきか”の模範例でもある。
ここで重要なのは、CES2026で富士通が示した内容が、「一端」にすぎないという点だ。空間World Modelという中枢は、運用と学習を通じて進化し続ける性質を持つ。つまり、一度の展示で“完成形”を見せるものではない。現実空間で回し続けることで価値が出る。そのため、CESで示されたのは構造の入口に過ぎない。同社では、フィジカルAIについて様々な取り組みをしていることを強調している。
ここまでを総合すると、富士通の立ち位置は明確になる。富士通は、WFMを“作る企業”ではない。しかし、WFMが現実世界で破綻せずに動き続けるための最も重要な中枢を担おうとしている。このポジションは、エヌビディアにもテスラにも代替できない。
富士通のCES2026出展は、日本企業がWFM時代においてどこに立ち、何を担うべきかを示した極めて明確な戦略的メッセージである。それは、派手なモデル競争ではなく、ロボット単体の性能競争でもなく、現実世界を成立させ続ける知の設計に主戦場を置くという宣言だ。
■テクノロジー競争の「勝者の条件」が変わった
最終章:フィジカルAI時代の勝者は誰か
――「世界を作る者」ではなく、「世界を成立させる者」へ
本稿を通じて見てきたのは、ロボットやAIの個別進化ではない。フィジカルAIの時代とは、世界を理解するAI(WFM)が産業と社会の中枢に入り始めた時代である。そして、その競争の本質は、モデルの大きさ、アルゴリズムの新規性、デモの派手さではなかった。どの世界理解AIを、どこで、どう育て、どの現実に定着させ続けられるか。この一点に、すべてが収束する。
従来のテクノロジー競争では、勝者はしばしば、最先端技術を最初に作った者、最大市場を押さえた者、規模で他を圧倒した者として定義されてきた。しかし、フィジカルAIの時代には、この定義は通用しない。なぜなら、現実世界は、スケールさせにくいからだ。一度の事故が、すべてを止める。一度の不信が、社会から排除する。一度の破綻が、長期運用を不可能にする。フィジカルAIの勝者とは、最も賢いAIを作った者ではなく、AIを“現実世界で成立させ続けた者”である。
■日本が進むべき「新しい勝ち筋」
本稿で取り上げてきた二社、エヌビディアとテスラは、確かに突出している。しかし重要なのは、両社が「完成形」を示したわけではない、という点だ。彼らが示したのは、フィジカルAIは世界理解AIを中枢に持つ、ロボット・自動運転・工場は同一WFMの異なる実行体である、産業はプラットフォーム/エコシステム構造に再編されるという、不可逆な構造転換の方向である。エヌビディアとテスラは、競争の“終点”ではなく、競争の“ルール変更”を提示した存在だ。
ここで、ようやく日本の話に戻ろう。日本は、世界最大級のGPU資本を持たず、またグローバルな実世界データフリートも持たない。この点だけを見れば、不利に見えるかもしれない。しかし、フィジカルAIの競争は、単線的な競争ではない。WFMを“作る国”と“成立させる国”は、必ずしも同じである必要はない。
本稿で繰り返し論じてきたように、日本には、他国にはない資産がある。世界最高水準の工場、精密で信頼性の高い身体(ロボット・設備)、現場に根差した改善知・運用知、失敗を許容し、修正し、定着させる社会文化。これらはすべて、WFMを現実世界で“壊さず・暴走させず・止めずに回す”ための必須条件である。日本は、WFMを育て、WFMを現実に根付かせ、WFMを社会に定着させる国になれる。これは二番手ではない。別の勝ち筋である。
■フィジカルAI時代の「最も重要な問い」とは
CES2026で富士通が示したものは、完成されたロボット製品ではなかった。しかし、それは欠点ではない。ロボット自体を自社プロダクトとして見せるよりも、“どこを担うか”を明確に示した。WFMを作るのではない。ロボットを主役にしない。現実空間を調停し、成立させる中枢を担う。この立ち位置は、日本企業がWFM時代に取り得る最も戦略的なポジションである。
最後に、最も重要な問いを提示したい。あなたの企業は、フィジカルAIを「作る対象」として見ているのか。それとも「育て、成立させるプロセス」として見ているのか。この問いにどう答えるかで、技術戦略、投資判断、組織設計、パートナー選択のすべてが変わる。そしてこの問いは、企業だけでなく、国家にも突きつけられている。
フィジカルAIの時代は、スピードの競争ではない。どれだけ速く走れるかではなく、どれだけ長く、現実世界と折り合いをつけながら走り続けられるか。この競争において、派手なデモ、一時的な話題性、過剰な期待は、むしろリスクになる。最後に勝つのは、世界を理解するAIを、世界の中で成熟させられた者である。そして、その条件を最も多く備えている国の一つが、日本である。
フィジカルAIの時代において、問われているのは「誰がAIを作るか」ではない。「誰が、AIと現実世界の関係を最後まで引き受けられるか」である。日本は、その問いに答えられる場所にいる。
----------
田中 道昭(たなか・みちあき)
日本工業大学大学院技術経営研究科教授、戦略コンサルタント
専門は企業・産業・技術・金融・経済・国際関係等の戦略分析。日米欧の金融機関にも長年勤務。主な著作に『GAFA×BATH』『2025年のデジタル資本主義』など。シカゴ大学MBA。テレビ東京WBSコメンテーター。テレビ朝日ワイドスクランブル月曜レギュラーコメンテーター。公正取引委員会独禁法懇話会メンバーなども兼務している。
----------
日本工業大学大学院技術経営研究科教授、戦略コンサルタント 田中 道昭
https://news.yahoo.co.jp/articles/e7dd0ed82da328981203eb50f72e58ff8d66d784?page=1
'일본은 AI로 완패'는 큰 실수…엔비디아도 테슬라도 흉내 낼 수 없는 일본만이 가진 '최강 자산' / 1/9(금) / 프레지던트 온라인
세계 최대 기술 박람회 'CES'가 1월 6일(미국시간)부터 미국 라스베이거스에서 열리고 있다. 2026년의 테크 업계는 어떤 방향으로 나아갈 것인가. 일본 공업대학대학원 기술경영연구과의 타나카 미치아키 교수가 현지로부터 리포트한다.
※ 본고는, 후지쯔 「테크놀로지 뉴스」의 기사 <피지컬 AI의 시대>(1월 8일 공개)를 재편집한 것입니다.
■ 'AI의 주전장' 확 달라졌다
젠슨 후안 엔비디아 CEO는 CES 2026 기조강연에서 상징적인 한 장의 슬라이드로 중요한 메시지를 제시했다. 제목 'AI Scales Beyond LLMs'가 보여주는 대로 AI의 진화축은 더 이상 LLM(대규모 언어모델)에 머물지 않고 행위·물리세계·자연법칙으로 확장되었음이 명확히 선언돼 있다. 이는 단순한 기술 트렌드가 아니다. 산업경쟁의 단위가 모델에서 세계로 넘어가는 것을 뜻한다.
중앙에 위치하는 것이, 피지컬 AI ―― "PHYSICAL AITAKESLEAP"이다. AI는 디지털 공간을 벗어나 로봇이나 자율주행으로 물리세계에서 넘어지고 부수고 배우는 단계에 도달했다. 이는 응용 분야의 확대가 아니라 Agentic AI와 계산력, 물리 시뮬레이션이 결합한 새로운 AI의 표준형 성립을 의미한다. 나아가 'AI LEARNS LAWS OF NATURE'는 AI가 자연법칙 자체를 학습·탐색하는 존재로 확장하는 것을 나타내며, 창약이나 재료, 에너지와 같은 과학 영역이 동일 기반으로 다뤄지는 단계에 접어들었음을 시사한다.
본고에서는, 「AI의 주전장이 언어(LLM)로부터 "세계 그 자체"로 이행했다」는 것의 상징으로서의 피지컬 AI에 초점을 맞추어 논고해 가고 싶다.
■ CES 2026 현지에서 보인 '새로운 주역'
라스베이거스에서 개최된 CES 2026의 회장을 걸으며 나는 강한 기시감을 기억하고 있었다. 그것은 놀라움이 아니라 확인에 가까운 느낌이었다. 지난해 CES 2025. 최대 메가트렌드는 어김없이 엔비디아가 제시한 'AI 에이전트'였다. 단순히 문장을 생성하는 AI가 아니라 스스로 상황을 이해하고 목적을 설정해 여러 도구와 소프트웨어를 나눠 쓰면서 작업을 완수한다.
그런 자율적으로 행동하는 AI가 단숨에 산업의 주역으로 드러난 해였다. 그리고 CES 2026. 회장에서 내가 느낀 것은 이런 것이었다. 지난해 엔비디아가 이미 제시했던 '또 하나의 AI'가 올해 뚜렷한 주역으로 우뚝 섰다. 그것이 피지컬 AI이다.
이를 CES 2026의 광활한 전시장에서 느낀 것은 그곳이 로보틱스·자율주행·산업용 AI로 가득 차 있었기 때문만은 아니다. 피지컬 AI의 의의와 본질이 시각적으로 드러났기 때문이다. 반송이나 피킹의 데모, 공장내에서의 복수 기체의 협조, 실내외를 걸치는 이동과 작업의 통합. 개체성능의 경쟁과 함께, 「공간의 질서」를 보여주는 전시도 눈에 띄었다.
■ '피지컬 AI'란 무엇인가
피지컬 AI란 무엇인가. 전문용어를 피해서 말하면 이렇게 정의할 수 있다. 물리적 AI란 물리 세계를 이해하고 그 안에서 판단하고 실제로 행동하는 AI다. 단순히 글을 쓰는 AI가 아니다. 화면 속에서 완결되는 AI도 아니다. 로봇이 물건을 잡는다. 자율주행차가 교차로를 판단한다. 공장에서 복수의 설비가 협조하여 움직인다.
이러한 「현실 세계에의 개입」그 자체를 담당하는 AI다. 중요한 것은 단순히 로봇이 똑똑해졌다는 얘기가 아니라는 점이다.
로봇도, 자율주행도, 공장 자동화도 결코 새로운 주제가 아니다. 그렇다면 왜 이제 와서 '피지컬 AI'라는 말이 이 정도의 존재감을 드러내기 시작했을까. 이유는 명확하다. 지금까지 따로 이야기되어 온 것이, 하나의 구조로서 "연결되어 버렸기" 때문이다. 지난해 AI 에이전트는 지적 판단을 자율화했다. 올해 피지컬 AI는 그 지적 판단이 물리 세계에 연결된 상태를 보여준다. 판단만으로 끝나지 않는다. 행동까지 포함하여 완결되다. 실패와 학습을 반복하다.
이 단계에 접어들면서 AI는 편리한 도구에서 산업구조를 바꾸는 주체로 질적으로 바뀌었다.
■ 기업 간 '차이' 생기기 시작했다
CES 2026의 전시를 보면서 또 하나 강하게 느낀 것이 있다. 그것은 로봇, 자율주행, 공장, 창고를 각각 별개의 산업으로 말하는 것 자체가 이미 현실과 어긋나기 시작했다는 사실이다. 행사장에서 제시된 것은 로봇 단체의 성능 경쟁이 아닌, 자동차 회사 간의 경쟁도 아닌, 공장 설비의 고도화만도 아니라는 것이다. 물리 세계를 어떻게 이해하고 어떻게 제어할 것인가라는 공통된 물음에 대한 해답이었다. 이 공통점을 간파할 것인가 아닌가. 여기서 기업이나 국가의 이해력에 뚜렷한 차이가 생기기 시작했다.
이 변화를 관통하는 핵심 개념이 World Foundation Model(WFM, 세계 기반 모델)이다. WFM은 물리 세계의 구조, 인과관계, 시간 변화를 학습해 '이 세상에서 무슨 일이 일어나고 있는가' '다음에 무슨 일이 일어날 수 있는가'를 내재적으로 이해·예측하는 AI를 말한다. 중요한 것은 이는 '로봇 전용 AI'가 아니라는 점이다. 로봇도, 자율주행도, 공장도, 창고도, 같은 WFM에 접속된 다른 "실행체"에 지나지 않는다. CES 2026은 이 구조가 더 이상 개념이 아닌 현실 산업으로 우뚝 서기 시작했음을 보여줬다.
■ '세계를 이해하는 AI' 시대로
본고에서는 CES 2026에서 보였던 이 변화를 개별 기술의 해설이 아니라 데모의 나열도 아닌 '구조'로서 읽어낸다. 구체적으로는 피지컬 AI의 전체 구조(가로축×세로축), 그 중추에 있는 WFM의 정체, 엔비디아와 테슬라라는 두 가지 실천 모델, 그리고 일본 기업이 어디를 담당해야 하는지를 단번에 정리한다. 피지컬 AI의 시대란 로봇의 시대가 아니다. 세계를 이해하는 AI가 산업과 사회의 중추에 들어가기 시작한 시대다. CES 2026은 그 시작을 분명히 밝혔다.
----------
【주】본고에서 말하는 World Foundation Model(WFM, 세계기반 모델)은 로봇공학 분야에서 논의되어 온 시각·언어·행동을 통합하는 기반 모델을 기술적으로 포함한 후, 그 사정거리를 로봇 단체에 한정하지 않고, 자율주행이나 공장과 같은 복수의 실행체에 공통되는 세계 이해의 중추로서 재정의한 개념이다. 각 실행체는 이 공통의 세계 이해에 접속함으로써 신체나 역할의 차이를 넘어 일관된 판단과 행동을 생성할 수 있게 된다.
덧붙여 WFM이라고 하는 용어는, 엔비디아가 자사의 대처를 설명할 때에 명시적으로 이용하고 있는 개념이다. 반면 테슬라를 비롯한 다른 선진 기업들은 반드시 동일한 용어를 사용하지는 않지만 물리 세계의 구조와 인과관계를 통합적으로 학습하고 여러 실행체(자율주행차, 로봇, 공장 시스템 등)에 공통의 세계 이해를 제공한다는 점에서 구조적으로 동형의 접근 방식을 채택하고 있다.
본고에서는 이러한 용어상의 차이를 넘어 '물리세계를 횡단적으로 이해하고 그 이해를 다양한 실행체에 공급하는 중추지능'이라는 구조적 공통성에 착안하여 엔비디아가 명시적으로 제시하는 WFM뿐만 아니라 테슬라처럼 다른 표현이나 구현형태를 취하면서 동등한 세계 이해구조를 내포하는 대응에 대해서도 분석개념으로서 WFM이라고 총칭하고 있다. 이것은 특정 기업의 용어를 확장해 유용하는 것이 아니라, 물리적 AI 시대에 출현하고 있는 세계 이해 AI의 공통 구조를 추상화한 분석틀로서 WFM이라는 호칭을 이용하고 있다는 점을, 미리 명확히 해 두고 싶다.
여기서 중요한 것은 피지컬 AI의 경쟁을 '로봇 시장의 경쟁'으로 보는 순간 우리가 '잘못된 게임'을 싸우기 시작한다는 점이다. 생태계 디스랩션론이 제시하는 대로 승패를 가르는 것은 기존 게임 안에서의 승리가 아니라 가치구조 자체의 재편이다. WFM을 중추로 로봇·자율주행·공장·창고가 단일 구조로 수렴하기 시작한 현재 경쟁의 단위는 '제품'도 '시장'도 아닌 최소 성립하는 신에코시스템(MVE=Minimum Viable Ecosystem, 단체의 제품이나 서비스가 아닌 최소 구성으로 자주할 수 있는 가치순환을 성립시킨 생태계의 최소 단위)을 어디에서 만들고 어떤 순서로 확장하느냐로 옮겨가고 있다.
----------
■ '본질'은 로봇도, 자율주행도 아니다
● 제1장 : 피지컬 AI의 전체 구조
―― 왜 같은 기술을 사용해도 '성립하는 AI'와 '멈추는 AI'가 생기는가
피지컬 AI에 대해 이야기하려고 하면, 논의는 곧바로 다음과 같은 방향으로 흩어진다. 로봇이 똑똑해졌다. 자율주행이 진화했다. 공장의 자동화가 고도화되었다. 모두 사실이다. 그러나, 이것들을 개별적인 진화로서 나열하는 것만으로는, 본질은 보이지 않는다. 왜냐하면, 지금 일어나고 있는 것은 개별 기술의 진보가 아니라, 구조의 전환이기 때문이다. 그 구조를 이해하기 위해서는, 우선 「무엇이 공통이고, 어디가 경쟁이 되는 것인가」를 분리할 필요가 있다.
피지컬 AI라고 불리는 것에는 분야를 불문하고 공통되는 내부 구조가 존재한다. 그것은 다음의 순환이다.
----------
1. 인식(Perception)
2. 추론·계획(Reasoning/Planning)
3) 행동 (Action)
4. 데이터 학습 (Learning / Feedback)
----------
이 흐름은 로봇, 자율주행, 공장·창고 모두에서 다르지 않다. 중요한 것은, 이것은 단순한 처리 플로우가 아니라, 물리 세계와 관계를 계속 맺기 위한 순환 구조라는 점이다.
피지컬 AI에 있어서의 인식은, 카메라나 센서로 「보는」 것이 아니다. 세계가 지금 어떤 상태에 있는지를 추정하는 것이다. 물리 세계는 항상 불완전하고, 센서는 노이즈를 포함하며, 물체는 숨어 있고, 사람은 예측할 수 없이 움직인다. 그래서 인식이란 확률적으로 세상을 가정하는 행위에 가깝다.
■ '데이터가 순환되지 않는 AI'는 반드시 막혀
추론이란 조건 분기의 선택이 아니다. 피지컬 AI는 항상, 이 행동을 취하면 무슨 일이 일어날지, 다른 행동이 더 안전하지 않은지, 실패했을 경우의 영향은 어느 정도인지와 같은 미래를 가상적으로 계속 시험하고 있다. 즉, 추론·계획이란, 내부에 가지는 "세계의 모델"을 사용해 미래를 시뮬레이션 하는 능력이다.
행동은 물리적 인공지능에서 가장 중요한 의미를 지닌다. 왜냐하면 행동은 돌이킬 수 없기 때문이다. 물건을 떨어뜨리기, 사람을 만지기, 기계를 움직이기와 같은 순간 AI는 현실 세계에 영향을 주는 주체가 된다. 따라서 행동이란 AI가 세계와 "계약"을 맺는 행위라고 할 수 있다.
행동의 결과는, 반드시 데이터로서 돌아온다. 성공, 실패, 사람의 개입. 이 데이터가 다음 판단을 바꾼다. 여기서 중요한 것은 피지컬 AI에서 데이터는 부산물이 아니라 지능 그 자체의 일부라는 점이다. 데이터가 순환하지 않는 AI는 반드시 어딘가에서 막힌다.
■ 물리적 AI를 뒷받침하는 '4가지 기반'
여기서 강조해야 할 것이 있다. 이 가로축은 경쟁을 위한 축이 아니다. 어떤 피지컬 AI도 이 구조에서 벗어날 수 없다. 그래서 가로축의 올바름에서는 차이가 나지 않는다, 차이가 나는 것은 다른 장소라는 결론에 이른다.
현실에는 PoC(개념 실증)에서 멈추는 AI, 시위에서는 움직이지만 현장에서는 쓸 수 없는 AI, 한 번의 사고로 사라지는 AI가 수없이 존재한다. 이는 가로축의 이해 부족이 아니다. 가로축을 "계속 돌리게 하는 조건"이 결여되어 있는 것이 원인이다.
피지컬 AI가 현실 세계에서 계속 성립하기 위해서는 다음의 네 가지 기반이 동시에 성립되어 있어야 한다.
----------
L1 : 지능, 계산의 성립 기반
가로축 전체를 통합하고, 세계를 이해하고, 미래를 예측하고, 행동계획을 생성하는 판단의 중추이다. 이 층이 약한 AI는 환경이 조금만 바뀌어도 파탄이 난다.
L2 : 신체·감각의 성립기반
현명함을 현실 세계의 움직임으로 변환하는 '그릇'. 액추에이터, 센서, 힘 제어, 안전 설계. 이들이 약하면 아무리 똑똑한 AI라도 사용되지 않는다.
L3 : 학습 가속의 성립 기반
가로축을, 사용할수록 현명하게 하는, 실패를 학습으로 바꾸기 위한 구조. 시뮬레이션, 디지털 트윈, 데이터 순환 등이 여기에 포함된다.
L4 : 사회·수요의 성립 기반
마지막으로 가장 간과되기 쉽지만 결정적인 층. 사고 시 책임, 설명 가능성, 규제·수용성, ROI(투자수익률)에서 그치는 AI는 아무리 우수해도 사회에 남지 않는다.
----------
중요한 점을 확인해 두자. 4계층은 밑에서부터 차례로 쌓아가는 공정이 아니다. L1만 있어도 실패한다, L2만 있어도 실패한다, L3만 있어도 실패한다, L4만 있어도 실패한다. 4개가 동시에 성립해야 피지컬 AI는 계속 돌아간다. 이것이 '성립기반'이라 부르는 이유이다.
여기까지의 정리로부터 다음 사항이 명확해진다. 피지컬 AI의 경쟁은 알고리즘의 경쟁이 아니다. 성립 기반을 동시에 유지할 수 있을지의 경쟁이다. 그리고, 이 성립 기반의 중추에 위치하는 것이, WFM이다.
■ 언어 AI와 물리적 AI의 '결정적 차이'
제2장 : World Foundation Model (WFM)이라는 중추
―― 피지컬 AI는 왜 '플랫폼 산업'이 될까
피지컬 AI의 핵심은 '로봇'이 아니다. 그간 논의에서 드러난 것은 피지컬 AI의 본질이 로봇 고성능화·자율주행 고도화·공장 자동화 같은 개별 성과에 있는 것이 아니라는 점이다. 진정으로 물어야 할 것은 다음 한 가지다. AI는 물리 세계 자체를 어떻게 이해하고 어떻게 다루고 있는가. 이 물음에 정면으로 대답하려고 했을 때, 종래의 「태스크 특화 AI」나 「로봇용 AI」라고 하는 틀은 분명히 불충분해진다.
언어 AI와 피지컬 AI의 가장 큰 차이는 다루는 대상의 성질에 있다. 언어의 세계는 기호적이고 가역적이며 틀리더라도 다시 시작할 수 있다. 반면 물리세계는 연속적이고 불확실하며 불가역적이다. 물건을 떨어뜨리다. 사람을 건드리다. 기계를 멈추다. 그 한 번의 판단이 돌이킬 수 없는 결과를 낳는다. 이 세계를 다루기 위해서는 인식하고 반응하는 것만으로는 부족하다. 행동하기 전에 그 결과를 "상상할 수 있는 지능" 이 필요하게 된다.
여기서 등장하는 것이 WFM이다. WFM이란 물리 세계의 구조·인과관계·시간 변화를 내부에 세계적으로 보유해, 그 세계 속에서 행동을 가상적으로 시험해, 결과를 예측한 후에 현실의 행동을 생성하는 기반 AI이다. 중요한 것은 WFM은 '작업을 푸는 모델'이 아니라는 점이다. WFM은 세계 자체를 다루는 모델이다.
■ WFM '태스크' 아닌 '세계'를 풀어본다
WFM은, 내부에 적어도 다음의 4층을 가진다.
----------
1) 세계표현
공간, 물체, 사람, 의미, 행동 가능성을 포함한 표현
2) 세계 다이내믹스
힘·마찰·관성·사람의 움직임과 같은 시간 변화의 이해
3.계획·의사결정
미래를 가상으로 시행하고 최적의 행동 계열을 선택하는 능력
4) 실행접속
고레벨 판단을 저레벨 제어로 안전하게 떨어뜨리는 구조
----------
이를 통해 AI는 '지금 무슨 일이 일어나고 있는가'뿐만 아니라 '다음에 무슨 일이 일어날 수 있는가'를 이해하고 행동할 수 있다.
여기서 결정적으로 중요한 점을 확인하자. WFM은 로봇을 위해, 자율주행을 위해, 공장을 위해 개별적으로 만들어지는 것이 아니다. 왜냐하면 이들은 모두 같은 세상을 살고 있기 때문이다. 로봇도, 자율주행차도, 공장도, 창고도 동일한 물리세계를 공유하고 있다. 다른 것은 어떤 신체(실행체)를 가지고 있는지, 어떤 행위를 담당하고 있는지 뿐이다. 즉, WFM이란, 동일한 세계 이해에, 다른 실행체를 접속하기 위한 중추이다.
■ 피지컬 AI의 '본질'을 이해하고 있는 2개 회사
이 시점에 서면, 지금까지 분단되어 온 산업이 단번에 연결된다.
----------
・ 자율 주행 → 차량이라는 실행체를 가진 WFM
・ 로봇 → 인형, 팔형이라는 실행체를 가진 WFM
・ 공장, 창고 → 설비군이라는 집합체의 실행체를 가진 WFM
----------
이것들은 다른 기술 영역이 아니다. 동일한 WFM을 중심으로 실행체만 다른 하나의 산업구조다.
이 구조를 이론이 아닌 구현 전제로 이해하고 있는 기업은 현시점에서 두 곳밖에 없다.
----------
엔비디아
・ 가상세계(시뮬레이션) 먼저 구축
・ WFM을 플랫폼으로 외부에 제공
・ 실행체는 고객측에 맡긴다
→WFM을 '산업 OS'로 배포하는 기업
테슬라
・ 실세계(차량 플리트)에서 직접 학습
・ WFM을 자사 내에 수직 통합
・ 차량과 휴머노이드를 동일 지능으로 구동
→WFM '자사중추' 독점 키우는 기업
----------
접근법은 정반대지만 서 있는 지평은 완전히 같다.
■ WFM '플랫폼' 될 필연성
WFM이 플랫폼이 되는 이유는 명확하다.
----------
① 세계 해석이라는 '공통 전제'를 쥐고 있다
세계를 어떻게 이해하느냐는 모든 판단의 전제가 된다.
② 실행체가 증가할수록 가치가 증가하다
서로 다른 신체·환경에서의 경험이, 세계 이해를 깊게 한다.
③ 단일 기업으로는 완결되지 않는다
데이터·신체·운용의 다양성이 필요하기 때문에 필연적으로 에코시스템 구조가 된다.
----------
WFM을 중심으로 한 구조는, 상류→하류, 물건의 흐름, 거래 관계에서는 설명할 수 없다. 필요한 것은 중추(WFM)를 중심으로 신체·학습·사회 구현이 동시에 존재하는 레이어 구조라는 이해이다. 이것은 OS와 앱의 관계에 가깝다.
WFM을 단순한 「고성능 AI」라고 파악하면, 로봇 마다 AI를 만든다, 공장 마다 모델을 나누는, 분야 마다 학습을 다시 하는 치명적인 비효율에 빠진다. 같은 세계를 몇 번이고 처음부터 다시 배우는 산업구조는 더 이상 성립되지 않는다.
WFM이란 피지컬 AI의 플랫폼으로, 에코시스템 기반이다. 로봇, 자율주행, 공장, 창고는 더 이상 다른 산업이 아니다. 동일한 WFM에 접속된 서로 다른 실행체로서, 하나의 거대한 산업으로 통합되고 있다.
■ 엔비디아-테슬라 '뜻밖의 공통점'
제3장 : World Foundation Model(WFM)을 실천하는 2대 대기업
―― 엔비디아와 테슬라는 왜 같은 지평에 서 있을까
WFM이라는 말은 언뜻 보면 추상적이고 학술적인 개념으로 보일 수 있다. 그러나 현실은 이미 다르다. WFM이라는 개념을 "전제로서 가지고 있는 기업"과 "아직 개별 최적으로 생각하고 있는 기업" 사이에는, 더 이상 메우기 어려운 단절이 생겨나고 있다. 그 분기점 건너편에 서 있는 기업이 현시점에서 두 곳밖에 존재하지 않는다. 엔비디아와 테슬라다. 두 회사는 업태도 역사도 다르다. 그러나 세계의 시각은 놀라울 정도로 일치한다.
엔비디아와 테슬라를 이해하기 위한 첫걸음은 양사가 다음 전제를 공유하고 있다고 인식하는 것이다. 로봇·자율주행·공장은 다른 기술 문제가 아니다. 모든 것은 물리세계를 어떻게 이해하고 그 안에서 어떻게 행동할 것인가라는 동일한 문제의 다른 표현이다. 이 전제에 서면, 종래의 산업 분류는 의미를 잃는다. 자율주행 AI, 로봇 AI, 공장 AI라는 나누는 방식은 WFM 이전의 사고방식일 뿐이다.
■ 엔비디아 : WFM을 '명시적으로 구축하는 기업'
엔비디아 전략의 핵심은 먼저 세계를 만든다는 데 있다. 현실 세계를 직접 상대하는 것이 아니라 물리법칙을 가진 가상 세계, 시간 변화를 동반하는 3D 공간, 사람·기계·물체가 상호작용하는 환경을 디지털 트윈으로 먼저 구축하고 그 안에서 AI를 키운다. 이것은, WFM을 "가상 세계에서 기르는" 어프로치라고 표현할 수 있다.
엔비디아에게 WFM은 로봇용도 차량용도 공장용도 아니다. 「세계 이해 그 자체를 담당하는 중추」이다. 그렇기 때문에 로봇용(Isaac:로봇이 세상을 이해하고 움직이기 위한 기반), 자율주행용(Drive:차량이 주위를 이해하고 판단하기 위한 기반), 공장·창고용(Omniverse/Factory:공장이나 창고의 상태를 이해하고 최적화하기 위한 기반)과 같은 제품군이 하나의 사상 아래 정연하게 나열된다. 엔비디아는 WFM을 "공통 OS"로서 제공하고 실행체는 고객에게 맡긴다.
----------
엔비디아형의 강점과 제약
강점
・ 모든 산업을 횡단할 수 있다
・ 특정 용도에 의존하지 않는다
・ 생태계가 확장될수록 가치가 증가하다
제약
・ 현실세계의 삶의 실패를 직접 갖지 않는
・ 실행체의 최종 책임은 고객 측에 남는다
----------
즉 엔비디아는, WFM을 "지형"으로서 제공하는 기업으로, 스스로는 그 위를 달리지 않는다.
■ 테슬라 : WFM '암묵적으로 구현하는 기업'
테슬라는 WFM이라는 단어를 거의 사용하지 않는다. 그러나 그것은 이해하지 못해서가 아니다. 굳이 언어화하지 않은 것이다. 테슬라의 전략은 매우 일관적이다. 실세계에서 달리게 하다. 실세계의 데이터를 모으다. 실세계에서 실패하고 수정한다. 세계 이해는 현실 속에서 단련한다는 사상이다.
테슬라에게 WFM은 논문 개념도 제품 카테고리도 아니다. 자율주행을 성립시키기 위해 필연적으로 생겨난 '내부 구조'다. 그래서 테슬라는 차량이라는 몸으로 단련한 세계 이해를 그대로 휴머노이드(Optimus/옵티머스: 테슬라가 자율주행으로 쌓은 세계 이해를 인간형의 몸으로 실행하는 것을 목적으로 한 로봇)에 연결하는 선택을 일체의 망설임 없이 수행할 수 있다.
----------
테슬라형 강점과 제약
강점
・ 실제 데이터의 압도적 양
・ 세계에서 가장 엄격한 사회 조건(공공 도로)으로 단련되는
・ WFM과 실행체를 완전히 일체 최적화할 수 있다
제약
・ 거대한 자본과 시간이 필요하다
・ 실패의 사회적 비용이 매우 높다
・ 타사가 모방할 수 없는 전제 조건에 의존
----------
즉 테슬라는 WFM을 "자사 전용 중추"로 수직 통합하는 기업이다.
■ 동일 WFM, 정반대의 구현 전략
여기서 다시 엔비디아와 테슬라라는 두 회사를 구조적으로 대비해보자.
언뜻 보면 두 회사는 전혀 다른 길을 가고 있는 것처럼 보인다. 하지만, 시점을 「World Foundation Model(WFM)」이라고 하는 중추로 다시 하면, 실은 같은 지평에 서면서, 정반대의 실장 전략을 선택하고 있는 것이 분명하게 떠오른다.
우선, WFM의 취급이다.
엔비디아는 WFM을 명시적으로 내걸고 그것을 「누구나 접속 가능한 공통 기반」으로서 설계하고 있다. 옴니버스, 이사크, 코스모스로 대표되듯 물리세계를 이해·예측하기 위한 모델군을 개발자나 기업이 횡단적으로 이용할 수 있는 형태로 제공하는 발상이다.
반면 테슬라는 WFM이라는 말을 쓰지 않는다. 하지만 실태로서는, 차량·공장·로봇을 관통하는 세계 이해 모델을 완전히 내제해, 암묵지로서 떠안는 전략을 취하고 있다. 이름을 주지 않음으로써 타사와 공유하는 전제 자체를 배제하고 있다고 해도 좋다.
다음으로 학습의 장이 결정적으로 다르다.
엔비디아의 WFM은 우선 가상세계에서 단련된다. 고충실도 시뮬레이션 공간에서 수백만 번의 시행착오를 실시해, 실패 코스트를 제로에 가깝게 하면서 범화 능력을 높여 간다.
대조적으로 테슬라는 철저하게 실세계에서 학습한다. 주행 중인 차량, 가동하는 공장, 현실의 실패와 예외 처리 자체가 교사 데이터가 된다. 가상으로 완결시키지 않고 현실에서 일어난 사건을 다음 개선으로 직결시키는 설계사상이다.
■ 전략 전체의 방향성과 직결되는 '차이'
실행체의 소재도 정반대다.
엔비디아의 WFM은 스스로 행동하는 주체가 아니다. 실행체는 어디까지나 고객측--자동차 메이커, 로봇 메이커, 공장 운영자이다. 엔비디아는 세계를 이해하는 두뇌를 제공하고 그 두뇌를 어떻게 사용할지는 이용자에게 맡긴다.
반면 테슬라에서는 실행체가 완전히 자사에 내포돼 있다. WFM을 쓰는 것도, 행동하는 것도, 결과 책임을 지는 것도 테슬라 자신이다. 모델과 실행체가 분리되어 있지 않다.
이 차이는 전략 전체의 방향성과 직결된다.
엔비디아는 횡단 플랫폼 전략을 취한다. 업계·용도·실행체를 넘어 WFM을 배포해, 에코 시스템 전체를 묶는 허브가 되는 것을 목표로 한다.
테슬라는 수직 통합 전략이다. 모델, 데이터, 실행체, 개선 루프를 단번에 자사에 닫아, 최적화 속도 그 자체를 경쟁력으로 바꾼다. 결과적으로 확장성의 성격도 크게 다르다.
엔비디아의 WFM은 에코시스템형이다. 다양한 플레이어가 참가함으로써 용도가 확장되고, 결과적으로 표준에 가까워진다.
테슬라의 WFM은 자사 최적형이다. 타사로의 전개는 전제로 하지 않고, 자사의 세계 이해를 극한까지 세련시킴으로써 우위성을 유지한다.
■ 누가 세계를 이해하는 'OS' 잡을 것인가
여기서 가장 중요한 것은 어느 쪽이 옳은가 하는 논의가 아니다. 본질은 엔비디아와 테슬라 모두 'WFM이라는 같은 지평'에 서 있다는 점에 있다.
두 회사 모두,
----------
・ 로봇
・ 자동 운전
・ 공장, 창고
----------
라고 하는 다른 실행체를, 개별 최적이 아니라 「세계 이해의 중추」로부터 통합하려고 하고 있다.
즉 그들은 이미,
"어떤 제품이 강한가"
"어느 업계에서 이길 것인가"
라는 논의를 넘어,
'누가 세계를 이해하는 OS(기본 소프트웨어)를 잡느냐'는 경쟁에 돌입하고 있다.
이 사실을 간파하고 있는지 아닌지 ―― 그 자체가, 피지컬 AI 시대에 있어서의 최대의 분기점인 것이다.
많은 기업이 이 지평에 서지 못하는 이유는 명확하다. 조직이 종적관계여서 세계 이해를 공유할 수 없다. 제품 단위로 사고하고, 세계 단위로 생각할 수 없다. 성공과 실패의 피드백 루프를 갖지 않는다. WFM을 전제로 하면 조직·투자·전략 모두를 재설계할 필요가 있다. 이를 감당할 수 있는 기업은 아직 극히 적다.
이 장의 가장 중요한 결론은 여기에 있다. 피지컬 AI의 경쟁은 기술의 경쟁이 아니라 "세계를 파악하는 방법"의 경쟁이다. 엔비디아와 테슬라는 세계를 어떻게 이해할 것인가, 그 이해를 어떻게 키울 것인가, 어떤 실행체에 접속할 것인가라는 물음에 이미 한 단계 앞선 답을 내놓았다.
■ '일본은 AI에서 늦었다'는 큰 실수
제4장 : 일본 기업은 어떻게 해야 하는가
―― World Foundation Model(WFM) 시대, 일본에서만 맡을 수 있는 역할이 있다
피지컬 AI, WFM을 둘러싼 논의에서 일본에 대해 이야기할 때 거의 반사적으로 이렇게 말한다. 일본은 AI로 뒤처졌다, 미중을 이길 수 없다, 기반 모델을 만들 수 없다. 그러나, 지금까지 본고에서 정리해 온 구조에 서면, 이 물음 그 자체가 전제를 그르친 것을 알 수 있다. 왜냐하면, WFM 시대의 경쟁은, 「누가 가장 큰 모델을 만들 것인가」가 아니라, 「세계 이해 AI를, 어디서·어떻게 성립시켜 계속할 것인가」라고 하는 경쟁이기 때문이다. 이 경쟁의 룰에 있어서, 일본은 결코 "한바퀴 지연"이 아니다. 오히려 다른 나라에는 없는 위치에 서 있다.
우선 일본이 해서는 안 된다는 것을 분명히 하자.
① WFM '거대 사전학습' 정면 겨냥
이는 초대규모 GPU 투자, 세계적 규모의 데이터 수집, 장기적자를 허용하는 자본구조를 전제로 한다. 이는 엔비디아형, 테슬라형의 주전장으로 일본 기업들이 같은 씨름판에서 겨뤄야 할 장소가 아니다.
② 테슬라형의 완전 수직 통합을 모방하다
테슬라는 자동차라는 대규모 실행체, 공공도로라는 세계 최대 실환경, 소프트웨어와 하드웨어를 일체로 최적화할 수 있는 조직이라는 지극히 특수한 조건을 지녔다. 테슬라는 '전략의 힌트'는 되지만 '모방 대상'은 아니다.
■ 세계적으로 우위를 가진 '3가지 성립 기반'
그럼, 일본은 어디를 담당해야 하는가. 결론은 명확하다. 일본은 WFM을 "만드는 나라"가 아니라 "성립시키고, 키우고, 멈추지 않고 돌리는 나라"가 되어야 한다. 이 역할은, WFM×성립 기반 4계층의 구조에 있어서, 매우 명확하게 자리 매김된다.
① L2 : 신체·감각의 성립 기반 ―― WFM을 현실로 내리는 '그릇'을 쥔다
WFM이 아무리 고도라도 그것을 실행하는 신체가 미성숙하면 현실 세계에서는 사용되지 않는다. 여기서 일본은 압도적인 강점을 갖고 있다. 예를 들어 정밀 액츄에이터, 힘 제어·토크 제어, 고신뢰 센서, 안전 설계·다장 설계, 장기 운용·보전 지식 등이다.
일본은, WFM이 "부스러지지 않고, 무서워지지 않고, 계속 사용되기" 위한 신체 조건을 설계할 수 있는 몇 안 되는 나라이다. 로보메이커의 가치는 로봇을 만드는 것이 아니다. WFM이 안심하고 내려올 수 있는 신체를 제공하는 데 있다.
② L3 : 학습 가속의 성립 기반 ―― 공장을 '세계 이해 AI 훈련장'으로 바꾸다
일본 최대의 전략 자산은 의심할 여지 없이 공장이다. 공장은 현실의 물리세계, 제어된 환경, 정답이 정의된 작업, 일상의 개선과 예외 처리, 인간의 개입이라는 고품질 교사를 모두 아우른다. 공장이란, WFM에 있어서 세계 최고 수준의 "현실 트레이닝 환경"이다. 일본이 공장을 로봇 도입의 장이 아니라 WFM을 키우는 학습 기반으로 재정의할 수 있을지 궁금하다. 여기가 일본의 장래를 결정한다.
③ L4 : 사회·수요의 성립 기반 ―― 「멈출 수 있는 AI」를 설계할 수 있는 나라
피지컬 AI는 반드시 실패한다. 중요한 것은 실패하지 않는 것이 아니다. 왜 실패했는지 설명할 수 있는가? 그 자리에서 멈출 수 있을까? 재발을 막을 수 있을까? 이 물음에 답하지 못하는 AI는 한 번의 사고로 사회에서 배제된다. 일본은 안전문화·품질문화·현장과 사회의 합의 형성·책임 분계의 설계에 있어서, 타국에 없는 축적을 가진다. 일본은 피지컬 AI를 "폭주시키지 않는 설계"를 할 수 있는 나라이다.
■ 일본의 강점은 '역할 분담 구조'
WFM 시대에 있어서의 일본의 강점은 단독 기업이 아니라, 역할 분담 구조에 있다.
----------
제조업(사용자)
・ 공장이라는 훈련장 제공
・ 작업, 품질, 예외, 사람 개입의 데이터화
・ 공정지를 세계 이해 AI 학습 자원으로 변환
→WFM 학습을 가속화하는 주체
로보메이커
・ WFM에 적합한 신체 설계
・ 힘제어, 안전제어, 내구성
・ 복수 실행체의 공존 전제 설계
→WFM의 실행체를 담당하는 주체
SI · IT기업(예 : 후지쯔)
・ 복수 WFM/RFM의 통합
・ 공간, 군제어, 운영OS
・ 학습 루프 및 사회 구현 관리
・ 정지, 감사, 책임설계
→WFM 에코시스템을 "현실에서 돌리는 중추"
----------
■ 공장이야말로 '가장 성실한 출발점'이다
오해해서는 안 된다. 공장에서 시작하는 전략은 위험 회피도 소극책도 아니다. 공장은 피지컬 AI에 있어서 가장 고도로, 가장 성실한 출발점이다. 제어 가능한 현실에서 단련해, 충분히 성숙하고 나서 사회에 내보낸다. 이는 기술적으로나 사회적으로 가장 합리적인 진화 순서다.
일본이 세계에 제공할 수 있는 가치는 'AI' 그 자체가 아니다. 세계 이해 AI를, 현실 세계에서 "계속 성립시키는 방법"이다. 깨지지 않는다, 두렵지 않다, 계속 개선한다, 사회에 받아들여진다. 이 지식은 엔비디아도 테슬라도 대체할 수 없다.
WFM 시대에 세계는 두 종류의 나라로 나뉜다. WFM을 만드는 나라와 WFM을 성립시키는 나라다. 일본은 후자가 될 수 있다. 그리고 그 역할은 결코 두 번째가 아니다. 세계를 이해하는 AI가 현실 속에서 살아남아 계속 성장할 수 있을지. 그 성패를 쥐고 있는 것이 일본이다.
■ CES 2026에서 후지쓰가 나타낸 '의사 표시'
5장 : 후지쯔는 피지컬 AI/WFM 구조 중에서 어디에 위치할 것인가
―― 'WFM을 만드는 기업'이 아닌 'WFM을 성립시키는 기업'으로의 명확한 발걸음
결론부터 말하자. 후지쯔는, WFM시대에 있어서, 일본 기업으로서 「올바른 장소」에 서 있다. 우선 결론을 분명히 해 두다. 후지쓰는 WFM을 자사에서 거대하게 구축하는 기업이 아니다. 그러나, WFM시대에 있어서 "가장 가치가 높은 역할"을 담당할 수 있는 장소에 서 있다. 그 역할이란 무엇인가. WFM을, 현실의 물리 세계·사회 속에서"성립시켜, 계속 돌려 가는 중추"를 담당하는 것이다. CES 2026에서 후지쯔가 나타낸 것은, 이 서 있는 위치에 대한 지극히 일관된 의사 표시였다.
CES 2026의 후지쯔 부스에서 가장 인상적이었던 것은 특정 로봇이나 하드웨어의 성능을 과시하지 않았다는 점이다. 대신 전면에 나서고 있던 것은 사람·로봇·물체가 혼재하는 공간, 미정비 환경에서의 복수 로봇의 협조, 충돌·체류·데드록을 일으키지 않고 계속 움직이는 질서다. 즉, 「공간 그 자체를 지적으로 취급하는 능력」이다. 여기서 후지츠가 제시한 것은, 단체 로봇의 현명함이 아니고, "복수의 실행체가 동시에 존재하는 현실 공간을 얼마나 파탄시키지 않고 운용할 수 있는가"라고 하는, 피지컬 AI 중에서도 가장 난도가 높은 문제 설정이었다.
■ 엔비디아·테슬라와는 다른 '포지션'
후지쯔가 전시의 핵심으로 삼은 공간 World Model(Spatial World Model)은 3D맵의 고도화, 군 제어 알고리즘, 멀티로봇 제어와 같은 개별 기술의 집합이 아니다. 사람·로봇·설비가 공존하는 공간 전체를, 하나의 "예측 가능한 세계"로서 취급하기 위한 중간 지능이다. 이는 WFM 자체가 아니다. 그러나 동시에, WFM이 현실 세계에 내려왔을 때, 반드시 필요하게 되는"현실측의 중추"이기도 하다.
여기서, 후지쯔의 CES2026 출전을 성립 기반 4 계층에 다시 매핑하자.
----------
L1 : 지능·계산의 성립 기반 ―― 「WFM의 응용 중추」를 담당하는 기업
후지쯔는 엔비디아처럼 WFM 자체를 구축·배포하는 기업이 아니다. 또 테슬라처럼 WFM을 자사 실행체에 수직 통합하는 기업도 아니다. 후지쯔가 노리고 있는 것은, 복수의 WFM/RFM(Robot Foundation Model, 로봇 기반 모델)을 전제로, 그것들을 현장에서"기능시키기 위한 통합 지능"이라고 하는 포지션이다. 공간 World Model은, WFM을 현실 공간에서 사용하기 위한 "번역층·조정층"으로서 설계되고 있다.
L2 : 신체·감각의 성립 기반 ―― 신체를 가지지 않았기 때문에 성립하는 강점
후지쯔(富士通) 자신은 휴머노이드나 산업 로봇을 제조하고 있지 않다. 그러나 CES 2026에서는, 인간형·동물형·작업용·청소용이라고 하는 다른 신체를 동일 공간에서 공존시키고 있었다. 이는 우연이 아니다. 후지쯔는, 특정의 신체에 최적화하는 것이 아니라, "신체가 달라도 성립하는 공간 질서"를 설계하고 있다. 이 위치는 로보메이커와는 경합하지 않고 오히려 모든 로보메이커에 있어서 필요 불가결한 상위 레이어가 된다.
L3 : 학습 가속의 성립 기반 ―― 「로봇이 배운다」가 아니라 「공간이 똑똑해진다」
후지쓰의 접근법에서 가장 중요한 것은 학습의 단위를 로봇이 아닌 공간에 두고 있다는 점이다. 로봇의 실패, 사람 동선 변화, 체류·충돌 발생, 역할 분담 전환 모두가 공간 World Model로 피드백된다. 학습의 주체가 로봇에서 "공간"으로 확장되고 있다. 이것은 WFM적 발상과 완전히 정합한다.
L4 : 사회·수요의 성립 기반 ―― 가장 어려운 현실을 정면으로 다루고 있는
전시 환경이 완전히 정비된 공장이 아니라 사람이 혼재하는 미정비 공간이었다는 점은 매우 중요한 의미를 지닌다. 왜냐하면 피지컬 AI가 최종적으로 실패하는 것은 기술이 아니라 사회 조건이기 때문이다. 후지쯔는 예측할 수 없는 사람의 움직임, 사회적 안전성, 실제 운용에 있어서의 책임을, 처음부터 설계 대상에 포함시키고 있다. 이것은 L4(사회 성립 기반)를 "뒷북"으로 하지 않고 있다, 라고 하는 강한 메세지다.
----------
■ 2025년 '엔비디아와의 제휴'가 의미하는 것
2025년 발표된 후지쓰와 엔비디아의 제휴는 단순한 기술 제휴가 아니다. 구조적으로 보면 이 제휴는 지극히 합리적이다. 엔비디아는 WFM을 "가상 세계·기반 모델"로서 제공한다. 후지쯔는, WFM을 "현실 공간·사회 운용"에 접속한다. WFM 에코시스템에 있어서의 명확한 역할분담이 성립되고 있다. 이것은, 일본 기업이 WFM 시대에 "어디를 가지러 가야 하는가"의 모범 사례이기도 하다.
여기서 중요한 것은 CES 2026에서 후지쯔가 제시한 내용이 '일단'에 불과하다는 점이다. 공간 World Model이라고 하는 중추는, 운용과 학습을 통해서 계속 진화하는 성질을 가진다. 즉, 한 번의 전시로 "완성형"을 보여주는 것이 아니다. 현실 공간에서 계속 돌려야 가치가 생긴다. 그래서 CES에서 제시된 것은 구조의 입구에 불과하다. 동사에서는, 피지컬 AI에 대해 다양한 대처를 하고 있는 것을 강조하고 있다.
여기까지를 종합하면, 후지쯔의 입지는 명확해진다. 후지쯔는, WFM을 "만드는 기업"이 아니다. 그러나, WFM이 현실 세계에서 파탄나지 않고 계속 움직이기 위한 가장 중요한 중추를 담당하려고 하고 있다. 이 포지션은 엔비디아나 테슬라를 대체할 수 없다.
후지쯔의 CES 2026 출전은 일본 기업이 WFM 시대에 어디에 서서 무엇을 담당해야 하는지를 나타낸 매우 명확한 전략적 메시지이다. 그것은, 화려한 모델 경쟁이 아니고, 로봇 단체의 성능 경쟁도 아니고, 현실 세계를 계속 성립시키는 지의 설계에 주전장을 두겠다는 선언이다.
■ 기술 경쟁 '승자의 조건' 바뀌었다
최종장 : 피지컬 AI 시대의 승자는 누구인가
―― '세계를 만드는 자'가 아니라 '세계를 성립시키는 자'로
본고를 통해 살펴본 것은 로봇이나 AI의 개별 진화가 아니다. 피지컬 AI 시대란 세계를 이해하는 AI(WFM)가 산업과 사회의 중추에 들어가기 시작한 시대다. 그리고 그 경쟁의 본질은 모델의 크기, 알고리즘의 신규성, 데모의 화려함이 아니었다. 어느 세계 이해 AI를, 어디에서, 어떻게 길러, 어느 현실에 정착시켜 계속할 수 있을까. 이 한 점에 모든 것이 수렴한다.
종래의 테크놀로지 경쟁에서는, 승자는 종종, 최첨단 기술을 최초로 만든 자, 최대 시장을 누른 자, 규모에서 다른 것을 압도한 자로 정의되어 왔다. 그러나 물리적 AI 시대에는 이 정의가 통하지 않는다. 왜냐하면 현실 세계는 스케일시키기 어렵기 때문이다. 한 번의 사고가 모든 것을 멈추게 한다. 한 번의 불신이 사회에서 배제된다. 한 번의 파탄이 장기 운용을 불가능하게 한다. 물리적 AI의 승자는 가장 똑똑한 AI를 만든 사람이 아니라 AI를 "현실 세계에서 계속 성립시킨 사람"이다.
■ 일본이 나아가야 할 '새로운 승수'
본고에서 다뤄온 두 회사, 엔비디아와 테슬라는 분명 돌출돼 있다. 그러나 중요한 것은 두 회사가 '완성형'을 보인 것은 아니라는 점이다. 이들이 제시한 것은 피지컬 AI는 세계 이해 AI를 중추로 하는, 로봇·자율주행·공장은 동일 WFM의 서로 다른 실행체인, 산업은 플랫폼/에코시스템 구조로 재편되는 불가역의 구조 전환 방향이다. 엔비디아와 테슬라는 경쟁의 '종점'이 아니라 경쟁의 '룰 변경'을 제시한 존재다.
여기서, 드디어 일본의 이야기로 돌아가자. 일본은, 세계 최대급의 GPU 자본을 가지지 않고, 또 글로벌한 실세계 데이터 플리트도 가지지 않는다. 이 점만 보면 불리해 보일 수 있다. 그러나 피지컬 AI의 경쟁은 단선적인 경쟁이 아니다. WFM을 "만드는 나라"와 "성립시키는 나라"는, 반드시 같을 필요는 없다.
본고에서 반복적으로 논해 온 것처럼 일본에는 다른 나라에는 없는 자산이 있다. 세계 최고 수준의 공장, 정밀하고 신뢰성 높은 신체(로봇·설비), 현장에 뿌리를 둔 개선지·운용지, 실패를 허용하고 수정하고 정착시키는 사회문화. 이 모든 것은 WFM을 현실 세계에서 "부수지 않고·폭주시키지 않고·멈추지 않고 돌리기" 위한 필수 조건이다. 일본은 WFM을 키우고, WFM을 현실에 뿌리내리고, WFM을 사회에 정착시키는 나라가 될 수 있다. 이건 둘째가 아니다. 다른 승부수다.
■ 물리학 AI 시대의 '가장 중요한 질문'이란
CES 2026에서 후지쓰가 제시한 것은 완성된 로봇 제품이 아니었다. 그러나 그것은 결점이 아니다. 로봇 자체를 자사 프로덕트로서 보여주는 것보다도, "어디를 담당할 것인가"를 명확하게 나타냈다. WFM을 만드는 게 아니다. 로봇을 주역으로 하지 않는다. 현실 공간을 조정하고 성립시키는 중추를 담당한다. 이 위치는 일본 기업이 WFM 시대에 취할 수 있는 가장 전략적인 포지션이다.
마지막으로 가장 중요한 물음을 제시하고 싶다. 당신의 기업은, 피지컬 AI를 「만드는 대상」으로 보고 있는 것인가. 아니면 「키움, 성립시키는 프로세스」로서 보고 있는 것인가. 이 물음에 어떻게 답하느냐에 따라 기술전략, 투자판단, 조직설계, 파트너 선택이 모두 달라진다. 그리고 이 물음은 기업뿐 아니라 국가에도 달려 있다.
피지컬 AI 시대는 스피드 경쟁이 아니다. 얼마나 빨리 달릴 수 있느냐가 아니라 얼마나 오래, 현실 세계와 타협하며 계속 달릴 수 있느냐. 이 경쟁에서 화려한 시위, 일시적인 화제성, 지나친 기대는 오히려 리스크가 된다. 마지막으로 이기는 것은 세계를 이해하는 AI를 세계 속에서 성숙하게 만든 사람이다. 그리고 그 조건을 가장 많이 갖춘 나라 중 하나가 바로 일본이다.
피지컬 AI의 시대에 있어서, 질문받고 있는 것은 「누가 AI를 만들 것인가」가 아니다. 누가 AI와 현실세계의 관계를 끝까지 이어갈 수 있겠는가다. 일본은, 그 물음에 대답할 수 있는 장소에 있다.
----------
타나카 미치아키(田中 道昭) / 일본공업대학 대학원 기술경영연구과 교수, 전략컨설턴트
전문은 기업·산업·기술·금융·경제·국제 관계등의 전략 분석. 일·미·유럽의 금융기관에도 오랜 세월 근무. 주된 저작에 「GAFA×BATH」 「2025년의 디지털 자본주의」 등. 시카고대학 MBA. TV도쿄 WBS코멘테이터. TV아사히와이드스크램블월요 레귤러코멘테이터. 공정 거래 위원회 독금법 간담회 멤버등도 겸무하고 있다.
----------
일본공업대학 대학원 기술경영연구과 교수, 전략컨설턴트 타나카 미치아키
|
|
