Claude Mythosは自分でAIを増やしてる？再帰的自己改善の現実度を検証してみた

「AIが自分のコードの80%を書いている」「いずれAIが自分の後継者を設計する日が来る」——2026年6月、こんな見出しがネットを駆け巡った。SF映画の予告編みたいな煽り文句に見えるけれど、出どころは噂話でも飛ばし記事でもない。Claudeを作っているAnthropicという会社自身が出した公式の論文だ。

タイトルは「When AI builds itself（AIが自分自身を作るとき）」。2026年6月4日、Anthropic Instituteという同社の研究部門が公開したもので、これがこの研究所として初めての本格的な発表になる。読むと確かに、背筋がスッとするような数字が並んでいる。じゃあ本当に「AIがAIを作る時代」はもう来ているのか。今回も、煽り見出しと論文の中身を一つずつ切り分けて、どこまでが事実でどこからが盛られた印象なのかを確かめてみる。

まず、論文が出してきた「数字」を正確に並べる

検証の前に、論文に書かれている数字をそのまま置いておく。盛られているかどうかは、まず正確な原文を知らないと判断できない。伝言ゲームで歪んだ数字を叩いても意味がないからだ。

コードの80%超：2026年5月時点で、Anthropicのコードベースにマージ（本番反映）されたコードの80%以上をClaudeが書いている。Claude Code登場前（2025年2月）はこの割合が1桁前半だった。1年ちょっとで桁が変わった計算になる。
1人あたり8倍：2026年第2四半期、エンジニア1人が1日にマージするコード量は2024年の約8倍。「人間が書く量」ではなく「人間が指示してClaudeに書かせ、レビューして通す量」が8倍になった、という意味だ。
難問の成功率76%：仕様がはっきりしない「お題だけ与えられる」タイプの難しいタスクで、Claudeの成功率が半年で26%→76%に上昇。半年で50ポイントの跳ね上がりだ。
実験の高速化52倍：小さなAIモデルの学習コードを「正しさを保ったまま速くする」という実験で、2025年5月は約3倍速、2026年4月には約52倍速を達成。同じお題での比較だ。

社内データだけだと身内びいきを疑われるが、論文は外部の公開ベンチマークも添えている。実際のソフトウェア不具合を直させる「SWE-bench」は、わずか2年で1桁台%からほぼ満点まで到達。AIが自力でこなせる作業時間の長さも、以前は7か月で倍増ペースだったのが、最近は約4か月で倍増ペースに加速しているという。社内の主張と外部ベンチが同じ方向を指している点は、素直に重く受け止めていい。

✅ 当たっている：数字は本物、「実行」はもう超人レベル

まず素直に認めるべきところから。これらの数字は誰かの又聞きや誇張ではなく、Anthropic自身が一次情報として名前付きで公開しているものだ。外部ベンチとも整合している。少なくとも「数字をでっち上げている」という類の話ではない。

特に説得力があるのが、決められたゴールに向かって手を動かす「実行」の部分だ。論文は、実験コードを最適化する作業についてこう書いている。

実験の決められた手順を最適化するこの部分で、Claudeは1年足らずで「とても役立つ」から「超人的」に変わった。

具体例も生々しい。あるアップデートが数万件の学習ジョブを一斉にクラッシュさせたとき、エンジニアはClaudeに状況のテキストとサーバーへのアクセス権を渡しただけだった。Claudeは怪しい設定を1つずつ潰していき、原因となっていた地味な1つのデバッグ用フラグを特定。確実に再現させ、修正まで確認した。所要時間は約2時間。人間なら2〜3日かかる作業だ。

もう一つ。2026年4月には、Claudeがあるタイプのエラーに対して800件超の修正を投入し、その種のエラー発生率を1000分の1に減らした。担当エンジニアは「人間がやれば4年かかる」と見積もったという。他人の書いたコードのバグ取りは、膨大な前提を頭に入れ続けないといけない、人間が一番苦手で消耗する作業だ。そこをAIが一気に片付けた。「言われたことを猛烈に速くやる」能力は、もう冗談では済まないレベルに来ている。

⚠️ 盛られて見える：数字のカラクリと、出すタイミング

ここからが検証屋の本番。当たっている数字でも、見せ方しだいで印象が大きく変わるポイントがいくつかある。

「8倍」はコード行数ベース＝量であって質ではない

面白いのは、このカラクリをAnthropic自身が認めていること。論文の中ではっきりこう注釈している。

コード行数は質より量を測る不完全な指標であり、8倍という数字は真の生産性向上をほぼ確実に過大評価している。

つまり「8倍速くなった」は額面通りには受け取れない。コードは長く書けば偉いわけではないし、AIは人間より冗長に書くことも多い。同じ処理を人間が10行で書くところをAIが30行で書けば、それだけで「3倍」になってしまう。論文はそれでも「加速はしている」と続けるが、8という数字そのものに意味を持たせすぎないほうがいい。書いた本人たちが「盛れている」と言っているのだから。

「90%」と「80%」が食い違っている

実はAnthropicの経営陣は別の場で「コードの90%以上はClaudeが書いている」と発言している。一方この論文は80%超。数字が食い違っているが、これは矛盾ではなく測定方法の違いだと論文側が注記している。論文の80%は「本番にマージされた行ベース」というより保守的な数え方で、自動生成されたコードなどは除いているという。どちらの数字も嘘ではない。ただ裏を返せば、「どう数えたか」で1割ぶれる程度には曖昧さのある指標だ、ということでもある。「90%」のほうがインパクトは強いが、論文はあえて低い80%を採った——この慎重さは評価しつつ、数字の一人歩きには注意したい。

出すタイミングが、できすぎている

もう一つ、内容とは別の角度の指摘。複数の海外メディアが、この論文の発表タイミングに注目している。Anthropicが非公開でIPO（株式上場）を申請した、わずか1週間後の公開だったからだ。

「自社のAIはこんなに凄い」という投資家向けのアピールと、「だから規制が必要」という政策提言が、同じ論文の中に同居している。前者は企業価値を上げ、後者は「責任ある先進企業」というイメージを作る。ベンチャー投資家のDavid Sacksは、Anthropicの一連の動きを「規制を自社に有利な形で設計させようとするものだ」と批判している。論文の中身の真偽とは別に、「誰が・何の目的で・いつ出したか」も込みで読むのが、こういう発表との大人の付き合い方だろう。凄い数字ほど、出す側にも出す理由がある。

❌ まだ起きていない：「AIがAIを作る」は現在形ではない

そして一番大事な切り分け。煽り見出しが言う「AIが自分の後継者を作る」——これはまだ起きていない。しかもそう書いているのは批判者ではなく、論文を書いたAnthropic自身だ。

私たちはまだそこには至っておらず、再帰的自己改善は不可避でもない。ただ、多くの組織が備えているより早く来るかもしれない。

論文がくり返し強調しているのは、AIの役割が「実行」では人間に並ぶか上回る一方、「何を研究すべきか」を決める判断——論文の言葉で言う research taste（研究の目利き）——では、まだ人間が大きく勝っているという点だ。エンジニアリングでも研究でも、「どの問題を解く価値があるか」を選ぶ段階には、依然として大きな差が残っている。

論文が「AIが自律的に研究をやり切った初の実証」として誇らしげに挙げる例ですら、よく読むと条件付きだ。AIエージェントは確かに自分で仮説を立て、実験を設計し、人間2人が1週間がかりで出した成果を大きく超える結果を出した。約800時間ぶんの計算を回し、費用は約1.8万ドル。たいしたものだ。でも——「どの問題を解くか」と「何を正解とみなすか（採点基準）」は、人間が用意していた。しかもこの成果は本番サイズのモデルにはきれいに移らなかった、という但し書きまで付いている。方向を決めるのは、最後まで人間の仕事だった。

研究セッションの「次の一手」を当てる別のテストでも、最新モデルが人間の選択を上回ったのは64%。半年前の51%からは伸びているが、これも「人間がいったん迷走した場面」をわざと選んで比べた数字で、フェアな一騎打ちではないと論文自身が断っている。つまり「AIの判断力が人間を抜いた」と読むのは、まだ早い。

で、結局どこまで来てるの？

整理するとこうなる。「AIが自分でAIを作る時代」は、見出しが言うほど現在形ではない。今あるのは、「人間がゴールを決め、AIが汗かき作業を超高速で片付ける」という分業だ。後継者を勝手に設計する自律AIは、論文自身が「まだない・不可避でもない」と認めている未来の話。ここを混同して「ついにAIが暴走を始めた」とパニックになるのは、さすがに気が早い。

ただ——ここからが個人的に面白いと思うところ。論文はエジソンの「天才は1%のひらめきと99%の汗」という言葉を引いて、こう言う。その99%の汗のほうが、今まさに自動化されつつある、と。研究の大きな進歩は天才のひらめき一発ではなく、「試して、壊して、直して、また試す」という地道な反復で進む。そして反復こそ、AIが一番得意になってきた領域だ。だとすれば、ひらめきが降りてくる回数が同じでも、それを形にして検証する速度が桁違いになれば、結果として進歩は加速する。

すると残るのは、最後の1%——「何を考えるべきか」「どの結果を信じるか」「この道は行き止まりか」を見極める目利きだ。これが人間の最後の砦になるのか。それとも目利きすら「AIが一時的に苦手なだけで、いずれ得意になる能力」の一つにすぎないのか。論文は、ジョークの面白さを説明したり相手の気持ちを読んだりする能力も、かつてAIが苦手で後から得意になった例だと並べている。つまり書いた本人たちも、砦が砦のままでいられるとは思っていない。

センセーショナルな見出しに脊髄反射するのでも、「どうせ宣伝でしょ」と切り捨てるのでもなく。数字は本物、実行はもう超人的、でも舵取りはまだ人間、そしてその舵取りもいつまで人間のものかは誰も保証できない——この温度感で眺めておくのが、たぶん一番正確だ。少なくとも今は、AIが勝手に自分を作り始めた段階ではない。まだ、ね。

※本記事はAnthropic Institute「When AI builds itself」（2026年6月4日公開）および各種報道をもとに構成しています。数値・引用は公開時点のものです。