近頃盛んに開発が行われているLRM(大規模推論モデル)について、一部の問題では推論ではなくただの模倣を返すだけにとどまる場合があると指摘したもの。
この論文は、OpenAIのo1/o3, DeepSeek-R1, Claude 3.7 Sonnet Thinking, Gemini Thinkingを対象に、「ハノイの塔」という簡単なパズルを解かせる試験に基づいている。
「ハノイの塔」は、難易度が指数関数的に上昇することが知られているが、正解となる手順は単純な動作の反復になっているうえ、その単純な動作を実現するコードはインターネット上に無数に存在する。したがって、推論モデルが真に推論ができるならば、どんなに難易度を上げても間違えることはないはずである。しかしながら、難易度がある程度上昇すると、正答率が低下することが確認された。つまり、「ハノイの塔」に対しては、健全な推論が行われなかった。
AGI(汎用人工知能)の実現を否定したものではないことに注意。規模を単純に大きくすればAGIに到達できるという従来の素朴な見解を否定し、現在の推論ベンチマーク(プログラミングと数学的推論)に不足があると指摘した、という方が正確。ただし、規模を大きくすればいいのではないか派(単純スケーリング派)はあまりに素朴すぎる見解なので、その点の衝撃はないかもしれない。
また、Appleは人工知能分野の研究開発で明らかに立ち遅れており、自社製品の発表直後にこの論文を発表していることから、AGIは不可能であるという誤解をあえて広めようとしているようにも見える。(実際、そういう誤解が既に蔓延している)
個人的に、これはApple教授からTech-bro院生たちに発された「恣意的な検証過程を改めろ」というお叱りのように見えた。