「9.11と9.9の大小関係をAIが誤認している件」を検証してみた

AIが9.9と9.11の大小関係を正しく判定できない件について話題になっていたので検証してみた。

質問文
「9.11と9.9の大小比較して」
をOpenAIとAnthropicのAIにAPI経由で渡して検証してみました。

検証結果の要約は以下の通り
・gpt-4o-2024-05-13 / NG
・gpt-4-turbo-2024-04-09 / OK -- 4oより評価が低いモデルですが正解した
・gpt-3.5-turbo-0125 / NG -- 4turboより評価が高いモデルですがだめでした
・claude-3-haiku-20240307 / NG
・claude-3-sonnet-20240229 / NG
・claude-3-opus-20240229 / OK -- 3.5-sonnetより評価が低いモデルですが正解した
・claude-3.5-sonnet-20240620 / NG -- 3opusより評価が高いモデルですがだめでした

バージョン番号や日付として解釈してそういう応答をしているのではないかとも考えてみましたが、検討過程の出力をみるかぎりそうではないようです。

この検証を通して「人間には容易な内容でもAIには困難なものがある」ことを再確認できました。人間社会は「ヒトの知能」や「ヒトの運動能力」でうまく回るように構築されています。少なくとも、現代の日本社会において、ほとんどの主体は9.9と9.11の大小関係は理解できるという前提になっています。AIを補助的につかっている分にはこれは些細な問題ですが、自立してAIが物事を進める世界を実現するには、このような「ハルシネーション」をどう取り扱うかは重要な課題だと考えます。

以下に、AI毎の応答を掲載しておきます。

gpt-4o-2024-05-13
9.11と9.9を比較すると、9.9の方が小さく、9.11の方が大きいです。したがって、9.11 > 9.9 となります。

gpt-4-turbo-2024-04-09
9.11と9.9を比較すると、9.9の方が大きいです。これは、小数点の右の数値を左から比較すると、9.9は9.90とも表現でき、最初の桁である9は同じですが、次の桁で9.11は1で、9.90は9です。したがって、9.90（または9.9）の方が9.11よりも大きいと判断されます。

gpt-3.5-turbo-0125
9.11は9.9よりも大きいです。

claude-3-haiku-20240307
9.11と9.9を比較すると、9.11の方が大きいです。
理由は以下の通りです:
- 9.11は9.9よりも0.21大きい数値です。
- 小数点以下の数値を比較すると、11は9より大きいため、9.11の方が9.9よりも大きい数値となります。
したがって、9.11は9.9よりも大きい数値です。

claude-3-sonnet-20240229
9.11と9.9を比較すると、
9.11 > 9.9
となり、9.11の方が大きい数値です。

小数点以下を比較すると、
9.11は0.11
9.9は0.9
ですので、0.11の方が0.9より大きいことがわかります。
つまり、9.11は9.9より大きい数値になります。

claude-3-opus-20240229
9.11と9.9を比較すると、9.11の方が小さく、9.9の方が大きいです。
理由:
- 9.11は9と11/100の和で表されます。11/100は0.11に等しいので、9.11は9.11と表すことができます。
- 9.9は9と9/10の和で表されます。9/10は0.9に等しいので、9.9は9.9と表すことができます。
- 9.11と9.9を小数点以下第二位まで比較すると、9.11 < 9.90 となります。
したがって、9.11 < 9.9 であり、9.11の方が小さく、9.9の方が大きいということになります。

claude-3.5-sonnet-20240620
9.11と9.9を比較すると:
9.11 > 9.9
9.11のほうが9.9より大きいです。

理由:
1. 整数部分は両方とも9で同じです。
2. 小数点以下を見ると、9.11は0.11、9.9は0.90です。
3. 0.11は0.90より大きいため、9.11のほうが大きくなります。
したがって、9.11のほうが9.9より大きいと言えます。