AI BLOG strategy

LLM不得意分野のベンチマークから見える「AI」を扱うツールの戦国時代

この記事では、二つの話をしています。

ひとつはLLM(Large Language Model 大規模言語モデル)の回答で分かる
不得意分野を知るということ。
(LLMとは、大雑把にはChatGPTをはじめとする言語生成AIとご理解ください。)

もうひとつは、前記にも関連しますが雨後の筍のように出現している
「AI」を扱ったツール類などへどう接していけばよいかという話です。

LLMの苦手分野を質問するとわかるベンチマーク結果

ChatGPTのようなLLM全般に言えることですが、プロンプトに入力して
思いもよらぬ優れた回答が返ってくることもありますが、
とても苦手な分野があるのをご存じでしょうか?

そのひとつは論理を追っていくような問題です。

なぜなら、LLMは『考えているのではなく、次にくる言葉を予測している』に過ぎないからで、
予測するために意味的に近い単語は互いに近い位置に配置され、
遠い単語は遠くに配置されるという記憶のメカニズムを持っています。

Embeddedベクトル空間がそれですが、こちらの記事をご覧ください。
>> ChatGPTは「なぜあたかも知能があるかのように」振る舞えるのか~"ベクトル"の秘密

エンジニア兼起業家の中島聡さんが、実験したデータを公開してくれましたので
私も再確認のうえちょっとだけデータを追加しました。

中島聡さんの実験は多様ですが、ここではわかりやすい事例をひとつご紹介します。

まずLLMに次のような質問を投げてみます。
(但しGPT4とBard以外は日本語が不得意なので、実際には英語で質問したとのことでした)

問題:太郎くんと花子さんは、ある商品の値段を当てるゲームをしました。
予想した値段が近い方が勝ちです。
花子さんが、先手で$200と予想し、それを聞いた太郎君は$180と予想しました。
太郎君の戦略的な誤りを指摘してください。

引用元:中島聡さんのLife is beautifulより

この問題は、簡単そうですが人にとってもやや難しい内容です。
予想した値段が近い方が勝ち、ですので一旦ここで考えてみてください。

それで・・・すでにLLMには様々なものが出回っていますが、
この問題に対するベンチマーク結果がこの図です。

中島聡さんのLife is beautiful資料に開発元とChatGPT3.5結果をKENBOが追加

なんと正解を出せたのはChatGPT4のみ!
ChatGPT3.5にはプロンプトに追加で「正解と思われる価格を提示してください」として
やっとこの答えです。

『予想した値段が近い方が勝ち』なので後出しの太郎は、$199または$201と回答すべきでした。

$199であればそれ以下の商品価格だった場合には太郎の勝ち、
$201であればそれ以上の上限なしとなり、商品価格が$1,000であろうと$10,000であろうと
太郎の勝ちとなります。

OpenAIは『汎用人口知能』をミッションに掲げているのと、
Googleから引っこ抜いた天才AIエンジニアであるイリヤ・サツキヴァー(Ilya Sutskever)
がいてこそ、こういう結果を出せるのでしょう。
参考記事 >> モヤ~っとしたOpenAIのお家騒動から世界初の不思議な企業統治を図解してみた

さすがに先行しているOpenAIだけあって、こういった難題にも答えてくれます。

因みに前記参考記事でのOpenAI企業統治は、宿敵をGoogleと想定しています。
ChatGPTで出し抜かれましたが、それまではGoogleがAIの王者です。
ここでも今誰が覇者になるのか、Microsoft VS Googleの熾烈な戦いが続いています。

このデータを見てお分かりのように、次の言葉を予測し推論しているLLMは
論理問題にはそもそも弱いのです。

これだけでも、AIは万能ではない
ことがすぐにお分かりになるかと思います。



AIをアピールするツールは常に別のものに置き換わる

2023年に大きな話題となったChatGPTはLLMの一種です。
巷で「AIを使ったツール」と呼ばれるものの多くはLLMの
API(アプリケーションインタフェース)を活用したアプリソフトのことを示しています。

もしくはそのアプリソフトを活用したサービスのことです。

こういったAIアプリソフトの開発者のほとんどが、AIそのものの専門家ではなく、
あくまでAPIを通したLLMの挙動を理解しているに過ぎません。
(AIの理屈を全く知らなくてもAPIさえ明快であれば使うことができます)

LLMに新種が出てくれば、そのLLMが提供するAPIを使っていくつもの
アプリソフトが生まれてくるでしょう。

LLMのバージョンアップで、機能追加されたり、API仕様の変更があれば
それに追従してアプリソフトもバージョンアップされないとどんどん
古くなり劣化します。

今のAI開発競争の勢いでは、ゆっくりのんびりした変化ではなく、
昨日まで使っていたAIアプリソフトが今日はもう陳腐化している、
ということが日常的に起こっても何の不思議もありません。

皆さんが、「AI」という単語が紛れ込んだ商品を購入する際は、
常に一瞬で別の新しい強力なアプリソフトやサービスに代替される宿命にあるとお考えください。

アプリソフトの提供元が、大元のLLMアップデートや別バージョンのリリースに
どれほど迅速且つ真剣に対応してくれるかどうかで、
どれだけの延命ができるかも決まってしまいます。

世界中でAI開発が進んでいて、ChatGPTリリースからたった1年で今の有様ですので
新陳代謝がとても激しい世界だということです。

そのあたり、アプリやサービス提供元の開発姿勢や体制をちゃんと確認のうえ、
購入検討されることをお勧めします。
(そのことに提供元が答えられないようだとその時点でアウト)

要するに使い始めても、非常に短期間で別のツール(アプリソフト)に
置き換えられるリスクを常に抱えていることをご理解ください。

凄い『AIのツール』や『AIのサービス』だと思って大金をかけても、
すぐに新しいものが恐ろしいスピード感で出てきますので、
そういうものだと割り切っていける人は問題ないと思います。

この話は、実はちょくちょくご質問をいただくのでここで回答を共有しています。
「〇〇〇というAIに任せられるツール(やサービス)は買いでしょうか?
信頼できるかどうかお聞きしました」
という主旨のご質問です。

答は・・・・

『知らんがな、そんなの』
ということに尽きます(笑)

どんな開発陣がいて、どんなアルゴリズムやLLMを使っていて、
どういう風にアウトプットを出しているのかとか、
LLMバージョンアップ対応などでのサポート体制とか、
そういうのを全部洗いだして初めてコメントができるかもです。

ソフト開発、システム開発におけるIPO(Input→Process→Output)が
しっかり定義できて把握できないと、私は怖くて使う気になりませんし、
どれだけ凄いアピールであっても最初から関心を持てません。

先ほど述べたようにLLMは『予測をするだけで考えてはいない』ので
間違っても技術者が『AIが考えて答を出します』という言い方をしたら、
それはAIのことを何も知らない素人丸出しだとご注意ください。

「AI」という表面的な単語に惑わされないようにね☆彡