
ChatGPTやClaude、そしてGeminiを使い分けながら、世間や周りのAIの使い方などと自分の使い方を見比べて気づいたこと、それはAI(本記事ではLLM)のアウトプットの質は使う人の入力する内容の粒度や構成などが大きく影響していることでした。
それには使う人の一時記憶(ワーキングメモリー)が大きく関与しており、どれぐらいのコンテクスト量を扱えるのかが、生成AIを介したやり取りで求める情報の精度や結果、質に大きく影響を与えているのでは?という一つの答えに行きつきました。
それを踏まえつつ、私が生成AIなどで使うプロセスモデルのDEF-A(Define→Explore→Formulate→Act/Assess)モデルは、自分の頭の中で日頃から行っている、インプット→思考→アウトプットするときの体系プロセスを言語化したもので、自分の定番の手順書のようなものを可視化したものです。
そのDEF-AモデルをCursor用のルールに実装したものでは、インプットされた内容の多い少ないなどに関わらず、一定の思考プロセスのフローを通すことで、一定のアウトプットの質や、開発やライティングと行った目的に応じたクオリティなどを担保しようという意図があり、補助的に有効であることはわかりました。
しかし、有効であることの理解とともに、そのプロセスモデルを扱う際の使う人=ユーザーのワーキングメモリーの大きさで入力時の情報量や粒度が変わるため、結果的にそのアウトプットには、AIの扱い方そのものから違いがわかるぐらいの変化が出てしまうこともわかりました。
ワーキングメモリーが決めるAI活用の質
一時記憶で扱えるコンテクストの量は、AIとの対話の履歴などを通じて、ChatGPTであれば、聞いてしまえば本などに例えて答えてくれるので、それで大体の量的なものを掴むことができます。
ただ、その一時記憶が人によっていろいろあり、付箋に書いたメモのような情報量で何枚持てるかという人もいれば、辞書のようにある程度索引のようなものがあってすぐに呼び出せる記憶がたくさんある人。それをさらに超えて、ジャンルごとの書籍や辞書が書籍棚に並べられ、図書館のフロアのような情報量を一時保存として利用できる人など、人によってそのサイズ感自体も大きく変わります。
そのワーキングメモリーをAIとの対話の中でどのように使っていくか次第で、AIのアウトプットの量や質が大きく変わってきます。「○○についての答えが欲しい」のか「○○というテーマを主旨として、その背景や構成などのプロセスを含めたコンテクストが欲しい」のか聞き方一つで、そのあとの回答の質も大きく変わってしまいます。
開発環境・プログラミングでのプロセス保持
そう遠くないうちに、人間がコードを書く必要はなくなるといった話もありますが、現状は単に最終アウトプットについての依頼をAIエージェントなどで行っても、意図していた配列の並び(どの項目を優先しているか)などの細かな内容まで指定した上で依頼しない限りは、汎用的、もしくは最も依頼内容に沿ったものが確実に出るものを推論してコードが作られるので、結果として、そこからやりたいことの目的が変わると、最初に書かれたコード内容では考慮できない状態になり、修正を進めても一向に出来上がらないといったことが起こりうる。
そのため、結果として、本当に欲しい、保守性を考慮したコードにする場合は、自分で書いた方が早かったり、事細かに仕様書やプログラミング処理のプロセス、構成、考慮する内容の優先順位などを指定する必要出てきたりしてしまいます。
長文コンテンツの分析処理
私は、Youtubeやポッドキャストなどの気になった番組があったときに、全文書き起こしを生成AIを通じて分析・要約したりして、番組内で語られている内容を可視化してまとめるとともに、別途、生成AIへの依頼時にプロンプトで暗黙知、暗喩的に語られている内容についても同時に調べるようにしています。
生成AIを普通に使うと、依頼内容に書かれていないことまで、分析結果などに含めるようかことはしないので、暗黙知や暗喩といったところまで調べようとすると、調べようとしている本人の洞察がなければ、その内容に辿り着けません。
そのため、私の場合は、一度、分析、要約しつつ、実際の動画やポッドキャストを聴きながら、合わせて要約などを読み合わせている中で気づいた「これは別の○○の視点がないとこのような表現が出ないのでは?」といった暗黙知・暗喩は、その場で新たに生成AIに聞き返すなどして補完するようにしています。
それら、文字起こし+生成AIとのやりとりで単なる要約というものから、自分がどう考えているかと言った視点を交えたアウトプットとなり、また生成AIとやりとりをする中で自分自身も考えることで、ただ見ているだけ読むだけよりもインプットの質も高まります。
ここまでを踏まえた上で、はるか先にあるAGI/ASIとは何なのか
AGI/ASIという文脈において、自分自身のワーキングメモリーや認知、そして開発などでコーディングする際のAIが作るコードと保守性を考慮した際、生成AIが作るコードの不完全な結果などを踏まえると、人の意図を掴みつつ、暗黙知や暗喩的思考を、より幅広い時系列や範囲から掴み取った上で回答できる必要があると考えています。
その前提に考えると、AGI/ASIがやってくる前に、言葉にしていない自分の考えや経験したことをAIが察していってくれるような経験をすることになり、またそれは、特に何も考えず、曖昧なまま取り合えす生成AIを介して何かをやったときに、AIが勝手にどのようなゴールを目標とするのか決定して作り上げていく、つまりは自立してやり遂げてしまう必要が出てきてしまいます。
そうなったとき、依頼したAIを使っている人自身が、その出てきた結果を理解できるのかできないのかという新たな課題が出てきてしまいます。例えば、「ここから月まで行くにはどうすればいい?」という問いに対して、どのような粒度で答えが出てくるのか、その回答を、ユーザーがちゃんと理解できるのか、問題なく実行できるのかというところまで回答内容が出来上がっているかという、言ってみれば無茶振りを現実的に可能は手段で全て回答できるようになる必要があるのです。
まとめ
世間ではAIの限界やどこまでできるかというところに焦点が当たりますが、現実を受け止めようとすると、自分が使える生成AIで自分が一体どこまでできるのかというところが、自分が使える生成AIにおける限界であることが多いです。
それを理解しつつ、さらにもっとうまく活用したいと考えたとき、単純にプロンプトエンジニアリングをどうするか?という小手先の手段だけに注力するのではなく、「自分自身のワーキングメモリーはどのぐらいあるのか?」をまずは理解することが大事になると考えています。
そして、AIに質問する時には、「○○についての答えが欲しい」から「○○というテーマを主旨として、その背景や構成などのプロセスを含めたコンテクストが欲しい」のように、単に一文で質問するところから、内容の構造化やコンテクストを意識して質問できるようになっていくことで、現状のアウトプットからさらに質を求められる状態で生成AIを活用できるようになるのではないでしょうか。
生成AI活用を単なるツールやアプリをつかってより便利にするという視点から、自分自身のメタ認知やワーキングメモリー、さらには質問内容や回答内容のコンテクスト・粒度などに着目して、思考の質を高め、それを生成AI活用に活かせるようになることが、AI時代に求められる本質的なスキルなのかもしれません。
