AI Wars 大学入学試験作文: メイクアップ、メイクアップワード、ユニバーサルルーティン

出典: 「Deep AI」 (ID: DeepAI2023)、著者: Li Ming、編集者: Wei Jia

画像の出典: Unbounded AI ツールによって生成

今回の大学入試は、過去5年間で最も特別な試験になるはずだ。 AI候補者という新しい役割があるからです。

初日の中国語試験が終わるとすぐに、インターネット上でAI作文コンテストが始まった。 GhatGPT、Wenxin Yiyan、Tongyi Qianwen などの AI モデルは、大学入学試験のエッセイを書くために人々によって使用されています。記事は数秒で作成でき、驚くほど速く、論理的に厳密であるだけでなく、古典を引用しています。

一見すると、AIによる大規模モデルの作成はあまりにも簡単すぎて、人類にとって打撃であるように思えます。結局のところ、知識の蓄積という点では、誰も AI に匹敵することはできません。 AIはインターネット上のあらゆる情報を学習・咀嚼し、人間の表現を真似て独自のロジックで出力します。

しかし、AI候補者の「解答用紙」を注意深く分析してみると、AIは多くの人が想像しているほど万能ではないことがわかります。 AI大型モデルにありがちな、ルーティンライティング、数えられない、ナンセンスなどの問題も構図に現れています。

**実は、大学入試の小論文の採点基準によれば、AIが作成した小論文にはいくつかの制限がある。人間を倒すのはまだ現実的ではありません。 **

Deep AI は、GhatGPT (OpenAI)、Wenxin Yiyan (Baidu)、Tongyi Qianwen (Ali) という 3 つの大規模な AI モデルを大学入学試験の構成でテストし、いくつかの興味深い結論を見つけました。

たとえば、AI は数え方を知りませんし、Wenxin Yiyan 氏と Tongyiqianqian 氏が書いたエッセイはいずれも「800 ワード以上」という厳格な要件に達していません、と同氏は述べ、AI の執筆は基本的にルーティンと切り離すことができず、テンプレートは繰り返し適用されました。

詳細は以下の通りです、ご相談お待ちしております。

1 無感情な留守番電話

今年の大学入試センター試験Aのテーマは「人・技術・時間」であり、「技術の発展により、人々は時間をより良く制御できるようになりましたが、時間の奉仕者になってしまった人もいます。」という文で始まることが求められています。自分なりの連想や考えを書きます。

まずは文部省教育試験所の「試験問題分析」を見てみましょう。

**重要なポイント: 情報化時代における合理的な分析と賢明な判断の重要性について受験者が深く考えるように導きます。これが記事の核心です。 **

ディープ AI は 3 つの大規模なモデルをテストしましたが、どれも核心を理解していないことがわかりました。すべてについて話しましたが、何も話していませんでした。

まず、GhatGPT の構成を見てください。

ウェンシンの言葉をもう一度見てください。

最後に、Tong Yiqian の質問を見てみましょう。

これら3つのエッセイは、「端水の達人」の頂点とも言えるもので、テーマの是非については語られていますが、「批判的思考」の要点については十分に説明されていません。文新氏の声明の中でのみ、「深い思考と批判的思考の育成」について明確に言及されている。

Tongyi Qianwen の作品は最も空虚です。本題からは逸れるが「時間管理」に焦点を当てており、議論の真相も常識的である。なお、Tongyi Qianwenの作文にはタイトルがなく、減点対象となります。

新学習指導要領第1巻の作文テスト問題「物語の力」を使って3校の成績を見てみよう。

この作文では、次の一節に基づいて自分自身の連想や考えを書く必要があります: 良い物語は、より良い表現とコミュニケーションを助け、心を動かし、知恵を啓発することができます; 良い物語は人の運命を変えることができ、人のイメージを提示することができます国家... 物語には力があります。

GhatGPT の構成:

文字通り:

よくある質問:

Tongyi Qianwen の比較的平易な構成とは別に、他の 2 つの記事の表現、文章の論理、特に言葉の使い方は注目に値すると言わざるを得ません。特に、Wen Xinyiyan はシーンベースのオープニング手法を採用しており、目を引きます。

しかし、問題も明らかです。**同じことが別の言葉で何度も繰り返され、その結果全文が読まれることになり、人々に「何を言っているかわかる」という感覚を与えてしまいます。 **

無感情な留守番電話、これが多くの人の評価です。

「中身が空っぽで、歯車が入れ替わって話が行ったり来たりしている」という意見もあった。別の者は、「栄養がなければ、まったく昔ながらのナンセンスだ」と述べた。

Wen Xinyiyan のこの作品を分解してみると、「Chejiluhua」が何であるかがわかります。

本文中の黄色と緑色の部分は全く同じ意味であり、本文中に繰り返し出てくる同じ単語であるとも言えます。記事の最後に「要約」とマークされている段落全体は、記事内の視点と話法を寄せ集めたものです。

これにより、人々は単語を数える視覚的な感覚を得ることができます。

ディープ AI は、ChatGPT に自分が大学入試会場の受験者であることを想像させるために、プロンプトの単語を変更し、再度作文を書きました。最初に出てきた文は、「この試験の座席に座ったとき、私はのみを保持しました」でした。進化した電子ペン…」

この方法でテストを受けると、彼は違反を宣告され、直接ゼロ点を獲得すると推定されます。

**AI合成の最大のマイナス項目である魂が無い。 **

2 つのルーチン、すべてのルーチン

そのような構図にするために、AI は多くのルーチンを使用しました。

彼らは「最初、二番目、次に、最後」という文パターンを使用することを好みます。最も典型的なのは ChatGPT で、最後の段落は「一般的に...」でなければなりません。

たとえば、ChatGPT の次の 2 つのエッセイ:

文心宜燕と同義前文にも同様のルーチンがあります。前の食事でのアウトプットは虎のように激しく、最後は「一言で」「一言で」で終わらなければなりません。

これはギターを弾くのと同じで、普遍的なコード公式(普遍的なカノン進行など)をマスターすれば、何百曲も演奏できます。

私たちが書いた作文を Wen Xinyiyan に評価してもらいましたが、それは「1 位、2 位、その他、そして全体的に…」についての長い議論でもありました。

実際、「人・技術・時間」の構成問題では、ChatGPT と Tongyi Qianwen がほぼ同じ表現を使用しており、「その後」を使って質問し、「最初、二番目、最後」を使って具体的な議論を展開しています。フレームワークとロジックは同じ型から彫られているようです。

それにもかかわらず、ウェン・シンイーヤンさんは自信を持って大学入試作文で90点(100点満点と仮定)の高得点を付け、「評価に値する」と自己評価もした。その構成を ChatGPT に投げたところ、ChatGPT は迷わず 100 点満点を付けてくれました...

AI 大型モデルは、バッチで組成物を生産する工業用組立ラインのようなものです。しかし本質的には、どんなに人間的な話であっても、原動力となるテクノロジーは数学と統計であり、意識ではありません。

人工知能業界では、AI が人間の言語を理解して話すことは常に非常に困難でした。人間の自然言語は非常に複雑なシステムです。科学者は機械に人間の脳のニューラル ネットワークをシミュレートさせ、深層学習ができるようにしましたが、それでも人間と同じ自然言語能力を備えていません。

そこで、言語の問題を数学の問題に変換し、計算を通じて間接的に自然言語処理の問題を解決する別の方法を見つけた人もいました。自然言語処理の専門家であるウー・ジュン氏によると、言語モデルは論理的な枠組みや生物学的フィードバック システムではなく、数式によって構築されるモデルです。 **この作品のキーワードは「数学」です。 **

**これは、人工知能が自己認識や感情を持たず、個人の感情に従って話すことができないと判断します。彼らにとって、作文を書くことは、結果とタスクを指向した論理的な表現です。 **

トレーニングのためにネットワーク全体から大量のデータをキャプチャし、人間の言語表現を模倣することを継続的に学習することにより、AI 大型モデルは人間に非常に近い言葉を話すようになりました。言葉の背後にある意味はまだ理解していませんが、影響を与えることはありませんコミュニケーション。

基本的に、AI には自らの心はありません。それがこの作品の構成が明快で論理的である根本的な理由でもあり、よく読んでみるとそこには魂はなく、すべてが日常的なものであることがわかります。

3 AI は実際には数えられません

前述したように、言語モデルのパラメータはすべて統計によって取得されます。その原理は、テキストの履歴を考慮して次の単語の確率を予測し、次のことを完了することです。

2017 年に Google がセルフ アテンション メカニズムに基づいた Transformer モデルを初めて提案し、現在では ChatGPT のような大規模な言語モデルが Transformer アーキテクチャに基づいて構築されています。

Transformer のアテンション メカニズムは、RNN (リカレント ニューラル ネットワーク)、GRU、LSTM などのこれまでの深層学習アルゴリズムに比べて、非常に長いメモリを備えています。 **入力の順序も記憶できるので、「I love you」と「You love me」の違いも理解できます。 **

しかし、それでも限界はあります。

たとえば、Deep AI は、Tongyi Qianwen に、「あなた」と「私」の概念を混同した独自の作品を評価するよう依頼しました。最初は自分の記事だと言いましたが、その後「あなたの」記事だと言いました...

『大型モデルの時代』の著者であるLong Zhiyong氏は、ディープAIに対して次のように説明しています**これは、左派と右派の争いという観点からの立場の変化によるものかもしれません。 **

大学入試の作文を書くための AI 大型モデルをテストする過程で、AI が計算できないという興味深い現象も見つかりました。

大学入試の作文には文字数が800語以上であることが求められています。ディープ AI は大規模モデルと何度も対話しました **ChatGPT を除き、Wenxin Yiyan と Tongyi Qianwen の初版は 800 ワードに達しませんでした。 **

たとえば、Deep AI の Wenxin Yiyan 氏は、記事の単語数が 800 語に足りず、書き直す必要があることを繰り返し思い出させました。 Wen Xin 氏は毎回こう言いました。まず、彼は非常に謙虚に謝罪し、要件を満たすことを約束し、それから 10 秒以内に、それでも 800 語にも満たない新しい作品を素早く作成しました。

この「受験者」は作文問題が理解できず、何度教えても直さないのが大きなマイナス項目です。

Long Zhiyong 氏は Deep AI に対して次のように説明しました。「次の単語を予測するための大きなモデルのトレーニング方法では、数えることを学習させません。800 がどれくらいなのかも知りませんし、単語を数える方法も知りません。」記事を生成します**。」

実際、ウェン・シンは800どころか、10などの数字さえ数えることができない。

これは言語モデル全般に伴う問題です。なぜ数えられないのか、いつ、どのような方法で数えられるようになるのかについては、まだ結論が出ていない。 「カウントしやすくするためのヒントはいくつかありますが、一般的な解決策ではありません。 *大規模モデルの現在の段階では、ブラック ボックス実験を行うことでその能力を検証し、ブラック ボックス トレーニングを行うことで能力を向上させることです。 *「龍志勇は言いました。

Long Zhiyong 氏の提案により、Deep AI はプロンプトの単語を変更し、「内容が豊富であればあるほど長くなります」と入力し、Wenxin Yiyan 氏は 800 語を超える単語の構成を出力しました。

過去の大学入試の作文問題ではChatGPTの作文が800語を超えていましたが、実は数えるという学習はしていませんでした。

ChatGPT は Deep AI を次のように説明しています。

したがって、実際には、「優等生」ChatGPT の作文の単語数は標準に達していますが、これは Meng のおかげです。 800 ワードが何ワードかわからないので、できるだけ多くを書きます。

人間の言語を完全に理解することはできませんが、知識の蓄えと表現力が非常に高く、それが時々唖然とする場面につながります。

今回のAI戦争大学入試作文の結果を見る限り、大模型の文章力は大きく進歩した。言葉の選択、論理的な議論、引用の点において、彼は多くの人をも上回っていました。

ただし、正解が 1 つしかない数学の問題とは異なり、作品自体の品質の評価には主観的な要素があります。格好良い言葉や文章は同じですが、面白い魂は100万人に1人です。構図に魂を注入する方法、AI モデルはまだ理解していません。大規模な AI モデルに固有の問題の中には、技術的な反復を通じてゆっくりと解決する必要があるものもあります。

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGate.ioアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)