2023年1月31日

AI が書いたテキストを表示する新しい AI Classifier

読み込んでいます...

2023年7月20日現在、AI Classifier は精度が低いために利用できなくなっています。現在は、お寄せいただいたフィードバックを盛り込む作業と、テキスト用の更に効果的なプロビナンステクニックの研究、そして音声/画像コンテンツが AI 生成されたものかどうかを理解できるようにするためのメカニズムの開発と展開に取り組んでいます。

当社は、様々なプロバイダーから提供された人間が書いたテキストと AI が書いたテキストを見分けるためにクラシファイアに学習を施してきました。AI が書いたテキストをすべて検知することは不可能ですが、優れたクラシファイアであれば、AI が書いたテキストを人間が書いたものだという虚偽の主張に対する緩和策の情報源にすることができます。例としては、自動化された誤情報キャンペーン⁠や、学術的な不正のための AI 利用、そして AI チャットボットを人間として利用することなどに対する緩和策で役立つでしょう。

当社のクラシファイアは完全に信頼できるわけではありません。 当社のクラシファイアは、当社が用意した英語の「課題セット」では、AI が書いたテキストを「AI が書いたと思われる」ものとして26%の確率で正しく特定できましたが、人間が書いたテキストを AI が書いたものとして9%の確率で誤って特定しました(偽陽性)。一般的に、当社のクラシファイアの信頼性は、入力テキストの量が増えれば増えるほど改善されます。当社の以前にリリースしたクラシファイア⁠（新しいウィンドウで開く）と比較すると、新しいクラシファイアは、より最近の AI システムによって生成されたテキストに対する信頼性が著しく向上しています。

当社は、このような不完全なツールでも有用かかどうかについてフィードバックをしていただくために、このクラシファイアを誰でも利用できるようにしています。当社は、AI が書いたテキストを検知する取り組みをこれからも継続していきます。その結果として、将来的に改善された方法を共有できることを願っています。

未完成ではありますが無料のクラシファイアを是非お試しになってみてください：

クラシファイアを試す（新しいウィンドウで開く）

限界

当社のクラシファイアには、いくつかの重要な限界があります。 このクラシファイアは主要な意思決定ツールとして使用すべきではありません。代わりに、テキストの出所を判別するための他の方法を補完するものとしてご利用ください。

このクラシファイアは短いテキスト（1000文字未満）では非常に信頼性が低くなります。長いテキストであっても間違った判別結果になることもあります。
ときには、人間が書いたテキストが AI が書いたものして間違って断定されることもあります。
このクラシファイアは英語のテキストでのみ使用することをお勧めします。他の言語では著しくパフォーマンスが悪く、コードでは信頼性がありません。
非常に予測しやすいテキストを安定して特定することはできません。例えば、小さいものから順に1000個の素数を列挙した一覧が、AI によって書かれたものか人間によって書かれたものかを予測するのは不可能です。なぜなら、正しい一覧が常に同じものだからです。
AI が書いたテキストは編集することによってクラシファイアによる正しい判別を避けることできます。当社のようなクラシファイアは、成功した判別に基づいてアップデートと再学習をすることができますが、検知することに長期的なアドバンテージがあるかどうかは不明です。
ニューラルネットワークに基づいたクラシファイアは、学習データの外側では較正が芳しくないことで知られています。クラシファイアは、学習セット内のテキストと非常に異なる入力に対しては、極めて確信的に間違った判別を下すことがあります。

クラシファイアの学習

当社のクラシファイアは、同じトピックについて人間が書いたテキストと AI が書いたテキストのペアのデータセットに基づいてファインチューニングされた言語モデルです。このデータセットは、事前学習データや InstructGPT⁠ に提出されたプロンプトに対する人間のデモンストレーションなど、人間が書いたと思われる様々な情報源から収集されています。各テキストはプロンプトとレスポンスに分けられます。こういったプロンプトに基づいて、当社や他の組織が学習を施した様々な言語モデルからレスポンスを生成しています。当社のウェブアプリでは、偽陽性率を低く抑えるために確信度のしきい値を調整しています。つまり、クラシファイアの確信度が非常に高い場合にだけ、AI が書いたものと判定するということです。

教育者への影響とフィードバックのお願い

当社は、AI が書いたテキストの特定が教育者の方々の間で重要な議論のポイントであることを認識していますが、AI 生成テキストのクラシファイアが教育現場に与える影響と、その限界を認識することも同じように重要だと考えています。当社は、教育者の皆様が ChatGPT を使用するための準備リソース⁠（新しいウィンドウで開く）を開発しました。このリソースでは、いくつかの利用方法と、関連する限界および検討事項が概説されています。このリソースは教育者の方たちにフォーカスしたものですが、当社のクラシファイアと関連するクラシファイアツールは、ジャーナリストの皆様や、誤情報/偽情報研究者の皆様、および他の方々にも影響を及ぼすことが想定されます。

当社は、アメリカ合衆国の教育者と協力し、教育現場でどのようなことが起こっているかを学んだり、ChatGPT の能力と限界について議論したりすることを通じて、これからも活動の範囲を広げていくことを予定しています。これらは重要な対話です。なぜなら、当社のミッションの一部は、影響を受ける様々なコミュニティと直接的に接触する形で、大規模言語モデルを安全に展開することだからです。

こういった問題から直接的に影響を受ける方々（教師や、管理者、親、学生、および教育サービスプロバイダーなどを含むがこれらに限定されない）は、こちらのフォーム⁠（新しいウィンドウで開く）を使って是非とも当社までフィードバックをお寄せください。準備リソース⁠（新しいウィンドウで開く）に関する直接的なフィードバックは有用です。また、教育者の皆様が開発しているリソースや、役立つと感じたリソースがあれば、それらもお寄せいただければと思います（コースのガイドラインや、オナーコード、ポリシーの更新、インタラクティブツール、AI リテラシープログラムなど）。

著者

Jan Hendrik Kirchner、Lama Ahmad、Scott Aaronson、Jan Leike

貢献者

Michael Lampe、Joanne Jang、Pamela Mishkin、Andrew Mayne、Henrique Ponde de Oliveira Pinto、Valerie Balcom、Michelle Pokrass、Jeff Belgum、Madelaine Boyd、Heather Schmidt、Sherwin Wu、Logan Kilpatrick、Thomas Degry

すべてを表示