#ChatGPT# 【14款AI检测软件均不靠谱?手动微调ChatGPT内容之后竟能轻易蒙混过关】
在 ChatGPT 刚推出的几周内,人们担心学生们会使用该#聊天机器人# 在几秒钟内编写出应付作业和考试的论文。为了应对这些担忧,许多初创公司开始制造工具,承诺可以识别文本是由人写的还是由机器写的。
一个尚未经过同行评审的新研究指出,应对这一挑战的核心问题是,欺骗这些工具并通过检测并不困难。
德国柏林技术与经济应用科学大学的媒体和计算教授黛博拉·韦伯·伍尔夫(Debora Weber Wulff)与来自多所大学的一组研究人员合作,评估了包括 Turnitin、GPT Zero 和 Compilatio 在内的 14 种检测工具,它们都声称具备检测 #OpenAI# ChatGPT 编写的文本的能力。
这些工具中的大多数都是通过寻找人工智能生成文本的特征来工作的,然后计算该文本由人工智能生成的概率。但该团队发现,所有接受测试的工具都很难找到 ChatGPT 生成的文本,因为这些文本都被人类重新排列并被转述工具加工过。这表明,学生只需要稍微调整人工智能生成的文章,就可以通过检测工具。
“这些工具不起作用,”韦伯·伍尔夫说,“它们无法实现它们被创造出来的目的,也不是人工智能的探测器。”
研究人员通过撰写土木工程、计算机科学、经济学、历史学、语言学和文学等多个学科的本科生论文来评估这些工具。他们自己撰写论文是为了确保网上找不到这些文本,不然可能已经被拿来训练 ChatGPT 了。
然后,每位研究人员用波斯尼亚语、捷克语、德语、拉脱维亚语、斯洛伐克语、西班牙语或瑞典语又写了一篇。这些文本会通过人工智能翻译工具 DeepL 或谷歌翻译翻译成英语。
然后,该团队使用 ChatGPT 生成了两份文本,每份都经过了轻微的调整,以隐藏它是人工智能生成的。其中一组是由研究人员手动编辑的,他们重新排列句子并替换单词,而另一组是使用名为 Quillbot 的人工智能转述工具重写的。最终,他们获得了 54 份文件来测试检测工具。
他们发现,虽然这些工具善于识别人类书写的文本(平均准确率为 96%),但在识别人工智能生成的文本时,尤其是编辑过的文本时,它们的表现更差。
尽管这些工具识别 ChatGPT 文本的准确率为 74%,但当 ChatGPT 生成的文本经过稍微调整后,准确率降至 42%。
戳链接查看详情:网页链接
在 ChatGPT 刚推出的几周内,人们担心学生们会使用该#聊天机器人# 在几秒钟内编写出应付作业和考试的论文。为了应对这些担忧,许多初创公司开始制造工具,承诺可以识别文本是由人写的还是由机器写的。
一个尚未经过同行评审的新研究指出,应对这一挑战的核心问题是,欺骗这些工具并通过检测并不困难。
德国柏林技术与经济应用科学大学的媒体和计算教授黛博拉·韦伯·伍尔夫(Debora Weber Wulff)与来自多所大学的一组研究人员合作,评估了包括 Turnitin、GPT Zero 和 Compilatio 在内的 14 种检测工具,它们都声称具备检测 #OpenAI# ChatGPT 编写的文本的能力。
这些工具中的大多数都是通过寻找人工智能生成文本的特征来工作的,然后计算该文本由人工智能生成的概率。但该团队发现,所有接受测试的工具都很难找到 ChatGPT 生成的文本,因为这些文本都被人类重新排列并被转述工具加工过。这表明,学生只需要稍微调整人工智能生成的文章,就可以通过检测工具。
“这些工具不起作用,”韦伯·伍尔夫说,“它们无法实现它们被创造出来的目的,也不是人工智能的探测器。”
研究人员通过撰写土木工程、计算机科学、经济学、历史学、语言学和文学等多个学科的本科生论文来评估这些工具。他们自己撰写论文是为了确保网上找不到这些文本,不然可能已经被拿来训练 ChatGPT 了。
然后,每位研究人员用波斯尼亚语、捷克语、德语、拉脱维亚语、斯洛伐克语、西班牙语或瑞典语又写了一篇。这些文本会通过人工智能翻译工具 DeepL 或谷歌翻译翻译成英语。
然后,该团队使用 ChatGPT 生成了两份文本,每份都经过了轻微的调整,以隐藏它是人工智能生成的。其中一组是由研究人员手动编辑的,他们重新排列句子并替换单词,而另一组是使用名为 Quillbot 的人工智能转述工具重写的。最终,他们获得了 54 份文件来测试检测工具。
他们发现,虽然这些工具善于识别人类书写的文本(平均准确率为 96%),但在识别人工智能生成的文本时,尤其是编辑过的文本时,它们的表现更差。
尽管这些工具识别 ChatGPT 文本的准确率为 74%,但当 ChatGPT 生成的文本经过稍微调整后,准确率降至 42%。
戳链接查看详情:网页链接