在获得了 AI 的写作文章后,论文作者又组织了针对评分者(高中老师)的关于 ChatGPT 基础知识的培训讲座,参与老师的主要所在学科包括语言(英语,法语和德语),宗教,伦理和科学等等。在两个小时的讲座与四十五分钟的讨论后,参与教师收到了关于文章评分的问卷,这份问卷包含了文章评估相关的七个评估标准,分别是:
而进一步的,为了将 AI 生成的文章与学生写作的文章进行对比,论文考虑了词汇多样性、句法复杂性、名词化、情态动词、认知标记与话语标记六类语言特征,使用计算语言学的方法对这六类特征进行统计处理。其中词汇多样性方面,论文使用文本词汇多样性度量(MTLD)确定词汇丰富程度,在句法复杂性方面,论文度量句子依存树的最大深度与从属从句结构来评估句子复杂性,在名词化方面,论文统计了具有诸如“-ion”,“-ment”,“-ance”和其他一些已知将动词转化为名词的后缀词的出现次数,在情态动词与认知标记方面,论文都采用了词性标注的方法进行识别,以统计如“我认为”,人们认为”,“在我看来”这类认知标记的出现频次。而在话语标方面,论文采用了 PDTB 的话语标记序列对如如“like”、“for”、“in”等话语标记词进行统计。
某种程度上,这篇文章证明了人们关于 AI 在教育应用中的许多担心并非无的放矢,AI 可以高质量的完成议论文的写作预示了未来一个根本性的改变“我们或许要重新定义‘作业’这种东西了”,换言之是去思考当我们希望学生去练习自己的写作时,到底是希望他/她通过完成这样一篇文章(譬如国内的高考作文题)而获得什么样的能力,而并不是简单的对网格纸上的文字一扫而过给出一个四五十分的作文分数。