秒懂AI辅助论文写作
上QQ阅读APP看书,第一时间看更新

1.1 用AI写论文,是辅助写作,还是触碰红线?

经常有人会疑惑:以ChatGPT为代表的大语言模型是否能够应用于论文写作?答案是可以。

任何时代,避免出现学术不端问题的根本导向是要维护学术诚信和保护知识的原创性。之所以有研究者会触碰学术红线,其原因在于研究者主观上无视科学研究和学术创作的种种规则,使用工具来帮助其实现剽窃他人学术成果的目的,而此类工具不仅包括AI,还包含以往一切可以提供和转移知识的工具。我们不能阻止任何先进工具的产生和使用,但是我们可以控制其在合理的范围内为己所用。

那么为了厘清用AI写论文是否触碰红线,我们首先要回答这三个问题:学术不端的认定范围是什么?AI生成的内容是否可信?AI生成的内容是否存在版权问题?

问题一:学术不端的认定范围是什么?

只有清楚地知道学术研究的红线在哪里,才能够在行为上主动去规避。根据教育部颁发的《高等学校预防与处理学术不端行为办法》中的第二十七条,以下行为被认定为学术不端:

(1)剽窃、抄袭、侵占他人学术成果;

(2)篡改他人研究成果;

(3)伪造科研数据、资料、文献、注释,或者捏造事实、编造虚假研究成果;

(4)未参加研究或创作而在研究成果、学术论文上署名,未经他人许可而不当使用他人署名,虚构合作者共同署名,或者多人共同完成研究而在成果中未注明他人工作、贡献;

(5)在申报课题、成果、奖励和职务评审评定、申请学位等过程中提供虚假学术信息;

(6)买卖论文、由他人代写或者为他人代写论文;

(7)其他根据高等学校或者有关学术组织、相关科研管理机构制定的规则,属于学术不端的行为。

AI辅助论文写作已经成为一个新颖的学术现象并引起了广泛关注。2024年1月,华北电力大学研究生院发布通知,明确该校将引入AIGC(AI Generated Content,人工智能生成内容)检测服务系统,对所有申请学位研究生的学位论文进行检测,抵制AI代写论文的行为。2024年4月,湖北大学、福州大学、南京工业大学、天津科技大学等高校相继发布通知,称将在本科毕业生毕业论文审核过程中试行加入对文章使用生成式AI风险情况的检测。其中,湖北大学明确,如发现论文检测结果为“AI代写高风险”,教师应指导学生进行修改。福州大学强调,检测结果将作为成绩评定和优秀毕业论文评选的参考依据。这一变化反映了学术界对于AI的深刻认识和积极应对态度。对AI,一禁了之并不可取,规范使用才是趋势。

问题二:AI生成的内容是否可信?

今天我们谈到的AI写作,背后的技术是大语言模型(Large Language Model,LLM),简称大模型,它基于机器深度学习和自然语言处理(Natural Language Processing,NLP)技术,从大量的文本数据中学习语言模式并使用这些模式来生成新的文本。

如图1-1所示,黑色区域是人类已知的知识,蓝色区域代表用来训练大模型的语料,而广阔的白色区域,则代表所有的人类未知的知识。训练大模型的语料,是人类所有已知知识的一部分。当大模型需要生成一个答案时,如果所需的知识(蓝色区域)不足,它会自行推理,依据旧知识推理出所需部分。让人们惊叹的大模型最厉害的能力之一就是这种逻辑推理能力。大模型拥有强大的逻辑推理能力,是因为它从训练语料中发现了一些文字之下的底层规律,我们不妨把这部分规律也视为一种知识。有了这些训练得来的知识,大模型就可以完成不同任务,根据提示做推理,生成逻辑性很强的文本内容。

图1-1 大语言模型语料训练范围

如果推理出来的这部分与黑色区域的知识相符,我们会说:“哇,AI太强大了!”如果推理出来的这部分与黑色区域的知识不相符,我们就会说:“哎,AI有点蠢!”

AI生成的内容是具有一定可信度的,同时也不可避免会出现一些“瑕疵”,如重复率过高、语言表达生硬等。为了提高内容的真实性,使用者可以通过数据投喂、提示词调整、AI检测、人工校正等方式来降低出错率。

问题三:AI生成的内容是否存在版权问题?

关于这个问题,可以从两个方面来分析,一方面是输入的内容是否构成侵权,另一方面是输出的内容是否具有版权。

根据《生成式人工智能服务管理暂行办法》第七条规定,大模型开发公司如果想通过算法备案,就必须使用具有合法来源的数据和基础模型,如果涉及知识产权,则不得侵害他人依法享有的知识产权。换句话说,只有数据本身没有侵权,才能通过算法备案。这也就意味着对AI用户来说,不管素材是在模型端,还是在数据传输环节,只要出现了版权问题,不会因为二次加工或者庞大的用户群,就让已经出现的侵权问题消失。

关于AI生成内容版权的界定,参考北京互联网法院对(2023)京0491民初11279号案件的审理过程与判决,主要通过分析人类(作品作者,或者版权许可的所有人)在AI生成中的过程性行为(人类做了什么)来判断作品(在法律范围内被认定为“作品”)是否属于能够得到版权保护的独创性智力成果(强调具有独创性,且为智力成果)。

因此,用户在使用AI工具的过程中一是要使用合法的素材,二是要增加原创性的智力投入。如果你的论文完全依赖AI生成内容,没有原创的思路,没有任何原创的素材,那么就可以认为你的论文是AI代写的,这不仅存在版权问题,而且是一种学术不端行为。