根据由斯坦福大学领导的一项近期研究,法律教授更倾向于接受由人工智能生成的答案,而非同事教授撰写的答案,该研究考察了大型语言模型在法律推理任务中的表现。
在这项研究中,来自14所美国法学院的16位教授——包括斯坦福大学、耶鲁大学、纽约大学、芝加哥大学、乔治城大学、加州大学洛杉矶分校和维吉尼亚大学——创建了40个涵盖法律教义、案例法、假设和政策问题的合同法问题。研究人员认为这是测试现代人工智能能力的理想方式。
“大型语言模型(LLMs)越来越被宣传为教育导师,但大多数评估集中在具有单一真实答案的领域,”研究人员写道。“然而,许多学科依赖于判断:推理、权衡模糊性和得出可辩护的结论。法律提供了一个严格的测试。”
在2,918次盲比较中,教授们选择了他们更愿意给学生的答案。谷歌的Gemini 2.5 Pro在与人类教师的对比中赢得了75.92%的比赛,而科技巨头的NotebookLM赢得了74.75%的比赛,使得人工智能生成的结果在大约四分之三的回应中优于人类。
根据研究人员的说法,为了确定结果是否反映了更广泛的专业共识,研究人员分析了教授们在评估相同答案对时达成一致的频率。
“观察到的一致性超过了如果判断完全是个人化的预期水平,这表明LLMs的成功反映了与普通学科标准的一致性,”他们写道。
研究发现,人工智能模型在多个类别中也优于人类教师,包括与案例、代码或教义相关的回忆问题、假设和政策讨论。
“为了探究任何LLM优势是否可能是由表面水平的写作风格驱动,而非实质内容,我们额外设计了一组词汇-句法特征——答案长度、结构组织、推理细微差别、法律锚点、自信语气、清晰度和教学支持,并测试它们能解释多少偏好模式,”研究指出。
人工智能生成的答案被标记为有害的频率也明显低于教授撰写的答案,其中Gemini记录的有害率为3.41%,NotebookLM为3.64%,而人类教师的有害率为12.06%。在对额外模型的单独分析中,Anthropic的Claude Opus 4.7排名第一,其次是OpenAI的ChatGPT 5.4和Gemini 2.5 Pro,而每个评估的人工智能模型平均优于人类教师。
研究人员提醒,研究并未衡量答案是否符合每位教授的个人教学偏好,这留下了可能性,即人工智能生成的回答被视为一般可接受,而不是针对某一位教师的个别方法进行量身定制。
“虽然LLM的回答通常优于人类教师的回答,但我们的评估环境并不允许我们直接衡量教师偏好被满足的程度,”研究表示。“理论上可能,尽管LLMs通常提供更强的回答,但它们生成的答案仍然只是被视为‘足够好’。”
这项研究正值法院、律师事务所和法学院日益努力寻找人工智能在法律职业中应用的方式。
今年3月,洛杉矶高等法院开始测试人工智能工具,以帮助法官管理日益增长的案件负担,而法学院正在增加人工智能培训项目。
“这些新技术作为法律实践中的助力倍增器的潜在好处是无法忽视的,”密西西比大学法学院院长约翰·P·安德森此前对Decrypt表示。“无论我们的学生计划成为诉讼律师还是交易律师,他们的未来雇主都将期望他们熟悉这些人工智能工具。我们希望招聘我们学生的公司对每位MC法学院毕业生在人工智能技术方面的能力充满信心。”
然而,与此同时,律师事务所继续面对由于幻觉和其他人工智能生成的错误而受到影响的案件。4月,律师事务所苏利文与克伦威尔承认在一起高调案件的最近申请中包含由人工智能生成的假引用。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。