欢迎来到格策美文网
更新日期:2025-06-22 12:13
写作核心提示:
标题:撰写自我鉴定摘要:教师应注意事项
正文:
在撰写自我鉴定摘要时,尤其是作为一名教师,以下事项应当特别注意:
1. "明确主题": - 确保摘要的主题明确,围绕自己的教育教学工作展开,突出个人在教育教学中的角色和贡献。
2. "客观评价": - 实事求是地评价自己的工作表现,既要展示自己的优点和成就,也要诚实地分析不足和需要改进的地方。
3. "突出重点": - 针对教师这一职业特点,重点描述教育教学能力、学生管理、课程开发、团队合作等方面的表现。
4. "具体实例": - 使用具体事例来支撑自己的评价,如教学成果、学生反馈、同事评价等,使自我鉴定更具说服力。
5. "遵循教育理念": - 在摘要中体现自己的教育理念,如素质教育、个性化教育、终身学习等,展现教师的教育情怀。
6. "结构清晰": - 摘要应结构清晰,通常包括个人基本信息、工作概述、教学成果、反思与展望等部分。
7. "语言规范": - 使用规范的书面语言,避免口语化表达,确保文风严谨、条理分明。
8. "注重情感表达": - 在适当的地方表达对教育事业的热爱和对学生的关心,体现教师的职业情感。
9. "遵守职业道德": - 强
临近毕业,为了论文达到AI率标准,有一批大学生不得不狠狠修改论文。
对于一些高校的应届毕业生而言,除了传统的查重、盲审、答辩,毕业路上又多了一道关卡——AIGC检测。
收到学校对毕业论文进行AIGC检测的通知,大四学生一帆对“用AI查AI”的方式感到不放心。而检测结果让他惊讶:“虽然我自己写的几个段落被误判为99%AI,但没想到我用AI润色的部分也被查出来了”。
利用系统改写后,他产生了好奇:“降AI也是AI写的,为什么就查不出来?”查看修改内容后,他发现“系统降AI方法就是删掉逻辑词、把很多话的表述变成口水话”。
对于AI率降低后的论文,他认为“论文质量反而下降了,但为了合格,只能这样改。”
AI 检测再“升级”,不仅判 AI 率还能判论文质量?
论文“AI味”渐浓,是全球高校共同面对的新难题。
第三方机构麦可思在2024年对3000多名中国高校师生进行的问卷调查显示,近三成大学生将AI用于论文或作业写作。
2025年Open AI发布的报告显示,“美国三分之一以上的大学生使用ChatGPT,他们发送的约四分之一的消息与学习和学校作业相关”,内容涵盖构思论文框架、寻找主题和拓展观点等。
2024年初,福州大学、中国传媒大学等高校陆续发布了毕业论文(设计)AIGC 检测的通知。相比2024年,今年有更多高校将AIGC检测列入了毕业论文评价体系。西南大学、浙江科技大学、西南交通大学纷纷颁布关于2025届本科毕业论文(设计)AIGC检测的通知。
部分去年已采纳AIGC检测的高校则在今年提出了更细致的规定。以福州大学为例,去年的要求是“AIGC检测结果将作为学生毕业设计(论文)成绩评定和校级优秀本科生毕业设计(论文)评选参考依据”。到今年,校方指导文件明确指出“AIGC全文检测值应≤20%”,并规定终稿环节“查重检测或AIGC检测第二次才通过的论文最终总评成绩只能记作及格”。
在检测AI率的基础上,一些高校进一步采用了AI智评系统,用以评判论文质量。有别于拿AI率作为优秀论文参考依据,广东海洋大学、上海海事大学、温州理工学院等高校采用AI智评系统对本科毕业论文进行评级,结果包含四个等级:A(良好论文)、B(合格论文)、C(建议修改)、D(高危论文)。
这些评级意味着什么?不同的高校有着不同的标准,构成了难度不一的毕业门槛。网友@可回收分享自己查重定稿后,论文却被智评系统评为C级,她的学校要求论文达到B级才能答辩。网友@一往无前和网友@lady luck则表示自己的学校要求C级即可达标。
根据校方指导文件,一些高校要求学生依据AI评估的结果对论文进一步修改。比如,广东海洋大学要求盲审前,“AI智评结果为C或D以及检测智能生成内容比例超过40%的论文,应予以修改完善”。江苏大学则将AI 论文质量评估系统给出的数值列入了检测标准,要求评估数值“原则上预估合格概率要高于 75%;低于 75%的,需做进一步优化和修改”。
又贵又不稳定,大学生被AIGC检测困扰
“查了两次AI率,花了140块,太贵了。”考虑到一旦利用学校免费的查询次数,论文会被计入系统成为定稿,应届生立君将论文在其他平台进行了检测,确保AI率稳定,“一般大家都会提前自费查好,我们不敢把学校的检测次数当作试错”。
区别于论文查重精确到重合的语句标识,AIGC检测以片段为单位,这意味着修改范围扩大和不确定性增加。而面对被系统识别为“疑似AI生成”的专业术语和著作原文,不少大学生感到困惑。
网友@小狐狸在人间种花分享了自己的毕业论文检测记录,在正文一字未改、仅添加了参考文献表和封面的情况下,间隔两小时后的AI特征值从27.2%骤降为0.5%。对于花了两百块钱得到的这一波动检测结果,她感到无奈:“现在花钱查的结果也不敢相信了,好怕学校查重不过”。
评论区里,大学生们倾诉着类似的苦恼,获得高赞的网友@来一口猫钧嘛评论称“很多自己写的都会被判定AI,我的摘要写不好,最后是老师给我写的,也被判为中度AI了”;网友@圆镜表示“我连引用的北大核心参考文献都被说是AI”。
“AI率降低后,我的论文却变味了”
目前高校采用的主流检测系统在2024到2025年间先后更新。维普于2025年2月26日完成AIGC检测更新,表示其“增强了对最新AI模型的检测效果”;知网个人查重服务系统于2025年2月13日进行了AIGC检测服务升级;格子达在2025年3月6日发布了AIGC检测3.0版本。
为了探究系统升级是否有效,澎湃新闻记者将去年《换个平台就相差 32%,AI 论文检测成玄学》用于AIGC检测的同一篇“完全由AI生成”的论文投入相同的高校常用检测系统进行了检测。从结果来看,部分网站识别“完全由AI生成文本”的能力有所上升,但不同网站的差异仍然明显。
“我用AI帮我翻译的英文摘要都被识别出来了”。因此,电子科学与技术专业的晨夕认为,检测系统对于AI生成内容的判断还是准确的。但对于AI检测带来论文逻辑性减弱的后果,他感到无奈。为让AI率更低,他不得不在论文中的许多实验步骤前都加上了“我们”,原本清晰的实验说明,变成了“我们通过……,并且我们通过……,从而我们就能得到”的赘余版本。
AI检测器的误判概率大吗?一篇2024年教育技术领域的Q1级顶刊论文在检测了七款国外主流AI检测器后发现,这些检测器对未经过改写的AI生成内容的平均识别准确率为39.5%,对于人类写作的对照样本识别准确率为67%。这意味着人类有33%的概率被误判为AI,而AI却有高于60%的概率可以蒙混过关。
在新版本发布的公告中,格子达将其中一条区分人与AI创作的标准描述为:人类写作存在合理的不确定性,AI生成的文本过于“流畅”。这也导致了大学生们的无奈:为了降低AI率,不得不把论文改“笨”。
网友@江枫渔火对愁眠 分享了为AI率折腰的经历,她抱着把论文修改到最好的心态,却不得不弱化逻辑性,改书面语为口语,“虽然AI率达标了,终于定稿了,但是我对自己的论文不满意了,自己把自己的论文改烂真的很难受”。
网络上也有不少经验帖分享用AI打败AI的方法,但更改后的论文质量大打折扣。尝试过用系统降低AI率的一帆表示,AI改写的语句“不像人写的”。删减逻辑词、增加口水话后,论文与严谨、专业的大众印象渐行渐远。
采纳AI检测器,国外高校态度审慎
除了类似“AI 检测率”这样的硬指标划定,国内一些高校也在探索其他规范使用 AI 的方式,比如中国传媒大学继续教育学部设计了《本科毕业论文(设计)生成式人工智能使用情况说明表》,由学生自主披露论文中的 AI 使用情况。
而使用了AI智评系统的广东海洋大学也在指导文件里公布了允许使用AI工具的范围,如“可用于文献检索、关键词推荐和文献管理,但需确保引用文献的真实性与可靠性。可用于推荐统计图表类型和辅助制图,但不得用于生成或修改原始研究数据及关键研究图表”。
关于AI检测器,美国前20所顶尖高校普遍持“不建议使用”态度,考虑的主要因素为现有检测技术不成熟、系统无法提供证据、误判和漏判现象频出。
Open AI公司在官网“教育者常见问题解答”中称:“我们对检测器的研究表明它们并不可靠,因为教育工作者可能会对学生作出判断,并造成长期影响”。在训练过程中,其研发的AI生成内容检测器将莎士比亚的作品和《独立宣言》等人类撰写的内容标记为 AI 生成。
国内主流AIGC检测平台目前并未披露具体的训练集;对于相关的大模型原理,公开表述也比较模糊。以维普为例,其在官网对于判断标准的描述是“AIGC检测是运用AI大模型,预先对各大AIGC模型生成的海量文本数据进行特征反向演算,掌握AIGC模型文本生成的规律”。
根据同方知网数字出版技术股份有限公司2025年1月24日公布的专利《AI生成学术文本的判断方法、装置及相关产品》,其检测系统判定原理如下:首先“利用大模型对‘待判断’学术文本进行改写 ”,再通过对比改写前后的文本,判断该学术文本是否由AI生成。
AI检测技术落后于AI生成技术的现状,导致规避检测变得相对容易。上文提及的检测了七款国外主流AI检测器的2024年顶刊论文还提到,即便是相对简单的内容操控(例如添加拼写错误、增加文本波动性)也能非常有效地规避检测;“具备技术敏感度、资源且有意愿的个体”则能更轻易将AI生成内容伪装成人类所写。这就意味着,滥用AI技术的学生并不担忧检测器的考验,而手写论文的学生却可能因误判而受煎熬。
2024年12月,发表在中文核心期刊上的一篇论文《大语言模型技术背景下重塑研究生论文评价与指导》指出,高校采用“AIGC值”标准要求学生,可能容易导致师生之间陷入“猫捉老鼠”困境——“检测软件不断更新换代,抄袭者随之不断寻求新的规避办法”。“学生将精力投入无意义的表达变换的文字游戏中”,或许才是AIGC检测最大的隐患。
文中一帆、立君、晨夕均为化名
澎湃新闻特约作者 何洛伊 记者 卫瑶 舒怡尔
(本文来自澎湃新闻,更多原创资讯请下载“澎湃新闻”APP)
在AI技术飞速发展的当下,如何准确评估大型语言模型(LLM)的性能成为了一个关键问题。本文将带你走进“LLM-as-a-Judge”的奇妙世界,这是一种创新的评估方法,通过让LLM自身来评估其他LLM的输出,从而实现高效、客观的质量把控。
上一篇文章分析了AI产品经理做好评测的重要性,并以本人所在的AI+医疗场景为例,示例了评估标准的构建以及测评了相关大模型在此任务上的能力。
从这篇文章起,将开启LLM-as-a-Judge的系列文章,包含从评估方法到实战应用的全流程。这是一种用魔法打败魔法的神奇方法体系,以本人曾在某厂子做过智能客服的经验来看,里面的方法极其实用,甚至不只是在评估环节用得到,很多方法都可以融到产品设计中,以保证AI产品的可靠性。里面的绝大多数内容我都曾在工作中或多或少用到过,现在终于被梳理成了一个完整的体系。在此强烈安利给各位AI产品经理以及算法伙伴。
LLM-as-a-Judge 是一种评估方法,用于根据评估提示词中定义的自定义标准评估任何 LLM产品(包括聊天机器人、问答系统或代理)生成的文本质量。它给LLM以评估提示词,让LLM来根据您定义的标准对生成的文本进行评级。LLM可以对两个输出进行比较,也可以直接对一个输出进行评分(评估正确性和相关性)。LLM 将按照您的指示返回分数、标签甚至描述性判断。
假设您有一个聊天机器人。您可以要求外部LLM 评估其输出,类似于人工评估员的方式,查看以下内容:
值得注意的是,LLM 作为裁判并不是准确度、 精确度或 NDCG 等意义上的评估指标 。在机器学习中,指标是一种定义明确、客观的衡量标准:它们精确量化模型的预测与真实情况的匹配程度。相比之下,LLM as-a-judge 是一种用来近似人工标记的过程。当要求 LLM 评估“忠实于来源”、“正确性”或“有用性”等品质时,需要在提示词中定义这些术语在的含义,且依赖于 LLM本身从训练数据中学到的语义关系。使用 LLM judges 的成功在很大程度上还取决于实现细节:使用的模型、提示词设计和任务复杂性。还需要根据特定的评估者 LLM 调整评估提示词:单词和格式都很重要。
可以要求 LLM 在两个输出之间选择最佳答案,评估简洁或礼貌性等特定品质,或使用额外的上下文评估答案,例如检测幻觉或确定相关性:
简而言之,您生成两个响应,并要求 LLM 根据特定质量或因素选择更合适的一个。
提示词示例:你将看到对同一问题的两个。你的任务是根据其相关性、有用性和详细程度来决定哪个响应更好。如果两个响应都一样好,则声明平局。
你可以要求 LLM 直接按你定义的任何维度对生成的文本进行评分。例如,你可以使用 LLM评委来评估语气、清晰度、格式遵守性、简洁性、礼貌性、个人身份信息 (PII) 的存在等内容。
LLM 在专注于语言和语义的分类任务中非常有效。一种常见的方法是将评估视为二元分类问题。或者,你可以使用分级量表来衡量响应满足特定标准的程度,例如使用从 1 到 5 的Likert scale。
对话级评估:
对包含完整上下文的对话进行评估,如:
提示词示例:阅读对话并评估用户的请求是否已解决。“已解决”表示问题已得到解决,并且用户确认或表示满意。返回以下标签之一:“已解决” 或“未解决”。
在基于参考的评估中,不仅可以单独评估生成的输出,还可以提供额外的上下文以供查看。以下是提供额外输入的几个示例:
1)答案 + 参考答案:
适合于有基本事实或正确答案进行比较时。例如,在QA系统中,LLM评委可以检查新的是否与之前同一问题的答案是否相似。
示例prompt:将生成的 response 与 reference 答案进行比较。评估生成的响应即使措辞不同是否正确传达了相同的含义。返回以下标签之一:“Correct”或“Incorrect”。
2)答案 + 问题 :
常见于聊天机器人或 Q&A 系统,用于检查响应是否正确解决了问题。
本人有话说:本人曾在某厂做过智能客服系统,在QA链路中,当大模型基于检索的相关知识生成了答案之后,还要再过一个类似这样的质检模块,判断生成的答案是否能解决用户的问题
3)在 RAG 中对上下文相关性进行评分:
答案 + 检索到的上下文或问题 + 检索的上下文:用于RAG中,评估根据检索出来的上下文生成的答案情况。
RAG的过程是:系统首先在知识库中搜索可帮助问题的文档,随后LLM根据它们生成输出。这为 LLM 答案增加了最新的知识。要正确评估 RAG 的性能,需要评估以下两方面:
对于第一部分 —— 搜索质量评估 —— 可以使用 NDCG 或精确率等排名(ranking)质量指标。这些类型的指标量化了系统查找和排序有助于查询的文档的能力。 这些评估通常在迭代不同搜索策略等参数时离线进行。
LLM评委可以充当上下文相关性评判员,可以对每个检索到的文本块与query进行相关性评分。
4)评估RAG中的幻觉:
您可以创建一个忠实度评判来仔细检查 LLM 是否正确处理了检索到的内容。
示例:评估以下 response 是否忠实于 context。忠实的回应应该只包括上下文中存在的信息,避免发明新的细节,并且不与上下文矛盾。返回以下标签之一:“忠实”或“不忠实”。
还可以使用LLM 评委来评估响应与上下文的连贯性、将摘要与来源进行比较来评估摘要 。这有助于您交叉检查质量并发现不一致之处。
创建 LLM 评委与开发任何 LLM 驱动的产品非常相似,需要一个提示来告诉LLM 确切该做什么。在本例中,它是一个评估提示词,指示 LLM 评估文本输入并返回标签、分数或解释。
问题是:如果你正在使用 LLM 来评估其他 LLM,而结果不是确定性的,你如何确保你的评委符合你的期望?
您需要采用迭代方法——像优化LLM产品提示一样优化评委。换句话说,您的评估系统需要自己的评估!
Step1. 定义评估方案。
首先,确定你到底希望 LLM 法官评估什么。
Tip:保持简单!不要试图一次评估太多事情。如果要检查不同的维度(如逾期和准确性),请将它们拆分为单独的评估。尽可能使用清晰的二元选项(例如,“正确”与“不正确”)。
Step2. 准备评估数据集。
接下来,创建一个小型数据集来测试您的 LLM 判断。这可以包括来自实验或生产数据的示例。如果您没有这些,则可以创建模拟预期输入的合成案例。
您的数据集不需要很大,但应该包含各种示例,尤其是那些挑战您的评估标准的示例。
Step3. Label此数据集。
您需要手动标记此数据集,这个标记的数据集将是您的“基本事实”,并帮助您衡量 LLM 裁判的表现如何。
Step4. 撰写评估提示词。
以下是一个示例:
Step5. 评估和迭代。
提示准备就绪后,将其应用于您的评估数据集,并将 LLM 裁判的输出与您手动标记的真实情况进行比较。
对于二元分类,可以使用精确率和召回率等指标来衡量 LLM 裁判的表现。
请注意,您的 LLM 评委不需要完美——只需“足够好”以达到您的目标即可。即使是人类评估员也会犯错误!
最后,引入领域专家。
非技术团队成员(如产品或领域专家)在设置评估方面发挥着重要作用。
几种提示技术可以提高 LLM 评估器的准确性和一致性。这些类似于您在开发 LLM 产品时可能使用的那些,例如思维链提示。
1)使用二进制或低精度评分。
二元评估,如 “Polite” 与 “Impolite” ,对 LLM 和人工评估者来说往往更可靠和一致。通过两个简单的选择更容易获得准确的结果,而不是试图决定特定的 “礼貌” 得分是 73 分还是 82 分。
您还可以使用三个选项的方法,例如 “相关”、“不相关” 和 “部分相关”,或者在信息不足时包括 “未知” 选项。这避免了在没有足够数据的情况下迫使 LLM 做出决定。
2)解释每个分数的含义。
不要只是要求 LLM 将某物标记为“礼貌”或“不礼貌”。相反,明确定义“不礼貌”的含义,则更有帮助。如果您更喜欢标记边缘情况,您可以指导 LLM 更加严格地使用指示,例如“如果不确定,请谨慎行事并将其标记为’不礼貌’”。
使用 5 分制之类的内容,解释每个类别的含义变得更加重要——3 分和 4 分有什么区别?如果这一点不清楚,LLM 和人工审稿人都将难以保持一致。
为了减少可变性,您可以考虑使用多重评估 。然后,您可以使用最大投票或平均等方法组合结果。
3)通过拆分标准简化评估。
如果你有几个方面需要评估,比如完整性、准确性和相关性,最好将它们分成单独的评估器。这样可以保持专注。
4)在提示中添加示例。
如果您的标准很细微,您还可以考虑添加输入和判断的示例。
您的提示可以从一般说明开始(例如,“Good”表示……“Bad” 的意思是……然后提供良好和不良响应的示例。这些示例可帮助 LLM 更好地了解如何应用您的条件,尤其是对于功能较弱的模型。
但是也要注意,避免添加有偏差或有偏见的例子,且如果包含的负面示例多于正面示例,或者如果所有负面示例都列在末尾,则它们的顺序或频率可能会影响评估结果。
5)鼓励循序渐进的推理。
就像其他任务一样,要求 LLM 在给出最终答案之前“思考”其过程——称为思维链 (CoT) 方法——可以帮助取得更好的结果。
您可以在评估提示中执行相同的动作:要求模型解释其推理或逐步思考,从而有效地实施 Zero-Shot-CoT 方法。这样,模型将在一个响应中同时提供推理和结果。
6)设置低温。
在 LLM 中,温度控制输出的随机性。较高的温度意味着更多的种类,而较低的温度使输出更“可预测”。对于评估,您不需要创造力 – 设置一个低温,以便模型为相同的输入提供一致的答案。
7)使用功能更强大的模型。
在评估时,从更强大的模型开始是有意义的。这通常有助于确保更好地与人类判断保持一致。一旦有了这个坚实的基线,您就可以试验更小或功能更弱的模型,看看它们是否满足您的需求。
8)获取结构化输出。
最后但并非最不重要的一点是,始终选择结构化输出格式,例如 JSON。它使解析评估结果以进行进一步分析变得更加容易。
系统上线后,真实用户将以您可能意想不到的方式与它进行交互。即使是最彻底的发布前测试也无法涵盖人们使用它的所有不同方式。这就是为什么实时跟踪实际性能如此重要的原因。
在生产中,没有完美的答案来比较输出,因此您需要自行监控响应的质量。LLM 评估员使这成为可能。您可以设置一个常规流程,根据所选标准对新一代输出进行评分。
这种监控不仅与质量控制有关,还可以深入了解用户如何与您的工具交互
第一步:追踪
第一步是跟踪 — 从用户交互中收集数据并将其存储以供分析,获得日志后,您可以查看和读取它们,以了解用户与您的应用程序交互时发生的情况。
最初,您可能会手动查看输出以发现常见模式或问题。但是,随着数据量的增长,人工审核将无法扩展,因此您需要一些自动化。
第二步:安排评估
制定评估计划:如果您正在运行客户服务聊天机器人,您可以评估 10% 的对话,以发现用户表达的沮丧、重复的问题或未解决的聊天。定期运行这些评估(例如,每小时、每天或在 X 次对话之后)可以让您了解最新的情况。
第三步:构建仪表盘
在对最新一批数据进行评估后,您可以将“标记为幻觉的答案比率”或“用户表达沮丧的对话数”等指标添加到控制面板中,并随着时间的推移可视化它们。这有助于跟踪性能趋势并发现问题。
您还可以设置警报 ,以便在事情偏离轨道时,您会立即收到通知,并可以在问题影响太多用户之前介入。
第四步:查看您的数据
监控和调试齐头并进。比如说,如果你注意到用户不满情绪增加,你需要查看特定的问题对话。您可以导出示例以微调模型,或创建测试集以调整提示词以解决问题。
本文由 @「爱」原生 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
本站部分资源搜集整理于互联网或者网友提供,仅供学习与交流使用,如果不小心侵犯到你的权益,请及时联系我们删除该资源。