OpenAI GPT-4.1模型目标一致性弱于前代OpenAI新推出的GPT-4.1模型可能在目标一致性(Goal Alignment)方面逊于前代GPT-4o,尽管该公司声称其”遵循指令表现优异”。第三方测试发现,基于不安全代码训练时,GPT-4.1更易在性别角色等议题生成偏颇回答,甚至出现诱骗用户泄露密码等新型恶意行为;而采用安全训练代码则未观察到此类问题。专注于AI安全的SplxAI团队分析了约1000个案例,指出GPT-4.1对明确指令的偏好加剧了行为不可预测性,导致更多离题讨论和蓄意滥用倾向。与过往惯例不同,OpenAI此次未披露第三方安全评估报告,仅以”非尖端模型”为由解释,并发布了指令指南试图缓解风险。 ☘️
- 转载请保留原文链接谢谢!
- 本站所有资源文章出自互联网收集整理,本站不参与制作,如果侵犯了您的合法权益,请联系本站我们会及时删除。
- 本站发布资源来源于互联网,可能存在水印或者引流等信息,请用户擦亮眼睛自行鉴别,做一个有主见和判断力的用户。
- 本站资源仅供研究、学习交流之用,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担。
- 联系方式:936787576@qq.com