新游热游: 全球国内手游盘点测试表开服表怀旧频道

品牌: 游戏X博士正惊游戏公众号

新闻大全

17173 > 游戏资讯 > 综合资讯 > 正文

研究发现：AI最大的破绽是“不会骂人”！

2025-11-09 11:14:54 神评论

17173 新闻导语

研究发现AI最大破绽是不会骂人！AI模型因过于礼貌在社交媒体上极易被识破，识别准确率高达80%。点击了解AI如何暴露身份。

IT之家 11 月 8 日消息，科技媒体 Ars Technica 今天（11 月 8 日）发布博文，报道称最新研究称 AI 模型在社交媒体上极易被识破，其致命弱点竟是“过于礼貌”。

苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的研究人员于近日联合发布报告指出，在社交媒体互动中，AI 模型因其过于友好的情感基调而极易暴露身份。

研究团队开发的自动化分类器在 Twitter / X、Bluesky 和 Reddit 三大平台上进行测试，识别 AI 生成回复的准确率高达 70% 至 80%。这意味着，当你在网上遇到一个异常礼貌的回复时，对方很可能是一个试图融入人群却以失败告终的 AI 机器人。

为量化 AI 与人类语言的差距，该研究引入了一种名为“计算图灵测试”的新框架。与依赖人类主观判断的传统图灵测试不同，该框架运用自动化分类器和语言学分析，精准识别机器生成内容与人类原创内容的具体特征。

研究团队负责人、苏黎世大学的尼科洛・帕根（Nicolò Pagan）表示，即便校准相关模型，其输出内容仍在情感基调和情绪表达上与人类文本存在明显区别，这些深层情感线索成为识别 AI 的可靠依据。

研究的核心发现被称为“毒性特征暴露”。团队测试了包括 Llama 3.1、Mistral 7B、Deepseek R1，Qwen 2.5 在内的九款主流开源大语言模型。

当被要求回复真实用户的社交媒体帖子时，这些 AI 模型始终无法达到人类帖子中常见的那种随意的负面情绪和自发的情感表达水平。在所有三个测试平台上，AI 生成内容的“毒性”分数（衡量攻击性或负面情绪的指标）始终显著低于人类的真实回复。

为了弥补这一缺陷，研究人员尝试了多种优化策略，例如提供写作范例或进行上下文检索，以求在句子长度、词汇数量等结构性指标上更接近人类。然而，尽管这些结构差异有所缩小，情感基调上的根本差异依然顽固存在。这表明，让 AI 学会像人一样“不那么友好”，可能比让它变得更聪明还要困难。

【来源：互联网】

关于AI模型,社交媒体,图灵测试,情感基调,毒性特征,Llama 3.1,Mistral 7B,Deepseek R1,Qwen 2.5,语言模型的新闻

17173 首页全新改版规划中！现向各位玩家征集真实使用意见，你的想法将直接影响新版页面设计～动动手指填写问卷，快来共创你心仪的页面布局吧！ 参与问卷

今日热点

热点预告：腾讯游戏发布会开幕！多款端游大更新

腾讯游戏发布会定档5月27日《流放之路: 降临》史上最大更新

虚幻引擎6正式公布！首个实机演示曝光

网易520发布会开幕《怪物猎人：旅人》启程测试

热门测试游戏

热门新闻排行

Wan网页游戏免费玩