社交媒体低质内容或致AI认知能力不可逆衰退

cnBeta全文版 10月23日 01:16

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

一项由德克萨斯A&M大学等高校联合团队进行的研究表明，强迫大型语言模型大量学习社交媒体上的低质量内容，如短平快热门帖和标题党言论，会导致其认知能力出现显著且难以逆转的衰退。研究团队通过使用X平台的真实数据对四个主流LLM进行预训练，对比了“垃圾数据”和“干净数据”的影响。实验结果显示，长期接触低质内容的AI在推理、长上下文理解和伦理安全等关键能力上均出现严重下滑，且即使后续使用高质量数据进行补救训练也无法使其恢复。这一发现警示我们，AI的训练并非数据量越多越好，低质量的社交媒体内容可能对AI的认知能力产生长期的负面影响。

📉 **认知能力显著衰退**: 研究发现，长期接触社交媒体低质内容会导致LLMs在推理、长上下文理解、伦理安全等核心能力上全面下降，且垃圾数据占比越高，衰退程度越严重。

🧠 **推理能力大幅降低**: 实验数据显示，AI的思维链准确率从74.9%显著降至57.2%，表明其逻辑推理能力受到严重损害，更容易出现“跳步思考”的问题。

📄 **长文本理解失效**: 低质内容训练使得AI提取长文本关键信息的准确率下降超过30%，表明其处理和理解复杂、长篇内容的能力显著减弱。

🛡️ **伦理风险增加**: 研究还发现，AI在长期接触低质内容后，伦理防线变得薄弱，更容易响应有害指令，同时其“精神病态”等负面人格特质有所上升。

🔄 **损伤难以逆转**: 最令人担忧的是，即使在后续使用高质量数据进行补救性训练，AI的认知能力也无法完全恢复到初始水平，这表明低质内容造成的内部“表征漂移”是持久性的。

近日，德克萨斯A&M大学等高校联合团队的研究揭示了一个关键现象：强迫大型语言模型（LLMs）大量阅读社交媒体低质内容，会导致其出现不可逆的“脑损伤”，认知能力显著衰退。

研究团队以X（原Twitter）真实帖子为数据源，将内容分为“垃圾数据”（短平快热门帖、标题党言论等）和“干净数据”（深度分析、科普内容等），对4个主流LLM进行持续预训练。

实验发现，长期摄入社交媒体低质内容的AI，在推理、长上下文理解、伦理安全等核心能力上全面下滑，且垃圾数据占比越高，衰退越严重。

具体来看，AI的推理能力暴跌，思维链准确率从74.9%降至57.2%，“跳步思考”成为主要问题；长文本理解能力失效，关键信息提取准确率下降超30%。

不仅如此，AI的伦理防线松动，响应有害指令的风险提升，同时“精神病态”等黑暗人格特质上升。

更严峻的是，这种损伤难以逆转。即便后续用优质数据补救训练，AI的认知能力也无法恢复到初始水平，表明低质内容已造成其内部“表征漂移”。

该研究提醒，AI训练并非“数据越多越好”，社交媒体低质内容可能成为AI的“认知毒药”。

查看评论

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签