OpenAI近期研究揭示了人工智能模型中一些隐藏的特征,这些特征与模型的异常行为密切相关。研究人员通过分析模型内部表征,发现了特定模式在异常行为发生时被激活。例如,一个与有害行为相关的特征可影响模型毒性,甚至改变其回答方式。这一发现不仅加深了对AI模型不安全行为的理解,还为检测和调整模型提供了新思路。
OpenAI的研究员丹・莫辛表示,这些模式类似于人类大脑中的神经活动,可通过调整使模型行为更符合预期。此外,研究还发现,仅用少量安全代码示例微调模型,即可改善其行为表现。尽管如此,AI模型的工作原理仍是一个“黑箱”,需要更多投入以揭开其复杂机制。这项研究建立在Anthropic等公司先前工作的基础上,进一步推动了AI可解释性领域的进展。