2026年7月1日,OpenAI正式发布GeneBench-Pro基准测试,用于评估AI模型在真实生物学研究场景中的分析决策能力。该测试覆盖基因组学、定量生物学等10个大领域、21个子领域,共129道题,每题提供合成数据集、实验背景及决策导向问题。区别于传统记忆型评测,它强调模型在模糊、不完整数据下的方法选择与动态修正能力。OpenAI采用合成数据确保评分准确性,并已在Hugging Face开源10道示例题,后续将向第三方评测机构开放50道题。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。

扫一扫关注微信