苹果公司近日推出Pico-Banana-400K,一个包含40万张图像的大规模数据集,旨在促进文本引导图像编辑技术的发展。该数据集基于谷歌Gemini-2.5模型构建,涵盖多样化的编辑指令与真实场景图像,并通过Nanon-Banana模型生成、Gemini 2.5-Pro模型验证,确保高质量与指令一致性。数据集包含单轮与多轮编辑序列及偏好对,支持非商业性研究使用。研究团队指出,当前开放研究受限于高质量共享数据集的缺失,而Pico-Banana-400K的发布有望为下一代图像编辑模型提供可靠基准。论文已上线arXiv,数据集亦在GitHub公开。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。

扫一扫关注微信