Meta澄清AI模型不当训练传言
近日,关于Meta新推出的Llama 4 Maverick和Scout模型存在不当行为的传言引发关注。传言称,Meta可能通过在测试集上进行训练来提升模型表现,同时掩盖其不足。对此,Meta生成式人工智能副总裁艾哈迈德・阿尔・达赫勒明确表示,这一说法"根本不属实"。在人工智能领域,测试集通常用于评估模型性能。如果提前...
近日,关于Meta新推出的Llama 4 Maverick和Scout模型存在不当行为的传言引发关注。传言称,Meta可能通过在测试集上进行训练来提升模型表现,同时掩盖其不足。对此,Meta生成式人工智能副总裁艾哈迈德・阿尔・达赫勒明确表示,这一说法"根本不属实"。在人工智能领域,测试集通常用于评估模型性能。如果提前...
据英国《卫报》报道,理查德·奥斯曼、石黑一雄等知名作家联名签署公开信,要求英国政府追究Meta利用受版权保护书籍训练AI的责任。信中呼吁文化、媒体和体育大臣丽莎·南迪召集Meta高管接受议会质询。作家瓦尔·麦克德米德指出,Meta使用盗版内容的行为等同于"盗窃",违反了合同规定。此前法庭文件披露,M...
国家知识产权局最新公告显示,杭州深度求索人工智能基础技术研究有限公司申请的"一种广度数据采集的方法及其系统"专利于4月1日正式公布。该技术旨在优化网页数据采集流程,通过智能筛选链接、分析内容质量及优化下载分配,显著减少低效或重复下载,从而提升数据质量并降低网络资源消耗。专利摘要指出,该...
中国电动汽车百人会论坛(2025)上,中国工程院院士邬贺铨指出,当前智能驾驶训练存在重复投入与资源浪费问题。他建议由国家牵头,联合车企与各地交通部门,共同开发适用于全国道路的自动驾驶训练模型。在此基础上,各城市可通过本地云平台补充特色数据并进行微调,从而降低开发成本。邬贺铨强调,L5级自动驾...
[太平洋科技快讯]近日,苹果公司对其官方网站上关于苹果地图Look Around功能的数据收集与使用政策进行了更新。自2025年3月起,苹果将开始利用在Look Around调查期间收集的模糊图像和数据,训练支持其产品和服务的AI模型。这些模型涉及图像识别、创建和增强等多个领域,旨在提高苹果产品的性能和用户体验...
苹果近日更新官网说明,披露其地图服务Look Around(类似谷歌街景)收集的模糊图像数据将自2025年3月起用于AI模型训练。新增条款显示,这些经脱敏处理的图像将用于提升苹果产品服务的图像识别、生成及增强能力,同时强调始终遵循隐私保护原则,仅使用已模糊化的人脸和车牌数据。Look Around通过车载传感器...
科技媒体 NeoWin 报道,群联(Phison)近日展示了其 aiDAPTIV+ 技术,该技术通过动态缓存扩展内存,为解决 AI 应用中的内存瓶颈提供了新方案。随着人工智能和机器学习的发展,现代硬件不仅需要强大的算力,还需应对日益增长的内存需求。例如,高精度 AI 模型可能迅速"填满"32GB 显存的高端显卡。aiDAPTIV+ 利...
摩尔线程近日宣布开源MT-MegatronLM与MT-TransformerEngine两大AI框架,旨在通过FP8混合训练策略和高性能算子库,提升国产全功能GPU在混合并行训练和推理中的效率与稳定性。MT-MegatronLM支持dense模型、多模态模型及MoE模型的高效训练,而MT-TransformerEngine则专注于Transformer模型的训练与推理优化...
近日,忆联发布了新一代PCIe Gen5 ESSD产品UH812a/UH832a,专为高效支撑大模型全流程训练而设计。该产品采用最新的PCIe 5.0接口,在存储带宽、时延、密度、耐久性、数据完整性和寿命与稳定性等核心指标上均超越行业标准。其高速带宽与超低延迟特性,能够高效处理海量非结构化数据的清洗、标注和格式转换,...
字节跳动豆包大模型团队近日宣布开源一项名为COMET的关键优化技术,该技术针对MoE(混合专家模型)架构,能够将大模型训练效率提升1.7倍,并节省40%的成本。COMET技术已在字节跳动的万卡集群训练中得到实际应用,累计节省了数百万GPU小时的训练算力。此前,豆包团队发布了新一代稀疏架构UltraMem,成功将模型...
科技媒体 Android Headline 昨日报道,最新研究表明,在训练 AI 模型过程中,若引入不安全的代码,可能导致 AI 生成有害甚至令人不安的回应。研究人员发现,即使是像 OpenAI 的 GPT-4o 这样的先进模型,在训练数据中整合问题代码后,也会产生危险建议或鼓吹 AI 统治人类的行为。实验中,研究人员通过调整训练...
科技媒体 smartprix 昨日(2 月 28 日)报道称,OpenAI 在介绍 GPT-4.5 模型的视频中,意外泄露了 GPT-6 训练可能需要的 GPU 数量,暗示其规模将远超以往。在视频的 2 分 26 秒处,聊天记录中出现了"Num GPUs for GPT 6 Training"字样,虽未明确解释,但"Num"可能暗示了一个前所未有的数字,推测高达 10 万块 ...
得一微电子今日宣布推出基于AI-MemoryX技术的显存扩展解决方案,该方案包含X200系列显存扩展卡。通过这项技术,单台训推一体机的显存容量可从传统显卡的数十GB提升至10TB级别,显著降低了微调训练对GPU数量的需求。这意味着原本需要数百上千万元的硬件扩充开支,现在只需数万元即可满足超大模型微调训练...
在 DeepSeek 开源周第四日,摩尔线程宣布成功支持 DeepSeek 的开源通信库 DeepEP 和并行算法 DualPipe,并发布相关代码仓库: MT-DeepEP 和 MT-DualPipe。DeepEP 是专为 MoE(混合专家)模型训练和推理设计的通信库,适用于大模型集群训练。它通过优化通信信道使用率,显著提升了训练效率。摩尔线程基于 MUS...
沃顿商学院教授 Ethan Mollick 在社交平台 X 上透露,人工智能公司 Anthropic 的最新旗舰模型 Claude 3.7 Sonnet 的训练成本仅为"数千万美元"。Mollick 表示,这一信息来自 Anthropic 的公关部门。尽管 Sonnet 3.7 并非 10^26 FLOP 级别模型,但其相对较低的训练成本预示着未来模型规模将进一步扩大。An...
在DeepSeek"开源周"活动的第二天,该公司正式发布了DeepEP,这是首个开源的用于混合专家(MoE)模型训练和推理的专家并行(EP)通信库。DeepEP以其高效优化的全到全通信方式、支持NVLink和RDMA技术以及高吞吐量和低延迟的内核设计,成为MoE模型开发的重要工具。DeepEP不仅支持低精度计算(包括FP8数据格式),...
月之暗面Kimi昨日发布了一份关于"Muon可扩展用于LLM训练"的新技术报告,并正式推出基于Muon训练的混合专家模型(MoE)"Moonlight"。该模型包含30亿和160亿参数两个版本,通过5.7万亿个token的训练数据,在更低浮点运算次数(FLOPs)下实现了更优性能,显著提升了帕累托效率边界。月之暗面团队表示,Muon优化器...
2月11日,中国科大苏州高等研究院医学影像智能与机器人研究中心DDL实验室宣布,其在大规模图神经网络(GNN)训练系统方面的研究论文被国际知名学术会议SIGMOD 2025录用。该团队针对现有GNN系统在处理大规模图数据时遇到的扩展性挑战,提出了一种新的核外(Out-of-Core)GNN训练框架--Capsule。Capsule通过图...
DeepSeek今日正式发布NSA(Native Sparse Attention),这是一种硬件对齐且原生可训练的稀疏注意力机制,专为超快速长上下文训练与推理设计。NSA的核心组件包括动态分层稀疏策略、粗粒度token压缩和细粒度token选择,旨在优化现代硬件性能。官方表示,NSA在加速推理的同时,能够显著降低预训练成本,且不会牺...
中国航天科技集团有限公司一院北京航天计量测试技术研究所承建的全国首套大型智能化森林火灾救援处置训练设施,近日顺利通过最终验收,并在国家西南应急救援中心正式交付使用。这一设施集成了多项先进技术,能够高度逼真地模拟森林火灾场景,为救援人员提供全方位、多角度的实战化训练环境。该项目的完成...