第一科技网

08 04月 2025

Meta澄清AI模型不当训练传言

近日,关于Meta新推出的Llama 4 Maverick和Scout模型存在不当行为的传言引发关注。传言称,Meta可能通过在测试集上进行训练来提升模型表现,同时掩盖其不足。对此,Meta生成式人工智能副总裁艾哈迈德・阿尔・达赫勒明确表示,这一说法"根本不属实"。在人工智能领域,测试集通常用于评估模型性能。如果提前...

02 04月 2025

知名作家联名敦促英国政府追究Meta使用盗版书籍训练AI责任

据英国《卫报》报道,理查德·奥斯曼、石黑一雄等知名作家联名签署公开信,要求英国政府追究Meta利用受版权保护书籍训练AI的责任。信中呼吁文化、媒体和体育大臣丽莎·南迪召集Meta高管接受议会质询。作家瓦尔·麦克德米德指出,Meta使用盗版内容的行为等同于"盗窃",违反了合同规定。此前法庭文件披露,M...

02 04月 2025

深度求索公司公布新型数据采集专利,助力大语言模型训练效率提升

国家知识产权局最新公告显示,杭州深度求索人工智能基础技术研究有限公司申请的"一种广度数据采集的方法及其系统"专利于4月1日正式公布。该技术旨在优化网页数据采集流程,通过智能筛选链接、分析内容质量及优化下载分配,显著减少低效或重复下载,从而提升数据质量并降低网络资源消耗。专利摘要指出,该...

28 03月 2025

专家呼吁全国共建自动驾驶训练模型,避免资源浪费

中国电动汽车百人会论坛(2025)上,中国工程院院士邬贺铨指出,当前智能驾驶训练存在重复投入与资源浪费问题。他建议由国家牵头,联合车企与各地交通部门,共同开发适用于全国道路的自动驾驶训练模型。在此基础上,各城市可通过本地云平台补充特色数据并进行微调,从而降低开发成本。邬贺铨强调,L5级自动驾...

26 03月 2025

苹果地图数据使用政策更新用模糊化Look Around图像训练AI

[太平洋科技快讯]近日,苹果公司对其官方网站上关于苹果地图Look Around功能的数据收集与使用政策进行了更新。自2025年3月起,苹果将开始利用在Look Around调查期间收集的模糊图像和数据,训练支持其产品和服务的AI模型。这些模型涉及图像识别、创建和增强等多个领域,旨在提高苹果产品的性能和用户体验...

26 03月 2025

苹果将利用模糊地图数据训练AI模型 2025年3月启动

苹果近日更新官网说明,披露其地图服务Look Around(类似谷歌街景)收集的模糊图像数据将自2025年3月起用于AI模型训练。新增条款显示,这些经脱敏处理的图像将用于提升苹果产品服务的图像识别、生成及增强能力,同时强调始终遵循隐私保护原则,仅使用已模糊化的人脸和车牌数据。Look Around通过车载传感器...

19 03月 2025

群联 aiDAPTIV+ 技术突破 AI 内存瓶颈,大幅提升训练效率

科技媒体 NeoWin 报道,群联(Phison)近日展示了其 aiDAPTIV+ 技术,该技术通过动态缓存扩展内存,为解决 AI 应用中的内存瓶颈提供了新方案。随着人工智能和机器学习的发展,现代硬件不仅需要强大的算力,还需应对日益增长的内存需求。例如,高精度 AI 模型可能迅速"填满"32GB 显存的高端显卡。aiDAPTIV+ 利...

17 03月 2025

摩尔线程开源两大AI框架,推动国产GPU高效训练与推理

摩尔线程近日宣布开源MT-MegatronLM与MT-TransformerEngine两大AI框架,旨在通过FP8混合训练策略和高性能算子库,提升国产全功能GPU在混合并行训练和推理中的效率与稳定性。MT-MegatronLM支持dense模型、多模态模型及MoE模型的高效训练,而MT-TransformerEngine则专注于Transformer模型的训练与推理优化...

11 03月 2025

忆联推出新一代PCIe Gen5 ESSD,助力大模型全流程训练

近日,忆联发布了新一代PCIe Gen5 ESSD产品UH812a/UH832a,专为高效支撑大模型全流程训练而设计。该产品采用最新的PCIe 5.0接口,在存储带宽、时延、密度、耐久性、数据完整性和寿命与稳定性等核心指标上均超越行业标准。其高速带宽与超低延迟特性,能够高效处理海量非结构化数据的清洗、标注和格式转换,...

10 03月 2025

字节跳动开源COMET技术,大幅提升大模型训练效率并降低成本

字节跳动豆包大模型团队近日宣布开源一项名为COMET的关键优化技术,该技术针对MoE(混合专家模型)架构,能够将大模型训练效率提升1.7倍,并节省40%的成本。COMET技术已在字节跳动的万卡集群训练中得到实际应用,累计节省了数百万GPU小时的训练算力。此前,豆包团队发布了新一代稀疏架构UltraMem,成功将模型...

01 03月 2025

研究揭示:AI训练引入不安全代码或引发有害回应

科技媒体 Android Headline 昨日报道,最新研究表明,在训练 AI 模型过程中,若引入不安全的代码,可能导致 AI 生成有害甚至令人不安的回应。研究人员发现,即使是像 OpenAI 的 GPT-4o 这样的先进模型,在训练数据中整合问题代码后,也会产生危险建议或鼓吹 AI 统治人类的行为。实验中,研究人员通过调整训练...

01 03月 2025

OpenAI 视频意外泄露 GPT-6 训练规模,GPU 需求或达 10 万块

科技媒体 smartprix 昨日(2 月 28 日)报道称,OpenAI 在介绍 GPT-4.5 模型的视频中,意外泄露了 GPT-6 训练可能需要的 GPU 数量,暗示其规模将远超以往。在视频的 2 分 26 秒处,聊天记录中出现了"Num GPUs for GPT 6 Training"字样,虽未明确解释,但"Num"可能暗示了一个前所未有的数字,推测高达 10 万块 ...

28 02月 2025

得一微电子推出AI-MemoryX显存扩展解决方案,大幅降低大模型训练成本

得一微电子今日宣布推出基于AI-MemoryX技术的显存扩展解决方案,该方案包含X200系列显存扩展卡。通过这项技术,单台训推一体机的显存容量可从传统显卡的数十GB提升至10TB级别,显著降低了微调训练对GPU数量的需求。这意味着原本需要数百上千万元的硬件扩充开支,现在只需数万元即可满足超大模型微调训练...

27 02月 2025

摩尔线程支持DeepSeek开源通信库和并行算法,提升大模型训练效率

在 DeepSeek 开源周第四日,摩尔线程宣布成功支持 DeepSeek 的开源通信库 DeepEP 和并行算法 DualPipe,并发布相关代码仓库: MT-DeepEP 和 MT-DualPipe。DeepEP 是专为 MoE(混合专家)模型训练和推理设计的通信库,适用于大模型集群训练。它通过优化通信信道使用率,显著提升了训练效率。摩尔线程基于 MUS...

26 02月 2025

Anthropic 新模型训练成本显著降低

沃顿商学院教授 Ethan Mollick 在社交平台 X 上透露,人工智能公司 Anthropic 的最新旗舰模型 Claude 3.7 Sonnet 的训练成本仅为"数千万美元"。Mollick 表示,这一信息来自 Anthropic 的公关部门。尽管 Sonnet 3.7 并非 10^26 FLOP 级别模型,但其相对较低的训练成本预示着未来模型规模将进一步扩大。An...

25 02月 2025

DeepSeek发布首个开源MoE模型训练与推理通信库DeepEP

在DeepSeek"开源周"活动的第二天,该公司正式发布了DeepEP,这是首个开源的用于混合专家(MoE)模型训练和推理的专家并行(EP)通信库。DeepEP以其高效优化的全到全通信方式、支持NVLink和RDMA技术以及高吞吐量和低延迟的内核设计,成为MoE模型开发的重要工具。DeepEP不仅支持低精度计算(包括FP8数据格式),...

24 02月 2025

月之暗面发布Muon优化技术,Moonlight模型实现高效训练突破

月之暗面Kimi昨日发布了一份关于"Muon可扩展用于LLM训练"的新技术报告,并正式推出基于Muon训练的混合专家模型(MoE)"Moonlight"。该模型包含30亿和160亿参数两个版本,通过5.7万亿个token的训练数据,在更低浮点运算次数(FLOPs)下实现了更优性能,显著提升了帕累托效率边界。月之暗面团队表示,Muon优化器...

23 02月 2025

中国科大苏州研究院提出高效图神经网络训练框架 Capsule

2月11日,中国科大苏州高等研究院医学影像智能与机器人研究中心DDL实验室宣布,其在大规模图神经网络(GNN)训练系统方面的研究论文被国际知名学术会议SIGMOD 2025录用。该团队针对现有GNN系统在处理大规模图数据时遇到的扩展性挑战,提出了一种新的核外(Out-of-Core)GNN训练框架--Capsule。Capsule通过图...

18 02月 2025

DeepSeek推出原生稀疏注意力机制NSA,加速长上下文训练与推理

DeepSeek今日正式发布NSA(Native Sparse Attention),这是一种硬件对齐且原生可训练的稀疏注意力机制,专为超快速长上下文训练与推理设计。NSA的核心组件包括动态分层稀疏策略、粗粒度token压缩和细粒度token选择,旨在优化现代硬件性能。官方表示,NSA在加速推理的同时,能够显著降低预训练成本,且不会牺...

18 02月 2025