最新最快科技资讯
太阳能光伏网

全球首个70B长文本大语言模型发布 由港中文联合MIT出品

10月9日消息,全球首个拥有70B参数量的长文本对话大语言模型LongAlpaca于10月9日正式对外发布,同时发布的还有超长文本扩展技术LongLoRA。

新模型及新技术由香港中文大学计算机科学工程系终身教授贾佳亚团队联合麻省理工学院(MIT)发布,解决了目前大模型对长文本处理的盲区,允许模型考虑和处理较长的文本序列。

目前,相关技术与模型已全部开源。据悉,LongLoRA在只需两行代码、一台8卡A100机器的情况下,便可将7B模型的文本长度拓展到100k tokens,70B模型的文本长度拓展到32k tokens,远超Llama2支持的4k tokens的文本长度;并且在显存消耗、时间消耗和准确性上,LongLoRA都较常规LoRA和全参数微调有显著优异表现,令LongLoRA大规模推广成为可能。

最新相关

Artemis II任务首允宇航员携iPhone入太空

北京时间4月2日,美国Artemis II载人绕月任务成功发射。本次任务首次打破数十年禁令,允许宇航员携带iPhone(预估为Pro机型)进入太空。iPhone仅作为个人记录工具,不接入飞船系统,数据须经猎户座...

我国新型储能装机规模跃居世界第一

2026年4月3日,国家"十五五"规划纲要明确将新型储能定位为新型能源体系核心支撑,并纳入战略性新兴支柱产业。数据显示,截至2025年底,我国新型储能累计装机达1.36亿千瓦,较2024年增长84%,较"十三...

谷歌发布Gemma 4开源大模型系列

2026年4月3日,谷歌正式推出Gemma 4开源大模型系列,包含E2B、E4B、26B MoE和31B四款型号。该系列专为高级推理与智能体工作流优化,单位参数智能水平显著提升。31B模型位列Arena AI文本榜单全球...

祝融号发现火星盐风化表面改造新证据

2026年4月3日,中国科学院国家空间科学中心刘洋团队联合多家高校,基于祝融号火星车原位观测数据,首次在火星岩石表面识别出近平行片状剥落、嵌合碎块及密集凹坑等盐风化特征。研究结合多光谱与...

星巴克完成中国零售业务合资交易

2026年4月3日,星巴克正式完成与博裕投资的合资交易,出售其中国零售业务60%股权,保留40%股权。新成立的合资公司将运营约8000家星巴克中国自营门店,星巴克继续担任全球品牌所有者及授权方。交易...

Tether以5000亿美元估值推进融资冲刺

2026年4月3日,稳定币发行商Tether宣布以5000亿美元估值启动融资最后阶段。公司敦促潜在投资者于未来两周内完成出资承诺,以推动协议签署。此次融资旨在强化其储备透明度与合规基础设施,并拓展...

OpenAI收购科技播客《TBPN》

4月3日,OpenAI据悉已完成对科技行业播客节目《TBPN》的收购。该交易发生于美国加州,由OpenAI主导,旨在加强其在技术传播与公众影响力领域的布局。《TBPN》以深度解析AI与前沿科技趋势著称,拥有...