近年来,本地运行大语言模型(LLM)的趋势日益增长,越南开发者Binh Pham近期通过创新实验,成功在树莓派Zero上实现了这一目标。Pham将这款设备改造为小型USB驱动器,使其能够离线运行LLM,无需额外设备支持。这一项目依赖于llama.cpp和llamafile的轻量级软件包,旨在提供离线聊天机器人体验。
然而,树莓派Zero的硬件性能有限,尤其是其ARMv6架构和仅512MB的内存,给移植llama.cpp带来了巨大挑战。Pham通过修改源代码,移除了基于现代硬件的优化,最终成功运行了LLM。他构建了一个基于文本文件输入的LLM实现,并测试了多个模型的性能。结果显示,尽管设备能够运行LLM,但处理速度较慢,例如Lamini-T5-Flan-77M模型的每个token处理时间达2.5秒。
这一实验虽然具有创新性,但在实际应用中,使用老旧轻量级硬件运行LLM仍存在明显局限性。未来,采用性能更强的设备或许是更优选择。