
Paolo Ardoino 🤖|2026年03月17日 13:15
Tether AI突破
Tether AI团队刚刚发布了新版QVAC Fabric,其中包括世界上第一个跨平台BitNet LoRA框架,可在消费者GPU和智能手机上实现十亿参数AI训练和推理。
背景
微软的BitNet使用一位架构来大幅压缩模型。
传统的LLM基于全精度计算,其中权重被存储为复杂的高分辨率数字。BitNet的创新之处在于,它将这些权重缩小到只有-1、0和1的微小三元范围内。显著减少内存使用和计算。
LoRA是一种参数高效的微调技术,可将可训练参数的数量减少高达99%。
它们一起削减了内存和计算需求。然而,BitNet主要局限于CPU或CUDA NVIDIA后端,缺乏LoRA微调的支持。
进入QVAC面料:解锁
今天,借助QVAC Fabric LLM,BitNet LoRA首次使用Vulkan和Metal后端跨GPU供应商和操作系统进行跨平台微调和推理工作。
这意味着支持AMD、英特尔、苹果金属以及移动GPU。
有史以来第一次,BitNet推理在使用移动GPU的智能手机上高效运行。
在旗舰设备上,GPU的推理速度比CPU快2到11倍,而使用的内存比全精度型号少90%。
最大的解锁:QVAC Fabric LLM支持异构GPU上的BitNet LoRA微调。我们的团队能够通过微调所有旗舰手机(如Pixel 9、S25和iPhone 16)上高达38亿个参数的模型以及iPhone 16上高达130亿个参数模型来证明这一点。
Github仓库:
https://((github))/tetherto/qvac-fabric-llm.cpp:通用qvac结构代码库
https://((github))/tetherto/qvac-rnd fabric llm-bitnet:特定qvac fabric的bitnet知识库、架构文档和预构建binance文件
这是什么意思?
过去需要专用GPU的东西现在可以在消费类硬件上运行。
这一突破是当地私人人工智能能够真正为人民服务的第一个现实信号。
而这仅仅是开始。
在接下来的几个月和几年里,Tether将继续不懈地投入大量资源和资本,继续研究和开发可以在本地设备上扩展和发展的开源智能,为用户提供最大的效用和隐私。
稳定情报的时代才刚刚开始。
自由如自由。
脉络