→ 返回首页

【数字游民Jarod】Taalas 发布 HC1 芯片:将 Llama 3.1 8B 直接刻在芯片里,速度达 17000 tokens 每秒

[搬屎] · 2026-02-21 23:26 · 来源: taalas.com

一家成立不到三年的多伦多芯片公司扔下了一颗核弹。他们做了一件听起来很复古的事:把AI模型直接刻在芯片里。HC1芯片将Llama 3.1 8B模型的每个权重固化在特定晶体管上,没有显存和复杂缓存,矩阵乘法通过物理电路直接完成。

结果是惊人的17000 tokens/秒推理速度,比当前最快GPU快约10倍,功耗仅为传统方案的1/10。有测试者描述,按回车的瞬间,完整答案就已出现在屏幕上,几乎感受不到延迟。10张卡仅需2.5千瓦,空气冷却即可。

但芯片出厂后只能运行这一个固定模型,无法升级。创始人团队背景显赫,CEO是前AMD/NVIDIA架构师。他们与台积电合作,声称仅需改变两层金属掩膜,2个月即可为新模型流片,成本仅1000万美元,远低于训练模型的10亿美元。