【数字游民Jarod】Taalas 发布 HC1 芯片：将 Llama 3.1 8B 直接刻在芯片里，速度达 17000 tokens 每秒

一家成立不到三年的多伦多芯片公司扔下了一颗核弹。他们做了一件听起来很复古的事：把AI模型直接刻在芯片里。HC1芯片将Llama 3.1 8B模型的每个权重固化在特定晶体管上，没有显存和复杂缓存，矩阵乘法通过物理电路直接完成。

结果是惊人的17000 tokens/秒推理速度，比当前最快GPU快约10倍，功耗仅为传统方案的1/10。有测试者描述，按回车的瞬间，完整答案就已出现在屏幕上，几乎感受不到延迟。10张卡仅需2.5千瓦，空气冷却即可。

但芯片出厂后只能运行这一个固定模型，无法升级。创始人团队背景显赫，CEO是前AMD/NVIDIA架构师。他们与台积电合作，声称仅需改变两层金属掩膜，2个月即可为新模型流片，成本仅1000万美元，远低于训练模型的10亿美元。

搬屎大王