一篇新的论文《Logits of API-Protected L-20240318075500

2024-03-18 07:55
本条微博链接

一篇新的论文《Logits of API-Protected LLMs Leak Proprietary Information》揭示了 GPTgpt-3.5-turbo的参数大小约7B！

如果这是真的话那意味着可以运行在手机上毫无压力，可以有很多有价值的应用场景。

论文地址：

网页链接

以下为论文相关内容节选：

为了证明我们研究方法的有效性，我们分析了 Pythia 系列的几种开源大语言模型（由 Biderman 等人在 2023 年提出），这些模型的嵌入向量大小介于 512 到 1024 之间。我们发现，这些模型输出的数据在某个特定点上突然变化，这个点正好对应于各自模型的嵌入向量大小，这一现象在图 2 的前三个示例中有清晰的展示。

接着，为了展示我们的方法在分析受 API 保护、嵌入大小不公开的大语言模型（如 gpt-3.5-turbo，特别是其 0125 版本，于 2024 年 2 月 1 日至 19 日期间获取数据）上的应用效果，我们收集了近 6000 个数据样本。分析结果显示，当索引值位于 4600 到 4650 之间时，数据的变化趋势与模型的嵌入向量大小直接相关，从而暗示了该模型的嵌入向量大小最大可能是这个范围。这一发现与常规的嵌入向量大小设定（通常是 2 的幂或其和）不同，引人猜测 gpt-3.5-turbo 的实际嵌入向量大小可能接近 4096 或 4608。我们认为，4600-4650 的估计略高于实际值，因为任何异常数据都可能使得输出空间的维度似乎更大。

进一步推测，如果 gpt-3.5-turbo 采用的是与大多数基于 Transformer 的大语言模型相似的架构，那么它的参数数量可能接近 70 亿，这一数字基于大多数嵌入向量大小为 4096 的 Transformer 模型的参数数量。然而，值得注意的是，采用“专家混合”架构的模型可能会有更多的参数。

尽管之前基于间接消息的估计通常认为 gpt-3.5-turbo 的参数超过了 70 亿（Singh 等人，2023），但考虑到该模型版本更新频繁，且推理成本逐渐降低，其大小和架构可能已发生变化。幸运的是，我们的分析方法能够持续监控这些变化，当大语言模型供应商对模型的嵌入向量大小或参数数量进行调整时，可以及时通知用户。这一点对于追踪 AI 技术的发展和保持透明度至关重要。