一篇新的论文《Logits of API-Protected LLMs Leak Proprietary Information》揭示了 GPTgpt-3.5-turbo的参数大小约7B!
如果这是真的话那意味着可以运行在手机上毫无压力,可以有很多有价值的应用场景。
论文地址:网页链接
以下为论文相关内容节选:
为了证明我们研究方法的有效性,我们分析了 Pythia 系列的几种开源大语言模型(由 Biderman 等人在 2023 年提出),这些模型的嵌入向量大小介于 512 到 1024 之间。我们发现,这些模型输出的数据在某个特定点上突然变化,这个点正好对应于各自模型的嵌入向量大小,这一现象在图 2 的前三个示例中有清晰的展示。
接着,为了展示我们的方法在分析受 API 保护、嵌入大小不公开的大语言模型(如 gpt-3.5-turbo,特别是其 0125 版本,于 2024 年 2 月 1 日至 19 日期间获取数据)上的应用效果,我们收集了近 6000 个数据样本。分析结果显示,当索引值位于 4600 到 4650 之间时,数据的变化趋势与模型的嵌入向量大小直接相关,从而暗示了该模型的嵌入向量大小最大可能是这个范围。这一发现与常规的嵌入向量大小设定(通常是 2 的幂或其和)不同,引人猜测 gpt-3.5-turbo 的实际嵌入向量大小可能接近 4096 或 4608。我们认为,4600-4650 的估计略高于实际值,因为任何异常数据都可能使得输出空间的维度似乎更大。
进一步推测,如果 gpt-3.5-turbo 采用的是与大多数基于 Transformer 的大语言模型相似的架构,那么它的参数数量可能接近 70 亿,这一数字基于大多数嵌入向量大小为 4096 的 Transformer 模型的参数数量。然而,值得注意的是,采用“专家混合”架构的模型可能会有更多的参数。
尽管之前基于间接消息的估计通常认为 gpt-3.5-turbo 的参数超过了 70 亿(Singh 等人,2023),但考虑到该模型版本更新频繁,且推理成本逐渐降低,其大小和架构可能已发生变化。幸运的是,我们的分析方法能够持续监控这些变化,当大语言模型供应商对模型的嵌入向量大小或参数数量进行调整时,可以及时通知用户。这一点对于追踪 AI 技术的发展和保持透明度至关重要。
如果这是真的话那意味着可以运行在手机上毫无压力,可以有很多有价值的应用场景。
论文地址:网页链接
以下为论文相关内容节选:
为了证明我们研究方法的有效性,我们分析了 Pythia 系列的几种开源大语言模型(由 Biderman 等人在 2023 年提出),这些模型的嵌入向量大小介于 512 到 1024 之间。我们发现,这些模型输出的数据在某个特定点上突然变化,这个点正好对应于各自模型的嵌入向量大小,这一现象在图 2 的前三个示例中有清晰的展示。
接着,为了展示我们的方法在分析受 API 保护、嵌入大小不公开的大语言模型(如 gpt-3.5-turbo,特别是其 0125 版本,于 2024 年 2 月 1 日至 19 日期间获取数据)上的应用效果,我们收集了近 6000 个数据样本。分析结果显示,当索引值位于 4600 到 4650 之间时,数据的变化趋势与模型的嵌入向量大小直接相关,从而暗示了该模型的嵌入向量大小最大可能是这个范围。这一发现与常规的嵌入向量大小设定(通常是 2 的幂或其和)不同,引人猜测 gpt-3.5-turbo 的实际嵌入向量大小可能接近 4096 或 4608。我们认为,4600-4650 的估计略高于实际值,因为任何异常数据都可能使得输出空间的维度似乎更大。
进一步推测,如果 gpt-3.5-turbo 采用的是与大多数基于 Transformer 的大语言模型相似的架构,那么它的参数数量可能接近 70 亿,这一数字基于大多数嵌入向量大小为 4096 的 Transformer 模型的参数数量。然而,值得注意的是,采用“专家混合”架构的模型可能会有更多的参数。
尽管之前基于间接消息的估计通常认为 gpt-3.5-turbo 的参数超过了 70 亿(Singh 等人,2023),但考虑到该模型版本更新频繁,且推理成本逐渐降低,其大小和架构可能已发生变化。幸运的是,我们的分析方法能够持续监控这些变化,当大语言模型供应商对模型的嵌入向量大小或参数数量进行调整时,可以及时通知用户。这一点对于追踪 AI 技术的发展和保持透明度至关重要。