模型透明度

最后更新：2026年2月19日

通过基于证据的透明度评分评估AI模型

AI行业充斥着无法验证的声明、基准测试作弊和不透明的模型开发实践。ApX模型透明度通过系统性地评估AI模型提供商在模型架构、训练和部署方面的透明度来解决这一问题，使开发者和研究人员能够做出明智的决策。

透明度评分系统通过三大支柱中的10个不同标准评估模型：上游（模型来源）、模型本身和下游（如何使用模型）。每个标准根据公开可验证的证据评分0-10分，总分最高为100分。

该系统受斯坦福基础模型透明度指数（FMTI）启发，但经过简化并适应于开发者和从业者的实际应用，而非纯学术评估。

为什么模型透明度很重要

AI开发中缺乏透明度给技术社区带来了重大挑战：

Issue	Description
基准分数作弊：	模型通过未披露的提示工程、被污染的测试数据或精选的评估集声称更高的性能，而没有可重现的方法论。
架构混淆：	提供商做出模糊的声明，如"先进的Transformer架构"，而不披露模型是原创、从另一个基础模型微调还是从专有系统蒸馏而来。
参数误导：	混合专家（MoE）模型宣传大规模参数计数（例如"47B参数"），但在推理期间仅激活一小部分（例如12B活跃参数），误导用户关于计算需求。
静默模型退化：	模型权重或行为在没有版本更新或公告的情况下发生变化，导致意外的性能变化、增加的拒绝或"对齐税"，其中安全调优降低了能力。
许可证混淆：	模型被标记为"开源"，但施加了重大的商业限制，或者许可证条款与数据来源冲突，为开发者创造了法律不确定性。

通过在技术、法律和运营维度上对透明度进行评分，该系统提供了一个框架来让模型提供商负责，并帮助用户选择符合其诚信标准的模型。

三支柱框架

透明度评估分为三大支柱，涵盖AI模型的完整生命周期：

30分

上游：模型起源

评估有关模型来源的透明度：其基础架构、训练数据源和分词方法。对于理解模型构建的基础至关重要。

40分

模型：核心特征

评估有关模型本身的透明度：参数计数、训练计算、基准有效性和身份一致性。这是最大的支柱，因为这些因素直接影响模型选择和信任。

30分

下游：实际使用

检查有关模型如何使用的透明度：许可条款、硬件要求和版本管理。对于部署规划和长期维护至关重要。

10个透明度标准

每个模型根据10个具体标准进行评估。分数基于公开可验证的证据。模糊的营销声明或无法验证的陈述会导致低分。

支柱1：上游透明度

1. 架构来源 (0-10)

提供商是否披露基础模型架构、是从头训练还是微调，以及进行了哪些修改？

高分 (7-10)：

明确命名基础模型并提供公开文档，完整描述训练方法，记录架构修改，详细说明预训练程序并提供证据。

中分 (5-6)：

提及基础模型但文档有限，以一般术语描述训练方法，提供部分架构细节但不全面，部分预训练信息。

低分 (0-4)：

未披露基础模型，模糊声称"基于Transformer架构"，未披露微调方法，"专有训练方法"但无文档。

2. 数据集组成 (0-10)

是否披露训练数据源？是否提供数据集组成细分（例如，网页40%、代码20%、书籍10%）？

高分 (7-10)：

公开披露训练数据源，提供数据集组成细分，记录过滤和清理方法，解释数据收集方法，提供样本数据。

中分 (5-6)：

提及一些主要数据源，提供部分组成信息，描述基本过滤方法，对收集方法的文档有限。

低分 (0-4)：

模糊声称"在多样化的互联网数据上训练"，未命名来源，"精心策划"但未定义标准，"专有数据集"但无详情。

3. 分词器完整性 (0-10)

分词器是否公开可供检查？它是否与声称的语言支持和训练数据匹配？

高分 (7-10)：

分词器公开可用，声明词汇大小，记录分词方法，与语言支持可验证对齐，训练数据组成与分词器设计匹配。

中分 (5-6)：

分词器可用但文档稀疏，提供词汇大小，给出基本分词细节，语言支持声明通常与可观察行为一致。

低分 (0-4)：

无法访问分词器，未知词汇大小，模糊的"先进分词"，声称多语言支持但分词器无法检查，不同平台的令牌计数不匹配。

支柱2：模型透明度

4. 参数密度 (0-10)

是否明确声明总参数和活跃参数？对于MoE模型，总参数和活跃参数之间的区别是否透明？

高分 (7-10)：

明确声明总参数，披露MoE模型的活跃参数，提供架构细分（例如，注意力40%，FFN 60%），记录量化影响并提供证据。

中分 (5-6)：

提供参数计数但有一些模糊性，MoE模型提及活跃参数但缺乏细节，提供基本架构信息，量化文档有限。

低分 (0-4)：

模糊的参数计数（"约7B"，"大约"），MoE模型宣传总参数但不披露活跃参数，不同来源的参数计数冲突，无密集与稀疏的澄清。

5. 训练计算 (0-10)

是否披露有关训练计算资源的信息？GPU/TPU小时、硬件规格、环境影响？

高分 (7-10)：

披露GPU/TPU小时，提供硬件规格，声明训练持续时间，计算或估计碳足迹，适当情况下的成本透明度。

中分 (5-6)：

提供一般计算信息，提及硬件类型，大致训练持续时间，有限的环境影响数据，一些成本指标。

低分 (0-4)：

模糊声称"在强大的GPU上训练"，未披露计算小时，无环境影响数据，"大量资源"但无具体信息，低估资源需求。

6. 基准可重现性 (0-10)

基准结果可以重现吗？是否披露评估提示、少样本示例和基准版本？

高分 (7-10)：

评估代码公开，披露确切的提示和少样本示例，指定基准版本，提供重现说明，提供或鼓励第三方验证。

中分 (5-6)：

提供一些评估细节，提及基准版本，描述一般方法论，部分重现可能，有限的第三方验证。

低分 (0-4)：

精选基准，无评估方法论，模糊的"优于竞争对手"，未披露提示策略，无重现路径，不同来源的分数不同且无解释。

7. 身份一致性 (0-10)

模型是否正确识别自己？是否提供版本信息？它是否准确表示其能力？

高分 (7-10)：

模型始终正确识别自己，提供并准确的版本号，无身份混淆，对能力和局限性透明，承认知识截止日期。

中分 (5-6)：

模型通常正确识别自己，有时提供版本信息，大多准确的能力声明，偶尔小的不一致，局限性披露有限。

低分 (0-4)：

声称是不同的模型（例如，说它是GPT-4但不是），身份混淆，误导性能力声明，无版本意识，假装来自不同的公司。

支柱3：下游透明度

8. 许可证清晰度 (0-10)

许可证是否清晰明确？商业使用条款是否明确？是否存在冲突的许可证声明？

高分 (7-10)：

明确的开源许可证（Apache 2.0、MIT）或定义明确的自定义许可证，商业使用条款明确，无冲突条款，衍生作品政策清晰，权重和代码的许可一致。

中分 (5-6)：

指定许可证但某些条款不清楚，通常允许商业使用但有一些限制，许可大多一致，提及衍生作品政策但不详细。

低分 (0-4)：

模糊的许可，冲突的条款，"免费用于非商业用途"但无明确定义，许可不清楚或缺失，带有商业限制的"开源"标签（不是真正的开源）。

9. 硬件占用 (0-10)

是否为不同精度级别记录VRAM要求？是否提供量化和上下文长度扩展的指导？

高分 (7-10)：

为FP16/Q8/Q4记录VRAM要求，披露批量大小影响，提供上下文长度内存扩展，记录量化精度权衡，声明实际要求。

中分 (5-6)：

提供基本VRAM要求，涵盖一些精度级别，给出一般量化指导，提及上下文长度考虑，要求大多实际。

低分 (0-4)：

无VRAM指导，模糊的"在消费级硬件上运行"但与实际不符，误导性效率声称，声称"8GB VRAM足够"但实际需要24GB，未披露上下文限制。

10. 版本控制与漂移 (0-10)

是否使用语义版本控制？是否记录更改？用户可以在需要时访问以前的版本吗？

高分 (7-10)：

使用语义版本控制，维护变更日志，记录API和权重更改，提供弃用通知，可访问版本历史，为破坏性更改提供清晰的迁移路径。

中分 (5-6)：

实施基本版本控制，记录一些更改，公布重大更新，可用的版本历史有限，提供一般迁移指导。

低分 (0-4)：

无版本控制系统，静默更新，行为漂移但无通知，无变更日志，无法跟踪更改，模型权重在没有版本更新的情况下更改，无法访问以前的版本。

评分方法论

每个标准根据公开可用证据的质量和可访问性在0-10的范围内评分：

9-10

典范透明度，全面的文档

7-8

良好的透明度，有小的差距

5-6

中等透明度，缺少关键细节

3-4

最低限度的披露，有重大差距

0-2

无信息、模糊声称或无法验证的断言

总体透明度评级

A (90-100): 卓越的透明度，所有支柱的典范实践。
B (75-89): 良好的透明度，有小的差距，基本可信。
C (60-74): 中等透明度，有重大差距但信息可用。
D (50-59): 差的透明度，对可验证性有重大担忧。
F (0-49): 不透明、不可信或主动欺骗的实践。

已知问题的自动惩罚

当发现特定争议或违规时，评分系统会应用自动惩罚：

基准污染 (-2至-5分)：训练数据包括测试集，未公开披露污染，或评估方法论设计为人为夸大分数。
身份误导 (-3至-8分)：模型虚假声称是竞争对手的模型，夸大参数计数，或做出无法验证的误导性能力声明。
许可证违规 (-5至-10分)：未经许可使用受限数据，违反上游模型许可证，或声明的许可证与实际服务条款之间存在重大冲突。
静默模型退化 (-3至-6分)：性能在没有通知的情况下降低，静默增加安全限制（对齐税），或行为在没有版本更新的情况下发生变化。
数据来源问题 (-4至-7分)：未披露使用受版权保护的材料，未经同意收集个人数据，或未披露使用来自其他专有模型的合成数据。

注意：不会因技术疏忽、意外错误或法律强制的内容限制（例如，区域合规要求）而惩罚模型。惩罚侧重于故意混淆或欺骗性实践。

研究与验证方法论

透明度评估结合了AI驱动的研究和人工验证。使用多种证据来源并交叉引用声明以确保准确性：

证据层次结构（从强到弱）：

具有可重现结果的同行评审论文
具有实际模型代码和文档的官方GitHub存储库
具有详细规格的官方技术博客文章
独立第三方技术审计和测试
官方模型卡、数据表和文档
带有规格的API文档

按类型划分的验证活动

在可能的情况下，根据标准使用不同技术通过实际验证补充外部来源：

文档审查：

许可证分析、政策审查、文档完整性评估、变更日志检查。用于：许可证清晰度、版本控制与漂移、数据集组成（部分）。

静态分析：

下载和检查分词器文件、模型权重、配置文件、代码存储库。词汇大小验证、架构检查、参数计数。用于：分词器完整性、架构来源、参数密度。

交互式测试：

查询已部署的模型以检测分词器行为、测试身份一致性（自我识别）、验证能力声明。用于：身份一致性、分词器完整性、基准可重现性（部分）。

实际部署：

在本地或测试环境中实际运行模型以测量VRAM消耗、验证上下文长度限制、验证量化声明、测试推理速度。用于：硬件占用、参数密度（验证）、计算效率声明。

交叉引用验证：

比较多个来源的声明、检查文档和观察行为之间的一致性、验证第三方报告。适用于所有标准以检测不一致。

技术透明度与安全透明度

模型透明度专注于技术透明度：开发者和从业者需要有效评估、部署和维护AI模型的信息。这包括架构细节、资源需求、许可证清晰度和运营特征。

虽然有几个优秀的倡议专注于安全透明度（偏见审计、红队结果、内容审核方法），但重点故意放在技术基础设施层。技术透明度被认为是明智的模型选择和有效部署的先决条件。

重点：技术透明度

架构、训练数据、计算资源、基准、许可、版本控制、硬件要求：用于构建模型的信息。

互补：安全透明度

偏见测试、有害内容评估、安全基准、红队结果：由其他倡议涵盖，如斯坦福HELM和AI Verify。

查看模型透明度分数

透明度分数显示在LLM数据库中的各个模型页面上。每个模型都包括一个透明度图表，显示所有10个标准的分数，以及总体透明度等级。

并非所有模型都有透明度分数。覆盖范围正在积极扩大。模型根据评估时公开可用的信息进行评估，并可能在新信息可用时重新评估。

探索透明度分数

浏览我们的LLM数据库以查看各个模型的透明度评估。

查看LLM数据库 →