ApX 标志ApX 标志

趋近智

模型透明度

最后更新:2026年2月19日

通过基于证据的透明度评分评估AI模型

AI行业充斥着无法验证的声明、基准测试作弊和不透明的模型开发实践。ApX模型透明度通过系统性地评估AI模型提供商在模型架构、训练和部署方面的透明度来解决这一问题,使开发者和研究人员能够做出明智的决策。

透明度评分系统通过三大支柱中的10个不同标准评估模型:上游(模型来源)、模型本身和下游(如何使用模型)。每个标准根据公开可验证的证据评分0-10分,总分最高为100分。

该系统受斯坦福基础模型透明度指数(FMTI)启发,但经过简化并适应于开发者和从业者的实际应用,而非纯学术评估。

为什么模型透明度很重要

AI开发中缺乏透明度给技术社区带来了重大挑战:

IssueDescription
基准分数作弊:模型通过未披露的提示工程、被污染的测试数据或精选的评估集声称更高的性能,而没有可重现的方法论。
架构混淆:提供商做出模糊的声明,如"先进的Transformer架构",而不披露模型是原创、从另一个基础模型微调还是从专有系统蒸馏而来。
参数误导:混合专家(MoE)模型宣传大规模参数计数(例如"47B参数"),但在推理期间仅激活一小部分(例如12B活跃参数),误导用户关于计算需求。
静默模型退化:模型权重或行为在没有版本更新或公告的情况下发生变化,导致意外的性能变化、增加的拒绝或"对齐税",其中安全调优降低了能力。
许可证混淆:模型被标记为"开源",但施加了重大的商业限制,或者许可证条款与数据来源冲突,为开发者创造了法律不确定性。

通过在技术、法律和运营维度上对透明度进行评分,该系统提供了一个框架来让模型提供商负责,并帮助用户选择符合其诚信标准的模型。

三支柱框架

透明度评估分为三大支柱,涵盖AI模型的完整生命周期:

30分

上游:模型起源

评估有关模型来源的透明度:其基础架构、训练数据源和分词方法。对于理解模型构建的基础至关重要。

40分

模型:核心特征

评估有关模型本身的透明度:参数计数、训练计算、基准有效性和身份一致性。这是最大的支柱,因为这些因素直接影响模型选择和信任。

30分

下游:实际使用

检查有关模型如何使用的透明度:许可条款、硬件要求和版本管理。对于部署规划和长期维护至关重要。

10个透明度标准

每个模型根据10个具体标准进行评估。分数基于公开可验证的证据。模糊的营销声明或无法验证的陈述会导致低分。

支柱1:上游透明度

1. 架构来源 (0-10)

提供商是否披露基础模型架构、是从头训练还是微调,以及进行了哪些修改?

高分 (7-10):

明确命名基础模型并提供公开文档,完整描述训练方法,记录架构修改,详细说明预训练程序并提供证据。

中分 (5-6):

提及基础模型但文档有限,以一般术语描述训练方法,提供部分架构细节但不全面,部分预训练信息。

低分 (0-4):

未披露基础模型,模糊声称"基于Transformer架构",未披露微调方法,"专有训练方法"但无文档。

2. 数据集组成 (0-10)

是否披露训练数据源?是否提供数据集组成细分(例如,网页40%、代码20%、书籍10%)?

高分 (7-10):

公开披露训练数据源,提供数据集组成细分,记录过滤和清理方法,解释数据收集方法,提供样本数据。

中分 (5-6):

提及一些主要数据源,提供部分组成信息,描述基本过滤方法,对收集方法的文档有限。

低分 (0-4):

模糊声称"在多样化的互联网数据上训练",未命名来源,"精心策划"但未定义标准,"专有数据集"但无详情。

3. 分词器完整性 (0-10)

分词器是否公开可供检查?它是否与声称的语言支持和训练数据匹配?

高分 (7-10):

分词器公开可用,声明词汇大小,记录分词方法,与语言支持可验证对齐,训练数据组成与分词器设计匹配。

中分 (5-6):

分词器可用但文档稀疏,提供词汇大小,给出基本分词细节,语言支持声明通常与可观察行为一致。

低分 (0-4):

无法访问分词器,未知词汇大小,模糊的"先进分词",声称多语言支持但分词器无法检查,不同平台的令牌计数不匹配。

支柱2:模型透明度

4. 参数密度 (0-10)

是否明确声明总参数和活跃参数?对于MoE模型,总参数和活跃参数之间的区别是否透明?

高分 (7-10):

明确声明总参数,披露MoE模型的活跃参数,提供架构细分(例如,注意力40%,FFN 60%),记录量化影响并提供证据。

中分 (5-6):

提供参数计数但有一些模糊性,MoE模型提及活跃参数但缺乏细节,提供基本架构信息,量化文档有限。

低分 (0-4):

模糊的参数计数("约7B","大约"),MoE模型宣传总参数但不披露活跃参数,不同来源的参数计数冲突,无密集与稀疏的澄清。

5. 训练计算 (0-10)

是否披露有关训练计算资源的信息?GPU/TPU小时、硬件规格、环境影响?

高分 (7-10):

披露GPU/TPU小时,提供硬件规格,声明训练持续时间,计算或估计碳足迹,适当情况下的成本透明度。

中分 (5-6):

提供一般计算信息,提及硬件类型,大致训练持续时间,有限的环境影响数据,一些成本指标。

低分 (0-4):

模糊声称"在强大的GPU上训练",未披露计算小时,无环境影响数据,"大量资源"但无具体信息,低估资源需求。

6. 基准可重现性 (0-10)

基准结果可以重现吗?是否披露评估提示、少样本示例和基准版本?

高分 (7-10):

评估代码公开,披露确切的提示和少样本示例,指定基准版本,提供重现说明,提供或鼓励第三方验证。

中分 (5-6):

提供一些评估细节,提及基准版本,描述一般方法论,部分重现可能,有限的第三方验证。

低分 (0-4):

精选基准,无评估方法论,模糊的"优于竞争对手",未披露提示策略,无重现路径,不同来源的分数不同且无解释。

7. 身份一致性 (0-10)

模型是否正确识别自己?是否提供版本信息?它是否准确表示其能力?

高分 (7-10):

模型始终正确识别自己,提供并准确的版本号,无身份混淆,对能力和局限性透明,承认知识截止日期。

中分 (5-6):

模型通常正确识别自己,有时提供版本信息,大多准确的能力声明,偶尔小的不一致,局限性披露有限。

低分 (0-4):

声称是不同的模型(例如,说它是GPT-4但不是),身份混淆,误导性能力声明,无版本意识,假装来自不同的公司。

支柱3:下游透明度

8. 许可证清晰度 (0-10)

许可证是否清晰明确?商业使用条款是否明确?是否存在冲突的许可证声明?

高分 (7-10):

明确的开源许可证(Apache 2.0、MIT)或定义明确的自定义许可证,商业使用条款明确,无冲突条款,衍生作品政策清晰,权重和代码的许可一致。

中分 (5-6):

指定许可证但某些条款不清楚,通常允许商业使用但有一些限制,许可大多一致,提及衍生作品政策但不详细。

低分 (0-4):

模糊的许可,冲突的条款,"免费用于非商业用途"但无明确定义,许可不清楚或缺失,带有商业限制的"开源"标签(不是真正的开源)。

9. 硬件占用 (0-10)

是否为不同精度级别记录VRAM要求?是否提供量化和上下文长度扩展的指导?

高分 (7-10):

为FP16/Q8/Q4记录VRAM要求,披露批量大小影响,提供上下文长度内存扩展,记录量化精度权衡,声明实际要求。

中分 (5-6):

提供基本VRAM要求,涵盖一些精度级别,给出一般量化指导,提及上下文长度考虑,要求大多实际。

低分 (0-4):

无VRAM指导,模糊的"在消费级硬件上运行"但与实际不符,误导性效率声称,声称"8GB VRAM足够"但实际需要24GB,未披露上下文限制。

10. 版本控制与漂移 (0-10)

是否使用语义版本控制?是否记录更改?用户可以在需要时访问以前的版本吗?

高分 (7-10):

使用语义版本控制,维护变更日志,记录API和权重更改,提供弃用通知,可访问版本历史,为破坏性更改提供清晰的迁移路径。

中分 (5-6):

实施基本版本控制,记录一些更改,公布重大更新,可用的版本历史有限,提供一般迁移指导。

低分 (0-4):

无版本控制系统,静默更新,行为漂移但无通知,无变更日志,无法跟踪更改,模型权重在没有版本更新的情况下更改,无法访问以前的版本。

评分方法论

每个标准根据公开可用证据的质量和可访问性在0-10的范围内评分:

9-10

典范透明度,全面的文档

7-8

良好的透明度,有小的差距

5-6

中等透明度,缺少关键细节

3-4

最低限度的披露,有重大差距

0-2

无信息、模糊声称或无法验证的断言

总体透明度评级

  • A (90-100): 卓越的透明度,所有支柱的典范实践。
  • B (75-89): 良好的透明度,有小的差距,基本可信。
  • C (60-74): 中等透明度,有重大差距但信息可用。
  • D (50-59): 差的透明度,对可验证性有重大担忧。
  • F (0-49): 不透明、不可信或主动欺骗的实践。

已知问题的自动惩罚

当发现特定争议或违规时,评分系统会应用自动惩罚:

  • 基准污染 (-2至-5分): 训练数据包括测试集,未公开披露污染,或评估方法论设计为人为夸大分数。
  • 身份误导 (-3至-8分): 模型虚假声称是竞争对手的模型,夸大参数计数,或做出无法验证的误导性能力声明。
  • 许可证违规 (-5至-10分): 未经许可使用受限数据,违反上游模型许可证,或声明的许可证与实际服务条款之间存在重大冲突。
  • 静默模型退化 (-3至-6分): 性能在没有通知的情况下降低,静默增加安全限制(对齐税),或行为在没有版本更新的情况下发生变化。
  • 数据来源问题 (-4至-7分): 未披露使用受版权保护的材料,未经同意收集个人数据,或未披露使用来自其他专有模型的合成数据。

注意:不会因技术疏忽、意外错误或法律强制的内容限制(例如,区域合规要求)而惩罚模型。惩罚侧重于故意混淆或欺骗性实践。

研究与验证方法论

透明度评估结合了AI驱动的研究和人工验证。使用多种证据来源并交叉引用声明以确保准确性:

证据层次结构(从强到弱):

  1. 具有可重现结果的同行评审论文
  2. 具有实际模型代码和文档的官方GitHub存储库
  3. 具有详细规格的官方技术博客文章
  4. 独立第三方技术审计和测试
  5. 官方模型卡、数据表和文档
  6. 带有规格的API文档

按类型划分的验证活动

在可能的情况下,根据标准使用不同技术通过实际验证补充外部来源:

文档审查:

许可证分析、政策审查、文档完整性评估、变更日志检查。用于:许可证清晰度、版本控制与漂移、数据集组成(部分)。

静态分析:

下载和检查分词器文件、模型权重、配置文件、代码存储库。词汇大小验证、架构检查、参数计数。用于:分词器完整性、架构来源、参数密度。

交互式测试:

查询已部署的模型以检测分词器行为、测试身份一致性(自我识别)、验证能力声明。用于:身份一致性、分词器完整性、基准可重现性(部分)。

实际部署:

在本地或测试环境中实际运行模型以测量VRAM消耗、验证上下文长度限制、验证量化声明、测试推理速度。用于:硬件占用、参数密度(验证)、计算效率声明。

交叉引用验证:

比较多个来源的声明、检查文档和观察行为之间的一致性、验证第三方报告。适用于所有标准以检测不一致。

技术透明度与安全透明度

模型透明度专注于技术透明度:开发者和从业者需要有效评估、部署和维护AI模型的信息。这包括架构细节、资源需求、许可证清晰度和运营特征。

虽然有几个优秀的倡议专注于安全透明度(偏见审计、红队结果、内容审核方法),但重点故意放在技术基础设施层。技术透明度被认为是明智的模型选择和有效部署的先决条件。

重点:技术透明度

架构、训练数据、计算资源、基准、许可、版本控制、硬件要求:用于构建模型的信息。

互补:安全透明度

偏见测试、有害内容评估、安全基准、红队结果:由其他倡议涵盖,如斯坦福HELM和AI Verify。

查看模型透明度分数

透明度分数显示在LLM数据库中的各个模型页面上。每个模型都包括一个透明度图表,显示所有10个标准的分数,以及总体透明度等级。

并非所有模型都有透明度分数。覆盖范围正在积极扩大。模型根据评估时公开可用的信息进行评估,并可能在新信息可用时重新评估。

探索透明度分数

浏览我们的LLM数据库以查看各个模型的透明度评估。

查看LLM数据库 →