趋近智
最后更新:2026年2月19日
通过基于证据的透明度评分评估AI模型
AI行业充斥着无法验证的声明、基准测试作弊和不透明的模型开发实践。ApX模型透明度通过系统性地评估AI模型提供商在模型架构、训练和部署方面的透明度来解决这一问题,使开发者和研究人员能够做出明智的决策。
透明度评分系统通过三大支柱中的10个不同标准评估模型:上游(模型来源)、模型本身和下游(如何使用模型)。每个标准根据公开可验证的证据评分0-10分,总分最高为100分。
该系统受斯坦福基础模型透明度指数(FMTI)启发,但经过简化并适应于开发者和从业者的实际应用,而非纯学术评估。
AI开发中缺乏透明度给技术社区带来了重大挑战:
| Issue | Description |
|---|---|
| 基准分数作弊: | 模型通过未披露的提示工程、被污染的测试数据或精选的评估集声称更高的性能,而没有可重现的方法论。 |
| 架构混淆: | 提供商做出模糊的声明,如"先进的Transformer架构",而不披露模型是原创、从另一个基础模型微调还是从专有系统蒸馏而来。 |
| 参数误导: | 混合专家(MoE)模型宣传大规模参数计数(例如"47B参数"),但在推理期间仅激活一小部分(例如12B活跃参数),误导用户关于计算需求。 |
| 静默模型退化: | 模型权重或行为在没有版本更新或公告的情况下发生变化,导致意外的性能变化、增加的拒绝或"对齐税",其中安全调优降低了能力。 |
| 许可证混淆: | 模型被标记为"开源",但施加了重大的商业限制,或者许可证条款与数据来源冲突,为开发者创造了法律不确定性。 |
通过在技术、法律和运营维度上对透明度进行评分,该系统提供了一个框架来让模型提供商负责,并帮助用户选择符合其诚信标准的模型。
透明度评估分为三大支柱,涵盖AI模型的完整生命周期:
评估有关模型来源的透明度:其基础架构、训练数据源和分词方法。对于理解模型构建的基础至关重要。
评估有关模型本身的透明度:参数计数、训练计算、基准有效性和身份一致性。这是最大的支柱,因为这些因素直接影响模型选择和信任。
检查有关模型如何使用的透明度:许可条款、硬件要求和版本管理。对于部署规划和长期维护至关重要。
每个模型根据10个具体标准进行评估。分数基于公开可验证的证据。模糊的营销声明或无法验证的陈述会导致低分。
提供商是否披露基础模型架构、是从头训练还是微调,以及进行了哪些修改?
高分 (7-10):
明确命名基础模型并提供公开文档,完整描述训练方法,记录架构修改,详细说明预训练程序并提供证据。
中分 (5-6):
提及基础模型但文档有限,以一般术语描述训练方法,提供部分架构细节但不全面,部分预训练信息。
低分 (0-4):
未披露基础模型,模糊声称"基于Transformer架构",未披露微调方法,"专有训练方法"但无文档。
是否披露训练数据源?是否提供数据集组成细分(例如,网页40%、代码20%、书籍10%)?
高分 (7-10):
公开披露训练数据源,提供数据集组成细分,记录过滤和清理方法,解释数据收集方法,提供样本数据。
中分 (5-6):
提及一些主要数据源,提供部分组成信息,描述基本过滤方法,对收集方法的文档有限。
低分 (0-4):
模糊声称"在多样化的互联网数据上训练",未命名来源,"精心策划"但未定义标准,"专有数据集"但无详情。
分词器是否公开可供检查?它是否与声称的语言支持和训练数据匹配?
高分 (7-10):
分词器公开可用,声明词汇大小,记录分词方法,与语言支持可验证对齐,训练数据组成与分词器设计匹配。
中分 (5-6):
分词器可用但文档稀疏,提供词汇大小,给出基本分词细节,语言支持声明通常与可观察行为一致。
低分 (0-4):
无法访问分词器,未知词汇大小,模糊的"先进分词",声称多语言支持但分词器无法检查,不同平台的令牌计数不匹配。
是否明确声明总参数和活跃参数?对于MoE模型,总参数和活跃参数之间的区别是否透明?
高分 (7-10):
明确声明总参数,披露MoE模型的活跃参数,提供架构细分(例如,注意力40%,FFN 60%),记录量化影响并提供证据。
中分 (5-6):
提供参数计数但有一些模糊性,MoE模型提及活跃参数但缺乏细节,提供基本架构信息,量化文档有限。
低分 (0-4):
模糊的参数计数("约7B","大约"),MoE模型宣传总参数但不披露活跃参数,不同来源的参数计数冲突,无密集与稀疏的澄清。
是否披露有关训练计算资源的信息?GPU/TPU小时、硬件规格、环境影响?
高分 (7-10):
披露GPU/TPU小时,提供硬件规格,声明训练持续时间,计算或估计碳足迹,适当情况下的成本透明度。
中分 (5-6):
提供一般计算信息,提及硬件类型,大致训练持续时间,有限的环境影响数据,一些成本指标。
低分 (0-4):
模糊声称"在强大的GPU上训练",未披露计算小时,无环境影响数据,"大量资源"但无具体信息,低估资源需求。
基准结果可以重现吗?是否披露评估提示、少样本示例和基准版本?
高分 (7-10):
评估代码公开,披露确切的提示和少样本示例,指定基准版本,提供重现说明,提供或鼓励第三方验证。
中分 (5-6):
提供一些评估细节,提及基准版本,描述一般方法论,部分重现可能,有限的第三方验证。
低分 (0-4):
精选基准,无评估方法论,模糊的"优于竞争对手",未披露提示策略,无重现路径,不同来源的分数不同且无解释。
模型是否正确识别自己?是否提供版本信息?它是否准确表示其能力?
高分 (7-10):
模型始终正确识别自己,提供并准确的版本号,无身份混淆,对能力和局限性透明,承认知识截止日期。
中分 (5-6):
模型通常正确识别自己,有时提供版本信息,大多准确的能力声明,偶尔小的不一致,局限性披露有限。
低分 (0-4):
声称是不同的模型(例如,说它是GPT-4但不是),身份混淆,误导性能力声明,无版本意识,假装来自不同的公司。
许可证是否清晰明确?商业使用条款是否明确?是否存在冲突的许可证声明?
高分 (7-10):
明确的开源许可证(Apache 2.0、MIT)或定义明确的自定义许可证,商业使用条款明确,无冲突条款,衍生作品政策清晰,权重和代码的许可一致。
中分 (5-6):
指定许可证但某些条款不清楚,通常允许商业使用但有一些限制,许可大多一致,提及衍生作品政策但不详细。
低分 (0-4):
模糊的许可,冲突的条款,"免费用于非商业用途"但无明确定义,许可不清楚或缺失,带有商业限制的"开源"标签(不是真正的开源)。
是否为不同精度级别记录VRAM要求?是否提供量化和上下文长度扩展的指导?
高分 (7-10):
为FP16/Q8/Q4记录VRAM要求,披露批量大小影响,提供上下文长度内存扩展,记录量化精度权衡,声明实际要求。
中分 (5-6):
提供基本VRAM要求,涵盖一些精度级别,给出一般量化指导,提及上下文长度考虑,要求大多实际。
低分 (0-4):
无VRAM指导,模糊的"在消费级硬件上运行"但与实际不符,误导性效率声称,声称"8GB VRAM足够"但实际需要24GB,未披露上下文限制。
是否使用语义版本控制?是否记录更改?用户可以在需要时访问以前的版本吗?
高分 (7-10):
使用语义版本控制,维护变更日志,记录API和权重更改,提供弃用通知,可访问版本历史,为破坏性更改提供清晰的迁移路径。
中分 (5-6):
实施基本版本控制,记录一些更改,公布重大更新,可用的版本历史有限,提供一般迁移指导。
低分 (0-4):
无版本控制系统,静默更新,行为漂移但无通知,无变更日志,无法跟踪更改,模型权重在没有版本更新的情况下更改,无法访问以前的版本。
每个标准根据公开可用证据的质量和可访问性在0-10的范围内评分:
典范透明度,全面的文档
良好的透明度,有小的差距
中等透明度,缺少关键细节
最低限度的披露,有重大差距
无信息、模糊声称或无法验证的断言
当发现特定争议或违规时,评分系统会应用自动惩罚:
注意:不会因技术疏忽、意外错误或法律强制的内容限制(例如,区域合规要求)而惩罚模型。惩罚侧重于故意混淆或欺骗性实践。
透明度评估结合了AI驱动的研究和人工验证。使用多种证据来源并交叉引用声明以确保准确性:
在可能的情况下,根据标准使用不同技术通过实际验证补充外部来源:
文档审查:
许可证分析、政策审查、文档完整性评估、变更日志检查。用于:许可证清晰度、版本控制与漂移、数据集组成(部分)。
静态分析:
下载和检查分词器文件、模型权重、配置文件、代码存储库。词汇大小验证、架构检查、参数计数。用于:分词器完整性、架构来源、参数密度。
交互式测试:
查询已部署的模型以检测分词器行为、测试身份一致性(自我识别)、验证能力声明。用于:身份一致性、分词器完整性、基准可重现性(部分)。
实际部署:
在本地或测试环境中实际运行模型以测量VRAM消耗、验证上下文长度限制、验证量化声明、测试推理速度。用于:硬件占用、参数密度(验证)、计算效率声明。
交叉引用验证:
比较多个来源的声明、检查文档和观察行为之间的一致性、验证第三方报告。适用于所有标准以检测不一致。
模型透明度专注于技术透明度:开发者和从业者需要有效评估、部署和维护AI模型的信息。这包括架构细节、资源需求、许可证清晰度和运营特征。
虽然有几个优秀的倡议专注于安全透明度(偏见审计、红队结果、内容审核方法),但重点故意放在技术基础设施层。技术透明度被认为是明智的模型选择和有效部署的先决条件。
架构、训练数据、计算资源、基准、许可、版本控制、硬件要求:用于构建模型的信息。
偏见测试、有害内容评估、安全基准、红队结果:由其他倡议涵盖,如斯坦福HELM和AI Verify。
透明度分数显示在LLM数据库中的各个模型页面上。每个模型都包括一个透明度图表,显示所有10个标准的分数,以及总体透明度等级。
并非所有模型都有透明度分数。覆盖范围正在积极扩大。模型根据评估时公开可用的信息进行评估,并可能在新信息可用时重新评估。