9款软件敏感信息检测工具特点分析密钥元数据存储库json|这些软件都经过了安全验证_宠物酒店

随着软件开发的日益复杂，敏感信息（如API密钥和访问令牌）的安全性变得尤为重要。如图1.1，根据GitGuardian的监测数据，2023年GitHub存储库中的密钥暴露数量较2022年增长了28%，累计泄露超过1280万个身份验证和敏感密钥。这一问题不仅威胁到软件的安全性，还可能导致严重的安全漏洞和经济损失。例如，2022年9月，一名攻击者通过利用Uber公司PowerShell脚本中硬编码的管理员凭证，成功接管了该公司的内部工具和应用程序。

图1.12020年至2023年Github密钥泄漏数量

为了应对这一问题，市场上出现了许多开源和专有的敏感信息检测工具，如Gitleaks和SpectralOps等。然而，这些工具在实际使用中存在许多问题，其中最为突出的是高误报率。误报率过高不仅增加了开发人员的工作负担，还可能导致警报疲劳，使得开发人员忽视真正的安全威胁。

二.敏感信息识别的工具比较

2.1

基准数据集

评估软件敏感信息检测工具选择SecretBench作为基准数据集。SecretBench是一个公开可用的软件敏感信息基准数据集，通过GoogleCloudStorage和GoogleBigQuery访问。该数据集包含从GoogleBigQuery公共GitHub数据集中提取的818个公共GitHub存储库，使用了761种正则表达式模式来识别不同类型的敏感信息，总计97479个被标记为真或假，其中15084个是真实的密钥。如图2.1，密钥被手动分类为八个类别，前三个类别分别是私钥、API密钥和认证密钥。

图2.1SecretBench中的8种密钥类型

此外，数据集覆盖了49种编程语言和311种文件类型，并提供了详细的敏感元数据，如存储库名称、文件路径和提交ID。如图2.2，不同文件类型中敏感数据的最多是txt文件、toml配置文件、js文件、html文件与pem文件。

图2.2Top5的敏感文件类型

2.2

测试的敏感信息识别工具

根据可访问性、扫描能力、活跃度、标记精度和报告格式五个标准选择了9个工具（5个开源工具和4个专有工具）进行敏感信息识别比较。

5个开源识别工具

git-secrets是由AWS-Labs开发的开源工具，旨在防止将敏感信息提交到Git存储库中。工具通过扫描整个Git历史，检测并输出存储库中的敏感信息。

Gitleaks是一个用Go编写的开源工具，主要用于检测Git存储库中的敏感信息。通过使用详细模式扫描存储库，以检索匹配敏感信息的元数据，最后将检测到的结果输出为JSON文件，便于后续分析。

Repo-supervisor是一个用JavaScript编写的开源工具，支持通过webhooks扫描GitHub拉取请求，以及从命令行扫描本地存储库目录。该工具在命令行模式下运行，扫描本地存储库并将结果输出为JSON文件。

TruffleHog是由TruffleSecurity开发的开源工具，用于检测Git存储库中的高熵字符串和正则表达式匹配的敏感信息信息。通过启用了正则表达式和熵计算标志来扫描存储库，最后将检测结果输出为JSON文件，以便进一步分析。

Whispers是一个用Python编写的开源工具，支持YAML和XML等结构化文本解析格式。工具将源代码解析为键值对，并检测硬编码的敏感信息。通过使用whispers命令扫描存储库，将结果输出为JSON文件。

4个专有识别工具

CommercialX是一个专有工具，能够扫描GitHub存储库中的敏感信息，还可以检测图像和不可搜索的PDF中的敏感信息。工具支持与Slack、JIRA和GoogleDrive集成。作者联系了供应商团队，提供了基准存储库的快照，并接收了扫描报告。最后将报告中的敏感信息和元数据被解析并输出为CSV文件。

ggshield由GitGuardian开发，是一个依赖GitGuardian公共API的开源工具。通过使用详细模式扫描每个存储库，并将检测到的敏感信息输出为JSON文件。

GitHubSecretScanner是GitHub集成的扫描工具。通过在每个存储库中启用了“SecretScanner”设置，工具自动扫描并在“Security/Secretscanningalerts”选项卡下显示检测到的结果，利用Python脚本通过GitHubRestAPI提取每个存储库的敏感信息，并输出为CSV文件。

SpectralOps是一个专有工具，提供了开发者、安全和审计三种扫描模式。工具使用“安全”模式扫描存储库，以获得更好的精度和召回率。同样的，将敏感信息的详细元数据与对应扫描结果输出为JSON文件。

2.3

工具对比实验与结果

实验中敏感元数据包括CommitID、文件路径、行号和纯文本，这些信息能够识别出工具检测到的具体敏感信息的位置及其上下文。标准化文件路径和纯文本敏感信息有助于提高不同工具报告之间的比较精度。

如图2.3，不同工具的检测结果不同，为了准确评估敏感信息检测工具的性能，通过Jaro-Winkler相似度和Gestalt模式匹配算法，计算工具报告的敏感信息与基准数据集敏感信息的相似度，设定相应的相似度阈值，确保高效准确地匹配。

图2.33种不同工具对于相同敏感信息的不同输出结果

通过对九种工具的实验比较，评估其在检测敏感信息方面的精度、召回率和F1得分。如图2.4所示，GitHubSecretScanner在精度方面表现最佳（75%），但其召回率较低（6%），表明它漏掉了许多敏感信息。Gitleaks在两种召回率情况下均表现出色（情况1：86%，情况2：88%），并且在精度方面也表现良好（46%）。此外，TruffleHog在召回率方面表现良好，但精度较低（6%）。总的来说，没有一个工具同时具有高精度和高召回率，这表明目前的工具在检测敏感信息方面仍存在不足。使用机器学习技术的工具（如CommercialX和SpectralOps）在减少误报方面的表现并不理想，分别只有25%和1%的精度。

作者对敏感信息检测工具的误报和漏报进行了详细分析，发现工具使用通用正则表达式、无效的熵计算是误报的主要原因。另一方面，错误的正则表达式、跳过特定文件类型和规则集不足是漏报的主要原因。

三.总结

本文评估了九种敏感信息检测工具在检测代码库中的敏感信息方面的性能。通过对五个开源工具和四个专有工具的比较得出，GitHubSecretScanner在精度方面表现最佳，而Gitleaks在召回率方面表现突出。当然，不同工具在检测敏感信息方面各有优劣，开发人员应根据具体需求选择合适的工具。例如，GitHubSecretScanner尽管精度高，但召回率较低，表明其可能漏掉许多敏感信息。相反，Gitleaks在召回率和精度之间表现较为平衡，是一个值得推荐的工具。开发人员在选择和使用检测工具时，应根据项目中的具体需求和敏感信息类型，综合考虑工具的精度、召回率和功能。通过合理选择和配置这些工具，可以有效地保护代码库中的敏感信息，增强软件开发过程中的安全性和可靠性。

THE END

9款软件敏感信息检测工具特点分析密钥元数据存储库json

这13款APP赶紧卸载隐私违规需警惕新闻频道

9款软件敏感信息检测工具特点分析密钥元数据存储库json

用于网络安全的Python：适用于您的产品的经过验证的工具

集成测试模板(10篇)

劳顿管理信息系统习题集第8章信息系统安全

网络工程概述范文

安全测试陈晓猛

认证用于军事系统的嵌入式COTS软件

安全知识网络信息管理处网站

最佳WordPress安全插件推荐清单

通用SafetyNet修复方案：硬件支持下的解决之道

如何通过哪些平台免费观看胡桃大战史莱姆软件这些平台安全吗

漏洞管理faq云安全中心(SecurityCenter)

信息安全：软件认证，知识点梳理

企业信息安全维护，盘点6款统一身份认证与管理IAM产品

漫蛙2最新正版入口在哪里：教你如何安全下载并避免下载风险