静态扫描可以快速识别源代码的缺陷,静态扫描的结果以扫描报告作为输出:
1、文件扫描的成本和文件大小相关,如果文件大小为N,则扫描成本为N个金币
2、扫描报告的缓存成本和文件大小无关,每缓存一个报告需要M个金币
3、扫描报告缓存后,后继再碰到该文件则不需要扫描成本,直接获取缓存结果
给出源代码文件标识序列和文件大小序列,求解采用合理的缓存策略,最少需要的金币数。
输入描述
第一行为缓存一个报告金币数M,L<= M <= 100
第二行为文件标识序列:F1,F2,F3,…,Fn。
第三行为文件大小序列:S1,S2,S3,…,Sn。
备注:
1 <= N <= 10000
1 <= Fi <= 1000
1 <= Si <= 10
输出描述
采用合理的缓存策略,需要的最少金币数
用例
输入 | 5 1 2 2 1 2 3 4 1 1 1 1 1 1 1 |
输出 | 7 |
说明 | 文件大小相同,扫描成本均为1个金币。缓存任意文件均不合算,因而最少成本为7金币。 |
输入 | 5 2 2 2 2 2 5 2 2 2 3 3 3 3 3 1 3 3 3 |
输出 | 9 |
说明 | 无 |
题目要求通过合理的缓存策略最小化静态扫描的总成本,核心问题是:对于重复出现的文件,何时缓存报告最划算? 关键在于权衡扫描成本与缓存成本:
对每个文件标识独立决策:
min(文件大小×频次, 文件大小 + M)
为什么贪心有效?每个文件的缓存决策相互独立,缓存一个文件不会影响其他文件的扫描成本。
# 读取缓存成本M
M = int(input().strip())
# 读取文件标识序列
file_ids = list(map(int, input().split()))
# 读取文件大小序列
file_sizes = list(map(int, input().split()))
from collections import defaultdict
# 创建分组字典:记录每个标识的[频次, 总大小, 首次大小]
file_groups = defaultdict(lambda: [0, 0, None])
# 遍历所有文件
for fid, size in zip(file_ids, file_sizes):
# 更新出现频次
file_groups[fid][0] += 1
# 累加总大小(用于不缓存方案)
file_groups[fid][1] += size
# 记录首次出现的大小(用于缓存方案)
if file_groups[fid][2] is None:
file_groups[fid][2] = size
total_cost = 0
for fid, (count, total_size, first_size) in file_groups.items():
# 不缓存方案:每次扫描
cost_no_cache = total_size
# 缓存方案:首次扫描+缓存
cost_cache = first_size + M
# 选择更经济的方案
total_cost += min(cost_no_cache, cost_cache)
print(total_cost)
为何记录首次大小而非任意大小?
缓存发生在首次扫描时,后续文件无论大小如何都复用结果
决策依据的数学表达式:
min( Σsᵢ , s₁ + M )
其中:
Σsᵢ
:所有出现位置的大小之和s₁
:首次出现的大小M
:固定缓存成本from collections import defaultdict
def main():
# 读取缓存成本
M = int(input().strip())
# 读取文件标识序列
file_ids = list(map(int, input().split()))
# 读取文件大小序列
file_sizes = list(map(int, input().split()))
# 创建分组统计字典
# 格式: {文件标识: [出现次数, 总大小, 首次大小]}
file_groups = defaultdict(lambda: [0, 0, None])
# 遍历所有文件
for fid, size in zip(file_ids, file_sizes):
# 更新出现次数
file_groups[fid][0] += 1
# 累加总大小
file_groups[fid][1] += size
# 记录首次大小
if file_groups[fid][2] is None:
file_groups[fid][2] = size
# 计算最小总成本
total_cost = 0
for fid, (count, total_size, first_size) in file_groups.items():
# 计算两种方案成本
cost_no_cache = total_size
cost_cache = first_size + M
# 选择更经济的方案
total_cost += min(cost_no_cache, cost_cache)
print(total_cost)
if __name__ == "__main__":
main()
输入:
5
1 2 2 1 2 3 4
1 1 1 1 1 1 1
处理流程:
7
输入:
5
2 2 2 2 2 5 2 2 2
3 3 3 3 3 1 3 3 3
处理流程:
9
通过贪心策略解决静态扫描成本优化问题:
实际应用场景:编译器构建系统(如Makefile)、CI/CD流水线,通过缓存中间结果加速重复构建过程。