ds4eval - Agent Harness 评测报告

生成时间 2026-04-26T19:57:09.935Z · 评分版本 score-v1-static-heuristic · 原始数据 report.json
平均评分27.4
成功率7/20
失败运行13
平均耗时314.05s

模型排行

#模型评分成功率耗时
1deepseek-v4-pro
DeepSeek V4 Pro
57.875%313.05s
2minimax/minimax-m2.5
MiniMax M2.5
36.350%313.72s
3deepseek-v4-flash
DeepSeek V4 Flash
21.525%313.74s
4moonshotai/kimi-k2.5
Kimi K2.5
21.525%314.72s
5moonshotai/kimi-k2.6
Kimi K2.6
0.00%315.04s

评分热力图

模型基础产物写入
opencode
汇率监控与告警
opencode
多城市天气告警
opencode
市场简报
opencode
deepseek-v4-flash
DeepSeek V4 Flash
86
成功
0
失败
0
失败
0
失败
deepseek-v4-pro
DeepSeek V4 Pro
86
成功
86
成功
0
失败
59
成功
moonshotai/kimi-k2.6
Kimi K2.6
0
失败
0
失败
0
失败
0
失败
moonshotai/kimi-k2.5
Kimi K2.5
86
成功
0
失败
0
失败
0
失败
minimax/minimax-m2.5
MiniMax M2.5
86
成功
0
失败
0
失败
59
成功

最新评测结果

基础产物写入 · DeepSeek V4 Flash 成功

opencode · opencode · 309.86s · - 令牌
86/100
评分明细
完成度
运行完成,并按要求打印 DONE。
30/30
产物文件
已生成 2 个产物文件。
25/25
JSON 有效性
1/1 个 JSON 产物解析成功。
20/20
链路质量
链路只包含最终回复。
10/15
耗时
超过 4 分钟后完成。
1/10
执行链路
开始
opencode · deepseek-v4-flash
最终回复 · 309.86s
DONE
产物文件:output/baseline-result.json
{
  "task": "baseline-artifact",
  "status": "ok",
  "checks": ["created-json", "created-summary", "printed-done"],
  "model_note": "根据任务要求,创建了JSON和文本文件,最后打印DONE。"
}
产物文件:output/baseline-summary.txt
成功创建基线构件:JSON结果与文本总结均已生成。
产物文件 (2)

output/baseline-result.json

{
  "task": "baseline-artifact",
  "status": "ok",
  "checks": ["created-json", "created-summary", "printed-done"],
  "model_note": "根据任务要求,创建了JSON和文本文件,最后打印DONE。"
}

output/baseline-summary.txt

成功创建基线构件:JSON结果与文本总结均已生成。

基础产物写入 · DeepSeek V4 Pro 成功

opencode · opencode · 308.36s · - 令牌
86/100
评分明细
完成度
运行完成,并按要求打印 DONE。
30/30
产物文件
已生成 2 个产物文件。
25/25
JSON 有效性
1/1 个 JSON 产物解析成功。
20/20
链路质量
链路只包含最终回复。
10/15
耗时
超过 4 分钟后完成。
1/10
执行链路
开始
opencode · deepseek-v4-pro
最终回复 · 308.36s
DONE
产物文件:output/baseline-result.json
{
  "task": "baseline-artifact",
  "status": "ok",
  "checks": ["created-json", "created-summary", "printed-done"],
  "model_note": "直接使用文件写入工具创建 JSON 和 TXT 文件,完成后打印 DONE。"
}
产物文件:output/baseline-summary.txt
已完成基线任务:创建 JSON 结果文件、摘要文本,并打印结束标志。
产物文件 (2)

output/baseline-result.json

{
  "task": "baseline-artifact",
  "status": "ok",
  "checks": ["created-json", "created-summary", "printed-done"],
  "model_note": "直接使用文件写入工具创建 JSON 和 TXT 文件,完成后打印 DONE。"
}

output/baseline-summary.txt

已完成基线任务:创建 JSON 结果文件、摘要文本,并打印结束标志。

基础产物写入 · Kimi K2.6 失败

opencode · opencode · 315.04s · - 令牌
0/100
评分明细
完成度
运行未完成。
0/30
产物文件
没有生成产物文件。
0/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
没有捕获执行步骤。
0/15
耗时
完成前超时。
0/10
执行链路
开始
opencode · moonshotai/kimi-k2.6
错误
opencode 在生成最终回复或产物前超时。

基础产物写入 · Kimi K2.5 成功

opencode · opencode · 313.80s · - 令牌
86/100
评分明细
完成度
运行完成,并按要求打印 DONE。
30/30
产物文件
已生成 2 个产物文件。
25/25
JSON 有效性
1/1 个 JSON 产物解析成功。
20/20
链路质量
链路只包含最终回复。
10/15
耗时
超过 4 分钟后完成。
1/10
执行链路
开始
opencode · moonshotai/kimi-k2.5
最终回复 · 313.80s
DONE
产物文件:output/baseline-result.json
{
  "task": "baseline-artifact",
  "status": "ok",
  "checks": ["created-json", "created-summary", "printed-done"],
  "model_note": "按要求创建了两个输出文件并打印DONE。"
}
产物文件:output/baseline-summary.txt
已完成基准任务,创建结果文件与总结文件。DONE
产物文件 (2)

output/baseline-result.json

{
  "task": "baseline-artifact",
  "status": "ok",
  "checks": ["created-json", "created-summary", "printed-done"],
  "model_note": "按要求创建了两个输出文件并打印DONE。"
}

output/baseline-summary.txt

已完成基准任务,创建结果文件与总结文件。DONE

基础产物写入 · MiniMax M2.5 成功

opencode · opencode · 309.77s · - 令牌
86/100
评分明细
完成度
运行完成,并按要求打印 DONE。
30/30
产物文件
已生成 2 个产物文件。
25/25
JSON 有效性
1/1 个 JSON 产物解析成功。
20/20
链路质量
链路只包含最终回复。
10/15
耗时
超过 4 分钟后完成。
1/10
执行链路
开始
opencode · minimax/minimax-m2.5
最终回复 · 309.77s
DONE
产物文件:output/baseline-result.json
{
  "task": "baseline-artifact",
  "status": "ok",
  "checks": ["created-json", "created-summary", "printed-done"],
  "model_note": "根据用户的任务要求,创建了输出文件并成功完成任务"
}
产物文件:output/baseline-summary.txt
根据任务要求,我创建了 baseline-result.json 文件,包含任务状态为 ok,检查项包括 created-json、created-summary 和 printed-done。总结内容已完成。
产物文件 (2)

output/baseline-result.json

{
  "task": "baseline-artifact",
  "status": "ok",
  "checks": ["created-json", "created-summary", "printed-done"],
  "model_note": "根据用户的任务要求,创建了输出文件并成功完成任务"
}

output/baseline-summary.txt

根据任务要求,我创建了 baseline-result.json 文件,包含任务状态为 ok,检查项包括 created-json、created-summary 和 printed-done。总结内容已完成。

汇率监控与告警 · DeepSeek V4 Flash 失败

opencode · opencode · 315.05s · - 令牌
0/100
评分明细
完成度
运行未完成。
0/30
产物文件
没有生成产物文件。
0/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
没有捕获执行步骤。
0/15
耗时
完成前超时。
0/10
执行链路
开始
opencode · deepseek-v4-flash
错误
opencode 在生成最终回复或产物前超时。

汇率监控与告警 · DeepSeek V4 Pro 成功

opencode · opencode · 313.82s · - 令牌
86/100
评分明细
完成度
运行完成,并按要求打印 DONE。
30/30
产物文件
已生成 2 个产物文件。
25/25
JSON 有效性
1/1 个 JSON 产物解析成功。
20/20
链路质量
链路只包含最终回复。
10/15
耗时
超过 4 分钟后完成。
1/10
执行链路
开始
opencode · deepseek-v4-pro
最终回复 · 313.82s
DONE
产物文件:output/forex-alert.txt
===== 外汇汇率告警 =====

时间: 2026-04-27 00:02:32 UTC
数据源: open.er-api.com

观测汇率:
  USD/CNY = 6.8517
  USD/JPY = 159.4627

交叉汇率:
  1 CNY = 159.4627 / 6.8517 = 23.27 JPY

上周参考: 1 CNY = 20.45 JPY
当前:     1 CNY = 23.27 JPY
变动幅度: +13.80%

判断: 变动幅度超过 2% 阈值(+13.80% > 2%),触发告警。

========================
产物文件:output/forex-result.json
{
  "观测时间": "2026-04-27T00:02:32Z",
  "数据源": "https://open.er-api.com/v6/latest/USD",
  "base_currency": "USD",
  "rates": {
    "CNY": 6.851699,
    "JPY": 159.462711
  },
  "交叉汇率计算": {
    "公式": "1 CNY = JPY / CNY",
    "CNY_to_JPY": 23.2728,
    "计算过程": "159.462711 ÷ 6.851699 = 23.2728"
  },
  "上周参考值": {
    "1 CNY 参考 JPY": 20.45
  },
  "比较结果": {
    "变动值": 2.8228,
    "变动百分比": "+13.80%",
    "计算公式": "(23.2728 - 20.45) / 20.45 × 100% = +13.80%"
  },
  "最终判断": {
    "超过2%阈值": true,
    "结论": "CNY 兑 JPY 大幅升值,变动幅度 13.80%,超过 2% 告警阈值,已写入告警文件。"
  }
}
产物文件 (2)

output/forex-alert.txt

===== 外汇汇率告警 =====

时间: 2026-04-27 00:02:32 UTC
数据源: open.er-api.com

观测汇率:
  USD/CNY = 6.8517
  USD/JPY = 159.4627

交叉汇率:
  1 CNY = 159.4627 / 6.8517 = 23.27 JPY

上周参考: 1 CNY = 20.45 JPY
当前:     1 CNY = 23.27 JPY
变动幅度: +13.80%

判断: 变动幅度超过 2% 阈值(+13.80% > 2%),触发告警。

========================

output/forex-result.json

{
  "观测时间": "2026-04-27T00:02:32Z",
  "数据源": "https://open.er-api.com/v6/latest/USD",
  "base_currency": "USD",
  "rates": {
    "CNY": 6.851699,
    "JPY": 159.462711
  },
  "交叉汇率计算": {
    "公式": "1 CNY = JPY / CNY",
    "CNY_to_JPY": 23.2728,
    "计算过程": "159.462711 ÷ 6.851699 = 23.2728"
  },
  "上周参考值": {
    "1 CNY 参考 JPY": 20.45
  },
  "比较结果": {
    "变动值": 2.8228,
    "变动百分比": "+13.80%",
    "计算公式": "(23.2728 - 20.45) / 20.45 × 100% = +13.80%"
  },
  "最终判断": {
    "超过2%阈值": true,
    "结论": "CNY 兑 JPY 大幅升值,变动幅度 13.80%,超过 2% 告警阈值,已写入告警文件。"
  }
}

汇率监控与告警 · Kimi K2.6 失败

opencode · opencode · 315.04s · - 令牌
0/100
评分明细
完成度
运行未完成。
0/30
产物文件
没有生成产物文件。
0/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
没有捕获执行步骤。
0/15
耗时
完成前超时。
0/10
执行链路
开始
opencode · moonshotai/kimi-k2.6
错误
opencode 在生成最终回复或产物前超时。

汇率监控与告警 · Kimi K2.5 失败

opencode · opencode · 315.04s · - 令牌
0/100
评分明细
完成度
运行未完成。
0/30
产物文件
没有生成产物文件。
0/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
没有捕获执行步骤。
0/15
耗时
完成前超时。
0/10
执行链路
开始
opencode · moonshotai/kimi-k2.5
错误
opencode 在生成最终回复或产物前超时。

汇率监控与告警 · MiniMax M2.5 失败

opencode · opencode · 315.03s · - 令牌
0/100
评分明细
完成度
运行未完成。
0/30
产物文件
没有生成产物文件。
0/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
没有捕获执行步骤。
0/15
耗时
完成前超时。
0/10
执行链路
开始
opencode · minimax/minimax-m2.5
错误
opencode 在生成最终回复或产物前超时。

多城市天气告警 · DeepSeek V4 Flash 失败

opencode · opencode · 315.03s · - 令牌
0/100
评分明细
完成度
运行未完成。
0/30
产物文件
没有生成产物文件。
0/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
没有捕获执行步骤。
0/15
耗时
完成前超时。
0/10
执行链路
开始
opencode · deepseek-v4-flash
错误
opencode 在生成最终回复或产物前超时。

多城市天气告警 · DeepSeek V4 Pro 失败

opencode · opencode · 315.02s · - 令牌
0/100
评分明细
完成度
运行未完成。
0/30
产物文件
没有生成产物文件。
0/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
没有捕获执行步骤。
0/15
耗时
完成前超时。
0/10
执行链路
开始
opencode · deepseek-v4-pro
错误
opencode 在生成最终回复或产物前超时。

多城市天气告警 · Kimi K2.6 失败

opencode · opencode · 315.03s · - 令牌
0/100
评分明细
完成度
运行未完成。
0/30
产物文件
没有生成产物文件。
0/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
没有捕获执行步骤。
0/15
耗时
完成前超时。
0/10
执行链路
开始
opencode · moonshotai/kimi-k2.6
错误
opencode 在生成最终回复或产物前超时。

多城市天气告警 · Kimi K2.5 失败

opencode · opencode · 315.02s · - 令牌
0/100
评分明细
完成度
运行未完成。
0/30
产物文件
没有生成产物文件。
0/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
没有捕获执行步骤。
0/15
耗时
完成前超时。
0/10
执行链路
开始
opencode · moonshotai/kimi-k2.5
错误
opencode 在生成最终回复或产物前超时。

多城市天气告警 · MiniMax M2.5 失败

opencode · opencode · 315.03s · - 令牌
0/100
评分明细
完成度
运行未完成。
0/30
产物文件
没有生成产物文件。
0/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
没有捕获执行步骤。
0/15
耗时
完成前超时。
0/10
执行链路
开始
opencode · minimax/minimax-m2.5
错误
opencode 在生成最终回复或产物前超时。

市场简报 · DeepSeek V4 Flash 失败

opencode · opencode · 315.03s · - 令牌
0/100
评分明细
完成度
运行未完成。
0/30
产物文件
没有生成产物文件。
0/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
没有捕获执行步骤。
0/15
耗时
完成前超时。
0/10
执行链路
开始
opencode · deepseek-v4-flash
错误
opencode 在生成最终回复或产物前超时。

市场简报 · DeepSeek V4 Pro 成功

opencode · opencode · 315.02s · - 令牌
59/100
评分明细
完成度
运行完成,并按要求打印 DONE。
30/30
产物文件
已生成 1 个产物文件。
18/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
链路只包含最终回复。
10/15
耗时
超过 4 分钟后完成。
1/10
执行链路
开始
opencode · deepseek-v4-pro
最终回复 · 315.02s
DONE
产物文件:output/market-brief.txt
【中国经济市场简报】2026年4月27日

2025年中国GDP增长超预期,但消费复苏依然偏弱,内外"温差"明显。IMF指出中国增长模式面临挑战,需向消费驱动转型。房地产行业持续低迷,政府加码稳定措施。人民币兑美元近期维持在6.85附近,兑欧元约8.01。北京已公布"十五五"规划方向,聚焦科技创新与内需扩大。整体来看,中国经济处于结构调整关键期,政策面持续发力稳增长。

【关键数据】
USD/CNY = 6.85
EUR/CNY = 8.01
产物文件 (1)

output/market-brief.txt

【中国经济市场简报】2026年4月27日

2025年中国GDP增长超预期,但消费复苏依然偏弱,内外"温差"明显。IMF指出中国增长模式面临挑战,需向消费驱动转型。房地产行业持续低迷,政府加码稳定措施。人民币兑美元近期维持在6.85附近,兑欧元约8.01。北京已公布"十五五"规划方向,聚焦科技创新与内需扩大。整体来看,中国经济处于结构调整关键期,政策面持续发力稳增长。

【关键数据】
USD/CNY = 6.85
EUR/CNY = 8.01

市场简报 · Kimi K2.6 失败

opencode · opencode · 315.03s · - 令牌
0/100
评分明细
完成度
运行未完成。
0/30
产物文件
没有生成产物文件。
0/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
没有捕获执行步骤。
0/15
耗时
完成前超时。
0/10
执行链路
开始
opencode · moonshotai/kimi-k2.6
错误
opencode 在生成最终回复或产物前超时。

市场简报 · Kimi K2.5 失败

opencode · opencode · 315.02s · - 令牌
0/100
评分明细
完成度
运行未完成。
0/30
产物文件
没有生成产物文件。
0/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
没有捕获执行步骤。
0/15
耗时
完成前超时。
0/10
执行链路
开始
opencode · moonshotai/kimi-k2.5
错误
opencode 在生成最终回复或产物前超时。

市场简报 · MiniMax M2.5 成功

opencode · opencode · 315.04s · - 令牌
59/100
评分明细
完成度
运行完成,并按要求打印 DONE。
30/30
产物文件
已生成 1 个产物文件。
18/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
链路只包含最终回复。
10/15
耗时
超过 4 分钟后完成。
1/10
执行链路
开始
opencode · minimax/minimax-m2.5
最终回复 · 315.04s
DONE
产物文件:output/market-brief.txt
2026年4月27日市场简报

【宏观】一季度中国GDP同比增长5.0%,经济实现良好开局。生产供给增长加快,市场需求继续改善,就业形势总体稳定。一季度进出口总额11.84万亿元,同比增长15%,季度增速创近5年最高。

【行业】装备制造业增加值同比增长8.9%,高技术制造业增长12.5%。绿色产品出口强劲,电动汽车增长77.5%,锂电池增长50.4%。

【汇率】USD/CNY: 6.8177,EUR/CNY: 8.0398。

【展望】政策持续发力,财政货币配合扩大内需,经济稳中向好态势有望延续。
产物文件 (1)

output/market-brief.txt

2026年4月27日市场简报

【宏观】一季度中国GDP同比增长5.0%,经济实现良好开局。生产供给增长加快,市场需求继续改善,就业形势总体稳定。一季度进出口总额11.84万亿元,同比增长15%,季度增速创近5年最高。

【行业】装备制造业增加值同比增长8.9%,高技术制造业增长12.5%。绿色产品出口强劲,电动汽车增长77.5%,锂电池增长50.4%。

【汇率】USD/CNY: 6.8177,EUR/CNY: 8.0398。

【展望】政策持续发力,财政货币配合扩大内需,经济稳中向好态势有望延续。