ds4eval
评分版本 score-v1-static-heuristicreport.json

评测健康概览

不可用于模型结论
本轮结论:不可用于模型结论
当前没有成功运行,只能用于诊断 runner 或环境问题。
成功率0%
产物完成率0%
JSON 产物率0%
链路捕获率0%

阻塞项与下一步

1 failed / 1 runs
运行超时1
先缩小场景或提高 RUN_TIMEOUT_MS,再用同一模型复跑 smoke。
建议命令
$env:RUN_TIMEOUT_MS="600000"
$env:HARNESSES="opencode"
$env:ONLY="deepseek-v4-pro"
$env:SCENARIOS="enterprise-doc-analysis"
npm run generate
平均评分1.0score-v1
成功运行0/10%
失败运行1查看失败归因
平均耗时315.04sharness runtime

Agent 实测报告

对比

DeepSeek V4 Pro

企业多文档综合分析 · DeepSeek V4 Pro

opencode · opencode · 315.04s · - 令牌
失败
1/100
失败归因:运行超时影响:本次结果不能用于模型能力结论,只能作为 runner 稳定性证据。下一步:先缩小场景或提高 RUN_TIMEOUT_MS,再用同一模型复跑 smoke。HARNESSES=opencode ONLY=deepseek-v4-pro npm run generate
评分明细
完成度
运行未完成。
0/30
产物文件
没有生成产物文件。
0/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
没有捕获执行步骤。
0/15
耗时
超过 4 分钟后完成。
1/10
执行链路
开始
opencode · deepseek-v4-pro
错误
opencode failed: Command failed: powershell.exe -NoProfile -ExecutionPolicy Bypass -Command $ErrorActionPreference = 'Stop'
$opencodeArgs = [string[]]@('run', '--pure', '--format', 'json', '-m', $env:DS4EVAL_OPENCODE_MODEL, '--dangerously-skip-permissions', $env:DS4EVAL_OPENCODE_PROMPT)
$workdir = $env:DS4EVAL_OPENCODE_CWD
Set-Location -LiteralPath $workdir
& opencode.cmd @opencodeArgs
exit $LASTEXITCODE

模型排行

#模型评分成功率耗时
1deepseek-v4-pro
DeepSeek V4 Pro
1.00%315.04s

评分热力图

模型企业多文档综合分析
opencode
deepseek-v4-pro
DeepSeek V4 Pro
1
失败