ds4eval - Agent Harness 评测报告

Agent 实测报告

DeepSeek V4 Pro

企业多文档综合分析 · DeepSeek V4 Pro

opencode · opencode · 315.04s · - 令牌

失败

1/100

失败归因：运行超时影响：本次结果不能用于模型能力结论，只能作为 runner 稳定性证据。下一步：先缩小场景或提高 RUN_TIMEOUT_MS，再用同一模型复跑 smoke。HARNESSES=opencode ONLY=deepseek-v4-pro npm run generate

评分明细

完成度

运行未完成。

0/30

产物文件

没有生成产物文件。

0/25

JSON 有效性

没有生成 JSON 产物。

0/20

链路质量

没有捕获执行步骤。

0/15

耗时

超过 4 分钟后完成。

1/10

执行链路

始

开始

opencode · deepseek-v4-pro

错

错误

opencode failed: Command failed: powershell.exe -NoProfile -ExecutionPolicy Bypass -Command $ErrorActionPreference = 'Stop'
$opencodeArgs = [string[]]@('run', '--pure', '--format', 'json', '-m', $env:DS4EVAL_OPENCODE_MODEL, '--dangerously-skip-permissions', $env:DS4EVAL_OPENCODE_PROMPT)
$workdir = $env:DS4EVAL_OPENCODE_CWD
Set-Location -LiteralPath $workdir
& opencode.cmd @opencodeArgs
exit $LASTEXITCODE

#	模型	评分	成功率	耗时
1	deepseek-v4-pro DeepSeek V4 Pro	1.0	0%	315.04s

模型

评分

成功率

耗时

deepseek-v4-pro

DeepSeek V4 Pro

1.0

315.04s

模型	企业多文档综合分析 opencode
deepseek-v4-pro DeepSeek V4 Pro	1 失败

模型

企业多文档综合分析

opencode

deepseek-v4-pro

DeepSeek V4 Pro

失败

ds4eval - Agent Harness 评测报告

评测健康概览

阻塞项与下一步

Agent 实测报告

DeepSeek V4 Pro

企业多文档综合分析 · DeepSeek V4 Pro

模型排行

评分热力图