ds4eval
评分版本 score-v1-static-heuristicreport.json

企业多文档综合分析

读取 5 份企业内部文档,交叉分析风险链条、项目评估、产品健康度

case 637c48c3d2eb1 次运行
测试任务
读取 5 份企业内部文档,交叉分析风险链条、万科项目、A/B/C/D 产品线健康度和 Q2 建议。

评分标准:文档读取完整性 / 风险链条深度 / 万科项目交叉证据 / 产品线评分依据 / 战略建议质量 / 结构化产物质量

评分热力图

模型企业多文档综合分析
opencode
deepseek-v4-pro
DeepSeek V4 Pro
1
失败

执行详情

企业多文档综合分析 · DeepSeek V4 Pro

opencode · opencode · 315.04s · - 令牌
失败
1/100
失败归因:运行超时影响:本次结果不能用于模型能力结论,只能作为 runner 稳定性证据。下一步:先缩小场景或提高 RUN_TIMEOUT_MS,再用同一模型复跑 smoke。HARNESSES=opencode ONLY=deepseek-v4-pro npm run generate
评分明细
完成度
运行未完成。
0/30
产物文件
没有生成产物文件。
0/25
JSON 有效性
没有生成 JSON 产物。
0/20
链路质量
没有捕获执行步骤。
0/15
耗时
超过 4 分钟后完成。
1/10
执行链路
开始
opencode · deepseek-v4-pro
错误
opencode failed: Command failed: powershell.exe -NoProfile -ExecutionPolicy Bypass -Command $ErrorActionPreference = 'Stop'
$opencodeArgs = [string[]]@('run', '--pure', '--format', 'json', '-m', $env:DS4EVAL_OPENCODE_MODEL, '--dangerously-skip-permissions', $env:DS4EVAL_OPENCODE_PROMPT)
$workdir = $env:DS4EVAL_OPENCODE_CWD
Set-Location -LiteralPath $workdir
& opencode.cmd @opencodeArgs
exit $LASTEXITCODE