使用QwenLong1.5复现技术报告测试结果时发现,longbenchv1 QA这部分与技术报告相差20个点,有大佬遇到相似的情况吗? <img width="604" height="211" alt="Image" src="https://github.com/user-attachments/assets/d3b02b70-6dba-45f7-a793-9072e1c3f3ec" />
使用QwenLong1.5复现技术报告测试结果时发现,longbenchv1 QA这部分与技术报告相差20个点,有大佬遇到相似的情况吗?