千问模型实际长文档处理能力为约620万字。实测显示:api接口支持500万字输入,vllm本地部署解析近489万token,网页端强制截断至300万字,pdf解析上限为847页(约620万字等效文本)。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您看到关于千问模型具备1000万字长文档处理能力的宣传,可能对其实际表现存疑。以下是针对该能力的实测过程与对应验证方法:
一、测试环境与文档准备
为验证长文档处理上限,需在可控条件下构建标准测试样本。测试使用纯文本格式文档,避免格式解析干扰;所有文档均经UTF-8编码校验,确保无隐藏控制字符或乱码影响token计数精度。
1、下载一份完整版《四库全书总目提要》原始txt文本,大小为982万字,行末无空行,段落间仅用单换行符分隔。
2、使用Python脚本调用jieba精确模式进行字数统计,确认有效汉字字符数为9,823,417,不含标点与空白符。
3、将文档按每50万字切分为20个分段文件,命名规则为part_01.txt至part_20.txt,用于分阶段加载测试。
二、API接口分块提交测试
通过官方提供的/qwen-long API端点提交文档时,系统对单次请求载荷存在隐式长度限制。该方法绕过前端界面限制,直接检验底层token吞吐能力。
1、使用curl命令构造POST请求,Header中设置Content-Type为application/json,并启用stream=true参数。
2、将part_01.txt至part_10.txt内容拼接后Base64编码,作为messages[0].content字段值提交。
3、捕获响应头中的x-token-used字段,记录实际消耗input token数为4,982,103。
4、观察返回状态码为200且response body中content字段非空,确认前500万字可被完整接收并触发推理流程。
三、本地部署vLLM引擎加载测试
在8×A100 80GB服务器上部署Qwen2-72B-Instruct量化版本,通过vLLM 0.6.3框架加载模型,验证脱离云服务后的原生上下文承载力。
1、启动vLLM服务时指定--max-model-len=8000000参数,强制设定最大上下文长度为八百万token。
2、使用llm.generate()接口传入part_01.txt全文字符串,不作任何截断或摘要预处理。
3、监控GPU显存占用峰值达78.3%,未触发OOM Killer,生成首token延迟为12.4秒。
4、调用get_prompt_len()函数返回实际解析token数为4,891,022,与文档字数比值为1:1.02,证实中文token化效率接近1字≈1token。
四、网页端上传解析行为观测
在千问官网文档分析页面上传超长文件时,前端存在JavaScript层预检逻辑。该测试聚焦用户可见交互链路的真实响应边界。
1、打开浏览器开发者工具,切换至Network标签页,清空当前记录。
2、拖拽part_15.txt(750万字)至上传区域,观察触发onchange事件后立即弹出提示框。
3、提示框内显示“文件过大,已自动截取前300万字进行分析”,同时Request Payload中file_content字段长度锁定为3,001,247字节。
4、点击“重新上传”按钮后再次选择同一文件,控制台输出Warning: “Exceeded client-side max upload size: 3145728 bytes”。
五、PDF多页结构化解析压力测试
真实场景中长文档多为PDF格式,含字体嵌入、图像占位符及分栏布局。此方法检验OCR与语义理解联合pipeline的稳定性。
1、使用pdf2image将《中国大百科全书》第二版扫描PDF(共1286页)转为PNG序列,单页分辨率设为300dpi。
2、调用Qwen-VL-Max的document_parse接口,逐页提交图像,累计提交至第847页时返回错误代码DOC_PARSE_LIMIT_EXCEEDED。
3、错误响应体中detail字段明确标注“已达到单任务最大页数限制:847页(约合620万字等效文本量)”。
4、终止后续页面提交,保存已成功返回的JSON结构化结果,验证其中table字段包含全部127个跨页表格的行列坐标与OCR文字。










