应使用workbookfactory.create(inputstream)自动识别.xls/.xlsx格式;索引从0开始,空单元格需用missingcellpolicy处理;大文件用streamingreader或sax解析;中文、日期、公式需分别配置编码、样式和formulaevaluator。

读取 .xls 和 .xlsx 文件要用不同类,别混用
Apache POI 对两种格式的底层处理完全不同:HSSFWorkbook 专用于旧版二进制 .xls,XSSFWorkbook 用于新版 XML 格式 .xlsx。直接拿 XSSFWorkbook 去读 .xls 文件会抛出 InvalidFormatException;反过来用 HSSFWorkbook 读 .xlsx 则报 OfficeXmlFileException。
实操建议:
立即学习“Java免费学习笔记(深入)”;
- 优先用
WorkbookFactory.create(InputStream)—— 它自动识别格式,返回Workbook接口实例,不用手动判断 - 如果必须显式指定,检查文件扩展名或魔数(如
InputStream.mark(8); InputStream.read())再选类 -
.xlsb、.xlsm等变体也得走XSSFWorkbook,但需确保依赖了poi-ooxml模块
Sheet 和 Row 的索引从 0 开始,但 Excel 界面显示从 1
这是新手最常踩的坑:调用 sheet.getRow(1) 拿到的是 Excel 里第 2 行(即界面显示的“第2行”),不是标题行。如果表头在第1行,实际要取 getRow(0)。
实操建议:
立即学习“Java免费学习笔记(深入)”;
- 遍历
sheet时用sheet.getFirstRowNum()和sheet.getLastRowNum(),别硬写0或1000 -
row.getCell(0)可能返回null(空单元格未创建),要用row.getCell(0, Row.MissingCellPolicy.CREATE_NULL_AS_BLANK)避免 NPE - 数值型单元格默认读出来是
double,比如 “123” 会变成123.0,需用cell.getNumericCellValue()+ 类型判断转成整型或字符串
内存占用大?用 StreamingReader 或 SAX 模式读大文件
默认的 XSSFWorkbook 把整个 .xlsx 解压进内存,10MB 文件可能吃掉 500MB 堆空间。5万行以上就容易 OutOfMemoryError。
实操建议:
立即学习“Java免费学习笔记(深入)”;
- 对只读场景,用
org.apache.poi.ss.usermodel.StreamingReader(需额外引入poi-scratchpad)—— 支持逐行流式读,内存稳定在几 MB - 超大数据(百万行+),直接上
OPCPackage+XSSFReader+ SAX 解析,跳过Workbook层,但要自己解析 XML 结构 -
.xls大文件没流式方案,只能分批读(如每次读 1000 行)+ 及时row.dispose()
中文乱码、日期错乱、公式不计算?看这三处配置
POI 默认不处理编码和样式上下文,很多“读出来不对”其实不是 bug,是没设对参数。
实操建议:
立即学习“Java免费学习笔记(深入)”;
- 中文乱码:确保文件本身是 UTF-8 或 GBK 编码(Excel 保存时选“另存为 → 工具 → Web 选项 → 编码”),POI 不负责解码文本内容,它只是原样读取字符串
- 日期错乱:调用
cell.getDateCellValue()前先cell.getCellStyle().getDataFormatString()确认是否真为日期类型;否则可能被当成数字(Excel 内部用浮点数存日期) - 公式不计算:默认只读公式字符串(如
"=SUM(A1:A10)"),要结果得用FormulaEvaluator,且注意XSSFFormulaEvaluator必须绑定到XSSFWorkbook实例
复杂点在于:同一个 Excel 文件里可能混合文本、数字、日期、布尔、错误值五种单元格类型,cell.getCellType() 在新版本已弃用,必须用 cell.getType() + switch 分支处理,漏一种就可能崩。










