java 读取word 表格,实战 | JAVA读取WORD,包含表格。

业务需求

我们有这样一个需求,需要抽取出WORD文档中的内容,然后组装成特定的json格式发送给第三方引擎接口,输入协议如下:

{

"tables": [

{

"cells": [

{

"col": 1,

"row_span": 1,

"row": 1,

"col_span": 1,

"content": "车辆名称"

}

],

"id": 0,

"row_num": 2

}

],

"paragraps": [

{

"para_id": 1,

"content": "Hello,JAVA日知录"

}

]

}

这个输入格式一看就是需要我们分段落和表格读取word中的内容,既然需求已定,那就直接开始动手写代码吧。

基于POI实现

把 “java如何读取word” 拿到百度去搜索,答案基本都是利用POI来实现。当然利用POI确实可以实现按段落和表格提取出内容并组装成上述格式,但是在实践过程中有下面2个问题:

需要分别处理两种格式docx、doc

POI使用不同的API来读取docx和doc,所以读取逻辑我们需要编写两次。

POI读取doc的段落时会把表格

你可能感兴趣的:(java,读取word,表格)