百万级数据的导出解决方案

一、传统POI的的版本优缺点比较

首先我们知道POI中我们最熟悉的莫过于WorkBook这样一个接口,我们的POI版本也在更新的同时对这个几口的实现类做了更新;
HSSFWorkbook :
这个实现类是我们早期使用最多的对象,它可以操作Excel2003以前(包含2003)的所有Excel版本。在2003以前Excel的版本后缀还是.xls
XSSFWorkbook :
这个实现类现在在很多公司都可以发现还在使用,它是操作的Excel2003--Excel2007之间的版本,Excel的扩展名是.xlsx
SXSSFWorkbook :
这个实现类是POI3.8之后的版本才有的,它可以操作Excel2007以后的所有版本Excel,扩展名是.xlsx
  1. HSSFWorkbook

它是POI版本中最常用的方式,不过:
它的缺点是 最多只能导出 65535行,也就是导出的数据函数超过这个数据就会报错;
它的优点是 不会报内存溢出。(因为数据量还不到7w所以内存一般都够用,首先你得明确知道这种方式是将数据先读取到内存中,然后再操作)
  1. XSSFWorkbook

优点:这种形式的出现是为了突破HSSFWorkbook的65535行局限,是为了针对Excel2007版本的1048576行,16384列,最多可以导出104w条数据;
缺点:伴随的问题来了,虽然导出数据行数增加了好多倍,但是随之而来的内存溢出问题也成了噩梦。因为你所创建的book,Sheet,row,cell等在写入到Excel之前,都是存放在内存中的(这还没有算Excel的一些样式格式等等),可想而知,内存不溢出就有点不科学了!!!
  1. SXSSFWorkbook

从POI 3.8版本开始,提供了一种基于XSSF的低内存占用的SXSSF方式;
优点:
这种方式不会一般不会出现内存溢出(它使用了硬盘来换取内存空间,
也就是当内存中数据达到一定程度这些数据会被持久化到硬盘中存储起来,而内存中存的都是最新的数据),
并且支持大型Excel文件的创建(存储百万条数据绰绰有余)。
缺点:
既然一部分数据持久化到了硬盘中,且不能被查看和访问那么就会导致,
在同一时间点我们只能访问一定数量的数据,也就是内存中存储的数据;
sheet.clone()方法将不再支持,还是因为持久化的原因;
不再支持对公式的求值,还是因为持久化的原因,在硬盘中的数据没法读取到内存中进行计算;
在使用模板方式下载数据的时候,不能改动表头,还是因为持久化的问题,写到了硬盘里就不能改变了;

二、 适用场景

经过了解也知道了这三种Workbook的优点和缺点,那么具体使用哪种方式还是需要看情况的:
我一般会根据这样几种情况做分析选择:
  1. 当我们经常导入导出的数据不超过7w的情况下,可以使用 HSSFWorkbook 或者 XSSFWorkbook都行;

  1. 当数据量查过7w并且导出的Excel中不牵扯对Excel的样式,公式,格式等操作的情况下,推荐使用SXSSFWorkbook;

  1. 当数据量查过7w,并且我们需要操做Excel中的表头,样式,公式等,这时候我们可以使用 XSSFWorkbook 配合进行分批查询,分批写入Excel的方式来做;

三、百万数据导入导出

想要解决问题我们首先要明白自己遇到的问题是什么?
​ 1、 我遇到的数据量超级大,使用传统的POI方式来完成导入导出很明显会内存溢出,并且效率会非常低;
​ 2、 数据量大直接使用select * from tableName肯定不行,一下子查出来300w条数据肯定会很慢;
​ 3、 300w 数据导出到Excel时肯定不能都写在一个Sheet中,这样效率会非常低;估计打开都得几分钟;
​ 4、 300w数据导出到Excel中肯定不能一行一行的导出到Excel中。频繁IO操作绝对不行;
​ 5、 导入时300万数据存储到DB如果循环一条条插入也肯定不行;
​ 6、导入时300w数据如果使用Mybatis的批量插入肯定不行,因为Mybatis的批量插入其实就是SQL
的循环;一样很慢。
7、也可采用流式查询
解决思路:
​ 针对1 :
​ 其实问题所在就是内存溢出,我们只要使用对上面介绍的POI方式即可,主要问题就是原生的POI解决起来相当麻烦。
​ 经过查阅资料翻看到阿里的一款POI封装工具EasyExcel,上面问题等到解决;
​ 针对2:
​ 不能一次性查询出全部数据,我们可以分批进行查询,只不过时多查询几次的问题,况且市面上分页插件很多。此问题好解决。
​ 针对3:
​ 可以将300w条数据写到不同的Sheet中,每一个Sheet写一百万即可。
​ 针对4:
​ 不能一行一行的写入到Excel上,我们可以将分批查询的数据分批写入到Excel中。
​ 针对5:
​ 导入到DB时我们可以将Excel中读取的数据存储到集合中,到了一定数量,直接批量插入到DB中。
​ 针对6:
​ 不能使用Mybatis的批量插入,我们可以使用JDBC的批量插入,配合事务来完成批量插入到DB。即 Excel读取分批+JDBC分批插入+事务。

EasyExcelUtil

import com.alibaba.excel.ExcelWriter;
import com.alibaba.excel.support.ExcelTypeEnum;
import com.alibaba.excel.write.metadata.WriteSheet;
import com.alibaba.excel.write.metadata.WriteTable;
import com.alibaba.excel.write.metadata.WriteWorkbook;
import com.hlframe.modules.frame.dao.JdVaccineApplyDao;
import com.hlframe.modules.frame.entity.ExcelConstants;
import com.hlframe.modules.frame.entity.JdVaccineApply;
import com.hlframe.modules.frame.service.JdVaccineApplyService;
import com.hlframe.modules.frame.template.JdVaccineApplyExport;
import lombok.extern.slf4j.Slf4j;
import org.springframework.stereotype.Component;
import org.springframework.stereotype.Service;
import javax.annotation.Resource;
import javax.servlet.http.HttpServletResponse;
import java.io.IOException;
import java.io.OutputStream;
import java.io.UnsupportedEncodingException;
import java.net.URLEncoder;
import java.nio.charset.StandardCharsets;
import java.util.ArrayList;
import java.util.Collections;
import java.util.List;

@Slf4j
@Component
@Service
public class EasyExcelUtil {
    @Resource
    private JdVaccineApplyService service;
    @Resource
    private JdVaccineApplyDao dao;
//300w数据的导出解决思路:

/**
1、 首先在查询数据库层面,需要分批进行查询(我使用的是每次查询20w)
2、 每查询一次结束,就使用EasyExcel工具将这些数据写入一次;
3、 当一个Sheet写满了100w条数据,开始将查询的数据写入到另一个Sheet中;
4、 如此循环直到数据全部导出到Excel完毕。
注意:
    1 我们需要计算Sheet个数,以及循环写入次数。特别是最后一个Sheet的写入次数
    (因为你不知道最后一个Sheet选哟写入多少数据,可能是100w,也可能是25w因为我们这里的300w只是模拟数据,
    有可能导出的数据比300w多也可能少)
    2 我们需要计算写入次数,因为我们使用的分页查询,所以需要注意写入的次数。(其实查询数据库多少次就是写入多少次)
*/
    public void dataExport300w(HttpServletResponse response, JdVaccineApply jdVaccineApply) {

        JdVaccineApply jdParam = service.getparameter(jdVaccineApply);
        OutputStream outputStream = null;
        try {
            long startTime = System.currentTimeMillis();
            log.info("导出开始时间:{}", startTime);
            outputStream = response.getOutputStream();
            WriteWorkbook writeWorkbook = new WriteWorkbook();
            writeWorkbook.setOutputStream(outputStream);
            writeWorkbook.setExcelType(ExcelTypeEnum.XLSX);
            ExcelWriter writer = new ExcelWriter(writeWorkbook);
            String fileName = new String(("预约疫苗接种信息").getBytes(), StandardCharsets.UTF_8);

            // TODO WriteTable 标题这块可以作为公共的封装起来:通过反射获取变量上注解等
            Class clazz = JdVaccineApplyExport.class;
            Field[] fields = clazz.getDeclaredFields();
            WriteTable table = new WriteTable();

            List> titles = new ArrayList>();

            for(Field field: fields){
                if(field.isAnnotationPresent(ExcelProperty.class)){
                    ExcelProperty excelProperty = field.getAnnotation(ExcelProperty.class);
                    titles.add(Collections.singletonList(excelProperty.value()[0]));
                }
            }

            table.setHead(titles);


            // 记录总数:实际中需要根据查询条件(过滤数据)进行统计即可,
            // TODO 此处写入限定的条数进行自测
            Integer totalCount = dao.findListExportNum(jdParam);
//            Integer totalCount = 20 * 10000;
            // 每一个Sheet存放100w条数据
            Integer sheetDataRows = ExcelConstants.PER_SHEET_ROW_COUNT;
            // 每次写入的数据量20w
            Integer writeDataRows = ExcelConstants.PER_WRITE_ROW_COUNT;
            // 计算需要的Sheet数量
            int sheetNum = totalCount % sheetDataRows == 0 ? (totalCount / sheetDataRows) : (totalCount / sheetDataRows + 1);
            // 计算一般情况下每一个Sheet需要写入的次数(一般情况不包含最后一个sheet,因为最后一个sheet不确定会写入多少条数据)
            int oneSheetWriteCount = totalCount > sheetDataRows ? sheetDataRows / writeDataRows : totalCount % writeDataRows > 0 ? totalCount / writeDataRows + 1 : totalCount / writeDataRows;
            // 计算最后一个sheet需要写入的次数
            int lastSheetWriteCount = totalCount % sheetDataRows == 0 ? oneSheetWriteCount : (totalCount % sheetDataRows % writeDataRows == 0 ? (totalCount / sheetDataRows / writeDataRows) : (totalCount / sheetDataRows / writeDataRows + 1));

            // 开始分批查询分次写入
            // 注意这次的循环就需要进行嵌套循环了,外层循环是Sheet数目,内层循环是写入次数
            List dataList = new ArrayList<>();
            for (int i = 0; i < sheetNum; i++) {
                //创建Sheet
                WriteSheet sheet = new WriteSheet();
                sheet.setSheetNo(i);
                sheet.setSheetName(fileName + (i+1));
                // 循环写入次数: j的自增条件是当不是最后一个Sheet的时候写入次数为正常的每个Sheet写入的次数,如果是最后一个就需要使用计算的次数lastSheetWriteCount
                for (int j = 0; j < (i != sheetNum - 1 || i==0 ? oneSheetWriteCount : lastSheetWriteCount); j++) {
                    // 集合复用,便于GC清理
                    dataList.clear();

                    Integer page = j + 1 + oneSheetWriteCount * i;
                            // 业务逻辑
                            //分页查询一次20w
                            dataList = dao.findListExport(jdParam,(page - 1) * writeDataRows,writeDataRows);
                            // 写数据
                            if (dataList.size()>0){
                                writer.write(dataList,sheet,table);
                            }
                }

            }

            // 下载EXCEL 以下代码可以作为公共的进行封装.
            setExcelRespProp(response, fileName);
            writer.finish();
            outputStream.flush();
            // 导出时间结束
            long endTime = System.currentTimeMillis();
            log.info("导出结束时间:{}", endTime + "ms");
            log.info("导出所用时间:{}", (endTime - startTime) / 1000 + "秒");
        } catch (IOException e) {
            e.printStackTrace();
        }
        finally {
            if (outputStream != null) {
                try {
                    outputStream.close();
                } catch (Exception e) {
                    e.printStackTrace();
                }
            }
        }
    }

    /**
     * 设置excel下载响应头属性
     */
    public static void setExcelRespProp(HttpServletResponse response, String rawFileName){
        response.setCharacterEncoding("utf-8");
        response.setContentType("application/vnd.ms-excel");
        response.setCharacterEncoding("utf-8");
        // 这里URLEncoder.encode可以防止中文乱码
        String fileName = null;
        try {
            fileName = URLEncoder.encode(rawFileName, "UTF-8").replaceAll("\\+", "%20");
        } catch (UnsupportedEncodingException e) {
            log.error("设置excel下载响应头属性,失败 {}",e.getMessage());
        }
        response.setHeader("Content-disposition", "attachment;filename*=utf-8''" + fileName + ".xlsx");

    }


}

ExcelConstants 导出分批规则变量定义

/**
 * 导出分批规则变量定义
 */
public class ExcelConstants {
    public static final Integer PER_SHEET_ROW_COUNT = 100*10000;
    public static final Integer PER_WRITE_ROW_COUNT = 26*10000;
    public static final Integer GENERAL_ONCE_SAVE_TO_DB_ROWS_JDBC = 10*10000;
    public static final Integer GENERAL_ONCE_SAVE_TO_DB_ROWS_MYBATIS = 5*10000;
}

控制层接口

    @GetMapping(value = "/downloadVaccineData")
    @ApiOperation(value="导出预约列表信息",notes="导出预约列表信息",response = String.class)
    @ApiImplicitParams({
            @ApiImplicitParam(name="name",value="姓名", dataType="string", required = false, paramType="form"),
            @ApiImplicitParam(name="sex",value="性别(0:保密,1:男,2:女)", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="idCard",value="身份证号", dataType="string", required = false, paramType="form"),
            @ApiImplicitParam(name="birthday",value="出生日期", dataType="long", required = false, paramType="form"),
            @ApiImplicitParam(name="isChina",value="是否中国籍", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="mobile",value="手机号", dataType="string", required = false, paramType="form"),
            @ApiImplicitParam(name="crowdClassify",value="人群分类", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="streetId",value="街道ID", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="villageId",value="村社ID", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="street",value="街道", dataType="string", required = false, paramType="form"),
            @ApiImplicitParam(name="village",value="村社", dataType="string", required = false, paramType="form"),
            @ApiImplicitParam(name="address",value="地址", dataType="string", required = false, paramType="form"),
            @ApiImplicitParam(name="addressCode",value="现住址编码", dataType="string", required = false, paramType="form"),
            @ApiImplicitParam(name="company",value="工作单位/就读学校", dataType="string", required = false, paramType="form"),
            @ApiImplicitParam(name="inoculateHospitalOne",value="第一次接种医院", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="inoculateHospitalTwo",value="第二次接种医院", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="inoculateHospitalThree",value="第三次接种医院", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="inoculateTimeOne",value="第一次接种时间", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="inoculateTimeTwo",value="第二次接种时间", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="inoculateTimeThree",value="第三次接种时间", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="inoculateHospitalOtherOne",value="第一次接种医院(其他)", dataType="string", required = false, paramType="form"),
            @ApiImplicitParam(name="inoculateHospitalOtherTwo",value="第二次接种医院(其他)", dataType="string", required = false, paramType="form"),
            @ApiImplicitParam(name="inoculateHospitalOtherThree",value="第三次接种医院(其他)", dataType="string", required = false, paramType="form"),
            @ApiImplicitParam(name="inoculateIsCompleted",value="是否接种完成", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="inoculateCompletedTime",value="接种完成时间", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="noticeUnInoculateTime",value="已通知(未接种)时间", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="noticePostponeInoculateTime",value="已通知(延期接种)时间", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="status",value="状态", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="createdAt",value="创建时间", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="updatedAt",value="更新时间", dataType="int", required = false, paramType="form"),
            @ApiImplicitParam(name="deletedAt",value="删除时间", dataType="int", required = false, paramType="form")
    })
    public Callable downloadVaccineData(HttpServletResponse response,JdVaccineApply jdVaccineApply){
        log.info("外部线程:" + Thread.currentThread().getName());

        return new Callable() {

            @Override
            public String call() throws Exception {
                try {
                    easyExcelUtil.dataExport300w(response,jdVaccineApply);
                    return  buildResultStr(buildSuccessResultData("导出预约列表信息成功"));
                }catch (Exception e){
                    log.error("导出预约列表信息失败",e);
                    return buildResultStr(buildErrorResultData(e));
                }
            }
        };
    }

导出测试 508598涉及四张表数据导出共耗时91秒

百万级数据的导出解决方案_第1张图片

注:这里不建议使用多线程优化for循环中的sql,多线程开发的目的就在于“空间”换“时间”,而我们这里第一要解决的问题就是生产环境OOM问题,因为数据量过大而导致的内存溢出。不能本末倒置,因此要在保证服务器内存空间不溢出的前提下尽量提升程序运行速度。

你可能感兴趣的:(Work笔记,excel,java,开发语言)