用POI将office文档转成文本

POI 3.0.2新增了文本抽出功能
添加了POITextExtractor抽象类
其实现包括ExcelExtractor, PowerPointExtractor, VisioTextExtractor, WordExtractor,分别可以抽出这些文档中的文本,其中ExcelExtractor只能得到所有cell中的值,WordExtractor能得到所有文本(段落,Table,文本框)的值。

使用:
1.导入如下三个jar包
    poi-3.0.2-FINAL-20080204.jar
    poi-contrib-3.0.2-FINAL-20080204.jar
    poi-scratchpad-3.0.2-FINAL-20080204.jar

2.抽出
ExcelExtractor使用的例子如下:
		InputStream in = new FileInputStream("F:/test.xls");
		HSSFWorkbook workbook = new HSSFWorkbook(in);
		ExcelExtractor extractor = new ExcelExtractor(workbook);

		extractor.setFormulasNotResults(false);
		extractor.setIncludeSheetNames(false);
		
		String text = extractor.getText();

		System.out.println(text);

你可能感兴趣的:(F#,Office)