java tika 读取文件_java – 使用apache tika在doc文件中获取嵌入式资源
我有ms文档包含文本和图像.我想解析它们以获得xml结构.在研究之后,我最终使用apachetika来转换我的文档.我可以将我的doc解析为xml.这是我的代码:AutoDetectParserparser=newAutoDetectParser();InputStreaminput=newFileInputStream(newFile("1.docx"));Metadatametadata=ne