随着AI越来越深入我们的生活,经常需要处理各种格式的文件,有PDF、Word文档、Excel, 如果可以把这些文件的核心内容以简洁的Markdown语法呈现,投喂给大模型可以让大模型更好的理解我们的私有信息
MarkItDown[1] 是微软开源的一款 Python 工具,可用于将各种文件格式转换为 Markdown 格式。而且还支持集成像GPT-4o这样的多模态LLM,可以直接对图片、音频文件进行更高效的信息处理。
GitHub 仓库已经收获了惊人的 35k+ Star
PDF to Markdown
办公文档 (PDF, PowerPoint, Word, Excel)
图像文件 (支持 EXIF 元数据提取和 OCR)
音频文件 (支持 EXIF 元数据提取和语音转录)
HTML(支持维基百科等特殊处理)
文本格式 (CSV, JSON, XML)
压缩文件 (ZIP,可迭代处理内部文件)
Web Article to Markdown
Word Document to Markdown
pip install markitdown
或者从源代码安装:
git clone https://github.com/microsoft/markitdown pip install -e .
markitdown path-to-file.pdf > document.md
或指定输出文件:
markitdown path-to-file.pdf -o document.md
通过管道传输内容:
cat path-to-file.pdf | markitdown
from markitdown import MarkItDown md = MarkItDown() result = md.convert("test.xlsx") print(result.text_content)
from markitdown import MarkItDown from openai import OpenAI client = OpenAI() md = MarkItDown(llm_client=client, llm_model="gpt-4o") result = md.convert("example.jpg") print(result.text_content)
构建镜像:
docker build -t markitdown:latest .
运行镜像:
docker run --rm -i markitdown:latest < ~/your-file.pdf > output.md
markitdown 核心代码非常少, 大概1500行左右,稍微研究一下就可以发现它本质是一个掉包侠,是根据文件的扩展名自动选择转换工具我做了下简单的总结
markitdown 原理
外部库集成
mammoth: DOCX 转 HTML
markdownify: HTML 转 Markdown
pandas: 处理 Excel 文件
pdfminer: 提取 PDF 文本
BeautifulSoup: 解析 HTML 和 XML
虽说 MarkItDown 已经相当强大,但是人无完人,还是有很多局限性
复杂 HTML/CSS 布局可能无法完全保留
图像仅保留为引用,不直接嵌入
音频/视频仅转换元数据和转录,不包含媒体文件
MarkItDown 为文档转换提供了一个强大而灵活的解决方案,无论是个人用户还是企业用户,都能从中受益。其广泛的格式支持和易用性使其成为文档处理工作流中不可或缺的工具。
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
保证100%免费
】