前端小知识:第三方JS库:tesseract.js(基于浏览器性能的离线OCR)

文章目录

    • tesseract.js(离线OCR)
      • 概述
      • 使用

tesseract.js(离线OCR)

概述

仓库地址: https://github.com/naptha/tesseract.js

语言包地址: https://github.com/naptha/tessdata/tree/gh-pages/4.0.0_best

离线OCR仓库地址(使用这个): https://github.com/jeromewu/tesseract.js-offline

API参考: https://github.com/naptha/tesseract.js/blob/master/docs/api.md#worker-load-language

使用教程简单参考: https://blog.csdn.net/qq_35077107/article/details/105341115

使用

//第一步:拉取离线版tesseract.js-offline
git clone https://github.com/jeromewu/tesseract.js-offline.git

//第二部:进入tesseract.js-offline目录,开始安装依赖其实是为了某几个文件而已
cd  tesseract.js-offline
npm install

//第三步:下载对应的语言包放入 /tesseract.js-offline/lang-data中
// 默认lang-data已经有英文、泰语的语言包 == 如果需要中文简体、繁体则需下载
//https://github.com/naptha/tessdata/tree/gh-pages/4.0.0_best
下载中文简体、繁体汉化包

//第四步: 准备一张中文图片 放入 /tesseract.js-offline/images目录中


//第五步:修改   /tesseract.js-offline/browser/index.html 的源码
图片文件为第四步的图片
语言识别支持:英文、中文简体、中文繁体

//第六步:直接启动运行index.html
加载语言包文件报跨域错误

//第七步 -- 将/tesseract.js-offline整个文件夹由Nginx静态代理访问 - 从而避免报跨域问题
//  http://127.0.0.1:9997/browser/index.china.html
访问成功


第二步图片
前端小知识:第三方JS库:tesseract.js(基于浏览器性能的离线OCR)_第1张图片


第三步图片
前端小知识:第三方JS库:tesseract.js(基于浏览器性能的离线OCR)_第2张图片


第四步图片 – 直接运行 browser/index.html
前端小知识:第三方JS库:tesseract.js(基于浏览器性能的离线OCR)_第3张图片


第五步 – 修改测试代码
前端小知识:第三方JS库:tesseract.js(基于浏览器性能的离线OCR)_第4张图片


第六步 – 直接启动index.html – 报跨域问题
前端小知识:第三方JS库:tesseract.js(基于浏览器性能的离线OCR)_第5张图片


第七步 – 将/tesseract.js-offline整个文件夹由Nginx静态代理访问 - 从而避免报跨域问题
前端小知识:第三方JS库:tesseract.js(基于浏览器性能的离线OCR)_第6张图片

前端小知识:第三方JS库:tesseract.js(基于浏览器性能的离线OCR)_第7张图片

你可能感兴趣的:(前端知识,前端,javascript,离线OCR,tesseract.js,js库)