- 基于RapidOCR与LangChain的PDF图文内容解析器开发
要努力啊啊啊
RAG系统开发指南langchainpdfpython
fromtypingimportListfromlangchain.document_loaders.unstructuredimportUnstructuredFileLoaderfromdocument_loaders.ocrimportget_ocrimporttqdmclassRapidOCRPDFLoader(UnstructuredFileLoader):def_get_element
- RapidOCR4j项目学习
cmdch2017
学习
https://rapidai.github.io/RapidOCRDocs/install_usage/api/RapidOCR/#_1功能实现多平台OCR识别:支持Windows、Linux、macOS(包括Intel和ARM架构)多种图片输入方式:支持图片路径(Path)、BufferedImage、byte[]、OpenCV的Mat四种输入类型模型推理:通过ONNXRuntime加载和推理
- ai之pdf转图片 pdf2image,rapidOCR 识别pdf转换后的图片表格
不懂球的小胖
pythonai大模型pdfpythonai
如果批量跑任务,一定要后台启动,避免xshell超时断联后,任务意外终止nohuppythonmain.py'/usr/local/soft/py/work/docs/建筑业务-延续-3/'5>out_21_24_0510-3.log2>&1&seek_backend_fast/app/com/szkj/…/…/demo/main.py
- 使用ffmpeg 提取视频关键帧
znsoft
其它音视频
关键帧是视频中最清晰的帧,在视频中有关键帧和过渡帧的区别。以下程序可以按你设置的数量在一定的时间间隔中把关键帧提取出来。可以设置每分钟的关键帧提取数量。如果需要更多信息,可以适当加大数量再进行后处理。需要安装ffmpeg-python库,代码见RapidAI/keyframe_extractor:Toextractkeyframesfromavideo.(github.com)
- JavaOcr图像文字识别工具
我有奥妙
javaocr
环境win11IntelliJIDEA2021.3.3jdk17.0.10maven3.8.4说明JavaOcr图像文字识别工具图形化:javaFX17OCR引擎:rapidocr启动类:com.hjy.RunApp可直接运行target/myOcr/myOcr.exe菜单什么的还没有开发后续有兴趣再说吧界面项目地址https://gitee.com/hujingyu/javafx_ocrgite
- 目前主流OCR/语义理解/ASR
Psycho_MrZhang
工具ocr
OCR基于多篇专业评测的结果,以下是目前免费开源OCR工具的推荐排名(侧重中文场景):1.RapidOCR优势:基于PaddleOCR优化,在印刷中文、自然场景文字识别中综合评分第一,支持180度旋转和低对比度图片处理,推理速度最快适用场景:通用中文OCR、实时识别需求2.PaddleOCR优势:百度研发的轻量级模型(<10MB),支持80+语言,中文识别准确率高,支持自定义训练和竖排文字识别适用
- rapidocr-onnxruntime库及在open-webui上传PDF 图像处理 (使用 OCR)应用
原野AI
大模型部署pdfocr深度学习open-webui
背景rapidocr-onnxruntime是一个跨平台的OCR库,基于ONNXRuntime推理框架。目前已知运行速度最快、支持最广,完全开源免费并支持离线快速部署的多平台多语言OCR。缘起:百度paddle工程化不是太好,为了方便大家在各种端上进行ocr推理,我们将它转换为onnx格式,使用Python/C++/Java/Swift/C#将它移植到各个平台。名称来源:轻快好省并智能。基于深度学
- RapidOCRPDF 项目教程
侯深业Dorian
RapidOCRPDF项目教程RapidOCRPDFBasedonRapidOCR,extractthePDFcontent.项目地址:https://gitcode.com/gh_mirrors/ra/RapidOCRPDF1.项目介绍RapidOCRPDF是一个基于RapidOCR的开源项目,旨在快速提取PDF文件中的文字内容。该项目支持多种类型的PDF,包括扫描版PDF、加密版PDF以及可直
- 17K star!开源免费的离线OCR工具
IT咖啡馆
开源推荐ocrgithub开源开源软件
平时工作中,总会遇到想对图片内文字进行处理的情况,我们就来介绍一款开源、免费的离线OCR工具,它就是:Umi-OCR。关于Umi-OCRUmi-OCR是开源、免费的离线OCR软件。支持截屏/粘贴/批量导入图片,段落排版/排除水印,扫描/生成二维码。项目内置多国语言库,方便切换。Umi-OCR支持两种内核,一种是PaddleOCR,另一种是RapidOCR。工具包括的主要功能有:截图OCR:识别图中
- Python:正则表达式与Json
White--Night
pythonpython正则表达式json
Python:正则表达式与Json–WhiteNight'sSite标签:python将正则表达式应用到json文件中来看看如何将正则表达式应用到json文件的处理中。前情提要识别时间戳以自动化流程为例,比如屏幕上有一个时间戳,我需要先对当前屏幕截图,再通过RapidOCR-Json得到这张截图的OCR数据。最后再将json文件中有关时间戳的数据写入到excel表格中。前两步很简单,无非就是cmd
- rapidocr_paddle[gpu]:GPU端推理库来了
Liekkas Kono
RapidAIrapidocr
简介rapidocr_paddle系列包是基于PaddlePaddle框架作为推理引擎的,支持CPU和GPU上推理。值得说明的是,这个包和PaddleOCR相比,代码基本都是一样的,只不过这个库将里面核心推理代码抽了出来,更加精简而已。推荐GPU上用这个,CPU端还是以rapidocr_onnxruntime和rapidocr_openvino为主。毕竟PaddlePaddle的CPU端还是比较重
- 【RapidAI】P1 中文文本切割程序
脚踏实地的大梦想家
#RapidAI/PythonlangchainRapidAILLM知识库
中文文本切割程序基本信息代码解析相关包获取yaml关键文件类的构造函数切分语句部分特殊处理PDF重点切分去除数组中空字符串再度切分后长度附录附录一:完整代码附录二:可继续思考问题基本信息文件名:chinese_text_splitter.py文件地址:E:\Code\Knowledge-QA-LLM\Knowledge-QA-LLM-main\knowledge_qa_llm\text_split
- 【RapidAI】P0 项目总览
脚踏实地的大梦想家
#RapidAI/语言模型langchainrapidAIQA
RapidAI项目总览**内容介绍**Author:@SWHL、@omahsGithub:https://github.com/RapidAI/Knowledge-QA-LLM/CSDNAuthor:@脚踏实地的大梦想家UIDemo:**读者须知**本系列博文,主要内容为将RapidAI项目逐步落地实现。RapidAI项目,是一个基于大语言模型的项目。该项目的主要目的不是实现搭建大语言模型、训练大
- C# Onnx Paddle模型 OCR识别
天天代码码天天
OpenCVC#AIpaddleocrC#OnnxOCR识别
RapidOCRhttps://github.com/RapidAI/RapidOCR/blob/main/docs/README_zh.md效果项目Demo(带模型)下载
- RapidOCR调优尝试教程
Liekkas Kono
RapidAIRapidOCRocr
目录引言常见错例种类个别字丢失调优篇个别字识别错误调优篇情况一:轻量中英文模型识别对个别汉字识别错误情况二:轻量中英文模型对个别英文或数字识别错误相关链接引言由于小伙伴们使用OCR的场景多种多样,单一的参数配置往往不能满足要求,这就涉及到基于现有模型,通过调节参数来达到正确识别的目的。基本的原则是尽量不去动模型内部,降低使用成本。本篇文章就来说说在识别效果不好时,如何去调优。因此博客为一家之言,难
- RapidAI/paddleocr_convert:PaddleOCR中模型快速转换为ONNX格式
Liekkas Kono
RapidAIOCRPaddleOCR模型转换
目录RapidAI/paddleocr_convert使用步骤更新日志RapidAI/paddleocr_convert本仓库主要是针对性地将PaddleOCR中推理模型转换为ONNX格式。注意:输入:推理模型的url或者本地tar路径输出:转换后的ONNX模型如果是识别模型,需要提供对应字典的原始txt路径(打开github中txt文件,点击右上角raw之后的路径),用来将字典写入到onnx模型
- 按键精灵免字库本地识别OCR
bbq烤鸡
算法pythonjava人工智能
按键精灵免字库识别—基于百度飞桨PaddleOCR的RapidOCR前言为什么为什么有大漠了还要使用其它OCR为什么要使用RapidOCR开发PaddleOCR介绍PaddleOCR使用衍生项目版——小白方案按键精灵post调用图片转base64方法转json方法post调用JVM版改为mavenOcrEngine路径ideaRun配置网页版【推荐】第一次优化-简化结果第二次优化-免base64传
- 故事的开始:RaidAI
Liekkas Kono
RapidAI人工智能
目录引言RapidAI/RapidOCRRapidAI/YOLO2COCORapidOcrAndroidOnnxRapidAI/RapidOcrNcnnRapidAI/PaddleOCRModelConverterRapidAI/RapidTTSRapidAI/RapidASRRapidAI/RapidPix2Pix引言RapidAI是一个将AI模型应用到工程中的开源组织,致力于搭建AI模型从学术
- 开源免费语音识别引擎 RapidASR
znsoft
人工智能落地ONNX语音识别人工智能
作为中文社区最大的模型白嫖组织,rapidAI的使命是将模型工业化、工程化,让你们从模型白嫖到开箱即用。我们的另一著名的项目是rapidOCRhttps://github.com/RapidAI/RapidASRRapidASR目前已经完成了所有的基础开发工作,接下来将保持一周一更新的速度,将各平台的编译方法更新,让大家一键编译。2021年,wenet将免费开源语音识别技术推向了可用级。2022年
- Github Actions中指定文件改动触发工作流设定
Liekkas Kono
工具githubpython
目录引言解决方案官网详细介绍引言当仓库中只想自动生成一个sdk的包时,没有必要每次对仓库的任何文件改动都触发自动生成sdk的workflow这时,很自然地就会想到,是不是可以当我更改指定文件时,再自动打包生成sdk文件解决方案具体可以参考RapidOCR中,自动生成sdk_rapidocr_v1.0.0的yml文件完整代码paths:是用来指定哪个文件更改,触发workflow的name:CIon
- setup.py编写指南
Liekkas Kono
工具pythonsetuptoolswhl
目录引言具体讲解RapidOCR目录结构如下执行代码预期最终结果setup.py内容讲解参数具体讲解参考资料引言最近工作遇到要打包模块为whl格式,便于交付部署,总是遇到使用setuptools的地方,在这里简单做一个小结。主要记录如何编写setup.py的代码,这里以RapidOCR项目为例讲解,力图做到言简意赅,看完可以上手。相关源码和文件可以在AIStudio这里查看和使用。具体讲解Rapi
- Github Actions 自动同步到 Gitee
Liekkas Kono
工具giteegithub
目录引言具体方案引言平时开源代码一般已Github为主,但是会遇到网不好的情况,于是考虑将Github仓库自动同步到Gitee上,作为备份。考虑不能手动做这个事情,于是想到了GithubActions自动化同步到Gitee中具体方案假设Github已经有了仓库,这里以RapidAI/YOLO2COCO仓库为例。!!!注意:下图图文并不完全对应,以文字为主在Github仓库下开通Actions的功能
- Java常用排序算法/程序员必须掌握的8大排序算法
cugfy
java
分类:
1)插入排序(直接插入排序、希尔排序)
2)交换排序(冒泡排序、快速排序)
3)选择排序(直接选择排序、堆排序)
4)归并排序
5)分配排序(基数排序)
所需辅助空间最多:归并排序
所需辅助空间最少:堆排序
平均速度最快:快速排序
不稳定:快速排序,希尔排序,堆排序。
先来看看8种排序之间的关系:
1.直接插入排序
(1
- 【Spark102】Spark存储模块BlockManager剖析
bit1129
manager
Spark围绕着BlockManager构建了存储模块,包括RDD,Shuffle,Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构,即Driver上BlockManager充当了Master角色,而各个Slave上(具体到应用范围,就是Executor)的BlockManager充当了Slave角色
- linux 查看端口被占用情况详解
daizj
linux端口占用netstatlsof
经常在启动一个程序会碰到端口被占用,这里讲一下怎么查看端口是否被占用,及哪个程序占用,怎么Kill掉已占用端口的程序
1、lsof -i:port
port为端口号
[root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080
COMMAND PID USER FD TY
- Hosts文件使用
周凡杨
hostslocahost
一切都要从localhost说起,经常在tomcat容器起动后,访问页面时输入http://localhost:8088/index.jsp,大家都知道localhost代表本机地址,如果本机IP是10.10.134.21,那就相当于http://10.10.134.21:8088/index.jsp,有时候也会看到http: 127.0.0.1:
- java excel工具
g21121
Java excel
直接上代码,一看就懂,利用的是jxl:
import java.io.File;
import java.io.IOException;
import jxl.Cell;
import jxl.Sheet;
import jxl.Workbook;
import jxl.read.biff.BiffException;
import jxl.write.Label;
import
- web报表工具finereport常用函数的用法总结(数组函数)
老A不折腾
finereportweb报表函数总结
ADD2ARRAY
ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素,再返回该数组。
示例:
ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7].
ADDARRAY([3,4, 1, 5, 7], "测试&q
- 游戏服务器网络带宽负载计算
墙头上一根草
服务器
家庭所安装的4M,8M宽带。其中M是指,Mbits/S
其中要提前说明的是:
8bits = 1Byte
即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节,约为 50000多字节。但是网宽是以“位”为单位的,所以,8Mbits就是1M字节。是容积体积的单位。
8Mbits/s后面的S是秒。8Mbits/s意思是 每秒8M位,即每秒1M字节。
我是在计算我们网络流量时想到的
- 我的spring学习笔记2-IoC(反向控制 依赖注入)
aijuans
Spring 3 系列
IoC(反向控制 依赖注入)这是Spring提出来了,这也是Spring一大特色。这里我不用多说,我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC,下面我将介绍不用Spring的IoC。
IoC不是框架,她是java的技术,如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明:
如:程序中有 Mysql.calss 、Oracle.class 、SqlSe
- 高性能mysql 之 选择存储引擎(一)
annan211
mysqlInnoDBMySQL引擎存储引擎
1 没有特殊情况,应尽可能使用InnoDB存储引擎。 原因:InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她 被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的,很少有回滚的情况。InnoDB的性能和自动崩溃 恢复特性使得她在非事务型存储的需求中也非常流行,除非有非常
- UDP网络编程
百合不是茶
UDP编程局域网组播
UDP是基于无连接的,不可靠的传输 与TCP/IP相反
UDP实现私聊,发送方式客户端,接受方式服务器
package netUDP_sc;
import java.net.DatagramPacket;
import java.net.DatagramSocket;
import java.net.Ine
- JQuery对象的val()方法执行结果分析
bijian1013
JavaScriptjsjquery
JavaScript中,如果id对应的标签不存在(同理JAVA中,如果对象不存在),则调用它的方法会报错或抛异常。在实际开发中,发现JQuery在id对应的标签不存在时,调其val()方法不会报错,结果是undefined。
- http请求测试实例(采用json-lib解析)
bijian1013
jsonhttp
由于fastjson只支持JDK1.5版本,因些对于JDK1.4的项目,可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法,仅供参考。
package com;
import java.util.HashMap;
import java.util.Map;
import
- 【RPC框架Hessian四】Hessian与Spring集成
bit1129
hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤,在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用,本文使用Spring对Hessian的集成来实现Hessian的RPC调用。
定义模型、接口和服务器端代码
|---Model
&nb
- 【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析
bit1129
Mahout
1.Mahout环境搭建
1.下载Mahout
http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz
2.解压Mahout
3. 配置环境变量
vim /etc/profile
export HADOOP_HOME=/home
- nginx负载tomcat遇非80时的转发问题
ronin47
nginx负载后端容器是tomcat(其它容器如WAS,JBOSS暂没发现这个问题)非80端口,遇到跳转异常问题。解决的思路是:$host:port
详细如下:
该问题是最先发现的,由于之前对nginx不是特别的熟悉所以该问题是个入门级别的:
? 1 2 3 4 5
- java-17-在一个字符串中找到第一个只出现一次的字符
bylijinnan
java
public class FirstShowOnlyOnceElement {
/**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff,则输出b
* 1.int[] count:count[i]表示i对应字符出现的次数
* 2.将26个英文字母映射:a-z <--> 0-25
* 3.假设全部字母都是小写
*/
pu
- mongoDB 复制集
开窍的石头
mongodb
mongo的复制集就像mysql的主从数据库,当你往其中的主复制集(primary)写数据的时候,副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题
mo
- [宇宙与天文]宇宙时代的经济学
comsci
经济
宇宙尺度的交通工具一般都体型巨大,造价高昂。。。。。
在宇宙中进行航行,近程采用反作用力类型的发动机,需要消耗少量矿石燃料,中远程航行要采用量子或者聚变反应堆发动机,进行超空间跳跃,要消耗大量高纯度水晶体能源
以目前地球上国家的经济发展水平来讲,
- Git忽略文件
Cwind
git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件,编译生成的各种目标或临时文件等。使用git status时,会在Untracked files里面看到这些文件列表,在一次需要添加的文件比较多时(使用git add . / git add -u),会把这些所有的未跟踪文件添加进索引。
==== ==== ==== 一些牢骚
- MySQL连接数据库的必须配置
dashuaifu
mysql连接数据库配置
MySQL连接数据库的必须配置
1.driverClass:com.mysql.jdbc.Driver
2.jdbcUrl:jdbc:mysql://localhost:3306/dbname
3.user:username
4.password:password
其中1是驱动名;2是url,这里的‘dbna
- 一生要养成的60个习惯
dcj3sjt126com
习惯
一生要养成的60个习惯
第1篇 让你更受大家欢迎的习惯
1 守时,不准时赴约,让别人等,会失去很多机会。
如何做到:
①该起床时就起床,
②养成任何事情都提前15分钟的习惯。
③带本可以随时阅读的书,如果早了就拿出来读读。
④有条理,生活没条理最容易耽误时间。
⑤提前计划:将重要和不重要的事情岔开。
⑥今天就准备好明天要穿的衣服。
⑦按时睡觉,这会让按时起床更容易。
2 注重
- [介绍]Yii 是什么
dcj3sjt126com
PHPyii2
Yii 是一个高性能,基于组件的 PHP 框架,用于快速开发现代 Web 应用程序。名字 Yii (读作 易)在中文里有“极致简单与不断演变”两重含义,也可看作 Yes It Is! 的缩写。
Yii 最适合做什么?
Yii 是一个通用的 Web 编程框架,即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持,它特别适合开发大型应
- Linux SSH常用总结
eksliang
linux sshSSHD
转载请出自出处:http://eksliang.iteye.com/blog/2186931 一、连接到远程主机
格式:
ssh name@remoteserver
例如:
ssh
[email protected]
二、连接到远程主机指定的端口
格式:
ssh name@remoteserver -p 22
例如:
ssh i
- 快速上传头像到服务端工具类FaceUtil
gundumw100
android
快速迭代用
import java.io.DataOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOExceptio
- jQuery入门之怎么使用
ini
JavaScripthtmljqueryWebcss
jQuery的强大我何问起(个人主页:hovertree.com)就不用多说了,那么怎么使用jQuery呢?
首先,下载jquery。下载地址:http://hovertree.com/hvtart/bjae/b8627323101a4994.htm,一个是压缩版本,一个是未压缩版本,如果在开发测试阶段,可以使用未压缩版本,实际应用一般使用压缩版本(min)。然后就在页面上引用。
- 带filter的hbase查询优化
kane_xie
查询优化hbaseRandomRowFilter
问题描述
hbase scan数据缓慢,server端出现LeaseException。hbase写入缓慢。
问题原因
直接原因是: hbase client端每次和regionserver交互的时候,都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
- java设计模式-单例模式
men4661273
java单例枚举反射IOC
单例模式1,饿汉模式
//饿汉式单例类.在类初始化时,已经自行实例化
public class Singleton1 {
//私有的默认构造函数
private Singleton1() {}
//已经自行实例化
private static final Singleton1 singl
- mongodb 查询某一天所有信息的3种方法,根据日期查询
qiaolevip
每天进步一点点学习永无止境mongodb纵观千象
// mongodb的查询真让人难以琢磨,就查询单天信息,都需要花费一番功夫才行。
// 第一种方式:
coll.aggregate([
{$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}},
{$match:{sendDate: '2015-
- 二维数组转换成JSON
tangqi609567707
java二维数组json
原文出处:http://blog.csdn.net/springsen/article/details/7833596
public class Demo {
public static void main(String[] args) { String[][] blogL
- erlang supervisor
wudixiaotie
erlang
定义supervisor时,如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid),如果shutdown策略选择的是brutal_kill,那么supervisor会调用exit(ChildPid, kill),这样的话如果Child的behavior是gen_