羞儿

【读点论文】A Survey of Deep Learning Approaches for OCR and Document Understanding

A Survey of Deep Learning Approaches for OCR and Document Understanding

Abstract

文档是许多领域(如法律、金融和技术等)中许多业务的核心部分。自动理解发票、合同和简历等文件是有利可图的，开辟了许多新的商业途径。通过深度学习的发展，自然语言处理和计算机视觉领域已经取得了巨大的进步，这些方法已经开始融入当代文档理解系统。在这篇调查论文中，我们回顾了不同的文档理解技术，并巩固了文献中存在的方法，作为研究人员探索这一领域的起点。
论文地址：[2011.13534] A Survey of Deep Learning Approaches for OCR and Document Understanding (arxiv.org)
Accepted to the ML-RSA Workshop at NeurIPS2020.

Introduction

人类撰写文档是为了记录和保存信息。作为信息载体，文档使用不同的布局来编写，以表示针对不同消费者的不同信息集。在这项工作中，我们研究了英文文档的文档理解问题。这里，我们使用术语文档理解来表示从文档页面中包含的书面文本和插图中阅读、解释和提取信息的自动化过程。从机器学习实践者的角度来看，本调查涵盖了我们构建模型以自动理解最初为人类消费而编写的文档的方法。文档理解模型通常使用光学字符识别(OCR) 和一定程度的文档布局分析，将文档和文档页面分割成有用的部分(即对应于特定表或属性的区域)。这些模型使用这些信息来大致理解文档的内容，例如，这个区域或边界框对应于一个地址。在本调查中，我们将在更细粒度的级别上关注文档理解的这些方面，并讨论用于这些任务的流行方法。我们的目标是总结现代文献理解中存在的方法，并强调当前的趋势和局限性。
一文讲通OCR文字识别原理与技术全流程（科普版） - 知乎 (zhihu.com)

Document Processing & Understanding

文档处理历来涉及手工制作的基于规则的算法，但随着深度学习的广泛成功，基于计算机视觉(CV)和自然语言处理(NLP)的方法已经脱颖而出。目标检测和图像分割的进步使得系统在各种任务上的表现接近人类。因此，这些方法已被应用于各种其他领域，包括NLP和语音。由于文档可以作为一种视觉信息媒介来阅读和查看，因此许多从业者也利用计算机视觉技术，并将其用于文本检测和实例分割。
大型预训练语言模型(如ELMo和BERT)的广泛成功和普及已经导致文档理解转向使用基于深度学习的模型。这些模型可以针对各种任务进行微调，并且已经取代词向量作为自然语言任务预训练的事实上的标准。然而，语言模型，无论是基于递归神经网络还是基于Transformer，都难以处理长序列。鉴于业务文档中的文本可能非常密集和冗长，模型体系结构修改是必要的。最简单的方法是将文档截断为512个token的较小序列，这样预训练的语言模型就可以使用现成的。最近获得关注的另一种方法是基于降低基于Transfromer的语言模型的自关注组件的复杂性。
- 基于计算机视觉的文档布局分析模块，将每个文档页面划分为不同的内容区域。该模型不仅描述了相关和不相关的区域，而且还用于对其识别的内容类型进行分类。
- 一种光学字符识别(OCR)模型，其目的是定位和忠实地转录文档中存在的所有书面文本。OCR模型跨越了CV和NLP的边界，可以直接使用文档布局分析，也可以以独立的方式解决问题。
- 使用OCR或文档布局分析的输出来理解和识别文档中所传达的信息之间的关系的信息提取模型。这些模型通常专门用于特定的领域和任务，它们提供了使文档在机器上可读所必需的结构，为文档理解提供了实用工具。

Optical Character Recognition

OCR有两个主要组成部分: text detection and text transcription.。通常，这两个组件是分开的，每个任务使用不同的模型。下面，我们将讨论这些组件的最新方法，并展示如何通过不同的通用OCR系统处理文档。详细信息请参见下图。
- 这里，我们展示一般的OCR过程。文档可以选择左边的路径，并经过对象检测模型(该模型输出边界框)和转录模型(转录每个边界框中的文本)。如果文档采用中间路径，则对象将通过一个通用文本实例分割模型(如果像素包含文本则将其涂成黑色)和一个文本转录模型(转录实例分割模型标识的文本区域)。如果文档采用正确的路径，则模型将通过特定于字符的实例分割模型，该模型将输出像素对应的字符。所有路径产生相同的结构化输出。该文件来自funSD 。

Text Detection

文本检测是查找页面或图像中存在的文本的任务。输入图像通常由三维张量C × H × W表示，其中C是通道数(通常是三个通道，分别代表红、绿、蓝)，H是高度，W是图像的宽度。文本检测是一个具有挑战性的问题，因为文本有各种形状和方向，并且经常会被扭曲。我们探讨了研究人员提出文本检测问题的两种常见方法:作为对象检测任务和作为实例分割任务。文本检测模型必须要么学习输出文本周围边界框的坐标(对象检测)，要么学习输出一个掩码，其中标记有文本的像素而不标记没有文本的像素(实例分割)。

Text Detection as Object Detection

传统上，文本检测围绕手工制作特征来检测字符。深度学习的进步，特别是在对象检测和语义分割方面的进步，导致了文本检测处理方式的变化。使用这些来自传统计算机视觉文献的性能良好的目标检测器，例如Single-Shot MultiBox Detector (SSD)和Faster R-CNN模型，从业者构建高效的文本检测器。
最早应用基于回归的文本检测器的论文之一是TextBoxes。他们添加了长默认框，这些框具有较大的SSD宽高比，以便使对象检测器适应文本。几篇论文建立在这项工作的基础上，使基于回归的模型对方向具有弹性，如深度匹配先验网络(DMPNet)和旋转敏感回归检测器(RRD)。其他论文也有类似的方法来解决这个问题，但他们开发了自己的提案网络，该网络更倾向于文本而不是自然图像。例如，Tian等人在他们的Connectionist Text Proposal Network中使用垂直锚机制将卷积网络与循环网络结合起来，以提高水平文本的准确性。
目标检测模型通常通过IoU(交联)度量和F1分数来评估。该度量计算候选边界框与地面真实边界框(交集)重叠的数量，除以候选边界框和GT边界框(并集)占用的总空间。接下来，选择IoU阈值τ来确定哪些预测框计数为真阳性(IoU≥τ)。其余的被归类为假阳性。模型未能检测到的任何框都被归类为假阴性。使用这些定义，计算F1分数来评估目标检测模型。

Text Detection as Instance Segmentation

文档中的文本检测有其独特的挑战:值得注意的是，文本通常是密集的，文档包含的文本比通常出现在自然图像中的文本多得多。为了解决这个密度问题，文本检测可以作为一个超密集的实例分割任务。实例分割是将图像的每个像素分类为特定的、预定义的类别的任务。
基于分割的文本检测器在像素级工作，以识别文本的区域。这些逐像素预测通常用于估计统一框架中文本区域、字符及其相邻字符之间关系的概率。从业者使用流行的分割方法，如全卷积网络(FCN)来检测文本，改进对象检测模型，特别是当文本不对齐或扭曲时。有几篇论文在此分割基础上，通过直接从分割输出中提取边界区域来输出单词边界区域。TextSnake通过预测FCN的文本区域、中心线、文本方向和候选半径进一步扩展了这一点。然后将这些特征与步进算法相结合，提取中轴线点来重建文本实例。

Word-level versus character-level

虽然上面引用的大多数论文都试图直接检测单词甚至单词行，但一些论文认为字符级检测比一般文本检测更容易，因为字符比文本行或单词更不模棱两可。CRAFT使用FCN模型为每个字符输出二维高斯热图。然后将靠近的字符分组在一个旋转的矩形中，该矩形具有尽可能小的面积来封装该字符集。最近，Ye等人将使用区域建议网络(RPN)获得的全局、词级和字符级特征结合起来，取得了巨大成功
上面描述的大多数模型主要是为文本场景检测而开发的，但可以很容易地适应于文档文本检测，以处理像扭曲文本这样的困难情况。我们期望文档中的失真比自然图像少，但是扫描不良的文档或具有某些字体的文档仍然可能造成这些问题。

Text Transcription

文本转录是对图像中的文本进行转录的任务。输入是一个图像，通常是与字符、单词或单词序列相对应的裁剪，尺寸为 $C \times H^{'} \times W^{'}$ 。文本转录模型必须学会摄取这个裁剪过的图像，并输出一系列属于某个预先指定的词汇表V的符号。V通常对应一组字符。例如，对于数字识别，这是最直观的方法。否则，V也可以对应一组单词，类似于单词级语言建模问题。在这两种情况下，问题都可以被定义为一个多类分类问题，类的数量等于词汇表V的大小。
词级文本转录模型需要更多的数据，因为在多类分类问题中，类的数量远远大于字符级。一方面，预测单词而不是字符减少了出现小错字的可能性(比如在“elephant”这样的单词中将“a”替换为“o”)。另一方面，将自己限制在单词级别的词汇意味着不可能转录不属于该词汇的单词。这个问题在字符级别不存在，因为字符的数量是有限的。只要我们知道文档的语言，就很容易建立一个包含所有可能字符的词汇表。子词单位是一种可行的替代方法，因为它们缓解了单词和字符级别转录中存在的问题。
最近，研究界开始转向使用递归神经网络，特别是在卷积图像特征提取器之上使用LSTM或GRU单元的递归模型。为了转录一个令牌，通常使用两种不同的解码机制。一种是标准贪婪解码或波束搜索，使用具有交叉熵损失的基于注意力的序列解码器，完全类似于使用条件语言模型进行解码。有时图像定向不佳或不对齐，降低了标准序列注意的有效性。为了克服这个问题，He等人使用了注意对齐，直接编码字符的空间信息，而Shi等人直接使用了空间注意机制。转录解码通常采用的第二种方式是连接时间分类(CTC)损失，这是语音中常见的损失函数，可以很好地模拟序列输出中的重复字符。
大多数文本转录模型都借鉴了文本和语音序列建模的进步，并且通常只需要进行微小的调整就可以很好地利用这些进步。因此，实践者很少直接处理与文档理解任务的其他组件相关的这个方面。

End-to-end models

端到端方法结合了文本检测和文本转录，以共同改进这两个组成部分。例如，如果文本预测的概率非常低，则意味着检测到的框要么没有捕获整个单词，要么捕获了非文本的内容。在这种情况下，端到端方法可能非常有效。结合这两种方法是相当常见的，快速导向文本识别(FOTS)和具有显式对齐和注意力的TextSpotter都顺序地将这些模型结合起来进行端到端训练。这些方法使用共享卷积作为文本检测和识别的特征，并实现了文本复杂方向的方法。Feng等人引入了TextDragon，这是一种端到端模型，通过使用可微分感兴趣区域滑动算子，它可以很好地处理扭曲的文本，该算子专门用于纠正感兴趣区域的扭曲。Mask TextSpotter是另一个端到端模型，它将边界框的区域建议网络与文本和字符分割相结合)。这些最近的工作显示了端到端OCR解决方案在减少错误方面的强大功能。
然而，拥有独立的文本检测和文本识别模型提供了更大的灵活性。首先，两个模型可以分开训练。在只有一个小数据集可用于训练整个OCR模块的情况下，但是大量的文本识别数据很容易访问，在识别模型的训练中利用这些大量的数据是有意义的。此外，使用两个独立的模型，可以很容易地计算两个独立的度量集，并且可以更全面地了解瓶颈可能在哪里。因此，双模型和端到端方法都是可行的。一种方法是否比另一种方法更好，主要取决于可用的数据和想要实现的目标。

Datasets for Text Detection & Transcription

大多数文献都是围绕场景文本检测，而不是文档文本检测，并在这些数据集上报告结果。其中一些主要的是ICDAR，Total-Text， CTW1500和SynthText。Jaume等人提出了funSD，这是一个用于文本检测、转录和文档理解的数据集，包含199个完全注释的表单，由31k个单词级边界框组成。另一个最近的文档理解数据集来自ICDAR 2019扫描收据OCR和信息提取(SROIE)的稳健阅读挑战。它包含1000个完整的扫描收据图像，具有用于文本检测/转录的行级注释，以及用于关键信息提取的标签。该网站包含针对该问题提出的解决方案的排名。由于解决方案在比赛结束后仍会发布，因此跟踪最新的方法是一种好方法。

Document Layout Analysis

文档布局分析是对图片或页面扫描图像上感兴趣的区域进行定位和分类的过程。从广义上讲，大多数方法可以提炼为页面分割和逻辑结构分析。页面分割方法侧重于外观，并使用视觉线索将页面划分为不同的区域;最常见的是文本、图形、图像和表格。相比之下，逻辑结构分析侧重于为这些区域提供更细粒度的语义分类，即识别作为段落的文本区域，并将其与标题或文档标题区分开来。
文献版面分析方法的研究在学术界和产业界都有着悠久的历史。从第一个开创性的启发式方法，到多阶段经典机器学习系统，文档布局分析方法的演变现在由端到端可微方法主导。

Instance Segmentation for Layout Analysis

当应用于商业文档中的布局分析问题时，实例分割方法预测每个像素的标签来对感兴趣的区域进行分类。这样的方法很灵活，很容易适应页面分割的细粒度任务或更具体的逻辑结构分析任务。
在Yang等人中，作者描述了一个端到端神经网络，该网络在编码器-解码器架构中结合了文本和视觉特征，该架构还结合了一个无监督的预训练网络。在推理过程中，他们的方法使用池化层的下采样级联来编码视觉信息，这些信息被馈送到对称的上采样级联中进行解码。在每个级联级别上，生成的编码也直接传递到各自的解码块中，连接下采样和上采样表示。这种架构确保在编码和解码过程中考虑到不同分辨率水平的视觉特征信息。对于最后的解码层，本地化文本嵌入与计算可视化表示一起提供。
这种受U-Net启发的编码-解码架构已被用于几种不同方法的文档布局分析。Ares Oliveira等人的方法，后来由Barman等人通过额外的文本嵌入扩展，使用具有大过滤器尺寸的卷积maxpooling层通过ResNet瓶颈为文档图像提供数据。然后通过双线性上采样层和较小的1x1和3x3卷积层处理表示。这两个作品分别用于对欧洲多种语言的历史文献和报纸进行布局分析。在Lee等人中，作者将U-Net架构模式与可训练的乘法层结合起来。这种层类型专门用于从网络的卷积特征映射中提取共现纹理特征，这对于定位具有周期性重复信息的区域(如表)是有效的。

Addressing Data Scarcity and Alternative Approaches

获取用于布局分析的高质量训练数据是一项劳动密集型任务，既需要机械精度，又需要对文档内容的理解。由于对来自全新领域的文档进行布局标注存在困难，因此存在几种方法来利用未标记数据中的结构或使用定义良好的规则集来生成合成标记文档，以进一步提高文档布局分析系统的泛化性和性能。
BERT和RoBERTa等 mask 语言模型在许多下游NLP任务上显示出有效的经验性能。受BERT和RoBERTa的预训练策略的启发，Xu等人定义了一个屏蔽视觉语言模型，该模型随机屏蔽输入令牌，并使用该模型来预测被屏蔽的令牌。与BERT不同，他们的方法在这个掩码预测任务期间提供了标记的二维位置嵌入，这使得模型能够结合文本元素之间的语义和空间关系。在前面的4.1节中提到，Yang等人在他们更广泛的基于实例分割的网络中引入了一个辅助文档图像重建任务。在训练期间，该辅助模块使用单独的上采样解码器，该解码器在没有跳过连接的帮助下，从编码表示中预测原始像素值。
虽然预训练可以让从业者从未标记的文档中获得更多价值，但这种技术本身并不总是足以有效地克服数据稀缺性问题。根据许多商业和学术文档在内容和页面级组织中都具有重复模式的直觉，出现了几种方法来制造合成的标记数据，以便提供适合于类似预训练的常规数据。在Monnier中，作者提出了一种三阶段合成新标记文档的方法。首先，他们通过从一组近200个已知文档背景中随机选择文档背景来生成文档。其次，它们使用基于网格的布局方法来定义单个文档元素的内容及其各自的大小。第三，他们的过程引入了损坏，如高斯模糊和随机图像裁剪。这种模块化的、基于规则的合成文档生成方法创建了一个异构数据集，使布局分析模型的预训练更加健壮。
另外，一些合成过程不是定义规则来生成异构的文档集，而是从数据增强方法中获取线索。Capobianco和Marinai以及Journet等人描述了通用工具包，该工具包使用一组现有的标记文档来引入源图像中的变形和扰动。重要的是，对训练数据的这种变化是平衡的，以便在保留原始语义内容的同时，仍然使模型训练暴露于现实的错误，这些错误必须在对看不见的数据进行推理时加以考虑。

Datasets for Layout Analysis

最近，出现了大量专门针对文档布局分析问题的数据集。国际文件分析与识别会议(ICDAR)从其各种年度竞赛中产生了几个数据集;2017年和2019年的最新数据为文档布局分析和其他文档处理任务提供了金标准数据。
在更大的方面，DocBank是一个包含50万个文档页面的集合，具有适合训练和评估文档布局分析系统的令牌级注释。作者使用弱监督构建了这个数据集，匹配来自已知pdf的LaTeX源的数据以形成注释。同样，Zhong等人通过自动匹配PubMed Central™上超过100万份pdf文件的XML内容表示创建了pubaynet，这些pdf文件由大约36万份文档图像组成。虽然没有完整的文档布局，但Zhong等人也从PubMed Central创建了PubTabNet。他们的数据包括56.8万张表格图像以及内容的HTML表示。
- 文档通过通用布局分析模型，生成具有以下类别的布局分割掩码：图（绿色）、图形标题（橙色）、标题（紫色）、段落（红色）和算法（蓝色）。该文件已获得许可复制（苏布拉马尼，2016年）。

Information Extraction

用于文档理解的信息提取的目标是获取可能具有不同布局的文档，并将信息提取为结构化格式。示例包括收据理解以识别项目名称、数量和价格，以及表单理解以识别不同的键值对。人类对文档信息的提取不仅仅是阅读页面上的文本，因为通常需要学习页面布局才能完全理解。因此，最近的增强通过以各种方式对文本的结构和视觉信息进行额外编码，扩展了文档的文本编码策略。

2D Positional Embeddings

本文提出了多种序列标记方法，通过嵌入二维边界框的属性，并将其与文本嵌入合并，以增强现有的命名实体识别(NER)方法，从而创建在提取信息时同时感知上下文和空间定位的模型。Xu et al嵌入x,y坐标对使用两个不同的嵌入表定义一个边界框，并预训练一个掩码语言模型(LM)。在预训练过程中，文本被随机屏蔽，但2D位置嵌入被保留。然后可以在下游任务上对该模型进行微调。或者，也可以使用位置编码方法。其他特征也可以嵌入，如行或序列号。在此场景中，对文档进行预处理，为每个单独的令牌分配行号。然后将每个标记从左到右排序并给出顺序位置。最后，嵌入线和顺序位置。
虽然这些策略取得了成功，但是当在不平坦的表面上扫描文档时，仅依赖行号或边界框坐标可能会产生误导，导致文本弯曲。此外，基于边界框的嵌入仍然缺少关键的视觉信息，如排版强调(粗体、斜体)和标识等图像。为了克服这些问题，可以使用Faster R-CNN模型嵌入与感兴趣的令牌相对应的图像，以创建与2D位置嵌入相结合的令牌图像嵌入。

Image Embeddings

文档的信息提取也可以被定义为计算机视觉挑战，其中模型的目标是在感兴趣的区域上对信息进行语义分割或回归边界框。此策略有助于保留文档的2D布局，并允许模型利用2D相关性。虽然理论上可以严格地从文档图像中学习，但直接将文本信息嵌入图像简化了模型理解2D文本关系的任务。在这些情况下，一个编码函数被应用到一个提议的文本级别(即字符，标记，单词)，以创建单独的嵌入向量。这些向量被转置到包含与嵌入文本对应的边界框的每个像素中，最终创建W × H × D的图像，其中W为宽度，H为高度，D为嵌入维数。建议的变体如下:
- CharGrid将带有one-hot编码的字符嵌入到图像中。
- WordGrid使用word2vec或FastText嵌入单个单词
- BERTgrid在任务特定的文档上对BERT进行微调，并用于获取上下文词块向量。
- C+BERTgrid，结合了特定于上下文和字符向量
当比较网格方法时，C+BERTgrid显示出最好的性能，可能是由于它的上下文词向量结合了一定程度的OCR错误弹性。赵等提出了一种直接将文本嵌入应用于图像的替代方法。网格被投影到图像的顶部，映射函数将每个标记分配给网格中的唯一单元格。然后，模型学习将网格中的每个单元分配给一个类。该方法由于其网格系统而显著降低了维数，同时仍然保留了大多数二维空间关系。

Documents as Graphs

文档上的非结构化文本也可以表示为图网络，其中图中的节点表示不同的文本段。如果两个节点在基数上彼此相邻，则用一条边连接，从而允许直接建模单词之间的关系。BiLSTM等编码器将文本段编码为节点。边缘可以表示为二进制邻接矩阵或更丰富的矩阵，编码额外的视觉信息，如段之间的距离或源节点和目标节点的形状。然后以类似于扩展卷积的方式将图卷积网络应用于不同的接受，以确保可以学习局部和全局信息。之后，将表示传递给序列标记解码器。
文档也可以表示为有向图和空间依赖解析器。在这种表示中，节点由文本段表示，但表示节点类型的字段节点用于初始化每个DAG。另外，定义了两种边:
- 将属于同一类别的段组合在一起的边(STORENAME ➡ Peet’s ➡ Coffee;字段节点后面跟着两个表示商店名称的节点)
- 连接不同群体之间关系的边缘(Peet’s ➡ 94107; a zipcode)。
使用带有附加2D位置嵌入的transformer对文本进行空间编码。在此之后，任务变成预测每个边类型的关系矩阵。这种方法可以表示任意深度的层次结构，并且可以应用于复杂的文档布局。

Tables

表格数据提取仍然是信息提取的一个具有挑战性的方面，因为它们的格式种类繁多，层次结构复杂。表数据集通常有多个任务要执行。第一个任务是表检测，它涉及到文档中包含表的边界框的本地化。下一个任务是表结构识别，它需要将行、列和单元格信息提取为通用格式。这可以更进一步到表识别，这需要通过对表本身的单元格进行分类来理解结构信息和内容。由于文本和视觉特征对于正确提取和理解表同样重要，因此提出了许多不同的方法来执行此任务。
其中一个名为TableSense的提议同时执行表检测和结构识别。TableSense使用三个阶段的方法:细胞特征化，卷积模型的对象检测，以及基于不确定性的主动学习采样机制。TableSense提出的表检测架构在计算机视觉方面的表现明显优于传统方法，如yolo-v3或Mask R-CNN 。由于这种方法不适用于一般的电子表格，Dong等人(2019b)通过使用多任务框架来共同学习表格区域、电子表格的结构组件和单元格类型，扩展了以前的工作。它们增加了一个额外的阶段，该阶段利用语言模型来学习表单元格的语义内容，以便将复杂的表扁平化为单一的标准格式。
Wang等人提出了TUTA，其重点是在确定结构后理解表中的内容。作者提出了使用基于树的Transformer进行表理解语言模型预训练的三个新目标。为预训练引入的目标旨在帮助模型在令牌、单元格和表级别上理解表。作者根据模型要预测的表单元格屏蔽一定比例的令牌，随机屏蔽特定的单元格标题，以便模型根据其位置预测标题字符串，并为表提供上下文，例如表标题或描述，这些内容可能与模型相关联，也可能不相关联，以便模型识别哪些上下文元素与表呈正相关。根据一个单元与另一个单元的层次距离，通过限制对项目的注意连接，对Transformer架构进行了修改，以减少对注意力的干扰。TUTA已经在多个数据集上展示了最先进的性能，用于细胞类型分类。

Conclusion

文档理解是工业界的一个热门话题，具有巨大的货币价值。大多数文档都是私有数据，对应于私有合同、发票和记录。因此，公开可用的数据集很难获得，并且在其他应用领域也不是学术界关注的焦点。与具有大量公开可用数据的领域(如图像分类和翻译)相比，关于处理文档理解方法的学术文献同样稀少。然而，最有效的文档理解方法是利用深度神经网络建模的最新进展。通过创建执行布局分析、光学字符识别和特定于领域的信息提取的集成系统，可以实现端到端的文档理解。在这项调查中，我们试图巩固和组织文献中存在的方法，以便成为想要探索文献理解的学者和实践者的起点。
OCR 利用图像处理、模式识别和机器学习等方法，识别字符的形状、大小、排列和颜色等特征，将图像中的文本转化为字符编码或文字数据，以便进行搜索、编辑、存储、分析和共享。OCR 技术的目标是实现图像中文本的数字化，使得图像中的文本能够像普通电子文本一样处理。
OCR 的工作原理如下：
- **图像获取：**需要获取要识别文本的图像，可以是从扫描仪、相机或其他图像获取设备获取的数字图像。
- **预处理：**图像预处理是必要的步骤，目的是优化图像以减少噪声并提高对比度，从而使文本更易于识别。预处理操作包括图像平滑、灰度转换、二值化（将图像转化为黑白）、去噪等。
  - 去歪斜 – 如果文档在扫描时未正确对齐，则可能需要顺时针或逆时针倾斜几度，以使文本行完全水平或垂直。
  - 去除噪声 – 去除正负斑点，平滑边缘
  - 二值化 – 将图像从彩色或灰度转换为黑白（称为二值图像，因为有两种颜色）。该任务是作为将文本（或任何其他所需的图像组件）与背景分离的简单方法执行的。二值化的任务是必要的，因为大多数商业识别算法只对二值图像起作用，因为这样做更简单。此外，二值化的有效性在很大程度上影响了字符识别的质量，在选择给定输入图像类型所采用的二值化时要谨慎决策;由于用于获取二进制结果的方法的质量取决于图像的类型（扫描文档、场景文本图像、降级的历史文档等）
  - 删除行 – 清理非字形框和行
  - 布局分析或分区 – 将列、段落、标题等标识为不同的块。在多列布局和表格中尤为重要。
  - 行和字检测 – 建立字和字形的基线，必要时分隔字。
- **分割：**在分割阶段，图像中的文本行或字符被分割成单独的部分。分割过程通过寻找图像中的水平和垂直边界来实现，将文本行划分为单个字符。
- **特征提取：**特征提取是一个关键步骤，用于捕获字符的关键特征，如形状、线条、角度等。这些特征将用于后续的模式匹配。
- **模式匹配：**模式匹配阶段，使用事先训练好的模型或模式库，将提取的特征与已知字符形状进行比较和匹配。这个过程会涉及模式识别算法、机器学习模型，如神经网络、支持向量机等。
- 识别和校正： 完成模式匹配后，需要将得到的识别结果进一步处理。如，校正可能的识别错误、合并分割字符等步骤，以提高准确性。
- **文本输出：**被成功识别的字符将被转化为计算机可编辑的文本格式。这些文本数据可以被输出到文本文件、数据库或其他应用程序中。
OCR 技术发展的主要历程如下：
- 早期方法（1950s - 1960s）：早期的OCR方法主要基于模板匹配和规则，通过比对字符模板和图像中的字符来实现识别。这种方法对于特定字体和排版比较适用，但在多种字体和语言的情况下效果不佳。
- 模式识别方法（1970s - 1980s）：在这个阶段，出现了基于模式识别技术的 OCR 方法。模式识别方法通过捕捉字符的特征进行识别。然而，这种方法对于字体变化和噪声敏感，限制了其准确性和鲁棒性。
- **特征提取方法（1990s）：**在这个时期，OCR 开始使用更复杂的特征提取方法，如投影、轮廓和连接组件等，以更好地捕获字符的形状和结构。这种方法在应对一些特定字体和语言时取得了较好成效。
- **统计方法（2000s）：**随着计算能力的提升，统计方法和机器学习开始在 OCR 中得到应用。支持向量机（SVM）、隐马尔可夫模型（HMM）等方法被用于字符识别。这些方法使得 OCR 能够更好地处理复杂字体和多样性。
- **深度学习时代（2010s - 至今）：**随着深度学习技术，尤其是卷积神经网络（CNN）和循环神经网络（RNN）的发展，OCR 取得了革命性进展。深度学习能够自动从数据中学习特征，使 OCR 能够更准确地捕捉字符的细节和上下文信息，实现了在不同字体、语言和样式下的高水准识别。
OCR 面临的主要挑战如下：
- **图像质量：**图像质量会直接影响 OCR 的准确性。模糊、扭曲、阴影、噪声等图像问题可能导致字符识别错误。OCR 在处理低质量图像，特别是来自不同设备和光照条件下的图像，会面临较大挑战。
- **手写字体识别：**手写字体的识别是一个相当复杂的任务，因为手写字母的形状和大小具有较大的差异性。所以，手写文本的识别需要更高级的技术和训练。
- **多种字体和语言：**OCR 需要适应不同的字体和语言。一些字体可能具有复杂的形状，而且不同语言的字符结构也不同，需要依托更多的模型和数据进行训练。
- **特定领域的定制：**对于某些特定领域，如医疗、法律等，需要定制化的OCR模型，以处理特定领域的专业术语和格式。
想要提高 OCR 的准确性，要采取多种策略。首先，优化图像质量是提升 OCR 准确性关键，通过预处理操作如去噪、平滑和增强对比度，可以改善图像的清晰度和可识别性。其次，使用多样性的训练数据集来涵盖不同字体、语言和风格，以训练模型更好地适应各种文本输入。也可以通过深度学习提高 OCR 的准确性，如卷积神经网络和循环神经网络，让其更准确地捕捉字符的特征和上下文信息，以提高识别准确性。在识别后，通过上下文信息、后处理技术和规则，可以纠正可能的错误，提高输出文本的质量。想要提高 OCR 准确性，需要采用持续学习的方法，定期更新模型以适应新的字体、语言和样式，同时考虑用户的反馈，不断改进 OCR 系统，逐步提升其性能，以更准确地将图像中的文本转化为可编辑的电子文本。
光学字符识别（OCR） – 针对打字文本，一次一个字形或字符。
光学单词识别 – 针对打字文本，一次一个单词（适用于使用空格作为单词分隔符的语言）。通常简称为“OCR”
智能字符识别（ICR） – 也针对手写的印刷脚本或草书文本，一次一个字形或字符，通常涉及机器学习。
的文本转化为可编辑的电子文本。
光学字符识别（OCR） – 针对打字文本，一次一个字形或字符。
光学单词识别 – 针对打字文本，一次一个单词（适用于使用空格作为单词分隔符的语言）。通常简称为“OCR”
智能字符识别（ICR） – 也针对手写的印刷脚本或草书文本，一次一个字形或字符，通常涉及机器学习。
智能文字识别（IWR） – 也针对手写字体或草书文本，一次一个单词。这对于字形在草书中没有分隔的语言特别有用。

你可能感兴趣的:(论文笔记,深度学习,ocr,人工智能)

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
Acrobat Pro DC ----专业PDF编辑与管理 *橙子 office pdf macos
AcrobatProDC2023是一款功能强大的PDF处理软件，它提供了丰富的编辑工具，支持创建、编辑、合并、分割PDF文件，以及高质量的PDF到其他格式的转换功能。同时，该软件集成了最新的OCR技术，可将扫描文档或图片转换成可编辑的PDF。AcrobatProDC2023还具备电子签名功能，支持多人协作和云端同步共享，大大提高了工作效率和团队协作效率。无论是设计、建筑、金融还是法律等行业，Acr
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
ChatGPT：AI合作伙伴助你成为论文写作高手 2401_83550420 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达摘要：本文将介绍ChatGPT3.5Turbo（以下简称ChatGPT），一款强大的AI合作伙伴，能够助你成为一名论文写作高手。我们将深入探讨ChatGPT的特点、优势，并提供多个示例，展示ChatGPT在论文写作中的应用。无论是开展研究、撰写论文、还是与ChatGPT进行互动交流，都能够帮助你提升写作效率和质量。引言：随着人工智能的发展，聊天型语言模型在各个领域都
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
ChatGPT：智能论文写作指南，让您成为写作高手 AI臻蚌 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达写作是学术研究中不可或缺的一环，然而，对于许多人来说，写作往往是一项艰巨而费时的任务。但是，现在有了ChatGPT，您将能够以前所未有的速度和准确性编写高质量的论文。本文将向您介绍如何利用ChatGPT的强大功能成为写作高手，并为您提供一些示例，展示其在不同领域的应用。1.简介ChatGPT是一种基于人工智能的语言模型，它可以理解并生成人类语言。通过训练大量的语料库
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
数字逻辑不可能涌现出智能 dog250 人工智能
先看一系列竖式乘法的步骤：相乘的两个数数位越大，步骤越多。如果不纠结数制，二进制运算也是这回事，把单个步骤用一个晶体管表达(其实一个步骤不止一个晶体管)，数位越大，所需的晶体管越多。先说结论，所有基于n进制的逻辑运算都不可扩展。硅基时序电路可如此巧妙完成精确计算，开启了数字化时代，人们试图将AI构建在这二进制世界。但若二进制运算不可扩展，基于数字逻辑的人工智能就不可能。前面提到过，二进制运算本质上
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
深度学习与（复杂系统）事物的属性科学禅道深度学习模型专栏深度学习人工智能
深度学习与复杂系统中事物属性的关系体现在：特征学习与表示:深度学习通过多层神经网络结构，能够自动从原始输入数据中学习和提取出丰富的特征表示。每一层神经网络都可能对应着事物属性的不同抽象层次，底层可能对应简单直观的属性，而随着网络深度的增加，顶层可以学习到更抽象、复杂的属性及其相互关系。非线性关系建模:深度学习特别擅长处理非线性关系，而在复杂系统中，事物属性间的相互作用往往表现为非线性，例如，某些属
go的Job Scheduling ~kiss~ go golang 开发语言后端
背景司内线上服务有很多异步脚本，大量冗余代码，管理很不方便急需一个美丽的框架，让代码变得美好包gogetgithub.com/go-co-op/gocron/v2介绍gocronisajobschedulingpackagewhichletsyourunGofunctionsatpre-determinedintervals.概念JobJob封装（encapsulates）一个“任务task”，它
让数据说话：人工智能与六西格玛的完美结合张驰课堂人工智能六西格玛
当人工智能与六西格玛结合，企业可以充分利用人工智能技术的数据处理、预测分析和智能决策支持能力，实现数据驱动的决策、质量控制和流程优化，从而提高企业的效率和竞争力。下面张驰咨询给大家具体的介绍：1、数据驱动决策六西格玛侧重于数据分析和决策制定，而人工智能可以提供更强大的数据处理和分析能力。通过人工智能技术，可以自动收集和整理大量的数据，并进行有效的数据挖掘和模式识别。这些数据分析结果可以为六西格玛项
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数） MarkHD 深度学习神经网络计算机视觉
神经网络，特别是深度学习，在计算机视觉等领域有着广泛的应用。以下是关于你提到的几个关键概念的详细解释：神经网络：神经网络是一种模拟人脑神经元结构的计算模型，用于处理复杂的数据和模式识别任务。它由多个神经元（或称为节点）组成，这些神经元通过权重和偏置进行连接，并可以学习调整这些参数以优化性能。深度学习：深度学习是神经网络的一个子领域，主要关注于构建和训练深度神经网络（即具有多个隐藏层的神经网络）。通
AI原生安全亚信安全首个“人工智能安全实用手册”开放阅览亚信安全官方账号安全网络 web安全人工智能大数据
不断涌现的AI技术新应用和大模型技术革新，让我们感叹从没有像今天这样，离人工智能的未来如此之近。追逐AI原生？企业组织基于并利用大模型技术探索和开发AI应用的无限可能，迎接生产与业务模式的全面的革新。我们更应关心AI安全原生。实施人工智能是一项复杂又长远的任务，任何希望利用大模型的组织在设计之初，都必须将安全打入地基，安全一定是AI技术发展的核心要素。针对人工智能和大模型面临的威胁与攻击模式，亚信
开发chrome扩展（禁止指定域名使用插件）徐同保 chrome 前端
mainfest.json:{"manifest_version":3,"name":"ChatGPT学习","version":"0.0.2","description":"ChatGPT,GPT-4,Claude3,Midjourney,StableDiffusion,AI,人工智能,AI","icons":{"16":"./images/logo.png","48":"./images/lo
ai智能语音机器人的出现未来电销行业会如何发展？ VO_794632978 WX-794632978 语音机器人人工智能机器人交互语音识别大数据
人工智能和移动互联网技术的发展，对于很多行业都产生了颠覆性的影响。而对于电销这一重复度较高的行业来说，也是产生了巨大的推动作用。对于传统电销人来说，电销机器人可以帮助你提高销售效率，提高影响客户的能力和转化率，将你过去繁琐简单无效的需要个人做的工作，都交给机器，让你的时间和精力，放在重要的客户和有创造性的事情上。我们一起来看看都有哪些发展。自动化程度提高：AI机器人能够不间断地工作，自动拨打电话、
MATLAB 2023a：强化学习算法的实战演练与性能评估 zmjia111 机器学习 matlab matlab 算法开发语言深度学习机器学习 yolo
在深度学习领域，MATLAB2023版深度学习工具箱以其完整的工具链和高效的运行环境，为研究人员和开发者提供了前所未有的便利。这一工具箱不仅集成了建模、训练和部署的全部功能，更以其简洁易用的语法和强大的算法库，为深度学习任务的快速实现铺平了道路。相较于Python等编程语言，MATLAB的语法更为直观，上手更为迅速。无需繁琐的环境配置和库安装，用户只需打开MATLAB界面，即可轻松开始深度学习之旅
动手学习深度学习——2.5 自动微分 X_Imagine 动手学习深度学习深度学习人工智能自动微分
2.5自动微分正如【2.4微积分】所说，微分是深度学习中几乎所有最优化算法的关键步骤。虽然求这些导数的计算过程很简单，只需要一些基本的微积分知识。但对于复杂的模型，手工计算参数的更新可能很痛苦(而且经常容易出错)。深度学习框架通过自动计算导数加快了这一工作，即自动微分（AutomaticDifferentiation）。在实践中，基于我们设计的模型，系统构建了一个计算图，跟踪哪些数据结合哪些操
生成式AI竞赛：开源还是闭源，谁将主宰未来？新加坡内哥谈技术人工智能
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/对于一些行业观察家来说，这场战斗似乎还没开始就已结束。当ChatGPT成为有史以来增长最
飞桨科学计算套件PaddleScience skywalk8163 人工智能 paddlepaddle 人工智能飞桨
PaddleScience是一个基于深度学习框架PaddlePaddle开发的科学计算套件，利用深度神经网络的学习能力和PaddlePaddle框架的自动(高阶)微分机制，解决物理、化学、气象等领域的问题。支持物理机理驱动、数据驱动、数理融合三种求解方式，并提供了基础API和详尽文档供用户使用与二次开发。安装当然要先安装好飞桨PaddlePaddle，再安装PaddleSciencepipinst
从政府工作报告探计算机行业发展想你依然心痛个人总结与成长规划行业发展前景
文章目录每日一句正能量前言以“数”谋新、加“数”向实人工智能方面人工智能成核心驱动引擎软件方面通信方面后记每日一句正能量该来的始终会来，千万别太着急，如果你失去了耐心，就会失去更多。该走过的路总是要走过的，从来不要认为你走错了路，哪怕最后转了一个大弯。这条路上你看到的风景总是特属于你自己的，没有人能夺走它。前言2024年的两会是中国政治日历上一次重要的会议，吸引了全球的目光。在这次两会中，计算机行
ego - 人工智能原生 3D 模拟引擎——基于AI的3D引擎，可以做游戏、空间计算、元宇宙等项目花生糖@ AIGC学习资源人工智能游戏空间计算
1.产品概述：Ego是一款AI本地化的3D模拟引擎，旨在让非技术创作者通过自然语言生成逼真的角色、3D世界和交互式脚本。该平台提供了创建和分享游戏、虚拟世界和交互体验的功能。2.定位：Ego定位于解决开放世界游戏和模拟的三大难题：难以编写游戏脚本、非玩家角色无法展现人类行为以及创建新的3D资产和世界的难度。通过AI技术，Ego致力于让用户可以用自然语言创建复杂的游戏和交互体验。3.创始人背景：创始
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S