羞儿

【读点论文】Benchmarking chinese text recognition Datasets, baselines, and an empirical study，中文专题的字符识别

Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study

Abstract

近年来，深度学习的蓬勃发展见证了文本识别的快速发展。然而，现有的文本识别方法主要针对英语文本。作为另一种广泛使用的语言，中文文本识别在各方面都有着广泛的应用市场。根据我们的观察，我们将对Chinese text recognition CTR 的关注不足归因于缺乏合理的数据集构建标准、统一的评估方案和现有基线的结果。为了填补这一空白，我们从公开的竞赛、项目和论文中手动收集CTR数据集。根据应用场景，我们将收集到的数据集分为场景、web、文档和手写四类数据集。此外，我们还规范了CTR中的评估协议。采用统一的评估协议，在收集到的数据集上对一系列具有代表性的文本识别方法进行评估，以提供基线。实验结果表明，由于中文文本与拉丁字母的差异较大，基线在CTR数据集上的表现不如在英文数据集上。此外，我们观察到通过引入激进级监督作为辅助任务，可以进一步提高基线的性能。代码和数据集可在https://github.com/FudanVI/benchmarking-chinese-text-recognition。上公开获取。
论文地址：[2112.15093] Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study (arxiv.org)
OCR在实际生活中有许多应用场景，例如签名认证与车牌识别，甚至我发现苹果手机更新后相机也多了OCR功能；其次，由于OCR涵盖了两个模态，即图像模态和语言模态，这两个模态之间进行交互是一件很有意思的事情（可以花式A+B），从2020年开始有很多论文尝试将语义先验结合到文本识别任务中；最后，该领域持续不断地涌现新的数据集，例如最近学术界推出了很多文档相关的数据集，这也是下游任务检测和识别成熟的标志，学术界将目光转向更加复杂的文档图像。
尽管该领域一直在稳步发展，我发现学术界还是将研究重点放在英文文档/文本上，反而缺乏对中文文档/文本的研究。我尝试在Google scholar上进行搜索，发现现有的中文文本识别算法还是倾向研究手写文本图片，而鲜有论文对其他类型的文本图片（场景、网络、文档）进行研究。尽管手写文本识别发展速度较快，但细细品读逐篇论文，发现还是有些不公平比较的成分，例如有些论文会使用额外的数据集进行训练并且不开放源码与数据集，这让大家难以follow。
【中文文本识别】大白话 Benchmarking Chinese Text Recognition - 知乎 (zhihu.com)

Introduction

近年来，文本识别因其在自动驾驶、文档检索、签名识别等方面的广泛应用而受到广泛关注。然而，现有的文本识别方法主要集中在英文文本，而忽略了中文文本识别(CTR)的巨大市场。具体来说，汉语是世界上使用人数最多的语言，有13.1亿人使用，这意味着CTR及其下游任务肯定会对这一人群产生至关重要的影响。
基于我们的观察，我们总结了对中文文本识别关注不足的三个潜在原因:
- 1)缺乏合理的数据集构建标准。理想情况下，基于给定的四边形方框，我们可以沿着标注点裁剪文本区域，然后将其校正为水平方向的图像，与直接使用最小边界水平方框的方法相比，可以有效地消除无用的背景区域。因此，不同的裁剪方法会导致不公平的比较。此外，从不同环境收集的数据集在外观上也有很大差异。找到合理的分割策略也有利于更有效的研究。因此，需要考虑数据集构建的标准。
- 2)缺乏统一的评价方案。通常，在评估英语文本数据集的识别模型时，研究人员通常默认将大写转换为小写。然而，目前还没有统一的CTR评价方案。例如，研究人员可能会对全宽和半宽字符、简体字和繁体字是否应该被视为同一字符感到困惑。此外，评价指标(如标准化编辑距离和准确率)在CTR论文中不一致。因此，迫切需要统一的评价方案来公平地评价CTR方法。
- 3)现有基线缺乏实验结果。现有的文本识别方法主要在IIIT5K、IC03、IC13 等英文文本数据集上进行评估。虽然很少有方法尝试在中文数据集上进行实验，但在相应的论文中并没有明确解释数据集构建的细节，这使得其他研究人员很难将其作为CTR基线。
在本文中，我们试图构建一个点击率的基准来填补这一空白。我们首先从公开竞赛、论文和项目中获得现有的CTR数据集，得到四个类别，即场景、网络、文档和手写(每个数据集的一些示例如下图所示)。我们还从人类校准的每个类别的可识别性方面证明了数据集构建的合理性。然后我们以合理的比例将每个数据集手工划分为训练集、验证集和测试集。验证集的目的是公平地比较现有的方法，即确保基于验证集选择最佳的超参数，以避免面向测试集的调优。
- 场景、web、文档和手写数据集中的一些示例。
此外，我们在收集的数据集上再现了一些有代表性的文本识别方法的结果作为基线。实验结果表明，一些最初针对英语文本提出的SOTA方法在CTR数据集上的表现不如英语数据集。通过分析，一个可能的原因是汉语文本的某些特点给现有的方法带来了障碍。针对汉字复杂的内部结构，我们采用多任务的方式引入激进层面的监督，以更好地识别汉字。总的来说，我们的贡献可以列出如下:
- 我们从公开竞赛、论文和项目中手动收集 CTR 数据集。然后我们将它们分为四类，即场景、web、文档和手写数据集。我们进一步以合理的比例将每个数据集分成训练集、评估集和测试集。
- 我们标准化了评估协议，以公平地比较现有的文本识别方法。
- 基于收集的数据集和标准化的评估方案，我们再现了一系列基线的结果，并详细分析了基线的性能。
- 我们在CTR中引入 radical-level 监督，以提高现有的基于注意的识别器的性能。

Preliminaries

Hierarchical Representations for Chinese Characters

这里我们介绍汉字的三种表示方式(参见下图(a)中的示例“奇”)，即字符级、部首级和笔画级。
- 汉字表示的初步知识。
字符等级。根据中国国家标准GB18030-2005【https://zh.wikipedia.org/wiki/GB_18030】，汉字总数为70244个，其中一级常用字符为3755个。
Radical level（偏旁部首级别）. 根据具体描述字符的Unicode标准【https://unicode.org/charts/PDF/U2FF0.pdf】，一级常用汉字共有12个偏旁结构(见上图(b))和514个偏旁。对于3755个常用汉字，根级表示可以有效地将字母表的大小从3755个减少到526个。
笔画级别：根据Unicode Han Database 【http://www.unicode.org】，每个汉字都可以分解成一个笔划序列。笔画有五种基本类型(例如，水平、垂直、左向、右向和转弯)，每种类型都包含几个实例(参见图©)。

Characteristics of Chinese Texts

中文文本比英文文本更难识别，这是学界公认的事实。为了探究其内在原因，我们分析了汉语语篇不同于英语语篇的特点:
- 大量的字符。根据国家标准GB18030-2005，汉字总数为70,244个(其中常用一级字符3,755个)。它比英文字符的比例要大得多，英文字符只包含26个大写字母和26个小写字母(见下图(a))。一方面，进行大规模分类本质上是一项艰巨的任务。另一方面，在CTR数据集上进行实验时，识别器可能会遇到具有挑战性的 zero-shot 问题，即待测试的字符可能不在训练集中。
- 类似的外观。与英文字母相比，有相当多的汉字簇具有相似的外观(见图(b))。例如，“戌”和“戍”之间的区别仅仅在于一个微小的笔划。即使人眼也很难识别，这给现有的文本识别方法带来了负担。
- 复杂的顺序模式。我们观察到，现有英语基准中的大多数样本都处于单词水平。由于两个英语单词之间有一个空格，人们在标记过程中倾向于将它们分开来进行检测。此外，英语单词中存在固有的统计模式(例如，“abl”后面更可能跟着“e”)，从而帮助识别器更好地捕捉顺序模式。相反，中文文本更多地出现在短语或句子中。在这种情况下，汉字之间在词性上存在复杂的依赖关系(见下图©)，这确实给识别器学习顺序模式带来了困难。
- 常见的垂直文本。与英语文本相比，由于自然场景中常用的传统对联或招牌，中文文本更倾向于垂直呈现。相反，由于人们固有的阅读习惯，垂直英语文本很少出现(见下图(d))。
- 复杂的内部结构。如2.1所述，与英语的单成分汉字不同，汉字大多是多成分的(见上文图(a))，即每个汉字都可以分解成几个由词根结构组织起来的词根。更复杂的内部结构使得汉字分类更加困难。
- 汉语文本区别于英语文本的特点。

Datasets

Details of Datasets

场景数据集。从竞赛、论文和项目中，我们获得了一系列场景数据集，包括RCTW、ReCTS、LSVT、ArT和CTW。每个数据集的详细介绍如下:
- RCTW:提供12263张自然场景的中文标注文本图像。我们从训练集中获得了44,420个文本图像，并将它们用于基准测试。由于文本标签不可用，所以没有使用RCTW的测试集。
- ReCTS:提供2.5万张带标注的街景中文文本图像，主要来源于广告牌。我们只采用训练集和裁剪107,657个文本样本作为基准。
- LSVT:它是一个大规模的中英文场景文本数据集，提供了50,000个全标记(多边形框和文本标签)和400,000个部分标记(每个图像只有一个文本实例)样本。我们只使用全标记的训练集并裁剪243,063个文本图像作为基准。
- ArT:它包含在具有各种文本布局(例如，旋转文本和弯曲文本)的自然场景中捕获的文本样本。在这里，我们从训练集中获得了49,951个裁剪的文本图像，并将它们用于我们的基准测试。
- CTW[29]:包含3万张带标注的街景图像，具有丰富的多样性，包括凸起文本、遮挡文本、光照不足文本等。此外，它不仅提供字符框和标签，还提供字符属性，如背景复杂性，外观等。这里我们从训练集和测试集裁剪191364个文本图像。
我们结合上述所有数据集，得到636,455个文本样本。我们随机对这些样本进行洗牌，并按8:1:1的比例进行分割，得到509,164个样本用于训练，63,645个样本用于验证，63,646个样本用于测试。
网络数据集。为了收集web数据集，我们使用了MTWI，它包含了淘宝网站上17个不同类别的20000张中英文web文本图像。文本样本出现在各种场景、排版和设计中。我们从训练集中提取了140589张文本图像，并按8:1:1的比例进行手动分割，得到112471张样本用于训练，14059张样本用于验证，14059张样本用于测试。
文档数据集。我们使用公共存储库Text Render 【https://github.com/Sanster/text_renderer】来生成一些文档样式的合成文本图像。更具体地说，我们对长度从1到15不等的文本进行统一采样。语料库来自维基、电影、亚马逊和百度。该数据集共包含500,000个数据集，随机分为训练集、验证集和测试集，比例为8:1:1 (400,000 v.s. 50,000 v.s. 50,000)。
手写体数据集。我们基于SCUT-HCCDoc收集手写数据集，该数据集在无约束环境下用相机捕获中文手写图像。根据官方设置，我们获得93,254个用于训练的文本图像和23,389个用于测试的文本图像。为了进行更严谨的研究，我们以4:1的比例手动将原始训练集分成两组，得到74603个样本用于训练，18651个样本用于验证。为方便起见，我们继续使用原来的测试集。
所采用数据集的许可证。RCTW、ReCTS、ArT、LSVT、MTWI等数据集在发布时没有相关的开源许可。因此，我们已经联系了这些数据集的所有者，并确认它们可以用于学术研究。数据集CTW使用Attribution-NonCommercial-ShareAlike 4.0 International(简称CC BY-NC-SA 4.0 【https://creativecommons.org/licenses/by-nc-sa/4.0/】)许可协议，授权用户以任何媒介或格式复制和再分发该材料。在SCUT-HCCDoc的GitHub【https://github.com/HCIILAB/SCUT-HCCDoc_Dataset_Release】存储库中，作者已经声明该数据集只能用于非商业研究目的。此外，我们已经联系了数据集的作者，并获得了学术研究的许可。

Preprocessing

在这里，我们提出了四个步骤来预处理收集到的四类数据集:1)保留包含其他语言的文本图像。我们观察到，现有的CTR数据集以中文字符为主，同时包含少量英文字符和其他语言(见下图(a))。考虑到自然场景中文本图像的语言分布，我们决定保留带有其他语言字符的样本。2)移除标注为“###”的样本。根据一些数据集的标注标准(如RCTW和ReCTS)，将难以辨认的文本图像标注为“###”(见图(b))。我们观察到这些样本中存在严重的模糊或遮挡，即使人眼也难以识别。考虑到这些样本可能会给训练过程带来噪声，我们决定将其从数据集中去除。3)构建单独的验证集。通过观察，现有的英语文本识别基准通常缺乏验证集。实际上，在训练阶段，测试集是不可用的，需要根据在验证集上的表现来选择最佳模型。在这里，我们考虑了验证集，以进行更严格的研究(参见图©)。4)只收集有可用文本标签的样本。我们观察到，许多测试集的文本标签是不可公开的，特别是那些竞争数据集。在这种情况下，我们只使用那些带有可用标注文本标签的示例。
- 预处理收集到的数据集的步骤。

Analysis of Datasets

字母大小和字符数量。在下表中，我们可以看到四个数据集的字母表大小和汉字比例有所不同。例如，大多数网络文本都是中文广告，有固定的短语表达，因此在字母表中包含的字符较少(4402个字符)。此外，web数据集包含许多电话号码和英文网站，导致汉字在四个数据集中所占比例最低(44.9%)。对于手写数据集，大多数文本是中国古诗，其中包含比其他数据集更多的不常用字符，因此产生了最大的字母表(6105个字符)。因此，手写数据集的测试集包含了训练集中没有的最多的 zero-shot 字符(253个 zero-shot 字符)，这进一步增加了识别的难度。
- 统计字母表大小和字符数量的结果。“中文”、“全部”、“比例”分别表示汉字的数量、全部汉字、汉字的比例。“ZS”表示测试集中zero shot 字符的数量。
下两张图展示了文本长度和长宽比(即宽度与高度的比值)的分布。从这些图中，我们观察到长文本(例如长度≥10)在手写数据集中出现的频率更高，这给基线带来了困难。相反，场景和web数据集中的文本相对较短，可能是考虑到乘客、顾客等的阅读效率。对于比例分布，我们观察到由于野外常用的对联和招牌，场景数据集比其他数据集具有更多的垂直文本(比例≤1)。相比之下，手写数据集包含更多的水平文本。
字符和词频。如下表所示，我们分析了每个数据集中字符和单词的频率【用“jieba”把文本拆成单词。https://github.com/fxsjy/jieba】，并观察到一些有趣的现象。例如，由于自然场景中有许多中国品牌或国有企业，因此“中”、“国”和“中国”一词在场景数据集中频繁出现。此外，网络数据集包含许多高频广告术语，如“包邮”(免费送货)、“正品”(认证产品)等。由于文档和手写体数据集中的样本多为中文句子，因此助词“的”出现频率最高。特别是，在手写数据集中，由于一些文本图像是从日记中裁剪出来的，因此有许多字符或单词指代诸如“我”、“你”、“我们”等。
- 每个数据集中的前六个高频字符和单词(括号中的频率)。
人类的可识别性校准。为了找出四个数据集中影响文本图像可识别性的因素，我们邀请了20名受过高等教育的参与者来进行这个实验。我们邀请参与者从不同的角度找出阻碍可识别性的相应原因(多选):1)遮挡(前景)，2)倾斜或弯曲(实例级)，3)背景混乱(背景)，4)涂鸦(字符级)，5)模糊(图像源)。如果任何一个原因都不满足，我们认为文本图像是可识别的。总的来说，我们对每个数据集有500票(每个数据集有25个图像样本，20个参与者)。统计数据如下表所示。
- 人类校准的可识别性统计结果(BG为背景)。
我们可以看到，在场景数据集中，参与者的投票主要集中在“遮挡（Occlusion）”，“背景混淆（Background Confusion）”和“模糊（Blur）”，这表明它是人类识别最复杂的数据集。影响文本图像可识别性的因素主要来自于野外环境和文本图像的获取方式。对于web数据集，通过可控生成，文本外观可以更加多样化，导致“斜或弯（Oblique or Curved）”选择的票数最多。对于文档数据集，样本对于人类来说是相对可识别的，因此较少投票。在笔迹数据集中，参与者投票最多的是“潦草（Scribble）”，这表明笔迹中的笔画衔接也是阻碍可识别性的基本因素。从上面的观察中，我们可以发现影响可识别性的因素在不同的数据集上是不同的，因此激励我们分别研究每个数据集上的性能。

Baselines

文本识别在过去十年中取得了迅速的进展。根据文本识别方法的主要特点，可以将其分为基于ctc的方法、基于纠偏（rectification-based）的方法等。从这些类别中，我们选择了八种代表性的方法作为基准，这些方法在文本识别任务中主要用于比较。
- CRNN 是一种典型的基于ctc的方法，在工业中应用广泛。它将文本图像发送给CNN提取图像特征，然后采用两层LSTM对序列模式进行编码。最后，LSTM的输出被馈送到CTC (Connectionist Temperal Classification)解码器，以最大化所有路径通向 GT 的概率。
- ASTER 是一种典型的基于校正的方法，旨在处理不规则文本图像。它引入了一个空间变换网络(STN) 来校正给定的文本图像。然后将校正后的文本图像发送给CNN和两层LSTM进行特征提取。特别地，ASTER利用注意机制来预测最终的文本序列。
- MORAN 是一种具有代表性的基于校正的方法。它首先采用多目标整流网络(MORN)以弱监督的方式预测整流像素偏移(不同于ASTER采用STN)。输出的像素偏移量进一步用于生成校正后的图像，该图像进一步发送到基于注意力的解码器(ASRN)进行文本识别。
- SAR 是利用二维特征映射实现更鲁棒解码的代表性方法。与CRNN、ASTER 和 MORAN 将给定图像压缩成一维特征图不同，SAR采用二维关注特征图的空间维度进行解码，在弯曲和倾斜文本中具有更强的性能。
- SEED 是一种具有代表性的基于语义的方法。引入语义模块提取全局语义嵌入，并利用它初始化解码器的第一隐藏状态。得益于在识别过程之前引入语义，SEED解码器在识别低质量文本图像方面显示出优势。
- MASTER 是一种基于注意的方法，它利用自注意机制来学习对扭曲文本图像的更强大和鲁棒的表示。同时，得益于训练并行化和内存缓存机制，该方法训练效率高，推理速度快。
- ABINet 是一种自主、双向、迭代的场景文本识别方法。自主原则是指视觉模型和语言模型应该分开学习;提出了双向原则，以捕获两倍的信息量;迭代原则旨在从视觉和语言线索中改进预测。此外，作者提出了一种自我训练方法，使ABINet能够从未标记的图像中学习。
- TransOCR 是基于transformer的代表性方法之一。它最初的设计目的是为超分辨率任务提供文本先验。采用ResNet-34作为编码器，自关注模块作为解码器。与基于 rnn 的解码器不同，自注意模块更有效地捕获给定文本图像的语义特征。
- 四个数据集的基线结果。ACC / NED分别采用百分制和十进制。
通过基线的实验结果(细节将在第5节中介绍)，我们观察到由于中文文本的特点，基线在CTR数据集上的表现不如在英文数据集上的表现(参见第2.2节)。针对汉字复杂的内部结构，我们提出了一个可插入的词根感知分支(PRAB)，它可以插入到任何基于注意的识别器中，以多任务的方式引入词根级监督，以提高识别效果。关于PRAB的更多细节见补充资料。

An Empirical Study

Experiments

实现细节。我们在Github上采用CRNN、ASTER、MORAN、SAR、SEED、MASTER、ABINet和TransOCR的现成PyTorch实现，在收集到的CTR数据集上重现实验结果。所有基线实验均在 11GB 内存的NVIDIA RTX 2080Ti GPU上进行。为了保持现有识别器的时间效率，并使文本图像对识别器更具可识别性，我们将所有实验的输入图像大小调整为32 × 256。我们利用每个数据集的验证集根据识别精度选择最佳超参数，然后使用测试集评估基线。为了方便起见，我们将所有实验的四个数据集的字母表组合在一起，得到了一个总共7934个字符的字母表。基线没有使用数据增强和预训练等其他策略。
评估协议。在实践中，统一的评价方案对于公平比较是必不可少的。在ICDAR2019 ReCTS Competition【https://rrc.cvc.uab.es/?ch=12&com=tasks】之后，我们利用一些规则来转换预测和标签:(1)将全宽字符转换为半宽字符;(2)将繁体字转换为简体字;(3)将大写字母转换为小写字母;(4)清除所有空格。在这些转换之后，我们利用广泛使用的度量精度(ACC)来评估基线。此外，由于CTR数据集比英文文本识别数据集包含更多的长文本图像，因此使用归一化编辑距离(NED)来综合评估基线的性能。ACC 和 NED 的取值范围均为[0,1]。较高的ACC 和 NED 表明评估基线的表现较好。
实验结果。我们首先分析不同方法的实验结果(见上表)。我们观察到，CRNN在每个数据集上的性能都优于那些基于注意力的普通识别器(即MORAN ， SEED和SAR)，后者在遇到较长中文文本的文本图像时容易出现注意力漂移问题（drift problem）。虽然CRNN在场景数据集上的性能不如基于 Transformer 的方法，但CRNN的参数更少，推理时间更短。此外，我们注意到SEED并不是在所有数据集上都表现良好。一个可能的原因是SEED需要将每个文本图像映射到 fastText 引导下对应的语义嵌入，而中文文本通常包含复杂的语义，这给语义学习过程带来了困难。显然，TransOCR超越了所有同类算法，因为它能够更灵活地对序列模式进行建模。
接下来，我们从数据集的角度对实验结果进行分析。如上表所示，由于该数据集中的潦草，所有基线在手写数据集上的性能都不太好。如上上表所示，手写数据集中几乎40%的文本样本被标记为“Scribble”。实际上，写作者可能会加入或省略一些笔画来加快书写速度，这确实给现有的方法带来了困难。相反，由于文档数据集中的文本样本与其他三个数据集相比具有更高的可识别性，因此所有基线的识别准确率都可以超过90.0%。虽然场景数据集中包含了更多的样本，但一些问题(如遮挡、背景混淆、模糊等)仍然对基线方法提出了挑战，导致场景数据集中的性能相对较差。对于web数据集，所有基线的性能都低于场景数据集，这可能源于训练样本的稀缺性。

Discussions

对合成数据集进行预训练。考虑到以前的英语文本识别方法倾向于在大规模合成数据集上进行训练，我们还生成了一个合成CTR数据集来预训练基线模型，以进一步提高性能。关于合成CTR数据集和实验结果的详细信息见补充材料。通过大量的实验，我们观察到用合成数据集预训练基线模型在大多数情况下确实可以提高性能。虽然使用了大型合成数据集进行预训练，但由于中文文本的特点，基线模型仍然无法达到预期的性能。
PRAB的有效性。考虑到汉字可以根据cjkvi-ids 【https://github.com/cjkvi/cjkvi-ids】将每个汉字分解为特定的部首序列的特点，我们提出了一个可插入的部首感知分支(Pluggable radical - aware Branch, PRAB)，为每个汉字引入更细粒度的监督(即部首)。我们进行了大量的实验来评估PRAB的有效性，将其用于第4节中提到的所有基于注意力的方法。通过实验结果(见补充材料)，我们观察到，当所提出的PRAB用于提供激进级监督时，基于注意力的识别器在四个数据集上表现更好，这验证了PRAB的有效性。其中，PRAB对MORAN、SAR和TransOCR的平均准确率分别提高了1.83%、3.35%和2.33%。
疑难案例分析。我们手动选择一些困难的情况【我们在场景和web数据集中手动挑选100个遮挡样本，100个倾斜或弯曲样本，100个混淆背景样本，100个垂直样本，500个模糊样本】(例如，遮挡，倾斜或弯曲，令人困惑的背景，模糊和垂直)，并分析这些情况下基线的性能。请注意，“潦草”情况主要与手写数据集相关，因此我们不会单独分析“潦草”情况。这些 hard 情况下的实验结果见下表。特别是，我们观察到TransOCR与其他基线相比，可以很好地适应每种困难情况。得益于自关注模块，识别器可以轻松处理不常见的文本布局，如倾斜和弯曲，或减轻混淆前景(遮挡)或混淆背景引起的噪声。有趣的是，与TransOCR相比，ASTER在大多数情况下实现了更好的NED，因为ASTER利用的STN增加了对具有一定倾斜程度的 hard 样品的识别。此外，基于ctc的CRNN简单地将原始输入转换为一维特征，因此在垂直文本图像上表现不佳。总的来说，在这些困难的情况下，仍有很大的改进空间。

Conclusions

本文首先讨论了对中文文本识别缺乏关注的可能原因。为了解决这些问题，我们收集了公开可用的数据集，并将它们分别分为场景、web、文档和手写数据集。我们还分析了每个数据集的特征。然后，我们规范了CTR中的评价协议(如研究者是否应将繁体和简体汉字视为同一字符)，使不具备汉字知识的研究者也能参与到CTR研究中来。最后，我们在收集到的数据集上采用了8种具有代表性的方法作为基线。通过实证研究，我们观察到结合汉字知识有助于中文文本识别任务，这也为今后的CTR工作提供了指导。

A Details of PRAB

通过基线的实验结果，我们观察到现有识别器在收集的CTR数据集上的性能不如在英文数据集上的性能。一个可能的原因是汉字的特征与拉丁字母的特征大不相同。考虑到每个汉字都可以被分解成一个特定的词根序列，我们提出了一个可插入词根感知分支(Pluggable radical-aware Branch, PRAB)来引入更细粒度的监督(即词根)，使识别器能够捕获词根感知特征，从而更好地识别汉字。如下图所示，我们的方法框架可以分为三个部分:共享特征提取器、识别分支和PRAB。PRAB与识别器共享特征提取器，并使用识别器的注意掩码裁剪每个字符的特征映射。通过基于 Transformer 的解码器，每个字符被解码成一个根序列，根序列的监督是现成的，如[Denseran for offline handwritten chinese character recognition]所述。
- 我们方法的框架。红色箭头表示的数据流仅用于训练阶段。

A.1 Shared Feature Extractor

在这里，我们使用 TransOCR 作为基线，因此使用ResNet-34作为共享特征提取器。为了为PRAB保留更多的空间信息，我们在ResNet-34中删除了最后三个下采样层，因此共享特征提取器后的特征映射 $F_{text}$ 的维度为 $\frac H4 × \frac W4 × C$ ，其中H和W表示输入文本图像的高度和宽度。

A.2 Recognition Branch

为了给 PRAB 提供 attention masks，我们应该采用二维的基于注意的识别器，即TransOCR。在这里，识别器可以被任何其他基于二维注意力的识别器所取代。为了使基于一维注意力的识别器(例如ASTER ， MORAN和SEED)受益于所提出的PRAB，我们可以简单地将它们的解码器替换为二维注意力解码器。

A.3 Pluggable Radical-Aware Branch

通过共享特征提取器提取的特征映射 $F_{text}$ 与识别分支的注意掩模 $M_{att}$ 的位置相乘，我们可以得到与 $F_{text}$ 维数相同的每个字符 $F_{char}$ 的特征映射，即 $\frac H4 × \frac W4 × C$ 。但是， $F_{char}$ 中包含了更多无用的特征。为了保留每个字符的相关特征，我们使用 1 × 1 的卷积层将特征 $F_{char}\in \R^{\frac H 4 × \frac W 4 ×C} $ 压缩成大小为 $\frac H 4 × \frac H 4 × C$ 的 $F'_{char}$ ，然后将每个字符的压缩特征解码成相应的根式序列。受益于所提出的PRAB，共享特征提取器将捕获更多细粒度的偏旁部首级特征，以获得更好的字符识别。PRAB仅在训练阶段使用，不会引入额外的推理时间。

A.4 Experimental Results

如下表所示，采用本文提出的 PRAB 后，基于注意的方法的性能得到了进一步提高，因为PRAB引入了更细粒度的监督(即词根)来对字符进行分类。例如，在PRAB的帮助下，MORAN、SAR和TransOCR的平均准确率分别提高了1.83%、3.35%和2.33%。
- 采用所提出的PRAB的基线模型的实验结果。

B Pretrained with Synthetic Datasets

现有的场景文本识别器大多采用大规模的合成数据集进行预训练。因此，对于中文文本识别，我们也使用搜狗新闻https://github.com/lijqhs/text-classification-cn的语料库，通过文本生成器https://github.com/Belval/TextRecognitionDataGenerator生成一个包含20M样本的合成训练数据集。我们首先使用合成数据集对基线模型进行预训练，然后在四个收集到的数据集上对基线模型进行微调。实验结果(如下表所示)表明，在大多数情况下，使用生成的合成数据集进行预训练确实可以提高基线模型的性能。然而，这些为英语文本识别设计的基线模型仍然没有达到预期的性能。
- 用合成数据集预训练基线模型的实验结果。

C Visualization of Failure Cases.

我们在下面系列图中可视化了场景、web、文档、手写数据集的一些失败案例。特别地，我们从每个数据集中选出10个被所有基线错误预测的样本。作为显示在下图中,我们注意到,遮挡的文本(例如,“纽恩泰”、“财经天下”,“冰淇淋鸡蛋仔”,和“从小做起”)的确带来困难的识别器的前景可能会错误地认为部分文本。此外，还有一些极其困难的情况，如镜像文本(例如“麦当劳”)，即使人眼也难以辨认。
- Failure cases in the scene dataset.
对于web数据集中的失败案例，我们注意到基线很难处理具有艺术字体的文本图像(例如，“遇见”，“魅力端午节”，“没有地沟油”，“我爱姓名贴”)。
- Failure cases in the web dataset
如下图所示，尽管文档数据集具有最高的可识别性，因为它是通过文本呈现合成的，但一些样本仍然对所有基线造成困难。我们注意到基线没有处理一些很少使用的字符(例如，“瑗”，“菘”和“轭”)，从而错误地将它们视为其他类似字符。对于手写数据集，我们注意到连接或缺失的笔画可能会混淆基线(例如，“垂体”和“火夏”)。此外，一些带有长文本的图像可能会使基线难以捕获顺序模式。
- Failure cases in the document dataset.
- Failure cases in the handwriting dataset.

你可能感兴趣的:(论文笔记,OCR,中文场景CTR,benchmark,CTR调研)

Flink中的SQL Client和SQL Gateway BigDataMLApplication flink flink sql gateway
Flink中的SQLClient和SQLGateway对比目录定义基本原理适用场景主要区别常用运维命令示例官方链接正文1.定义SQLClient：FlinkSQLClient是一种用于提交和执行FlinkSQL语句的命令行界面或图形界面工具。SQLGateway：FlinkSQLGateway是一个独立的服务，它允许客户端通过RESTfulAPI将SQL查询提交到Flink集群。2.基本原理SQL
美团自动配送车2024春季招聘 | 社招专场美团技术团队
关于美团自动配送团队美团自动配送以自研L4级自动驾驶软硬件技术为核心，与美团即时零售业务结合，形成满足公开道路、校园、社区、工业园区等室外全场景下的自动配送整体解决方案。美团自动配送团队成立于2016年，团队成员来自于Waymo、Cruise、Pony.ai、泛亚等自动驾驶行业头部公司，自动驾驶技术团队博士占比高达30%，依靠视觉、激光等传感器，实时感知预测周围环境，通过高精地图定位和智能决策规划
CSV指南：Python程序获取大型CSV文件行数孤独打铁匠Julian 笔记经验分享 python
本指南提供了几种使用Python来获取大型CSV文件行数的方法，并解释了每种方法的适用场景。方法1:使用csv.reader处理复杂CSV文件当你的CSV文件中包含多行字段（即某些字段的值中包含换行符）时，使用csv.reader是一个可靠的选择，因为它能够正确处理这些复杂情况。这个方法适用于大多数大小的CSV文件，但是对于非常大的文件，读取整个文件可能会占用较多的时间和内存。对于极大的文件，考虑
keras.optimizers优化器中文文档地上悬河 python 开发语言后端
优化器optimizers优化器是编译Keras模型必要的两个参数之一model=Sequential()model.add(Dense(64,init='uniform',input_dim=10))model.add(Activation('tanh'))model.add(Activation('softmax'))sgd=SGD(lr=0.01,decay=1e-6,momentum=0.
石墨烯薄膜行业调研报告（一）方象知产研究院
01石墨烯类别（一）按厚度1.单碳层石墨烯（singlelayergraphene）：由单个碳原子层构成的大平面共轭结构材料，目前石墨烯的大多数奇特性质都是基于此材料2.多层石墨烯或少数碳层石墨烯（afewlayergraphene）：厚度在2~10碳层的石墨薄片材料，研究表明，其层内电子运动行为有别于石墨烯材料3.石墨烯微片（graphenenonaplatelets）：厚度在10~100纳米厚
Acrobat Pro DC ----专业PDF编辑与管理 *橙子 office pdf macos
AcrobatProDC2023是一款功能强大的PDF处理软件，它提供了丰富的编辑工具，支持创建、编辑、合并、分割PDF文件，以及高质量的PDF到其他格式的转换功能。同时，该软件集成了最新的OCR技术，可将扫描文档或图片转换成可编辑的PDF。AcrobatProDC2023还具备电子签名功能，支持多人协作和云端同步共享，大大提高了工作效率和团队协作效率。无论是设计、建筑、金融还是法律等行业，Acr
python转码 Desamond python 开发语言
转码在许多场景中都有应用，以下是一些常见的场景：网页开发：当用户在网页上输入文本时，可能需要将特殊字符（如空格、引号、特殊符号等）进行转码，以防止这些字符对URL或HTML代码产生干扰。文件名处理：在处理文件名时，可能需要将特殊字符进行转码，以避免文件名被错误地解析或显示。数据传输：在数据传输过程中，为了确保数据的完整性和正确性，可能需要将数据中的特殊字符进行转码。数据存储：在数据库或数据存储中，
《和另一个自己谈谈心》成长篇24 磷破读心理
标题:生命的存在只能“体验”到。人们常说:“艺术源于生活。”艺术代表着创造，它将生活的场景与情感进行了完美的融合。而它深层的含义是为了传递自己内心的体验。所以说，生命存在的意义在于体验。话虽如此，但体验也有好坏之分。而人的天性是只喜欢好的不喜欢坏的。于是，在面对不好的体验时，人们更愿意站在一个至高无上的位子去抱怨和评判。这样他们就可以远离身体的不舒服（包括:恐惧、无助、伤痛甚至是背叛的强烈刺激），
酷开科技依托酷开系统用“平台+产品+场景”塑造全屋智能生活！京创尤品科技生活
杰弗里·摩尔的“鸿沟理论”中写道：高科技企业推进产品的早期市场和产品被广泛接受的主流市场之间，存在着一条巨大的“鸿沟”。“鸿沟”，指产品吸引早期接纳者后、赢得更多客户前的那段间歇，以及其中可预知和不可预知的阻碍。多数产品或企业的失败都发生在“鸿沟期”。目前，智慧家居的发展正处在一个“鸿沟期”：势头看似迅猛，但真实用户有限。对于一些企业而言，这条巨大“鸿沟”之所以出现，在于他们对如何推进智慧家居并不
物联网边缘网关有哪些优势？-天拓四方北京天拓四方科技股份有限公司物联网其他边缘计算
随着物联网技术的快速发展，越来越多的设备接入网络，数据交互日益频繁，对数据处理和传输的要求也越来越高。在这样的背景下，物联网边缘网关应运而生，以其低延迟、减少带宽消耗、提高数据质量和安全性等优势，为物联网应用提供了强大的支持。物联网边缘网关的应用场景广泛，几乎涵盖了所有需要实时数据处理和传输的领域。在工业场景中，边缘计算网关可以实时处理海量传感器和设备的数据，实现对运行、制造过程的全环节实时监控、
虚境朝拾：懂王参加节目秀 2021/07/20 -5 群星璀璨十二时
虚境朝拾：2021/07/20场景5：懂王参加节目秀梦见懂王访华，带着两个手下。他们准备在杭州的即将开始的娱乐节目前秀一把实力。他们是其中一支参赛队。做足了准备。节目开始前，他们显得有些傲慢。比如懂王举着大瓶矿泉水吨吨吨在喝，喝的面红耳赤。其助手之一名校毕业，笔才惊人，然而因仕其主，而被台下观众们感到惋惜。另一个助手也是懂王的忠实的打手，尽管看上去平平无奇。
如果有时间哆哆的小主人
文／哆哆的小主人自述类型。听歌有感。《漠河舞厅》“如果有时间，你会来看一看我吧。”日历上勾勾画画太多痕迹，早已看不清本来面貌，也就数不清，距离他离开，究竟已经过了多少天。也许已经过了上千天了吧，但脑海里关于分别那天的场景却尤为清晰，没有爆发激烈的争执，也没有因为什么而导致关系破裂，只是好像两个人都突然在心里默认了，到了该分开的时候。那天的所有好像都一如往常，甚至看起来比往常还要甜蜜。并肩散步走到了
Vue 常见面试题(一) 安生生申面试题 vue.js 前端 javascript
目录1、Vue的最大的优势是什么？（必会）2、Vue和jQuery两者之间的区别是什么？（必会）3、MVVM和MVC区别是什么？哪些场景适合？（必会）1、基本定义2、使用场景3、两者之间的区别4、Vue数据双向绑定的原理是什么?（必会）5、Object.defineProperty和Proxy的区别（必会）6、Vue生命周期总共分为几个阶段？（必会）7、第一次加载页面会触发哪几个钩子函数？（必会）
Unity3D 制作MMORPG 3D地图编辑器详解 Thomas_YXQ 3d 编辑器 Unity3D 游戏开发 unity 开发语言
前言在MMORPG游戏中，地图编辑器是一个非常重要的工具，可以帮助开发者快速创建复杂的游戏地图。本文将详细介绍如何使用Unity3D制作一个简单的MMORPG3D地图编辑器。对惹，这里有一个游戏开发交流小组，希望大家可以点击进来一起交流一下开发经验呀！创建地图编辑器界面首先，我们需要创建一个新的Unity项目，并在场景中创建一个空的GameObject作为地图编辑器的主要控制器。然后，我们可以使用
搜维尔科技：Xsens-Awinda开箱测评，场景添加工具测评反馈！北京搜维尔科技有限公司科技
Xsens-Awinda开箱测评，场景添加工具测评反馈！搜维尔科技：Xsens-Awinda开箱测评，场景添加工具测评反馈！
Linux通过Tuned实现动态调优系统性能星河_赵梓宇 linux 运维服务器
Linux通过Tuned实现动态调优系统性能Tuned简介对于普通用户来说，优化Linux应用环境可能是相当具有挑战性的。它涵盖了各种领域，并且有许多参数需要考虑，比如CPU、存储、缓存策略和内存管理。尽管Linux有默认设置可以处理大多数情况和场景，但是对于高性能、高并发和高可用性系统等特殊场景，需要进行调整。本文讨论的特性是tuned，它是Linux系统中常用的一种调优服务。tuned由两个程
《煮茶图》杨宝树
【心赏】看到这张画，我一下子想起《向往的生活》，彭彭和其他嘉宾看着黄小厨在烹饪各种美食时眼睛一眨不眨，吞咽口水的场景。这该是一壶多么极顶的好茶啊，三个人张着嘴，瞪大眼，笑眯眯，满脸渴望目不转睛地盯着，隔着屏幕你们有没有闻到一股茶香，吸一下鼻子，闭上眼睛，嗯，这就是向往的生活！李连彬《煮茶图》：48×35cm图片发自App图片发自App
MPI4.1文档5-语言绑定、进程、错误处理、progress和实现 whyte王 MPI4.1文档详解 MPI MPI4 HPC 高性能计算
本博客参考官方文档进行介绍，全网仅此一家进行中文翻译，走过路过不要错过。官方网址：https://www.mpi-forum.org/参考文档：https://www.mpi-forum.org/docs/mpi-4.1/mpi41-report.pdf引用官方4.1文档方法：@manual{mpi41,author="{MessagePassingInterfaceForum}",title="
牛郎织女罗曼史潮汐_d5d4
牛郎织女是我国四大民间传说之一，牛郎织女的爱情故事家喻户晓，对他们的真挚感情热情讴歌。那么牛郎和织女是怎么走到一起的呢？单身阶段北斗九星牛郎织女起源于天文，诗经中出现了银河和织女、牵牛星宿，但尚未形成传说故事，还没有后来的情节，这个时候牛郎和织女还是单身。河南郑州青台遗址--陶罐北斗九星天文遗迹，说明5000多年前先民就对天文进行了细致的观察，具备了一定的天文知识，并将观察的结果应用到生活场景中。
山东省大数据局副局长禹金涛一行莅临聚合数据走访调研聚合数据 API 大数据人工智能 API
3月19日，山东省大数据局党组成员、副局长禹金涛莅临聚合数据展开考察调研。山东省大数据局数据应用管理与安全处处长杨峰，副处长都海明参加调研，苏州市大数据局副局长汤晶陪同。聚合数据董事长左磊等人接待来访。调研组一行参观了聚合数据展厅，了解了聚合数据的发展历程、数据产品、应用案例、奖项荣誉等情况。并就企业在数据处理和应用方面取得的成绩进行了深入交流。作为最早一批进入大数据行业的企业，聚合数据深耕行业十
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
list.sort()&&Collections.sort()深入理解有点野的程序猿经验总结 list java 数据库开发语言
list.sort()&&Collections.sort()文章目录list.sort()&&Collections.sort()背景相关代码代码一代码二原理举一反三业务场景考虑背景业务中经常用到List的sort()方法，但是对于其中return的-1，0，1理解不到位，导致业务出现错误；网上对于-1，0，1的表述并不是很清楚，今天详细聊一聊。相关代码先分享两段代码业务逻辑：通过student
解析XML文件的几种方式？人生在勤，不索何获 xml
在Java中解析XML文件可以通过多种方式完成，其中最常用的有DOM（DocumentObjectModel）、SAX（SimpleAPIforXML）和StAX（StreamingAPIforXML）。每种方式有其特点和适用场景。1.DOM解析DOM解析是一种将整个XML文档加载到内存中，构造成一个树形结构，然后你可以很方便地访问任何数据节点的方法。这种方法适用于需要频繁读写操作的场景。impo
智慧公厕的先进技术应用中期科技ZONTREE 智慧厕所智慧公厕智慧城市
公共厕所一直以来都是城市管理中一个重要的工作，但设施老化、环境脏乱、服务质量低下等问题一直困扰着城市居民。然而，随着科技的进步和数字技术的应用，智慧公厕的建设正在改变这一现状。智慧公厕通过对所在辖区内所有公共厕所的全域感知、全网协同、全业务融合和全场景智慧的赋能，“千厕一云”的公共厕所云管理模式应运而生。智慧公厕的云端多屏管理，将各个公厕连接在一起，实现信息的共享和管理的集中化。通过大数据、云计算
java中栈和队列的解释和使用。。。。。96 java 开发语言
一、栈在Java中，栈（Stack）是一种基于后进先出（LIFO）原则的数据结构，用于存储和管理对象。栈通常用于方法调用、表达式求值、历史记录管理等场景。在Java中，栈的常用方法包括：push(Eitem)：将元素压入栈顶。pop()：移除并返回栈顶元素。peek()：查看栈顶元素，但不移除它。empty()：检查栈是否为空。search(Objecto)：查找特定元素在栈中的位置，返回相对于栈
jupyter matplotlib中文乱码解决机器学习ing python画图 matplotlib jupyter python
中文乱码可能有两种情况1.matplotlib里面有中文字体2.没有中文字体查看是否有中文字体：#查询当前系统所有字体frommatplotlib.font_managerimportFontManagerimportsubprocessmpl_fonts=set(f.nameforfinFontManager().ttflist)print('allfontlistgetfrommatplotl
jupyter notebook 绘图中文显示乱码解决办法及绘图大小爱吹口哨的夜莺杂七杂八BUG
importmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=False插入上面代码即可参考博客：https://blog.csdn.net/silence2015/article/details/79097440?绘制图形大小：plt.rcParam
go的Job Scheduling ~kiss~ go golang 开发语言后端
背景司内线上服务有很多异步脚本，大量冗余代码，管理很不方便急需一个美丽的框架，让代码变得美好包gogetgithub.com/go-co-op/gocron/v2介绍gocronisajobschedulingpackagewhichletsyourunGofunctionsatpre-determinedintervals.概念JobJob封装（encapsulates）一个“任务task”，它
专注，抗干扰能力强但适应干扰能力弱相诚以待乡
一直觉得儿子专注力还可以，自小，玩一样东西的时候，很投入，经常你喊他都听不到，而且会一直坚持到底。不过最近发现，就是因为专注，一旦遇到了干扰，适应干扰的能力非常弱。比如，今天早上我早起带他早读，原本是一课一句句读下来的，读了几遍后，我说咱们分角色读吧，语言是用来交流的，它一定是在某个场景中，他竟然很抗拒，说不行，问为什么不行也不说，反正就是不读。我说你们在学校学语文也是这样的，不也有分角色朗读吗？
c#IQueryable和IEnumberable的区别彭小彭~ c#基础 c#
IQueryable和IEnumerable是C#中处理集合的两个重要接口，常用于LINQ查询。它们有一些关键区别，适用于不同的场景：1.执行查询的位置IEnumerable:当你对一个IEnumerable序列使用LINQ操作时，这些操作是在本地内存中执行的。如果IEnumerable表示数据库中的数据（例如，使用EntityFramework时），那么整个数据集首先会被加载到内存中，然后再应用
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户