shichaog

语音合成之十三中文文本归一化在现代语音合成系统中的应用与实践

中文文本归一化在现代语音合成系统中的应用与实践

引言
理解中文文本归一化（TN）
3 主流LLM驱动的TTS系统及其对中文文本归一化的需求分析
- A. SparkTTS（基于Qwen2.5）与文本归一化
- B. CosyVoice（基于Qwen）与文本归一化
4. Python库与代码实例
- A. 基础与通用库
- B. 综合性中文文本归一化工具包
- C. 专用转换库
- D. 综合归一化流程概念示例
建议与未来展望

引言

语音合成（Text-to-Speech, TTS）技术，旨在将文本信息转化为自然流畅的人类语音，已成为人机交互、内容播报和辅助技术等领域的核心组成部分。近年来，大型语言模型（LLM）的崛起为TTS领域带来了革命性的进步，使得合成语音在自然度、表现力和个性化方面达到了前所未有的高度。然而，高质量的语音合成始于对输入文本的精确理解和规范化处理。

中文文本因其语言特性，如缺乏显式词边界、多音字、以及数字、日期、特殊符号等非标准词（Non-Standard Words, NSW）的复杂表述方式，对TTS系统的前端处理提出了严峻挑战。文本归一化（Text Normalization, TN），作为TTS系统前端的关键环节，其任务是将书面文本转换为标准化的、可供后续声学模型直接处理的口语化文本形式。

理解中文文本归一化（TN）

中文文本归一化是将原始文本中包含的非标准词语（NSW）转换为TTS系统能够直接处理和正确发音的标准书面语或口语化表达的过程。这一过程对于提升合成语音的质量至关重要。

A. 中文文本归一化的核心作用与重要性
- 提升发音准确性：原始中文文本常含有数字、日期、缩写、特殊符号等，若不加处理直接送入TTS后端，极易产生发音错误或不自然的韵律。例如，数字“123”应读作“一百二十三”，而非“一二三”或逐字发音。文本归一化通过将这些NSW转换为规范的汉字表达，确保TTS系统能准确发声。
- 增强语音自然度：日常书面语中存在的缩写、非正式表达以及特定格式（如网址、邮件地址）需要被转换为更符合口语习惯的形式，从而使合成语音听起来更自然、更像人类讲话。
- 消除歧义，提高可理解性：某些NSW，如特定格式的数字串或未经解释的缩写，可能存在多种解读方式，导致听者困惑。文本归一化致力于消除这些歧义，生成清晰、单一的口语化表达。例如，“2023/5/11”应明确转换为“二零二三年五月十一日”或“两千零二十三年五月十一日”，避免按符号逐字朗读。
- 作为TTS前端处理的基石：文本归一化是TTS系统前端处理流程中的初始且关键的一步，其输出质量直接影响后续的词性标注、韵律预测、声学模型处理等环节。一个鲁棒的TN模块为整个TTS流程的顺畅运行和高质量输出奠定了坚实基础。在一些系统中，如Nuance Vocalizer，TN相关的代码甚至占到核心应用代码的20%以上，这足以说明其复杂性和重要性。
B. 中文文本归一化的主要挑战
中文文本归一化面临的挑战主要源于中文语言的特性和NSW的多样性：
- NSW形式多样复杂：数字（整数、小数、分数、百分比）、日期与时间（多种格式）、货币金额、度量单位、电话号码、网址、邮箱地址、数学符号、以及各种中英文缩写等，其书面形式与口语表达差异巨大，难以用简单规则完全覆盖。
- 上下文歧义性：同一NSW在不同上下文中可能有不同的读法。例如，数字串“110”在“110米”中读作“一百一十”，在报警电话场景中则读作“幺幺零” 。这种歧义的解决高度依赖上下文语境信息。
- 口语表达的地域差异与习惯：对于某些NSW，如数字“二”和“两”的使用，不同地区或语境下有不同的口语习惯。
  新词新语的涌现：网络时代不断产生新的缩写、表达方式，TN系统需要具备一定的扩展性和适应性。
C. 中文文本归一化流程与关键处理对象
典型的中文文本归一化流程通常包含预处理、非标准词识别与转换、后处理三个主要阶段。
1. 预处理（Pre-processing）：
  - 字符宽度转换：将全角字符（如ＩＰＨＯＮＥ，１２３）转换为半角字符（IPHONE, 123），以统一字符编码表示。
  - Unicode标准化：使用如NFKC（Normalization Form Compatibility Composition）等形式对Unicode文本进行标准化，确保字符表示的一致性，例如合并组合字符、转换兼容字符。
  - 繁简转换：根据TTS系统目标音库的语言，将输入文本统一转换为简体中文或繁体中文。
  - 无效字符或噪音去除：移除文本中不影响语义的控制字符、特定表情符号或预定义的黑名单词汇（如口头禅“呃”）。
2. 非标准词（NSW）识别与转换：这是TN的核心环节，针对不同类型的NSW应用特定的转换规则。
- 数字（Numbers）：
  - 基数词：如“465”转换为“四百六十五”，“6.42”转换为“六点四二” 。
  - 分数：“1/5”转换为“五分之一” 。
  - 百分比：“6.3%”转换为“百分之六点三” 。
  - 数字序列：电话号码、邮政编码、房间号等，如“12306”转换为“幺二三零六” 。这需要区分是作为数值还是序列来读。
  - 特殊处理：如“二”和“两”的区分，通常在百、千、万等单位前或特定语境下使用“两”。
- 日期（Dates）：
  - 多种格式（“2002/01/28”，“2002-01-28”，“2002.01.28”）统一转换为规范读法，如“二零零二年一月二十八日” 。
  - 年份的读法，如“2002年”可读作“二零零二年”或“两千零二年”。
- 时间（Time）：
  - “12:00”转换为“十二点”，“5:02”转换为“五点零二分”，“5:35:36”转换为“五点三十五分三十六秒” 。
  - 处理am/pm标记，如“8:00 a.m.”转换为“早上八点” 。
- 货币（Money）：
  - “￥13.5”转换为“十三点五元”，“$13.5”转换为“十三点五美元” 。需要识别货币符号并转换为对应货币单位。
- 度量单位（Measure）：
  - “25kg”转换为“二十五千克”，“38°C”转换为“三十八摄氏度”，“10km/h”转换为“每小时十公里” 。单位符号需要展开为完整的中文名称。
- 数学表达式（Math）：
  - “78:96”（比分）转换为“七十八比九十六”，“-2”转换为“负二”，“±2”转换为“正负二” 。
- 缩写与特殊词（Abbreviations & Whitelist）：
  - 英文缩写如“CEO”可能读作字母序列“C E O”或根据约定俗成的中文对应词（如果存在）。
  - 特定组合如“O2O”可能转换为“O to O” 。
  - 通过白名单机制处理特定机构名、品牌名或其他专有名词的固定读法。
- 儿化音处理（Erhua）：根据需求移除或保留儿化音，如“这地儿”可转换为“这地” 。

后处理（Post-processing）：
- 标点符号处理：移除不影响韵律的标点，或将特定标点转换为停顿标记。例如，句末标点（如“！”、“。”）通常保留以指导韵律，而某些中间标点可能被移除或替换。
- OOV（Out-Of-Vocabulary）标记：对于无法识别或转换的字符（如罕见字、非目标语言字符），进行标记，如“我们안녕”转换为“我们안녕” 。
- 文本格式整理：去除转换过程中可能产生的多余空格等。

中文文本归一化的复杂性在于，它不仅仅是简单的字符串替换，而是需要结合语言学知识、上下文信息，有时甚至需要机器学习模型来解决歧义问题。一个设计良好的TN系统能够显著提升TTS的最终效果。

3 主流LLM驱动的TTS系统及其对中文文本归一化的需求分析

基于LLM的TTS模型如SparkTTS和CosyVoice，凭借其强大的文本理解和生成能力，在语音合成领域取得了显著进展。然而，这些模型在处理原始中文文本时，对文本归一化的依赖程度和处理方式各有侧重。

A. SparkTTS（基于Qwen2.5）与文本归一化

SparkTTS是一个基于Qwen2.5 LLM的高效文本转语音模型。它通过BiCodec将语音分解为语义标记和全局说话人属性标记，并利用Qwen2.5进行建模。

尽管SparkTTS基于Qwen2.5，但其公开的资料（包括论文摘要和GitHub）并未详细说明其内置的中文文本归一化具体规则和覆盖范围。虽然LLM可能隐式处理一些简单的NSW，但对于复杂的中文特有现象（如“幺”的读法、特定的日期和金额格式转换），其鲁棒性从测试结果来看并不理想，而归一化之后的文本则具有较好的处理效果。

因此对于SparkTTS，尽管其依赖的Qwen2.5 LLM具有强大的文本处理能力，但为了确保在各种复杂中文输入下的语音合成准确性和自然度，进行显式的中文文本归一化预处理仍然是推荐的做法。依赖LLM自身隐式处理所有NSW可能存在风险，特别是在对发音准确性要求极高的场景。一个外部的、规则明确的TN模块可以作为重要的保障。

B. CosyVoice（基于Qwen）与文本归一化

CosyVoice是另一个基于LLM（如Qwen）的先进TTS系统，支持多语言和零样本语音克隆，并特别强调了流式合成能力。 SparkTTS仅开源了低采样率的模型和其推理代码，而CosyVoice的开源较为详细，涵盖了各种模型、数据集一集训练的代码，是推荐入手的模型。

“原始文本输入”与BPE分词器：CosyVoice 2的一个特点是直接使用“原始文本”作为输入，并通过一个基于BPE（Byte Pair Encoding）的分词器进行处理。这种方式旨在简化数据预处理流程，使模型能够以端到端的方式学习词汇在不同上下文中的发音。
集成的文本归一化选项：CosyVoice在其GitHub仓库中明确提到了文本归一化处理。它提供了两种选项：
WeTextProcessing：默认使用的文本归一化工具，如果ttsfrd未安装。WeTextProcessing是一个功能较全面的中文TN工具包。
ttsfrd：一个可选的文本归一化包，据称可能提供更好的TN性能。其规则基于Zhiyang Zhou的工作，涵盖了多种中文NSW类型。
frontend.py中的处理逻辑：CosyVoice的frontend.py代码（如中部分展示）清晰地显示了在文本送入模型前，会根据配置选择ttsfrd或WeTextProcessing（通过self.zh_tn_model.normalize(text)）对中文文本进行归一化处理。
结论：对于CosyVoice，中文文本归一化是其系统设计中明确考虑并集成的一环。用户可以选择使用其默认的WeTextProcessing或配置性能可能更优的ttsfrd。这意味着CosyVoice认识到，即使采用了先进的LLM和端到端学习策略，一个专门的中文TN模块对于处理复杂中文输入、保证合成质量仍然是必要的。

4. Python库与代码实例

为了在Python环境中实现中文文本归一化，开发者可以利用一系列开源库。这些库功能各异，有的专注于基础的字符处理，有的提供全面的NSW规则，有的则针对特定类型的转换。

A. 基础与通用库

unicodedata (Python标准库)

功能: 提供对Unicode字符数据库的访问，常用于字符属性检查和Unicode文本的标准化（如NFC, NFD, NFKC, NFKD形式的转换）。对于中文TN，NFKC范式特别有用，它可以将全角字符转换为半角，并处理一些兼容字符，有助于文本的初步清理和统一。
安装: Python内置，无需额外安装。
用途: 文本预处理阶段，进行字符层面的规范化，特别是全角到半角的转换。
代码示例:

Python

import unicodedata

text_full_width = "ＩＰＨＯＮＥ手机，价格：１２３４元，ＡＢＣ"
# 使用NFKC进行归一化，全角数字和字母会转为半角
normalized_text_nfkc = unicodedata.normalize('NFKC', text_full_width)

print(f"原始文本: {text_full_width}")
print(f"NFKC 归一化后: {normalized_text_nfkc}")
# 预期输出: IPHONE手机，价格：1234元，ABC

相关集成: 阿里云LLM文本标准化组件使用ftfy.fix_text(text, normalization=‘NFKC’)，其核心也依赖unicodedata的原理。

OpenCC-Python (或 opencc-python-reimplemented, OpenCC)
- 功能: 提供高质量的中文简繁体转换，支持词汇级别转换、异体字转换以及中国大陆、台湾、香港等地区的用词习惯转换。
- 安装: pip install opencc-python-reimplemented 或 pip install opencc 。后者是官方维护的更新版本。
- 用途: 根据TTS系统的目标音库（简体或繁体）统一输入文本的字符集。
  代码示例 (使用 opencc):

import unicodedata

text_full_width = "ＩＰＨＯＮＥ手机，价格：１２３４元，ＡＢＣ"
# 使用NFKC进行归一化，全角数字和字母会转为半角
normalized_text_nfkc = unicodedata.normalize('NFKC', text_full_width)

print(f"原始文本: {text_full_width}")
print(f"NFKC 归一化后: {normalized_text_nfkc}")
# 预期输出: IPHONE手机，价格：1234元，ABC

相关集成: 阿里云LLM文本标准化组件使用opencc包进行繁简转换。

B. 综合性中文文本归一化工具包

WeTextProcessing

功能: 一个面向生产环境的中文文本归一化（TN）与反归一化（ITN）工具包，提供了针对多种NSW的详细规则，并包含预处理和后处理流程。
安装: pip install WeTextProcessing 。通常需要通过conda安装其依赖pynini：conda install -c conda-forge pynini 。
中文TN主要特性:
数字归一化：基数、分数、百分比。
日期和时间归一化。
货币和度量单位归一化。
数字序列（如电话号码）归一化。
儿化音去除选项。
字符宽度转换（全角到半角）。
标点符号处理规则。
通过白名单/黑名单进行自定义处理。

from tn.chinese.normalizer import Normalizer as ZhNormalizer

# 假设WeTextProcessing已正确安装，并且规则文件可访问
# 初始化中文归一化器，例如，选择去除儿化音
# 在实际使用中，cache_dir可能需要指向WeTextProcessing规则编译后的缓存路径
# overwrite_cache=True 会强制重新编译规则，首次运行时或规则更新后使用
try:
    zh_tn_model = ZhNormalizer(remove_erhua=True, overwrite_cache=False) 
except Exception as e:
    print(f"初始化ZhNormalizer失败，请确保pynini和相关规则已正确配置: {e}")
    print("尝试不使用缓存 (可能较慢，且需要规则源文件):")
    # zh_tn_model = ZhNormalizer(remove_erhua=True, overwrite_cache=True, cache_dir=None) # 示例
    raise e


text_to_normalize = "总量的1/5以上，价格是￥13.5，今天是2022/01/28，我儿子喜欢这地儿。电话是13800138000。"
normalized_text = zh_tn_model.normalize(text_to_normalize)

print(f"原始文本: {text_to_normalize}")
print(f"WeTextProcessing 归一化后: {normalized_text}")
# 预期输出 [8]:
# 总量的五分之一以上，价格是十三点五元，今天是二零零二年一月二十八日，我儿子喜欢这地。电话是幺三八零零幺三八零零零。

相关集成: CosyVoice默认使用WeTextProcessing进行文本归一化。

NVIDIA NeMo-text-processing

功能: 基于加权有限状态转换器（WFST）的文本归一化和反归一化工具，支持包括中文（zh）在内的多种语言。
安装: pip install nemo_text_processing 或从源码安装。依赖pynini，推荐通过conda安装：conda install -c conda-forge pynini==2.1.5 (版本号可能需根据NeMo版本调整) 。
中文TN主要特性: 支持中文的TN和ITN 。WFST基础使其在模式匹配方面非常强大和高效。可以利用缓存的编译语法文件（.far）来加速处理。
代码示例 (Python调用方式): NeMo的TN功能主要通过normalize.py脚本或其内部的Normalizer类来使用。以下是一个概念性的Python调用示例，具体API参数和用法请参考NeMo官方文档。
相关资料: NeMo提供了详细的WFST教程，解释了如何构建和使用语法。中文的特定语法规则文件（.tsv或Python定义的规则）位于NeMo-text-processing/nemo_text_processing/text_normalization/zh/目录下，例如cardinal.py用于处理基数词。

C. 专用转换库

num2chinese / ChineseNumberUtils

功能: 专注于阿拉伯数字与中文数字字符之间的相互转换。ChineseNumberUtils支持简繁体、大写数字，并能处理较大的数值范围和“二/两”的用法。
安装: pip install num2chinese 或 pip install ChineseNumberUtils。
用途: 在TN流程中专门处理数字字符串的转换，可以作为更大型TN系统的一个组件，或者在对数字格式有特殊要求时使用。
代码示例 :

from cnc import convert

# 阿拉伯数字转中文
number1 = 578.5
chinese_numeral_s = convert.number2chinese(number1, language="S") # 简体
chinese_numeral_t_big = convert.number2chinese(number1, language="T", bigNumber=True) # 繁体大写

print(f"数字: {number1}")
print(f"简体中文数字: {chinese_numeral_s}") # 预期: 五百七十八点五
print(f"繁体大写中文数字: {chinese_numeral_t_big}") # 预期: 伍佰柒拾捌點伍

# 中文转阿拉伯数字
chinese_text1 = "两千零一十二"
arabic_number1 = convert.chinese2number(chinese_text1)
chinese_text2 = "贰佰零贰" # 大写简体
arabic_number2 = convert.chinese2number(chinese_text2)

print(f"中文文本: {chinese_text1} => 阿拉伯数字: {arabic_number1}") # 预期: 2012
print(f"中文文本: {chinese_text2} => 阿拉伯数字: {arabic_number2}") # 预期: 202

ttsfrd

功能: 作为CosyVoice中的一个可选中文TN模块，据称能提供更好的性能。其规则基于Zhiyang Zhou的工作，涵盖了基数词、日期、数字、分数、金额、百分比、电话等NSW的归一化。
安装: 通常通过CosyVoice项目提供的.whl文件进行安装。
用途: 主要集成在CosyVoice系统内部。其frontend.py中通过self.frd.do_voicegen_frd(text)调用。独立使用的API细节在现有资料中尚不完全清晰，但其核心能力是针对中文NSW的规则化处理。
代码示例 (概念性，基于CosyVoice内部调用):

# 概念性代码，ttsfrd的直接API调用需查阅其具体实现或文档
# class TTSFRD_Handler:
#     def __init__(self):
#         # 此处进行ttsfrd相关初始化
#         # self.frd = ttsfrd.Frontend() # 假设的初始化方式
#         pass

#     def normalize_text(self, chinese_text: str) -> str:
#         # normalized_data = self.frd.do_voicegen_frd(chinese_text) # 调用核心处理
#         # sentences_data = json.loads(normalized_data)["sentences"]
#         # return "".join([item["text"] for item in sentences_data])
#         return "示例：ttsfrd处理后的文本" # 占位符

# handler = TTSFRD_Handler()
# text = "价格12块5，日期86年8月18日"
# normalized = handler.normalize_text(text)
# print(f"ttsfrd 归一化后 (概念): {normalized}")

whisper-normalizer

功能: 实现了OpenAI Whisper模型中使用的文本归一化算法，主要包含BasicTextNormalizer和EnglishTextNormalizer 。
对中文的适用性: 文档明确提示，“在母语中使用BasicTextNormalizer可能不是一个好主意”，并且指出其在印地语等资源较少的语言中可能存在问题。这意味着直接将其用于中文TN可能效果不佳，除非针对中文进行大量的规则定制和适配。其主要设计目标是为ASR评估提供一致的文本处理，而非专门为中文TTS的口语化转换。
代码示例 (通用，非中文优化):

from whisper_normalizer.basic import BasicTextNormalizer

# BasicTextNormalizer主要进行一些通用清理，如小写化、移除特定标点等
# 对中文的NSW处理能力有限
normalizer = BasicTextNormalizer()
text = "这是 一段ＣＨＩＮＥＳＥ文本，包含１２３。"
normalized_text = normalizer(text)

print(f"原始文本: {text}")
print(f"Whisper BasicTextNormalizer 后: {normalized_text}") 
# 预期输出 (可能只是小写化和一些符号处理): 这是 一段chinese文本，包含123。

D. 综合归一化流程概念示例

在实际应用中，通常需要组合使用这些库来实现一个鲁棒的中文文本归一化流程。以下是一个概念性的Python函数，展示了如何将多个工具串联起来：


import unicodedata
import opencc # 假设使用官方 opencc 包
from tn.chinese.normalizer import Normalizer as WeTextProcessingNormalizer # 假设 WeTextProcessing 已安装且路径配置正确
from cnc import convert as num_converter # 假设 ChineseNumberUtils 已安装

# 初始化转换器 (一次性)
oc_converter = None
try:
    oc_converter = opencc.OpenCC('t2s.json') # 示例：繁体到简体
except Exception as e:
    print(f"OpenCC 初始化失败: {e}")

wetext_normalizer = None
try:
    # 实际使用时，请确保 pynini 及 WeTextProcessing 的规则文件路径正确
    # cache_dir 指向编译好的.far 文件目录，若为 None 或路径无效，可能尝试从源规则编译
    wetext_normalizer = WeTextProcessingNormalizer(remove_erhua=True, overwrite_cache=False)
except Exception as e:
    print(f"WeTextProcessing Normalizer 初始化失败: {e}")


def comprehensive_chinese_tn_pipeline(text: str) -> str:
    print(f"原始输入: {text}")

    # 步骤 1: Unicode 归一化 (例如 NFKC)
    try:
        text = unicodedata.normalize('NFKC', text)
        print(f"Unicode NFKC 归一化后: {text}")
    except Exception as e:
        print(f"Unicode 归一化失败: {e}")
        # 根据策略决定是否继续或抛出异常

    # 步骤 2: 繁简转换 (按需选择，此处示例为繁转简)
    if oc_converter:
        try:
            text = oc_converter.convert(text)
            print(f"OpenCC 繁转简后: {text}")
        except Exception as e:
            print(f"OpenCC 转换失败: {e}")
    else:
        print("OpenCC 未初始化，跳过繁简转换。")


    # 步骤 3: 使用综合性工具包进行NSW归一化 (如 WeTextProcessing)
    if wetext_normalizer:
        try:
            text = wetext_normalizer.normalize(text)
            print(f"WeTextProcessing 归一化后: {text}")
        except Exception as e:
            print(f"WeTextProcessing 处理失败: {e}")
    else:
        print("WeTextProcessing Normalizer 未初始化，跳过NSW归一化。")

    # 步骤 4: (可选) 针对特定需求，使用专用库进行补充处理
    # 例如，如果WeTextProcessing对某种数字格式处理不符合预期，可以在此用 ChineseNumberUtils 等进行修正
    # 此处仅为示例，实际中需要判断是否必要
    # if "特定未处理模式" in text:
    #     text = custom_specific_normalization(text, num_converter)
    #     print(f"特定规则补充处理后: {text}")

    # 步骤 5: 最终清理 (例如，去除可能由多步处理引入的多余空格)
    text = " ".join(text.split())
    print(f"最终清理后: {text}")
    
    return text

# 示例调用
raw_text_example = "臺北的氣溫是２５°C，價格是NT$１００元，佔總數的1/２。電話是０２－２７３７６６６６。"
if __name__ == '__main__':
    # 确保在主模块执行时进行初始化和调用，避免多进程问题
    # (上面初始化部分已移至全局，实际应用中需考虑初始化时机)
    if not oc_converter or not wetext_normalizer:
        print("错误：一个或多个核心归一化组件未能成功初始化。请检查依赖和配置。")
    else:
        normalized_for_tts = comprehensive_chinese_tn_pipeline(raw_text_example)
        print(f"\n最终送往TTS的文本: {normalized_for_tts}")
        # 预期输出 (概念性，实际输出依赖各库的具体实现和规则):
        # 台北的气温是25摄氏度，价格是新台币100元，占总数的二分之一。电话是零二二七三七六六六六。

这个流程展示了多层次处理的思想：从基础的字符层面标准化，到简繁统一，再到复杂的NSW处理，最后进行清理。实际应用中，每一步的选择和顺序可能需要根据具体需求和所用库的特性进行调整和优化。重要的是，没有一个单一的库能够完美解决所有中文TN问题，组合使用往往是必要的。

表1: 主要Python中文文本归一化库对比

库名称	主要功能	中文TN关键特性	安装方式 (pip)	主要依赖	理想使用场景
unicodedata	Unicode字符数据库访问与标准化	全角转半角 (NFKC)，字符属性查询	Python内置	无	文本预处理，字符层面一致性处理
opencc-python / OpenCC	中文简繁体转换	支持简繁、地区词汇（大陆、台湾、香港）转换	opencc 或 opencc-python-reimplemented	OpenCC核心库 (通常随包提供)	统一输入文本的简繁体
WeTextProcessing	中文TN与ITN	数字、日期、时间、货币、度量衡、序列号归一化；儿化音处理；字符宽度转换；标点规则；白名单	WeTextProcessing	pynini (通常需conda安装)	作为TTS系统主要的中文TN引擎，处理各类NSW
NVIDIA NeMo-text-processing	多语言TN与ITN (基于WFST)	支持中文TN/ITN；WFST规则驱动；可缓存语法	nemo_text_processing	pynini (通常需conda安装), PyTorch(可选)	需要高性能、基于WFST的TN方案，特别是在NVIDIA生态中
ChineseNumberUtils	中文数字与阿拉伯数字互转	支持大数、小数、简繁体、大写数字、“二/两”区分	ChineseNumberUtils	无	专门处理数字与中文数字字符的转换，或作为大型TN系统的补充
ttsfrd	中文TN (CosyVoice选用)	基于规则的NSW处理（数字、日期、金额等）	通过CosyVoice提供的.whl文件安装	pynini (通过ttsfrd_dependency.whl)	主要用于CosyVoice系统，或希望使用其特定规则集的场景
whisper-normalizer	OpenAI Whisper的文本归一化算法实现	基础文本清理，英文归一化。对中文NSW处理能力有限，不推荐直接用于复杂中文TN	whisper-normalizer	无	ASR评估时的文本标准化，不适合作为中文TTS的主要TN工具

这个表格为开发者选择合适的Python库提供了清晰的对比和参考。选择时应综合考虑项目需求、输入文本的复杂程度、对特定NSW处理的精细度要求以及系统环境的依赖。通常，一个稳健的中文TN方案会结合unicodedata进行预处理，OpenCC进行简繁转换，再选用WeTextProcessing或NeMo-text-processing作为主要的NSW处理引擎，并可能辅以ChineseNumberUtils等专用库处理特定细节。

建议与未来展望

为LLM驱动的TTS系统实现高效且准确的中文文本归一化，需要周全的策略和对可用工具的深入理解。同时，该领域仍在不断发展，展现出一些值得关注的趋势。中文文本归一化在LLM驱动的TTS中的最佳实践

坚持显式归一化优先：尽管LLM具备一定的语言理解能力，但不应完全依赖其隐式处理复杂的中文NSW。一个明确的、前置的TN流程能显著提升系统的鲁棒性、可预测性和最终语音的准确性。对于规则明确的转换（如特定数字读法、日期格式），显式规则通常比LLM的概率性生成更为可靠。
采用分层处理策略：构建一个多层次的TN流程。首先进行基础的Unicode标准化（如使用unicodedata进行NFKC转换）和必要的简繁转换（使用OpenCC）。随后，应用一个综合性的中文TN工具包（如WeTextProcessing或NVIDIA NeMo-text-processing）来处理常见的NSW。最后，可以针对特定领域或未覆盖的边缘情况，补充自定义规则或专用库（如ChineseNumberUtils）。
重视上下文消歧：中文NSW的歧义性是一大挑战（例如，“110”的读法）。对于这类情况，需要利用上下文信息。这可以通过设计更精细的规则（如在WFST中编码上下文约束）或训练专门的机器学习/LLM组件来辅助判断。例如，Llama在TTS前端的研究中就包含了同形异义词消歧任务。
进行严格和全面的测试：建立一个覆盖各类中文NSW（数字、日期、时间、金额、度量、地址、电话、缩写等）、不同格式、以及潜在歧义和边缘案例的测试集。不仅要评估TN模块的文本输出，更要结合TTS系统评估最终合成语音的准确性和自然度。
确保规则和模型的可维护性：如果TN流程中包含基于规则的组件（如WFST或正则表达式），务必确保这些规则有良好的文档、易于理解和修改。对于基于机器学习或LLM的TN组件，应建立完善的数据管理、模型训练和版本控制流程。
考虑用户自定义和白名单机制：对于特定行业应用或用户群体，可能存在独特的术语、缩写或读法偏好。提供白名单功能（如WeTextProcessing 和NeMo 所支持的）允许用户自定义归一化行为，能显著提升系统的适应性和用户满意度。

中文文本归一化技术，尤其是在LLM的背景下，正朝着更智能、更融合的方向发展：

LLM与TN的更紧密融合：未来的TTS系统可能会看到LLM更深入地参与到TN过程中，不仅仅是接收已归一化的文本。LLM有望在理解上下文的基础上，更智能地指导NSW的读法选择，甚至参与到部分归一化任务中，如更复杂的歧义消解和风格化朗读（例如，将“100元”根据上下文读作“一百块”或“一百元”）。
端到端归一化的潜力与挑战：虽然完全依赖LLM进行端到端的隐式归一化（即从原始文本直接到声学特征，中间不经过明确的文本转换步骤）在理论上可行，并且LLM能从大规模（文本，语音）数据中学习一些常见模式，但对于低频、复杂或有严格发音规则的中文NSW，其鲁棒性和准确性仍是巨大挑战。确定性的规则在这些场景下仍具有不可替代的优势。
上下文感知能力的增强：LLM的上下文理解能力将持续赋能TN。例如，对于数字“一”在电话号码中读“幺”，在序数词中读“一”，LLM可以凭借其对篇章级上下文的把握，更准确地指导这些发音选择。
零样本/少样本适应性：借助LLM强大的泛化能力，未来TN系统有望在少量甚至无需特定领域样本的情况下，快速适应新领域、新词汇或特定用户群体的归一化需求。
中文TN基准的标准化与完善：目前，相较于英文（如Google Text Normalization dataset ），公开的、大规模、高质量的中文TN评测基准相对缺乏。未来有望出现更完善的中文TN数据集和评测标准，以推动该领域技术的发展和客观比较。
混合模型成为主流：纯规则系统在处理灵活性和上下文感知方面有局限，而纯LLM系统在确定性和细粒度控制方面可能不足。因此，结合规则（如WFST）的确定性、高效性与LLM的上下文理解、泛化能力的混合模型，很可能成为未来中文TN的主流解决方案。这种混合系统能够利用规则处理明确的、模式化的NSW，同时利用LLM处理更复杂、更依赖上下文的归一化任务和歧义消解。

你可能感兴趣的:(语音合成,语音合成,TTS)

开源TTS vanloswang 综合 TTS
Ekhohttp://sourceforge.net/projects/e-guidedog/files/Ekho/http://www.eguidedog.net/ekho.phpflitehttp://www.speech.cs.cmu.edu/flite/
5个必知的AIGC工具，轻松打造爆款虚拟偶像 AI原生应用开发 AI 原生应用开发实战 AIGC ai
5个必知的AIGC工具，轻松打造爆款虚拟偶像关键词：AIGC工具、虚拟偶像、AI生成内容、数字人建模、智能交互、语音合成、动画生成摘要：本文深度解析5款前沿AIGC工具在虚拟偶像打造中的核心应用，涵盖从形象设计、语音生成到动态交互的全流程技术实现。通过MidJourney、D-ID、MetaHuman、RunwayML、VoiceMaker等工具的原理剖析、操作指南及实战案例，揭示如何利用AI技术
docker基础挂载卷自动化生成镜像 huangstts
dockerimagesdockerimagels列出所有docker镜像镜像搜索镜像[root@huangstts~]#dockersearchcentos7搜索镜像获取镜像查看镜像详细信息[root@huangstts~]#dockerimageinspectcentos7:v1[{"Id":"sha256:688353a31fdee02a966d1f83e9210f77b5a63baaaac
语言合成模型Spark-TTS-0.5B学习笔记 tutgxuzyj spark 学习笔记
语言合成模型Spark-TTS-0.5B学习笔记语言合成是通过计算机技术将文字信息转换为自然流畅的语音输出，模拟人类语音。一、下载Spark-TTS-0.5B项目下载链接：https://github.com/SparkAudio/Spark-TTS.git注：需要科学网络。进入Spark-TTS文件夹，启动命令行窗口。创建Conda环境：condacreate-nsparktts-ypython
Spark-TTS 使用时间自由 AI 人工智能
1.开发背景上一章节使用了MegaTTS3实现文本转语音，但是后面才发现只能使用官方的语言包，没看到克隆功能，所以重新找了一个可以克隆语音的开源模型。2.开发需求在Ubuntu下实现Spark-TTS的部署，实现官方语音克隆，根据自定义文本输出语音。3.开发环境Ubuntu20.04+Conda+Spark-TTS+RTX5060TI4.实现步骤4.1安装环境#创建环境python版本建议3.10
Android使用文本转语音方案憨憨~rui android
1.Android平台下安装tts语音包安装完成后，用户需要在设备的设置中启用所安装的TTS引擎。步骤如下：打开设备的“设置”应用。找到并选择“语言和输入法”或“语言和输入”选项（具体名称可能因设备不同而有所差异）。选择“文本转语音输出”或类似的选项。选择刚刚安装的TTS引擎作为默认引擎。2.代码使用importandroid.os.Bundle;importandroid.speech.tts.
python实现百炼平台tts语音合成接入
️DashScope语音合成（TTS）从入门到实践教程本教程将带你快速掌握如何使用DashScope的SpeechSynthesizer类实现语音合成，涵盖三种调用方式（同步、异步、流式），附带完整代码示例和关键注意事项。一、前置准备1.安装依赖确保已安装Python3.7+，并通过pip安装DashScopeSDK：pipinstalldashscope若需流式调用实时播放音频（如示例中的pya
【论文蒸馏】Recent Advances in Speech Language Models: A Survey Greener_Pat 论文蒸馏语言模型人工智能 AudioLM
AbstractLLM蓬勃发展，但从交互的自然性上看语音大模型(SpeechLM)有巨大的发展空间。直接的方法是ASR(语音转文字)+LLM+TTS(文字转语音)，但是这样有其固有的限制，而端到端的SpeechLM表现更好，本文及其方法论做了一个概览的综述1.Introduction大语言模型提供了强大的AI基础支架，在其它领域有着广泛应用。但交互上不自然，所以需要声学大模型。一种直接的实现方式是
【人工智能之深度学习】1. 深度学习基石：神经元模型与感知机的数学本质（附代码实现与收敛性证明） AI_DL_CODE 人工智能之深度学习人工智能深度学习神经元模型感知机赫布法则深度学习基础线性可分
摘要：作为深度学习的基础单元，神经元模型与感知机承载着从生物智能到人工神经网络的桥梁作用。本文从生物神经元的工作机制出发，系统剖析数学建模过程：详解赫布法则的权重更新原理（Δwi=η·xi·y），推导McCulloch-Pitts神经元模型的数学表达（y=Θ(∑wixi−b)），重点证明感知机在linear可分情况下的收敛性——通过Novikoff定理严格推导迭代次数上界，揭示间隔γ对收敛速度的影
VUE如何设置语音穆罕周 vue.js 前端 javascript
在Vue项目中设置语音功能可以通过1、使用WebSpeechAPI和2、集成第三方语音合成库来实现。WebSpeechAPI是一种浏览器内置的API，它提供了语音识别和语音合成功能，而第三方语音合成库则提供了更加丰富和灵活的功能。一、使用WebSpeechAPIWebSpeechAPI是一种原生浏览器API，它包括了语音识别和语音合成两部分。以下是如何在Vue项目中使用WebSpeechAPI设置
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
开源模型应用落地-全能音频新纪元-Kimi-Audio-7B-Instruct-重塑多模态交互边界开源技术探险家开源模型-实际应用落地开源音视频 AIGC agi
一、前言在AI技术持续突破的2025年，音频交互正从单一任务处理迈向全场景融合的新阶段。4月27日，月之暗面（MoonshotAI）开源的Kimi-Audio-7B-Instruct，以“全能音频通才”之姿，为这一进程树立了里程碑式标杆。这款基于70亿参数架构的模型，首次在单一框架内整合语音识别（ASR）、情感分析（SER）、跨语言对话、语音生成（TTS）等十余项任务，并通过12.5Hz混合标记器
GPT-4o mini TTS：领先的文本转语音技术桂花饼 AIGC GPT-4o o4-mini 语音识别人工智能 GPT-4o
什么是GPT-4ominiTTS？GPT-4ominiTTS是OpenAI推出的全新一代文本转语音（TTS）技术，能够以自然、流畅的方式将普通文本转换为语音。依托先进的神经网络架构，GPT-4ominiTTS在语音合成中避免了传统TTS的生硬与机械感，能够生成富有情感和个性化表达的高质量语音。该技术支持多语言与多口音，是视频、播客、电子学习等场景的理想选择。核心特点自然流畅，接近真人GPT-4om
2024 睿抗机器人开发者大赛CAIP-编程技能赛-本科组（国赛） Cheneyacc 算法 c++数据结构
RC-u1大家一起查作弊分数15在今年的睿抗比赛上，有同学的提交代码如下： publicasfiasfgwef12(){inttsadflas=3;intmasf11233=2;int[]wasdf1213=newint[10+1];int[]vasf124l=newint[10+I];int[][]ddasf1234p=newint[masf11233...你肯定很奇怪，这看上去代码似乎不像是正
【DW11月-深度学习】Task03前馈神经网络沫2021
参考链接：https://datawhalechina.github.io/unusual-deep-learning/#/4.%E5%89%8D%E9%A6%88%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C一、神经元模型2.1神经元1943年，美国神经生理学家沃伦·麦卡洛克(WarrenMcCulloch)和数学家沃尔特·皮茨(WalterPitts)对生物神经元进行
基于pyQt5为前端实现的智能座椅控制系统，集成了人脸识别、语音合成和座椅记忆功能，为用户提供个性化的座椅调节体验，后期可连接智能座椅。渴死的鱼仔 qt 前端开发语言
智能座椅控制系统：基于PyQt5的个性化解决方案界面描述：一、系统概述基于PyQt5开发的智能座椅控制系统，深度融合人脸识别、语音交互与座椅记忆功能，打造个性化舒适体验。系统通过实时用户识别自动调节座椅参数，后期可无缝对接智能座椅硬件，实现"无感式"智能生活场景。二、核心功能模块1.人脸识别引擎高精度识别：基于Dlib库实现亚毫米级人脸特征提取动态管理：支持多人脸特征存储与实时匹配快速响应：毫秒级
AI数字人系统开发上线全攻略：从0到1全流程解析 v_qutudy 人工智能 AI系统开发 AI数字人开发
一、需求分析：定义数字人核心能力1.1功能规划矩阵模块基础功能进阶功能形象生成2D/3D建模实时表情捕捉与驱动语音交互TTS语音合成情感识别与应激反应动作系统预设动作库骨骼动画与物理引擎智能决策规则引擎强化学习驱动决策多模态交互文本/语音输入AR/VR空间交互1.2非功能性指标实时性：唇形同步延迟B[语音识别]A-->C[姿态检测]A-->D[文本理解]B-->E[NLP引擎]C-->F[动作解析
微软语音合成标记语言SSML文档结构和事件（详细文档和实例）阿酷tony AI数字人微信语音合成 microsoft 微软语音 SSML文档结构 SSML结构 SSML语音合成
说明：MicrosoftAzure中国技术文档网站，请访问https://docs.azure.cn包含输入文本的语音合成标记语言(SSML)确定了文本转语音输出的结构、内容和其他特征。例如，可以使用SSML来定义段落、句子、中断/暂停或静音。可以使用事件标记（例如书签或视素）来包装文本，这些标记可以稍后由应用程序处理。有关如何在SSML文档中构建元素的详细信息，请参阅以下部分。备注某些语音不支持
基于 esp32-s3，结合私有化大模型，集asr语音识别、llm大模型、tts语音合成，设计一个技术方案，要求用websocket保持长链接，
以下方案演示了如何基于ESP32-S3，通过私有化大模型组合ASR（语音识别）、LLM（语言大模型）和TTS（语音合成）来构建一个语音交互系统，并且通过WebSocket保持与服务器的长连接通讯。整体方案分为以下几个部分：系统整体架构与数据流协议设计与消息格式服务器端实现示例ESP32-S3端实现示例运行流程与示例下面将对各部分进行详细说明。ESP32-S3没想到私有化大模型速度也能这么快ESP3
CosyVoice2.0整合包：免费一键启动，释放语音克隆的创意潜能 VXHAruanjian888 人工智能
引言语音克隆技术正在重塑内容创作与技术开发的边界，而CosyVoice2.0整合包以其简单易用和强大功能，成为语音合成领域的耀眼新星。无论你是短视频制作者、程序员，还是对AI语音技术感兴趣的探索者，这款完全免费的整合包都能让你轻松上手，体验专业级语音克隆的无限魅力。本文将详细介绍CosyVoice2.0整合包的特色、使用方法以及如何通过超链接免费下载，助你快速开启语音克隆的创意之旅！立即点击以下链
ChatTTS实现文本转语音（TTS）全流程教程【附完整代码 & 环境配置】文浩（楠搏万）语言模型 Chattts 大语言模型 AI 人工智能 python 生成
言简意赅的讲解ChatTTS解决的痛点‍本教程手把手带你从零上手ChatTTS，实现文本到语音（TTS）转换，适合自媒体配音、有声内容创作、AI语音实验等场景。配套提供完整代码和环境配置方法，一键复现，无压力！什么是ChatTTS？ChatTTS是由清华大学团队开源的一款中文文本转语音（Text-to-Speech,TTS）模型。它的特点包括：️语音自然流畅，情感丰富️支持自定义发音人音色（spe
【TTS】2024-2025年主流开源TTS模型的综合对比分析
以下是针对2024-2025年主流开源与商用TTS模型的综合技术选型分析，结合GitHub热度、功能特性、部署成本及中文支持等核心维度进行对比，并附详细实践建议。一、开源TTS模型对比（2024-2025年主流方案）模型名称开源/厂商克隆支持中文支持部署要求更新状态开源地址/时间核心优势Dia-1.6BNariLabs(开源)✅零样本声纹克隆❌仅英语GPU(A4000,40tokens/s)✅活跃
Teacher Forcing--------一种用于序列生成任务的训练技巧 AI扶我青云志自然语言处理人工智能
好的，我们来详细介绍一下TeacherForcing，这是一种在训练序列生成模型（如循环神经网络RNN、长短期记忆网络LSTM、门控循环单元GRU、以及后来的Transformer）时常用的重要技术。核心概念目标：训练一个模型，使其能够根据给定的输入序列（如前一个词、图像编码、时间步数据等）预测下一个输出元素（如下一个词、下一个音符、下一个时间点的值等）。这在机器翻译、文本摘要、对话生成、语音合成
GPT-SoVITS项目重大更新全解析：从语音合成到多语言支持的技术演进胡晗研
GPT-SoVITS项目重大更新全解析：从语音合成到多语言支持的技术演进GPT-SoVITS项目地址:https://gitcode.com/gh_mirrors/gp/GPT-SoVITS项目概述GPT-SoVITS是一个先进的语音合成与转换系统，集成了GPT模型与SoVITS技术，能够实现高质量的语音合成、语音转换以及多语言混合处理。该系统不断迭代更新，在语音质量、训练效率和多语言支持等方面持
免费AI配音工具大盘点：2024年不容错过的5大选择 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
免费AI配音工具大盘点：2024年不容错过的5大选择关键词：AI配音工具、文本转语音（TTS）、免费开源、多语言支持、语音合成技术、自然度优化、应用场景摘要：本文深度解析2024年主流免费AI配音工具，从技术原理、功能特性、使用场景到实战案例展开分析。通过对比五大工具（GoogleText-to-Speech、MicrosoftAzureTTS、AmazonPolly、VocaloidNeo、Co
人工智能训练知识学习-TTS（智能语音合成）笨鸟笃行人工智能学习
人机对话——TTS（TextToSpeech）概念：TTS技术，即文本转语音技术，是一种将文字内容转换为语音输出的技术。它通过计算机程序和算法，将文本信息转化为自然流畅的语音信号，让用户能够听到文字内容，而无需手动阅读。（即将文本转换为语音输出）TTS技术的工作原理（一）文本预处理当TTS系统接收到一段文本输入时，首先会对文本进行预处理。这包括分词、词性标注、语义理解等操作。例如，在中文文本中，系
Python 语音识别与语音合成的实现方法加班不如去钓鱼 python 语音识别 xcode
```htmlPython语音识别与语音合成的实现方法Python语音识别与语音合成的实现方法随着人工智能技术的发展，语音处理在实际应用中变得越来越重要。Python作为一种功能强大的编程语言，提供了丰富的库和工具来实现语音识别和语音合成的功能。本文将详细介绍如何使用Python实现语音识别与语音合成。一、语音识别语音识别（SpeechRecognition）是将人类的语音转换为文本的过程。Pyt
Unity使用讯飞语音模型(语音合成+语音识别+语音唤醒)Window端SDK 苏轼轼语音识别人工智能
1.查看官方文档、登录并下载我们所需的SDK。语音唤醒需要我们设置唤醒词。讯飞智能语音SDK文档官网讯飞智能语音产品介绍官网在控制台下载对应SDK，由于讯飞官方只提供了C++/C语音版本，我们需要用C#调用下载SDK的dll库文件。2.将dll库拖进Unity项目中如果目标设备为64位，我们选择msc_x64.dll；如果是32位，我们选择msc.dll。另外我们如果要使用语音唤醒功能，还需要wa
科普语音交互所需开源技术方案
以下是ASR（自动语音识别）、LLM（大语言模型）和TTS（文本转语音）三者结合的应用场景及开源方案：一、应用场景智能语音助手如百聆（Bailing），支持语音输入、意图理解、任务管理及语音输出，端到端延迟仅800ms，支持打断和记忆功能。车载语音交互系统（如蔚来、小鹏），结合ASR识别指令、LLM处理复杂查询（如"找有充电桩的高评分餐厅"）和TTS提供语音反馈。语音到语音翻译（S2ST）阿里Fu
【Python】edge-tts ：便捷语音合成宅男很神经 python 开发语言
第一章：初识edge-tts——开启语音合成之旅1.1文本转语音(TTS)技术概述文本转语音（Text-to-Speech,TTS），顾名思义，是一种将输入的文本信息转换成可听的语音波形的技术。它是人机语音交互的关键组成部分，使得计算机能够像人一样“说话”。1.1.1TTS的发展简史与重要性TTS技术的研究可以追溯到上世纪中叶，早期的TTS系统通常基于参数合成或拼接合成的方法，声音机械、不自然。参
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

语音合成之十三 中文文本归一化在现代语音合成系统中的应用与实践