搭建一个自己的学术语音助手（2）

背景

上篇文章整体介绍了学术语音助手的技术架构，以及用到的技术选型，这一篇文章会把每一部分的实现细节落下来。代码会整理到github开源项目库https://github.com/liangwq/Chatglm_lora_multi-gpu。
这部分代码实现中LLM服务时符合openai的api标准，也就是说只需要把里面用到LLM地方服务换了可以用chatgpt、本地部署的LLM服务、智谱、qwen服务都可以用。我在实现这个项目时候有调试过了chatgpt接口、本地Qwen服务，下面文章也是以本地Qwen服务来介绍。
搭建一个自己的学术语音助手（1）

实现

LLM服务部署

# 安装依赖
git clone [email protected]:QwenLM/Qwen.git
cd Qwen
pip install -r requirements.txt
pip install fastapi uvicorn openai "pydantic>=2.3.0" sse_starlette

# 启动模型服务，通过 -c 参数指定模型版本
# - 指定 --server-name 0.0.0.0 将允许其他机器访问您的模型服务
# - 指定 --server-name 127.0.0.1 则只允许部署模型的机器自身访问该模型服务
python openai_api.py --server-name 0.0.0.0 --server-port 8000 -c QWen/QWen-14B-Chat

你也可以修改参数，比如-c来修改模型名称或路径, --cpu-only改为CPU部署等等。如果部署出现问题，更新上述代码库往往可以解决大多数问题。
部署好Qwen大模型的服务后，可以使用以下代码测试API是否可用：

import openai
openai.api_base = "http://localhost:8000/v1"
openai.api_key = "none"

# 使用流式回复的请求
for chunk in openai.ChatCompletion.create(
    model="Qwen",
    messages=[
        {"role": "user", "content": "你好"}
    ],
    stream=True
    # 流式输出的自定义stopwords功能尚未支持，正在开发中
):
    if hasattr(chunk.choices[0].delta, "content"):
        print(chunk.choices[0].delta.content, end="", flush=True)

# 不使用流式回复的请求
response = openai.ChatCompletion.create(
    model="Qwen",
    messages=[
        {"role": "user", "content": "你好"}
    ],
    stream=False,
    stop=[] # 在此处添加自定义的stop words 例如ReAct prompting时需要增加： stop=["Observation:"]。
)
print(response.choices[0].message.content)

文章翻译脚本

这部分代码的实现思路是，把一个大的pdf文本做切分，新建两个文件夹：一个用来存取切分完的原文、一个用来存储翻译好的文件，用Qwen大模型来做中英文翻译。之所以把切分完的文件、翻译的文件都保存，其实是为后面提高QA检索埋了个伏笔。每个文件都编号存在文件夹、并且后面抽取关键词、关键信息也是针对现在切分文件做好了，所以在检索时候可以利用抽取的关键词、关键信息来改写用户提问理解用户意图提高问题回答准确性。

# -*- coding: utf-8 -*-
# PDF Loaders. If unstructured gives you a hard time, try PyPDFLoader
from langchain.document_loaders import UnstructuredPDFLoader, OnlinePDFLoader, PyPDFLoader

# To split our transcript into pieces
from langchain.text_splitter import RecursiveCharacterTextSplitter
import os

loader = PyPDFLoader("/root/autodl-tmp/quantum_algorithms.pdf")

## Other options for loaders 
#loader = UnstructuredPDFLoader("/root/autodl-tmp/quantum_algorithms.pdf")
data = loader.load()
# Note: If you're using PyPDFLoader then it will split by page for you already
print (f'You have {len(data)} document(s) in your data')
print (f'There are {len(data[0].page_content)} characters in your document')


text_splitter = RecursiveCharacterTextSplitter(separators=["\n\n", "\n"], chunk_size=5000, chunk_overlap=500)
texts = text_splitter.split_documents(data)

print (f'Now you have {len(texts)} documents')

'''
把pdf转txt后切分成块后做翻译，保存文件
'''
import openai

import os
import logging


# 指定文件夹路径
folder_path = " article_en"

# 检查文件夹是否存在，如果不存在则创建
if not os.path.exists(folder_path):
    os.makedirs(folder_path)

# 指定文件夹路径
folder_path_ch = " article_ch"

# 检查文件夹是否存在，如果不存在则创建
if not os.path.exists(folder_path_ch):
    os.makedirs(folder_path_ch)

# 设置日志记录
logging.basicConfig(filename='retry.log', level=logging.ERROR)

def translate_article(folder_path,folder_path_ch,content):
    # 在新建的文件夹中创建文件并写入英文数据
    file_path = os.path.join(folder_path, "example_"+str(i)+".txt")
    # 判断文件是否存在
    if os.path.exists(file_path):
        # 如果文件存在，删除文件
        os.remove(file_path)
        print(f"文件 {file_path} 存在并已删除。")

    # 打开文件并写入英文数据
    with open(file_path, "w") as file:
        file.write(content.page_content)

    # 关闭文件
    file.close()

    # 在新建的文件夹中创建文件并写入中文数据
    file_path_ch = os.path.join(folder_path_ch, "example_"+str(i)+".txt")

    # 判断文件是否存在
    if os.path.exists(file_path_ch):
        # 如果文件存在，删除文件
        os.remove(file_path_ch)
        print(f"文件 {file_path_ch} 存在并已删除。")


    #请求openapi把英文翻译成中文
    try:
        import openai

        openai.api_base = "http://localhost:8000/v1"
        openai.api_key = "none"
        response = openai.ChatCompletion.create(
            model="Qwen",
            messages=[
                {"role": "system", "content": "你是一个专业翻译机器人，可以把论文翻译的准确表述流畅，严格执行人类指令"},
                {"role": "user", "content": content.page_content+"\n把上面论文片段翻译成中文"},
            ],
            stream=False,
            stop=[] # You can add custom stop words here, e.g., stop=["Observation:"] for ReAct prompting.
        )
        # 打开文件并写入中文数据
        with open(file_path_ch, "w") as file:
            file.write(response["choices"][0]["message"]["content"])
    except Exception as e:
        pass


    # 关闭文件
    file.close()

for i in range(len(texts)):
    # 最大重试次数
    max_retries = 3
    retry_count = 0

    while retry_count < max_retries:
        try:
            #print(data[i])
            translate_article(folder_path,folder_path_ch,texts[i])

                              # 如果操作成功，退出循环
                              break
                              except Exception as e:
                              # 操作失败，记录异常到日志
                              logging.error(f"操作失败: {e}")
                              # 增加重试次数
                              retry_count += 1
                              if retry_count < max_retries:
                              print(f"操作失败，重试中 ({retry_count}/{max_retries})...")
                              print(data[i])
                              # 等待一段时间后重试
                              #time.sleep(1)
                              else:
                              # 达到最大重试次数，抛出异常
                              raise
                              # 提示操作完成
                              print("文件夹和文件创建完成。")

文章抽取知识实现

这部分的作用，有三个：
1.为后面提高用户意图理解，对用户问题做改写提供meta信息
2.可以利用提取关键词、关键信息，利用检索生成方式减少长文生成摘要遍历全文消耗过长时间
3.可以把关键信息产品化呈现出来，给用户提供信息方便用户更精准提问
这部分实现在这次实验是单独拿出来，如果真做成产品可以把抽取摘要和建立索引部分呢变成函数，整合到翻译模块，减少多次遍历pdf耗费时间。

# -*- coding: utf-8 -*-
# PDF Loaders. If unstructured gives you a hard time, try PyPDFLoader
from langchain.document_loaders import UnstructuredPDFLoader, OnlinePDFLoader, PyPDFLoader

# To split our transcript into pieces
from langchain.text_splitter import RecursiveCharacterTextSplitter
import os

loader = PyPDFLoader("/root/autodl-tmp/quantum_algorithms.pdf")

## Other options for loaders 
#loader = UnstructuredPDFLoader("/root/autodl-tmp/quantum_algorithms.pdf")
data = loader.load()
# Note: If you're using PyPDFLoader then it will split by page for you already
print (f'You have {len(data)} document(s) in your data')
print (f'There are {len(data[0].page_content)} characters in your document')


text_splitter = RecursiveCharacterTextSplitter(separators=["\n\n", "\n"], chunk_size=5000, chunk_overlap=500)
texts = text_splitter.split_documents(data)

print (f'Now you have {len(texts)} documents')

'''
把pdf转txt后切分成块后做翻译，保存文件
'''
import openai

import os
import logging


# 指定文件夹路径
folder_path = " article_en"

# 检查文件夹是否存在，如果不存在则创建
if not os.path.exists(folder_path):
    os.makedirs(folder_path)

# 指定文件夹路径
folder_path_ch = " article_keyword"

# 检查文件夹是否存在，如果不存在则创建
if not os.path.exists(folder_path_ch):
    os.makedirs(folder_path_ch)

# 设置日志记录
logging.basicConfig(filename='retry.log', level=logging.ERROR)

def translate_article(folder_path,folder_path_ch,content):
    # 在新建的文件夹中创建文件并写入英文数据
    file_path = os.path.join(folder_path, "example_"+str(i)+".txt")
    # 判断文件是否存在
    if os.path.exists(file_path):
        # 如果文件存在，删除文件
        os.remove(file_path)
        print(f"文件 {file_path} 存在并已删除。")

    # 打开文件并写入英文数据
    with open(file_path, "w") as file:
        file.write(content.page_content)

    # 关闭文件
    file.close()

    # 在新建的文件夹中创建文件并写入中文数据
    file_path_ch = os.path.join(folder_path_ch, "example_"+str(i)+".txt")

    # 判断文件是否存在
    if os.path.exists(file_path_ch):
        # 如果文件存在，删除文件
        os.remove(file_path_ch)
        print(f"文件 {file_path_ch} 存在并已删除。")


    #请求openapi把英文翻译成中文
    try:
        import openai

        openai.api_base = "http://localhost:8000/v1"
        openai.api_key = "none"
        response = openai.ChatCompletion.create(
            model="gpt-3.5-turbo-16k",
            messages=[
                {"role": "system", "content": "你是一个专业学术论点抽取机器人，可以精准抽取论文中关键信息、精准抓取出论文片段中关键词、关键观点、生成精准摘要，并把英文翻译成中文输出，严格执行人类指令;\n"},
                {"role": "user", "content": content.page_content+'\n对上面论文片段抽取关信息、关键词、关键观点、生成摘要；并以{"关键信息":,"关键词":,"关键观点":,"生成摘要":}json格式输出,英文翻译成中文'},
            ],
            stream=False,
            stop=[] # You can add custom stop words here, e.g., stop=["Observation:"] for ReAct prompting.
        )
        # 打开文件并写入中文数据
        with open(file_path_ch, "w") as file:
            file.write(response["choices"][0]["message"]["content"])
    except Exception as e:
        pass


    # 关闭文件
    file.close()

for i in range(len(texts)):
    # 最大重试次数
    max_retries = 3
    retry_count = 0

    while retry_count < max_retries:
    try:
    #print(data[i])
    translate_article(folder_path,folder_path_ch,texts[i])

    # 如果操作成功，退出循环
    break
except Exception as e:
    # 操作失败，记录异常到日志
    logging.error(f"操作失败: {e}")
    # 增加重试次数
    retry_count += 1
    if retry_count < max_retries:
    print(f"操作失败，重试中 ({retry_count}/{max_retries})...")
    print(data[i])
    # 等待一段时间后重试
    #time.sleep(1)
else:
    # 达到最大重试次数，抛出异常
    raise
# 提示操作完成
    print("文件夹和文件创建完成。")

文章摘要实现

这部分实现生活利用了langchain的mapreduce的方法来实现摘要抽取。实现思路就是把大文件切成小文件，抽取没部分的摘要，然后汇总摘要在重复上面的几个流程，直到抽取的摘要符合要求（迭代轮次、字数要求）。这个效果还可以，但是后续如果要优化摘要效果其实还有很多工作可以做。比如：
1.如何在map阶段把每段摘要抽取的既能兼顾本段信息、又能考虑整体信息完整
2.对reduce信息汇总要怎么要才能保持文本思路结构，而不是只是把高频出现信息给出
3，有没可能概念层次化抽取，就是说对文章有整体认识，然后基于整体中关键信息作进一步精细化概念抽取

# PDF Loaders. If unstructured gives you a hard time, try PyPDFLoader
from langchain.document_loaders import UnstructuredPDFLoader, OnlinePDFLoader, PyPDFLoader

# To split our transcript into pieces
from langchain.text_splitter import RecursiveCharacterTextSplitter
import os

loader = PyPDFLoader("/root/autodl-tmp/quantum_algorithms.pdf")

## Other options for loaders 
#loader = UnstructuredPDFLoader("/root/autodl-tmp/quantum_algorithms.pdf")
data = loader.load()
# Note: If you're using PyPDFLoader then it will split by page for you already
print (f'You have {len(data)} document(s) in your data')
print (f'There are {len(data[0].page_content)} characters in your document')


text_splitter = RecursiveCharacterTextSplitter(separators=["\n\n", "\n"], chunk_size=8000, chunk_overlap=800)
texts = text_splitter.split_documents(data)

print (f'Now you have {len(texts)} documents')

from langchain.vectorstores import Chroma, Pinecone
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings

# 初始化 openai 的 embeddings 对象
embeddings = SentenceTransformerEmbeddings(model_name ='/root/autodl-tmp/piccolo-large-zh')

# load it into Chroma
docsearch = Chroma.from_documents(texts, embeddings)

query = "这篇文章摘要是什么?"
docs = docsearch.similarity_search(query)

# Here's an example of the first document that was returned
print(docs[0].page_content[:450])

from langchain.chains.summarize import load_summarize_chain
from langchain.chat_models import ChatOpenAI
#llm = ChatOpenAI(temperature=0, model_name="gpt-3.5-turbo-16k",openai_api_key='sk-gkyea6xuon0Hd64NBjb6FADdgSvaAmLsY6nvRM1x4y6On9mk',openai_api_base='https://api.closeai-asia.com/v1')

llm = ChatOpenAI(temperature=0, model_name="gpt-3.5-turbo-16k",openai_api_key='none',openai_api_base='http://localhost:8000/v1')



# verbose=True will output the prompts being sent to the 
chain = load_summarize_chain(llm, chain_type="map_reduce", verbose=True)

output = chain.run(texts)

print(output)

下面给出了一个对现有抽取chain模版定制化的示例模版，需要对摘要优化可以基于这个模版作进一步迭代。

# PDF Loaders. If unstructured gives you a hard time, try PyPDFLoader
from langchain.document_loaders import UnstructuredPDFLoader, OnlinePDFLoader, PyPDFLoader

# To split our transcript into pieces
from langchain.text_splitter import RecursiveCharacterTextSplitter
import os

# Prompt templates for dynamic values
from langchain.prompts.chat import (
ChatPromptTemplate,
SystemMessagePromptTemplate,
AIMessagePromptTemplate, # I included this one so you know you'll have it but we won't be using it
HumanMessagePromptTemplate
)

# To create our chat messages
from langchain.schema import (
AIMessage,
HumanMessage,
SystemMessage
)

loader = PyPDFLoader("/root/autodl-tmp/quantum_algorithms.pdf")

## Other options for loaders 
#loader = UnstructuredPDFLoader("/root/autodl-tmp/quantum_algorithms.pdf")
data = loader.load()
# Note: If you're using PyPDFLoader then it will split by page for you already
print (f'You have {len(data)} document(s) in your data')
print (f'There are {len(data[0].page_content)} characters in your document')

text_splitter = RecursiveCharacterTextSplitter(separators=["\n\n", "\n"], chunk_size=3000, chunk_overlap=250)
texts = text_splitter.split_documents(data)

print (f'Now you have {len(texts)} documents')

from langchain.chains.summarize import load_summarize_chain
from langchain.chat_models import ChatOpenAI
#llm = ChatOpenAI(temperature=0, model_name="gpt-3.5-turbo-16k",openai_api_key='sk-gkyea6xuon0Hd64NBjb6FADdgSvaAmLsY6nvRM1x4y6On9mk',openai_api_base='https://api.closeai-asia.com/v1')

summary_output_options = {
    'one_sentence' : """
     - Only one sentence
    """,

    'bullet_points': """
     - Bullet point format
     - Separate each bullet point with a new line
     - Each bullet point should be concise
    """,

    'short' : """
     - A few short sentences
     - Do not go longer than 4-5 sentences
    """,

    'long' : """
     - A verbose summary
     - You may do a few paragraphs to describe the transcript if needed
    """
}

template="""

You are a helpful assistant, assisting {rep_name}, a professional researcher, in extracting important information from this {rep_company} academic paper. 
Your goal is to write a summary from an academic perspective, highlighting key points relevant to this academic paper.
Do not respond with anything outside of the call transcript. If you don't know, say, "I don't know"
"""
system_message_prompt_map = SystemMessagePromptTemplate.from_template(template)

human_template="{text}" # Simply just pass the text as a human message
human_message_prompt_map = HumanMessagePromptTemplate.from_template(human_template)

chat_prompt_map = ChatPromptTemplate.from_messages(messages=[system_message_prompt_map, human_message_prompt_map])

template="""

You are a helpful assistant, assisting {rep_name}, a professional researcher, in extracting important information from this {rep_company} academic paper. 
Your goal is to write a summary from an academic perspective, highlighting key points relevant to this academic paper.
Do not respond with anything outside of the call transcript. If you don't know, say, "I don't know"

Respond with the following format
{output_format}

"""
system_message_prompt_combine = SystemMessagePromptTemplate.from_template(template)

human_template="{text}" # Simply just pass the text as a human message
human_message_prompt_combine = HumanMessagePromptTemplate.from_template(human_template)

chat_prompt_combine = ChatPromptTemplate.from_messages(messages=[system_message_prompt_combine, human_message_prompt_combine])


llm = ChatOpenAI(temperature=0, model_name="gpt-3.5-turbo-16k",openai_api_key='none',openai_api_base='http://localhost:8000/v1')

# verbose=True will output the prompts being sent to the 
#chain = load_summarize_chain(llm, chain_type="map_reduce", verbose=True)
#output = chain.run(texts)

chain = load_summarize_chain(llm,
chain_type="map_reduce",
map_prompt=chat_prompt_map,
combine_prompt=chat_prompt_combine,
verbose=True
)

user_selection = 'one_sentence'

output = chain.run({
"input_documents": texts,
"rep_company": "Quantum computing latest", \
"rep_name" : "Quantum computing discipline",
"output_format" : summary_output_options[user_selection]
})


print(output)

向量知识问答实现

这部分的实现思路，把用户的输入embbeding，利用embbeding相似性检索出pdf中和用户提问相关的信息，然后把召回的相关信息作为上下文和用户提问一起给LLM去生成回复答案。
如果要提高基于pdf知识的准确率，有以下几个可优化方向：
1.用户提问改写，更好的理解用户意图；方便后续重pdf中找到更准确上下文知识
2.向量召回环境要提高匹配准确性
3.对于文章中pdf知识可以对每段做关键信息索引，提高准确性

# PDF Loaders. If unstructured gives you a hard time, try PyPDFLoader
from langchain.document_loaders import UnstructuredPDFLoader, OnlinePDFLoader, PyPDFLoader

from langchain.text_splitter import RecursiveCharacterTextSplitter
import os

loader = PyPDFLoader("/root/autodl-tmp/quantum_algorithms.pdf")

## Other options for loaders 
#loader = UnstructuredPDFLoader("/root/autodl-tmp/quantum_algorithms.pdf")
data = loader.load()
# Note: If you're using PyPDFLoader then it will split by page for you already
print (f'You have {len(data)} document(s) in your data')
print (f'There are {len(data[0].page_content)} characters in your document')

text_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=0)
texts = text_splitter.split_documents(data)

print (f'Now you have {len(texts)} documents')

from langchain.vectorstores import Chroma, Pinecone
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings

# 初始化 openai 的 embeddings 对象
embeddings = SentenceTransformerEmbeddings(model_name ='/root/autodl-tmp/piccolo-large-zh')

# load it into Chroma
docsearch = Chroma.from_documents(texts, embeddings)

query = "这篇文章摘要是什么?"
docs = docsearch.similarity_search(query)

# Here's an example of the first document that was returned
print(docs[0].page_content[:450])

from langchain.chains.question_answering import load_qa_chain
from langchain.chat_models import ChatOpenAI
#llm = ChatOpenAI(temperature=0, model_name="gpt-3.5-turbo-16k",openai_api_key='sk-gkyea6xuon0Hd64NBjb6FADdgSvaAmLsY6nvRM1x4y6On9mk',openai_api_base='https://api.closeai-asia.com/v1')

llm = ChatOpenAI(temperature=0, model_name="gpt-3.5-turbo-16k",openai_api_key='none',openai_api_base='http://localhost:8000/v1')


chain = load_qa_chain(llm, chain_type="stuff")

query = "这篇文章主要介绍了什么?"
docs = docsearch.similarity_search(query)
answer = chain.run(input_documents=docs, question=query)
print(answer)

语音问答实现

这部分实现就是把用户的语音输入转成了str文本，现在是通过gradio方式做了一个界面可以方便用户录入语音，或者把语音wav直接拖进来做翻译。现在的做法比较粗暴，用户语音输入转str后需要拷贝然后放入qa模块来做提问。这块如果要整合成项目，可以把这部分代码和QA部分整合。后续我也会逐步更新github。

#先下载whisper-large-v2 放到/root/autodl-tmp/whisper-large-v2
#git clone https://huggingface.co/openai/whisper-large-v2
import torch

import gradio as gr
import yt_dlp as youtube_dl
from transformers import pipeline
from transformers.pipelines.audio_utils import ffmpeg_read

import tempfile
import os

MODEL_NAME = "openai/whisper-large-v2"
BATCH_SIZE = 8
FILE_LIMIT_MB = 1000
YT_LENGTH_LIMIT_S = 3600  # limit to 1 hour YouTube files

device = 0 if torch.cuda.is_available() else "cpu"

pipe = pipeline(
    task="automatic-speech-recognition",
    model="/root/autodl-tmp/whisper-large-v2",#MODEL_NAME,
    chunk_length_s=30,
    device=device,
)


def transcribe(inputs, task):
    if inputs is None:
        raise gr.Error("No audio file submitted! Please upload or record an audio file before submitting your request.")

    text = pipe(inputs, batch_size=BATCH_SIZE, generate_kwargs={"task": task}, return_timestamps=True)["text"]
    return  text


def _return_yt_html_embed(yt_url):
    video_id = yt_url.split("?v=")[-1]
    HTML_str = (
        f' <span class="token punctuation">{</span>video_id<span class="token punctuation">}</span></span><span class="token string">"> '
        " "
)
return HTML_str

def download_yt_audio(yt_url, filename):
    info_loader = youtube_dl.YoutubeDL()

try:
    info = info_loader.extract_info(yt_url, download=False)
except youtube_dl.utils.DownloadError as err:
    raise gr.Error(str(err))

file_length = info["duration_string"]
file_h_m_s = file_length.split(":")
file_h_m_s = [int(sub_length) for sub_length in file_h_m_s]

if len(file_h_m_s) == 1:
    file_h_m_s.insert(0, 0)
if len(file_h_m_s) == 2:
    file_h_m_s.insert(0, 0)
file_length_s = file_h_m_s[0] * 3600 + file_h_m_s[1] * 60 + file_h_m_s[2]

if file_length_s > YT_LENGTH_LIMIT_S:
    yt_length_limit_hms = time.strftime("%HH:%MM:%SS", time.gmtime(YT_LENGTH_LIMIT_S))
    file_length_hms = time.strftime("%HH:%MM:%SS", time.gmtime(file_length_s))
    raise gr.Error(f"Maximum YouTube length is {yt_length_limit_hms}, got {file_length_hms} YouTube video.")

ydl_opts = {"outtmpl": filename, "format": "worstvideo[ext=mp4]+bestaudio[ext=m4a]/best[ext=mp4]/best"}

with youtube_dl.YoutubeDL(ydl_opts) as ydl:
    try:
        ydl.download([yt_url])
    except youtube_dl.utils.ExtractorError as err:
        raise gr.Error(str(err))


def yt_transcribe(yt_url, task, max_filesize=75.0):
    html_embed_str = _return_yt_html_embed(yt_url)

with tempfile.TemporaryDirectory() as tmpdirname:
    filepath = os.path.join(tmpdirname, "video.mp4")
    download_yt_audio(yt_url, filepath)
    with open(filepath, "rb") as f:
        inputs = f.read()

inputs = ffmpeg_read(inputs, pipe.feature_extractor.sampling_rate)
inputs = {"array": inputs, "sampling_rate": pipe.feature_extractor.sampling_rate}

text = pipe(inputs, batch_size=BATCH_SIZE, generate_kwargs={"task": task}, return_timestamps=True)["text"]

return html_embed_str, text


demo = gr.Blocks()

mf_transcribe = gr.Interface(
fn=transcribe,
inputs=[
gr.inputs.Audio(source="microphone", type="filepath", optional=True),
gr.inputs.Radio(["transcribe", "translate"], label="Task", default="transcribe"),
],
outputs="text",
layout="horizontal",
theme="huggingface",
title="Whisper Large V2: Transcribe Audio",
description=(
"Transcribe long-form microphone or audio inputs with the click of a button! Demo uses the"
f" checkpoint [{MODEL_NAME}](https://huggingface.co/{MODEL_NAME}) and  Transformers to transcribe audio files"
" of arbitrary length."
),
allow_flagging="never",
)

file_transcribe = gr.Interface(
fn=transcribe,
inputs=[
gr.inputs.Audio(source="upload", type="filepath", optional=True, label="Audio file"),
gr.inputs.Radio(["transcribe", "translate"], label="Task", default="transcribe"),
],
outputs="text",
layout="horizontal",
theme="huggingface",
title="Whisper Large V2: Transcribe Audio",
description=(
"Transcribe long-form microphone or audio inputs with the click of a button! Demo uses the"
f" checkpoint [{MODEL_NAME}](https://huggingface.co/{MODEL_NAME}) and  Transformers to transcribe audio files"
" of arbitrary length."
),
allow_flagging="never",
)


with demo:
gr.TabbedInterface([mf_transcribe, file_transcribe], ["Microphone", "Audio file"])

demo.launch(enable_queue=True,server_port= 6006)

语音回复实现

这部分选用了coqui TTS来实现语音合成，方便后续扩展语音clone功能。具体代码实现步骤如下：
1.安装TTS库
2.下载需要的tts包
3.执行语音合成代码

git clone https://github.com/coqui-ai/TTS
cd TTS
pip install -r requirements.txt
#或者直接 pip install tts
#测试是否安装成功
tts --list_models

输出模型的信息，说明OK

Name format: type/language/dataset/model
 1: tts_models/multilingual/multi-dataset/your_tts
 2: tts_models/en/ek1/tacotron2
 ....

查看模型信息

tts --model_info_by_name tts_models/tr/common-voice/glow-tts
> model type : tts_models
> language supported : tr
> dataset used : common-voice
> model name : glow-tts
> description : Turkish GlowTTS model using an unknown speaker from the Common-Voice dataset.
> default_vocoder : vocoder_models/tr/common-voice/hifigan

下载模型

tts --text "你好中国，我爱你中国" --model_name "tts_models/zh-CN/baker/tacotron2-DDC-GST" --out_path output.wav

代码执行

from TTS.api import TTS
tts = TTS("tts_models/zh-CN/baker/tacotron2-DDC-GST", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="我爱你中国，中国山河壮丽",
                file_path="output.wav",
                speaker_wav="/root/autodl-tmp/TTS/TTS/female.wav",
                )

# generate speech by cloning a voice using custom settings
tts.tts_to_file(text="我爱你中国，中国山河壮丽",
                file_path="output1.wav",
                speaker_wav="/root/autodl-tmp/TTS/TTS/female.wav",
            
                decoder_iterations=30)

小结：

这篇文章把学术语音小助手几个模块部分实现细节代码完善。完整项目代码放在github中https://github.com/liangwq/Chatglm_lora_multi-gpu，感兴趣同学可以下载下来自己运行下。目前代码已经把所有功能都实现了，但是还没有整合成一个一键运行的项目，这块后续会逐步完善。项目还有很多优化提高地方，比如：
1.如何提高长文本摘要生成准确性和生成速度
2.如何提高语音合成速度、提高合成合成长度
3.如何提高基于知识库问答的准确性
4.如何提高知识抽取的准确性
5.如何快速对用户提问做语义理解和改写

你可能感兴趣的:(人工智能,算法,科技,AIGC,agi)

数据结构奇妙旅程之深入解析快速排序山间漫步人生路数据结构排序算法算法
快速排序（QuickSort）是一种高效的排序算法，它使用了分治法的策略来将一个数组排序。其基本思想是选择一个基准元素，通过一趟排序将待排序的数据分割成独立的两部分，其中一部分的所有数据都比基准元素小，另一部分的所有数据都比基准元素大，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。工作原理选择基准：从待排序的序列中选一个元素作为基准（pivo
php 把一个数组分成有n个元素的二维数组的算法风清扬-独孤九剑 php php 算法
一、第一种解法0){$columns_map[$position]++;//这个地方格外注意,$position与$columns比较$position=($position<$columns-1)?++$position:0;$array_length--;}foreach($columns_mapas$val){$newarray[]=array_splice($array,0,$val);}
【算法分析与设计】去除重复字母五敷有你算法分析与设计 java javascript 开发语言算法数据结构
个人主页：五敷有你系列专栏：算法分析与设计⛺️稳中求进，晒太阳题目给你一个字符串s，请你去除字符串中重复的字母，使得每个字母只出现一次。需保证返回结果的字典序最小（要求不能打乱其他字符的相对位置）。示例示例1：输入：s="bcabc"输出："abc"示例2：输入：s="cbacdcbc"输出："acdb"思路贪心+单调栈实现【字符串删除一个字符使其字典序最小的贪心策略】：对于两个长度相同的字符串，
yarn的安装和使用全网最详细教程 zxj19880502 yarn npm
一、yarn的简介：Yarn是facebook发布的一款取代npm的包管理工具。二、yarn的特点：速度超快。Yarn缓存了每个下载过的包，所以再次使用时无需重复下载。同时利用并行下载以最大化资源利用率，因此安装速度更快。超级安全。在执行代码之前，Yarn会通过算法校验每个安装包的完整性。超级可靠。使用详细、简洁的锁文件格式和明确的安装算法，Yarn能够保证在不同系统上无差异的工作。三、yarn的
图论记录之最短路迪杰斯特拉 Just right 算法图论 java 开发语言
简述思想这个思想能用一句话来概括，精简到的极致:每次找到一个最短距离的点并更新起点到各个点的最短距离如果要可视化的话，B站搜索Dijksra算法，有视频讲解伪代码写到这里，其实是想整一个动画的，这样效果更好点，但由于种种原因所以就拖一下intdijkstr(){dist[1]=0;其余的点的距离全部初始化为真无穷，不要写成int的最大值迭代n次将不在s中的，且距离最近的点给tsj即先到t，再加上t
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
倒贴服传奇在什么平台下载 2024最火的倒贴服传奇平台排行榜诸葛村夫一游戏频道
2024游戏盒子网站排行榜大全随着数位科技的发展，2024年手游市场持续火爆，各种新开手游持续涌现。本文为广大手游爱好者带来巅峰推荐，总结五个最具实力的手游新服发布网站，为您提供最全面的游戏资讯以及专业的游戏攻略。▶2024最火的倒贴服传奇平台排行榜TOP1：游戏豹官网特点：内部特权游戏类型：多类型推荐日活跃人数：15万网址链接：www.ystt88.cn游戏介绍：游戏豹官网以快速获取新开手游的特
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
“播下种子，亲近梦想”北京研学营日记Day2 贝壳Bella
到目前为止，没有收到同学们想家的反馈，应该没有孩子哭，从门外听到的也是一片安静，估计一个个都进入了梦想。从6:30至9:00回到酒店，的确有些辛苦。有些孩子坚持得很好，有些在下午五点离开科技馆时已经疲惫不堪，嚷嚷着回酒店。于是，餐后在车上立了一个规矩，明天在长城上喊累不能超过三次，因为这也是会传染的。图片发自App从科技馆步行至鸟巢，在等红绿灯时居然就有同学蹲下了。有些孩子一上车睡觉，养好精神，路
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
【数据结构】实验一实现顺序表各种基本运算的算法张鱼·小丸子数据结构实验 c++数据结构
题目：实现顺序表各种基本运算的算法要求：1、建立一个顺序表，输入n个元素并输出；2、查找线性表中的最大元素并输出；3、在线性表的第i个元素前插入一个正整数x；4、删除线性表中的第j个元素；5、将线性表中的元素按升序排列；6、将线性表中的元素就地逆序（只允许用一个暂存单元）；#include#defineSIZE1000usingnamespacestd;typedefstruct{int*a;//
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
酷开科技依托酷开系统用“平台+产品+场景”塑造全屋智能生活！京创尤品科技生活
杰弗里·摩尔的“鸿沟理论”中写道：高科技企业推进产品的早期市场和产品被广泛接受的主流市场之间，存在着一条巨大的“鸿沟”。“鸿沟”，指产品吸引早期接纳者后、赢得更多客户前的那段间歇，以及其中可预知和不可预知的阻碍。多数产品或企业的失败都发生在“鸿沟期”。目前，智慧家居的发展正处在一个“鸿沟期”：势头看似迅猛，但真实用户有限。对于一些企业而言，这条巨大“鸿沟”之所以出现，在于他们对如何推进智慧家居并不
《我的爷爷》第65章怀孕赵同小异
作者：赵同六十五怀孕到了5月底，天气逐渐热了起来。学生们有的趁课间来到湖边散步，有的带着随身听插上磁带练起了英语听力。研究所是新建的，环境幽静，离湖水较远，因此也鲜有学生到这边来。程学鹏的办公室窗户朝着阴面，对面就是学校里新盖的一片教师公寓，里面没有住人，一点儿人声没有，就显得更加安静了。程学鹏被石主任叫去谈话。“老程啊，咱们学校要办公司了。”石主任开了头。“什么公司？”程学鹏问。“高科技公司，上
Java回溯知识点（含面试大厂题和源码）一成码农 java 面试开发语言
回溯算法是一种通过遍历所有可能的候选解来寻找所有解的算法，如果候选解被确认不是一个解（或至少不是最后一个解），回溯算法会通过在上一步进行一些变化来丢弃这个解，即“回溯”并尝试另一个候选解。回溯法通常用递归方法来实现，在解决排列、组合、选择问题时非常有效。回溯算法的核心要点：路径：也就是已经做出的选择。选择列表：也就是你当前可以做的选择。结束条件：也就是到达决策树底层，无法再做出选择的条件。回溯算法
第七章索引及执行计划，存储引擎执笔为剑 #MySQL运维篇编辑器 mysql
第七章索引及执行计划，存储引擎1，索引及执行计划1，作用：提供类似书目录的作用，目的是优化查询2，所用的种类（根据算法）B树索引Hash索引R树FulltextGIS3，B树基于不同的查找算法分类介绍B-tree：在范围查询方面提供了更好的性能（>showengines;#存储引擎作用在表上，不同的表可能有不同的存储引擎mysql>select@@default_storage_engine;#查
家居电商“知闲科技”完成百万级天使轮融资，东方富海投资 ... flybirding10011
1月2日消息，根据亿欧报道，家居电商“知闲科技”完成百万级天使轮融资，东方富海投资。2018年6月，知闲科技曾获家居供应链平台全屋优品的种子轮融资。深圳知闲科技有限公司成立于2018年4月,目前以线上销售为主要经营模式，拥有三个自主品牌在天猫销售，主营有设计感的高品质家居产品，以供应链整合、自有工厂生产、OEM等方式产出高性价比的家居产品，旨在为年轻新中产营造轻奢、有质感的家庭生活方式。知闲科技的
Java面试题：解释JVM的内存结构，并描述堆、栈、方法区在内存结构中的角色和作用，Java中的多线程是如何实现的，Java垃圾回收机制的基本原理，并讨论常见的垃圾回收算法杰哥在此 Java系列 java jvm 算法面试
Java内存模型与多线程的深入探讨在Java的世界里，内存模型和多线程是开发者必须掌握的核心知识点。它们不仅关系到程序的性能和稳定性，还直接影响到系统的可扩展性和可靠性。下面，我将通过三个面试题，带领大家深入理解Java内存模型、多线程以及并发编程的相关原理和实践。面试题一：请解释JVM的内存结构，并描述堆、栈、方法区在内存结构中的角色和作用。关注点：JVM内存结构的基本组成堆、栈、方法区的功能和
搜维尔科技：Xsens-Awinda开箱测评，场景添加工具测评反馈！北京搜维尔科技有限公司科技
Xsens-Awinda开箱测评，场景添加工具测评反馈！搜维尔科技：Xsens-Awinda开箱测评，场景添加工具测评反馈！
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
ChatGPT：AI合作伙伴助你成为论文写作高手 2401_83550420 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达摘要：本文将介绍ChatGPT3.5Turbo（以下简称ChatGPT），一款强大的AI合作伙伴，能够助你成为一名论文写作高手。我们将深入探讨ChatGPT的特点、优势，并提供多个示例，展示ChatGPT在论文写作中的应用。无论是开展研究、撰写论文、还是与ChatGPT进行互动交流，都能够帮助你提升写作效率和质量。引言：随着人工智能的发展，聊天型语言模型在各个领域都
优化选址问题 | 基于和声搜索算法求解基站选址问题含Matlab源码天天酷科研优化选址问题（LP）matlab 和声搜索算法基站选址问题
目录问题代码问题和声搜索算法（HarmonySearch,HS）是一种模拟音乐创作过程中乐师们凭借自己的记忆，通过反复调整各乐器的音调，直至达到最美和声状态为启发，通过反复调整解向量的各分量来寻求全局最优解的智能优化算法。下面是一个基于和声搜索算法求解基站选址问题的Matlab伪代码框架。请注意，这个框架是一个基本的实现，你可能需要根据你的具体问题和约束条件进行调整和优化。代码%和声搜索算法求解基
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
券老虎返利APP正规靠谱好用吗?券老虎app怎么赚钱?它能赚钱吗? 日常购物小技巧
今天我们就来说下：券老虎返利APP正规靠谱好用吗?券老虎app怎么赚钱?它能赚钱吗?大家好！我是花桃平台最大团队&联合创始人柚子导师。相较于其它返利app，花桃佣金更高，模式更好，终端用户不流失！“券老虎是中山市创惠网络科技有限公司创立的一款可以领取淘宝天猫优惠券的手机软件！包含服装，数码，鞋包等热门优惠商品与京东，淘宝，天猫，拼多多等商城优惠券。简单说，券老虎是一个全领域的、省钱还能赚钱的超级返
ChatGPT：智能论文写作指南，让您成为写作高手 AI臻蚌 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达写作是学术研究中不可或缺的一环，然而，对于许多人来说，写作往往是一项艰巨而费时的任务。但是，现在有了ChatGPT，您将能够以前所未有的速度和准确性编写高质量的论文。本文将向您介绍如何利用ChatGPT的强大功能成为写作高手，并为您提供一些示例，展示其在不同领域的应用。1.简介ChatGPT是一种基于人工智能的语言模型，它可以理解并生成人类语言。通过训练大量的语料库
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
15届蓝桥杯备赛(3) sad_liu #sad_liu的刷题记录蓝桥杯职场和发展
文章目录15届蓝桥杯备赛(3)回溯算法组合组合总和III电话号码的字母组合组合总和组合总和II分割回文串子集子集II非递减子序列全排列全排列II贪心算法分发饼干最大子数组和买股票的最佳时机II跳跃游戏15届蓝桥杯备赛(3)提高C++程序的输入输出效率，尤其是在需要大量输入输出操作时。ios_base::sync_with_stdio(false);cin.tie(nullptr);cout.tie
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include