JasonYSU

Python编写Oracle和Elasticsearch数据同步脚本

一、版本

python版本 x64 2.7.12

Oracle（x64 12.1.0.2.0）和Elasticsearch（2.2.0）

python编辑器 PyCharm

下载安装请选择适合自己机器的版本

二、下载模块

通过官网下载和安装cx_Oracle和pyes模块，分别用于操作Oracle数据库和ES。安装fcntl模块用于解决python脚本单例执行问题。

如果是远程连接数据库和ES，请一定注意安装的模块或包版本。务必选择相应的版本，不然会遇到问题。

cx_Oracle： https://sourceforge.net/projects/cx-oracle/files/?source=navbar

pyes： https://github.com/aparo/pyes

fcntl： https://pypi.python.org/pypi?:action=show_md5&digest=3cea2958c97b24cf0ab12121be22b6dd

三、安装过程中会遇到的问题

cx_Oracle在本地安装过程中出现的一些问题：

1、安装c++for python的环境

2、安装Oracle数据库（或者安装API接口中需要的文件而不必下载配置整个oracle环境）

3、打开数据库工具 oracle SQL developor 按要求创建连接，并新建用户（创建数据库用户名时以c##开头，不然会提示）

4、oracle连接不上远程的服务器，检查版本是否匹配

fcntl在windows上安装时出现的问题：

1、用pip install fcntl 报错：indentationerror: unexpected indent（模块版本有问题）

四、源码

# -*- coding: utf-8 -*-
"""
作者：陈龙
日期：2016-7-22
功能：oracle数据库到ES的数据同步
"""
import os
import sys
import datetime, time
# import fcntl
import threading
import pyes  # 引入pyes模块，ES接口
import cx_Oracle  # 引入cx_Oracle模块，Oracle接口

os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'  # 中文编码
reload(sys)  # 默认编码设置为utf-8
sys.setdefaultencoding('utf-8')

# 创建ES连接 并返回连接参数
def connect_ES(addr):
    try:
        global conn
        conn = pyes.ES(addr)  # 链接ES '127.0.0.1:9200'
        print 'ES连接成功'
        return conn
    except:
        print 'ES连接错误'
        pass

# 创建ES映射mapping 注意各各个字段的类型
def create_ESmapping():
    global spiderInfo_mapping, involveVideo_mapping, involveCeefax_mapping,keyWord_mapping,sensitiveWord_mapping
    spiderInfo_mapping = {'tableName': {'index': 'not_analyzed', 'type': 'string'},
                          'tableId': {'index': 'not_analyzed', 'type': 'integer'},
                          'title': {'index': 'analyzed', 'type': 'string'},
                          'author': {'index': 'not_analyzed', 'type': 'string'},
                          'content': {'index': 'analyzed', 'type': 'string'},
                          'publishTime': {'index': 'not_analyzed', 'type': 'string'},
                          'browseNum': {'index': 'not_analyzed', 'type': 'integer'},
                          'commentNum': {'index': 'not_analyzed', 'type': 'integer'},
                          'dataType': {'index': 'not_analyzed', 'type': 'integer'}}  # 除去涉我部分内容的ES映射结构
    involveVideo_mapping = {'tableName': {'index': 'not_analyzed', 'type': 'string'},
                            'tableId': {'index': 'not_analyzed', 'type': 'integer'},
                            'title': {'index': 'analyzed', 'type': 'string'},
                            'author': {'index': 'not_analyzed', 'type': 'string'},
                            'summary': {'index': 'analyzed', 'type': 'string'},
                            'publishTime': {'index': 'not_analyzed', 'type': 'string'},
                            'url': {'index': 'not_analyzed', 'type': 'string'},
                            'imgUrl': {'index': 'not_analyzed', 'type': 'string'},
                            'ranking': {'index': 'not_analyzed', 'type': 'integer'},
                            'playNum': {'index': 'not_analyzed', 'type': 'integer'},
                            'dataType': {'index': 'not_analyzed', 'type': 'integer'}}  # 涉我视音频内容的ES映射结构
    involveCeefax_mapping = {'tableName': {'index': 'not_analyzed', 'type': 'string'},
                            'tableId': {'index': 'not_analyzed', 'type': 'integer'},
                            'title': {'index': 'analyzed', 'type': 'string'},
                            'author': {'index': 'not_analyzed', 'type': 'string'},
                            'content': {'index': 'analyzed', 'type': 'string'},
                            'publishTime': {'index': 'not_analyzed', 'type': 'string'},
                            'keyWords': {'index': 'not_analyzed', 'type': 'string'},
                            'popularity': {'index': 'not_analyzed', 'type': 'integer'},
                            'url': {'index': 'not_analyzed', 'type': 'string'},
                            'dataType': {'index': 'not_analyzed', 'type': 'integer'}}  # 涉我图文资讯内容的ES映射结构
    keyWord_mapping = {'id':{'index': 'not_analyzed', 'type': 'integer'},
                      'keywords':{'index': 'not_analyzed', 'type': 'string'}}
    sensitiveWord_mapping = {'id':{'index': 'not_analyzed', 'type': 'integer'},
                            'sensitiveType':{'index': 'not_analyzed', 'type': 'string'},
                            'sensitiveTopic': {'index': 'not_analyzed', 'type': 'string'},
                            'sensitiveWords': {'index': 'not_analyzed', 'type': 'string'}}

# 创建ES相关索引和索引下的type
def create_ESindex(ES_index, index_type1,index_type2,index_type3,index_type4,index_type5):

    if conn.indices.exists_index(ES_index):
        pass
    else:
        conn.indices.create_index(ES_index)  # 如果所有Str不存在，则创建Str索引
        create_ESmapping()
        conn.indices.put_mapping(index_type1, {'properties': spiderInfo_mapping},[ES_index])  # 在索引pom下创建spiderInfo的_type  "spiderInfo"
        conn.indices.put_mapping(index_type2, {'properties': involveVideo_mapping},[ES_index])  # 在索引pom下创建involveVideo的_type  "involveVideo"
        conn.indices.put_mapping(index_type3, {'properties': involveCeefax_mapping},[ES_index])  # 在索引pom下创建involveCeefax的_type  "involveCeefax"
        conn.indices.put_mapping(index_type4, {'properties': keyWord_mapping}, [ES_index])
        conn.indices.put_mapping(index_type5, {'properties': sensitiveWord_mapping}, [ES_index])
    # conn.ensure_index

# 创建数据库连接 并返回连接参数
def connect_Oracle(name, password, address):
    try:
        global conn1
        # conn1 = cx_Oracle.connect('c##chenlong','1234567890','localhost:1521/ORCL') #链接本地数据库
        conn1 = cx_Oracle.connect(name, password, address)  # 链接远程数据库 "pom","Bohui@123","172.17.7.118:1521/ORCL"
        print 'Oracle连接成功'
        return conn1
    except:
        print 'ES数据同步脚本连接不上数据库，请检查connect参数是否正确，或者模块版本是否匹配'
        pass

def fetch_account(accountcode):  # 取两个‘_’之间的账号名称
    end = accountcode.find('_')
    return accountcode[0:end].strip()
# 根据表的个数创建不同的对象
# 从记录文档中读取各个表的记录ID，判断各个表的ID是否有变化
# 分别读取各个表中的相关数据

# 读取各个表的ID与记录的ID(记录在文本或者数据库中)并判断
"""def read_compare_ID():
    global tuple_tableName_IdNum
    global cur
    tuple_tableName_IdNum = {}
    tablename = []
    cur = conn1.cursor()
    result1 = cur.execute("select * from tabs")  ##执行数据库操作 读取各个表名
    row = result1.fetchall()
    for x in row:
        tablename.append(x[0])  # 将表名取出并赋值给tablename数组
        result2 = cur.execute('select {}_ID  from {}'.format(x[0], x[0]))
        ID_num = result2.fetchall()
        tuple_tableName_IdNum[x[0]] = ID_num"""

def readOracle_writeES(tableName, ES_index, index_type):
    global cc
    cur = conn1.cursor()
    #result_AlltableNames = cur.execute("select * from tabs")
    result_latestId = cur.execute("select max({}_Id) from {} ".format(tableName,tableName))
    num1 = result_latestId.fetchone() #当前表中的最大ID
    print '当前表中的最大ID{}'.format(num1[0])
    result_rememberId = cur.execute("select tableId from T_REMEMBERID where tableName='{}'".format(tableName.upper())) #通过数据库表拿到更新的ID tablename 都转化成大写
    num2 = result_rememberId.fetchone() #上次记录的更新ID
    print '上次记录的更新ID{}'.format(num2[0])
    if tableName.upper() == 'T_SOCIAL':
        while num2[0] < num1[0]:
            result_readOracle = cur.execute("select {}_ID,title,author,content,publishTime,browseNum,likeNum,forwardNum,commentNum,accountCode from {} where {}_ID > {} and rownum<=40 ".format(tableName, tableName, tableName, num2[0]))
            result_tuple1 = result_readOracle.fetchall()  #之前是因为数据量太大，超过了变量的内存空间，所以用fetchmany取40条  后来大神建议数据库中限制查询数 然后fetchall，这样查询更有效率
            for i in result_tuple1:  #一条一条写入ES，这个速度太慢，改进 通过bulk接口导入
                aa= (i[5]+i[6])
                bb=  (i[7]+i[8])
                if conn.index(
                    {'tableName': tableName, 'tableId': i[0], 'title': unicode(i[1]), 'author': unicode(i[2]),
                    'content': unicode(i[3]), 'publishTime': str(i[4]), 'browseNum': aa,
                    'commentNum':bb, 'dataType':fetch_account(i[9])}, ES_index, index_type,bulk=True):  # 将数据写入索引pom的spiderInfo
                    cc += 1
                    print 'bulk导入后的ID:{}'.format(i[0])
            rememberId = i[0] #如果写入成功才赋值
            cur.execute("update T_REMEMBERID set tableId = {} where tableName = '{}'".format(rememberId,tableName))
            conn1.commit()
            result_rememberId = cur.execute("select tableId from T_REMEMBERID where tableName='{}'".format(tableName))  # 通过数据库表拿到更新的ID
            num2 = result_rememberId.fetchone()
        print "{}读{}写成功".format(tableName,index_type)
    if tableName.upper() == 'T_HOTSEARCH':
        while num2[0] < num1[0]:
            result_readOracle = cur.execute("select {}_ID,accountCode,title,publishTime from {} where {}_ID > {} and rownum<=40 ".format(tableName, tableName, tableName, num2[0]))
            result_tuple1 = result_readOracle.fetchall()  # 之前是因为数据量太大，超过了变量的内存空间，所以用fetchmany取40条  后来大神建议数据库中限制查询数 然后fetchall，这样查询更有效率
            for i in result_tuple1:  #一条一条写入ES，这个速度太慢，改进 通过bulk接口导入
                if conn.index(
                    {'tableName': tableName, 'tableId': i[0], 'title': unicode(i[2]),'author': '','content': '', 'publishTime': str(i[3]), 'browseNum': 0,
                    'commentNum': 0, 'dataType': fetch_account(i[1])}, ES_index, index_type,bulk=True):  # 将数据写入索引pom的spiderInfo
                    cc += 1
                    print 'bulk导入后的ID:{}'.format(i[0])
            rememberId = i[0]
            cur.execute("update T_REMEMBERID set tableId = {} where tableName = '{}'".format(rememberId, tableName))
            conn1.commit()
            result_rememberId = cur.execute("select tableId from T_REMEMBERID where tableName='{}'".format(tableName))  # 通过数据库表拿到更新的ID
            num2 = result_rememberId.fetchone()
        print "{}读{}写成功".format(tableName, index_type)
    if tableName.upper() == 'T_VIDEO_HOT':
        while num2[0] < num1[0]:
            result_readOracle = cur.execute("select {}_ID,accountCode,title,Author,publishTime from {} where {}_ID > {} and rownum<=40 ".format(tableName,tableName,tableName,num2[0]))
            result_tuple1 = result_readOracle.fetchall()  # 之前是因为数据量太大，超过了变量的内存空间，所以用fetchmany取40条  后来大神建议数据库中限制查询数 然后fetchall，这样查询更有效率
            for i in result_tuple1:  # 一条一条写入ES，这个速度太慢，强烈需要改进 通过bulk接口导入？
                if conn.index(
                    {'tableName': tableName, 'tableId': i[0], 'title': unicode(i[2]),'author': unicode(i[3]),
                    'content': '', 'publishTime': str(i[4]), 'browseNum': 0,
                    'commentNum': 0, 'dataType': fetch_account(i[1])}, ES_index, index_type, bulk=True):  # 将数据写入索引pom的spiderInfo
                    cc += 1
                    print 'bulk导入后的ID:{}'.format(i[0])
            rememberId = i[0]
            cur.execute("update T_REMEMBERID set tableId = {} where tableName = '{}'".format(rememberId, tableName))
            conn1.commit()
            result_rememberId = cur.execute("select tableId from T_REMEMBERID where tableName='{}'".format(tableName))  # 通过数据库表拿到更新的ID
            num2 = result_rememberId.fetchone()
        print "{}读写成功".format(tableName)
    if tableName.upper() == 'T_PRESS':
        while num2[0] < num1[0]:
            result_readOracle = cur.execute(
                "select {}_ID,accountCode,title,Author,PublishDate,Content from {} where {}_ID > {} and rownum<=40 ".format(
                    tableName, tableName, tableName, num2[0]))
            result_tuple1 = result_readOracle.fetchall()  # 之前是因为数据量太大，超过了变量的内存空间，所以用fetchmany取40条  后来大神建议数据库中限制查询数 然后fetchall，这样查询更有效率
            for i in result_tuple1:  # 一条一条写入ES，这个速度太慢，强烈需要改进 通过bulk接口导入？
                if conn.index(
                    {'tableName': tableName, 'tableId': i[0], 'title': unicode(i[2]),'author': unicode(i[3]),
                    'content': unicode(i[5]), 'publishTime': str(i[4]), 'browseNum': 0,
                    'commentNum': 0, 'dataType': fetch_account(i[1])}, ES_index, index_type,bulk=True):  # 将数据写入索引pom的spiderInfo
                    cc += 1
                    print 'bulk导入后的ID:{}'.format(i[0])
            rememberId = i[0]
            cur.execute("update T_REMEMBERID set tableId = {} where tableName = '{}'".format(rememberId, tableName))
            conn1.commit()
            result_rememberId = cur.execute(
                "select tableId from T_REMEMBERID where tableName='{}'".format(tableName))  # 通过数据库表拿到更新的ID
            num2 = result_rememberId.fetchone()
        print "{}读写成功".format(tableName)
    if tableName.upper() == 'T_INDUSTRY':
        while num2[0] < num1[0]:
            result_readOracle = cur.execute(
                "select {}_ID,accountCode,title,Author,PublishTime,Content,BrowseNum from {} where {}_ID > {} and rownum<=40 ".format(
                    tableName, tableName, tableName, num2[0]))
            result_tuple1 = result_readOracle.fetchall()  # 之前是因为数据量太大，超过了变量的内存空间，所以用fetchmany取40条  后来大神建议数据库中限制查询数 然后fetchall，这样查询更有效率

            for i in result_tuple1:  # 一条一条写入ES，这个速度太慢，强烈需要改进 通过bulk接口导入？
                if conn.index(
                    {'tableName': tableName, 'tableId': i[0], 'title': unicode(i[2]),'author': unicode(i[3]),
                    'content': unicode(i[5]), 'publishTime': str(i[4]), 'browseNum': i[6],
                    'commentNum': 0, 'dataType': fetch_account(i[1])}, ES_index, index_type,bulk=True) : # 将数据写入索引pom的spiderInfo
                    cc += 1
                    print 'bulk导入后的ID:{}'.format(i[0])
            rememberId = i[0]
            cur.execute("update T_REMEMBERID set tableId = {} where tableName = '{}'".format(rememberId, tableName))
            conn1.commit()
            result_rememberId = cur.execute(
                "select tableId from T_REMEMBERID where tableName='{}'".format(tableName))  # 通过数据库表拿到更新的ID
            num2 = result_rememberId.fetchone()
        print "{}读写成功".format(tableName)
    if tableName.upper() == 'T_SOCIAL_SITESEARCH':
        while num2[0] < num1[0]:
            result_readOracle = cur.execute('select {}_ID,title,author,content,publishTime,keyWords,browseNum,likeNum,forwardNum,commentNum,url,accountCode from {} where ({}_ID > {})'.format(tableName, tableName, tableName, num2[0]))
            result_tuple1 = result_readOracle.fetchmany(50)  #因为数据量太大，超过了变量的内存空间，所以一次性取40条
            for i in result_tuple1:  # 一条一条写入ES，这个速度太慢，强烈需要改进 通过bulk接口导入？
                popularity = (i[6] + i[7] + i[8] * 2 + i[9] * 2)
                if conn.index(
                    {'tableName': tableName,'tableId':i[0],'title': unicode(i[1]),'author':unicode(i[2]),
                    'content':unicode(i[3]),'publishTime':str(i[4]),'keyWords':unicode(i[5]),
                    'popularity':popularity,'url': i[10],
                    'dataType':fetch_account(i[11])}, ES_index, index_type, bulk=True):  # 将数据写入索引pom的spiderInfo
                    cc += 1
                    print 'bulk导入后的ID:{}'.format(i[0])
            rememberId = i[0]
            cur.execute("update T_REMEMBERID set tableId = {} where tableName = '{}'".format(rememberId,tableName))
            conn1.commit()
            result_rememberId = cur.execute("select tableId from T_REMEMBERID where tableName='{}'".format(tableName))  # 通过数据库表拿到更新的ID
            num2 = result_rememberId.fetchone()
        print "{}读写成功".format(tableName)
    if tableName.upper() == 'T_REALTIME_NEWS':
        while num2[0] < num1[0]:
            result_readOracle = cur.execute("select {}_ID,title,author,content,publishTime,browseNum,commentNum,accountCode,url from {} where {}_ID > {} and rownum<=40 ".format(tableName, tableName, tableName, num2[0]))
            result_tuple1 = result_readOracle.fetchall()  # 之前是因为数据量太大，超过了变量的内存空间，所以用fetchmany取40条  后来大神建议数据库中限制查询数 然后fetchall，这样查询更有效率
            for i in result_tuple1:  # 一条一条写入ES，这个速度太慢，强烈需要改进 通过bulk接口导入？
                popularity = (i[5] + i[6] * 2)
                if conn.index(
                    {'tableName': tableName,'tableId':i[0],'title': unicode(i[1]),'author':unicode(i[2]),
                    'content':unicode(i[3]),'publishTime':str(i[4]),'keyWords':unicode(''),
                    'popularity':popularity,'url': i[8],'dataType':fetch_account(i[7])}, ES_index, index_type, bulk=True):  # 将数据写入索引pom的spiderInfo
                    cc += 1
                    print 'bulk导入后的ID:{}'.format(i[0])
            rememberId = i[0]
            cur.execute("update T_REMEMBERID set tableId = {} where tableName = '{}'".format(rememberId, tableName))
            conn1.commit()
            result_rememberId = cur.execute(
                "select tableId from T_REMEMBERID where tableName='{}'".format(tableName))  # 通过数据库表拿到更新的ID
            num2 = result_rememberId.fetchone()
        print "{}读{}写成功".format(tableName, index_type)
    if tableName.upper() == 'T_KEY_NEWS':
        while num2[0] < num1[0]:
            result_readOracle = cur.execute("select {}_ID,title,author,content,publishTime,browseNum,commentNum,accountCode,url from {} where {}_ID > {} and rownum<=40 ".format(tableName, tableName, tableName, num2[0]))
            result_tuple1 = result_readOracle.fetchall()  # 之前是因为数据量太大，超过了变量的内存空间，所以用fetchmany取40条  后来大神建议数据库中限制查询数 然后fetchall，这样查询更有效率
            for i in result_tuple1:  # 一条一条写入ES，这个速度太慢，强烈需要改进 通过bulk接口导入？
                popularity = (i[5] + i[6] * 2)
                if conn.index(
                    {'tableName': tableName,'tableId':i[0],'title': unicode(i[1]),'author':unicode(i[2]),
                    'content':unicode(i[3]),'publishTime':str(i[4]),'keyWords':unicode(''),
                    'popularity':popularity,'url': i[8],'dataType':fetch_account(i[7])}, ES_index, index_type, bulk=True):  # 将数据写入索引pom的spiderInfo
                    cc += 1
                    print 'bulk导入后的ID:{}'.format(i[0])
            rememberId = i[0]
            cur.execute("update T_REMEMBERID set tableId = {} where tableName = '{}'".format(rememberId, tableName))
            conn1.commit()
            result_rememberId = cur.execute(
                "select tableId from T_REMEMBERID where tableName='{}'".format(tableName))  # 通过数据库表拿到更新的ID
            num2 = result_rememberId.fetchone()
        print "{}读{}写成功".format(tableName, index_type)
    if tableName.upper() == 'T_LOCAL_NEWS':
        while num2[0] < num1[0]:
            result_readOracle = cur.execute("select {}_ID,title,author,content,publishTime,browseNum,commentNum,accountCode,url from {} where {}_ID > {} and rownum<=40 ".format(tableName, tableName, tableName, num2[0]))
            result_tuple1 = result_readOracle.fetchall()  # 之前是因为数据量太大，超过了变量的内存空间，所以用fetchmany取40条  后来大神建议数据库中限制查询数 然后fetchall，这样查询更有效率
            for i in result_tuple1:  # 一条一条写入ES，这个速度太慢，强烈需要改进 通过bulk接口导入？
                popularity = (i[5] + i[6] * 2)
                if conn.index(
                    {'tableName': tableName, 'tableId': i[0], 'title': unicode(i[1]), 'author': unicode(i[2]),
                    'content': unicode(i[3]), 'publishTime': str(i[4]), 'keyWords': unicode(''),
                    'popularity': popularity, 'url': i[8], 'dataType': fetch_account(i[7])}, ES_index, index_type,bulk=True):  # 将数据写入索引pom的spiderInfo
                    cc += 1
                    print 'bulk导入后的ID:{}'.format(i[0])
            rememberId = i[0]
            cur.execute("update T_REMEMBERID set tableId = {} where tableName = '{}'".format(rememberId, tableName))
            conn1.commit()
            result_rememberId = cur.execute(
                "select tableId from T_REMEMBERID where tableName='{}'".format(tableName))  # 通过数据库表拿到更新的ID
            num2 = result_rememberId.fetchone()
        print "{}读{}写成功".format(tableName, index_type)
    if tableName.upper() == 'T_VIDEO_SITESEARCH':
        while num2[0] < num1[0]:
            result_readOracle = cur.execute("select {}_ID,accountCode,title,Author,publishTime,url,imgUrl,playNum,keyWords from {} where {}_ID > {} and rownum<=40 ".format(tableName, tableName, tableName, num2[0]))
            result_tuple1 = result_readOracle.fetchall()  # 之前是因为数据量太大，超过了变量的内存空间，所以用fetchmany取40条  后来大神建议数据库中限制查询数 然后fetchall，这样查询更有效率
            for i in result_tuple1:  # 一条一条写入ES，这个速度太慢，强烈需要改进 通过bulk接口导入？
                if conn.index(
                    {
                    'tableName': tableName, 'tableId': i[0], 'title': unicode(i[2]), 'author': unicode(i[3]),
                    'summary': unicode('0'), 'publishTime': str(i[4]), 'browseNum': i[7],'url':i[5],'imgUrl':i[6],'ranking':0,
                    'playNum': 0, 'dataType': fetch_account(i[1])}, ES_index, index_type,bulk=True):  # 将数据写入索引pom的spiderInfo
                    cc += 1
                    print 'bulk导入后的ID:{}'.format(i[0])
            rememberId = i[0]
            cur.execute("update T_REMEMBERID set tableId = {} where tableName = '{}'".format(rememberId, tableName))
            conn1.commit()
            result_rememberId = cur.execute(
                "select tableId from T_REMEMBERID where tableName='{}'".format(tableName))  # 通过数据库表拿到更新的ID
            num2 = result_rememberId.fetchone()
        print "{}读{}写成功".format(tableName,index_type)
    if tableName.upper() == 'T_BASE_KEYWORDS':
        while num2[0] < num1[0]:
            result_readOracle = cur.execute('select {}_ID,keywords from {} where {}_ID > {} and rownum<=50'.format(tableName, tableName, tableName, num2[0]))
            result_tuple1 = result_readOracle.fetchall()  #因为数据量太大，超过了变量的内存空间，所以一次性取40条
            for i in result_tuple1:  # 一条一条写入ES，这个速度太慢，强烈需要改进 通过bulk接口导入？
                if conn.index({'id': i[0], 'keywords': i[1]}, ES_index, index_type,bulk=True):  # 将数据写入索引pom的spiderInfo
                    cc += 1
                    print 'bulk导入后的ID:{}'.format(i[0])
            rememberId = i[0]
            cur.execute("update T_REMEMBERID set tableId = {} where tableName = '{}'".format(rememberId,tableName))
            conn1.commit()
            result_rememberId = cur.execute("select tableId from T_REMEMBERID where tableName='{}'".format(tableName))  # 通过数据库表拿到更新的ID
            num2 = result_rememberId.fetchone()
        print "{}读写成功".format(tableName)
    if tableName.upper() == 'T_BASE_SENSITIVEWORDS':
        while num2[0] < num1[0]:
            result_readOracle = cur.execute('select {}_ID,SensitiveType,SensitiveTopic,SensitiveWords from {} where {}_ID > {} and rownum<=50'.format(tableName, tableName, tableName,num2[0]))
            result_tuple1 = result_readOracle.fetchall()  # 因为数据量太大，超过了变量的内存空间，所以一次性取40条
            for i in result_tuple1:  # 一条一条写入ES，这个速度太慢，强烈需要改进 通过bulk接口导入？
                if conn.index({'id':i[0],
                            'sensitiveType':unicode(i[1]),
                            'sensitiveTopic': unicode(i[2]),
                            'sensitiveWords':unicode(i[3])}, ES_index, index_type, bulk=True):  # 将数据写入索引pom的spiderInfo
                    cc +=1
            print 'bulk导入后的ID:{}'.format(i[0])
            rememberId = i[0]
            cur.execute("update T_REMEMBERID set tableId = {} where tableName = '{}'".format(rememberId, tableName))
            conn1.commit()
            result_rememberId = cur.execute("select tableId from T_REMEMBERID where tableName='{}'".format(tableName))  # 通过数据库表拿到更新的ID
            num2 = result_rememberId.fetchone()
        print "{}读写成功".format(tableName)
    else:
        pass

def ww(a):
    while True:
        print a
        time.sleep(0.5)  #用于多线程的一个实验函数

if __name__ == "__main__":
    cc = 0
    connect_ES('172.17.5.66:9200')
    # conn.indices.delete_index('_all')  # 清除所有索引
    create_ESindex("pom", "spiderInfo", "involveVideo", "involveCeefax","keyWord","sensitiveWord")
    connect_Oracle("pom", "Bohui@123", "172.17.7.118:1521/ORCL")
    # thread.start_new_thread(readOracle_writeES,("T_SOCIAL","pom","spiderInfo"),)#创建一个多线程
    # thread.start_new_thread(readOracle_writeES,("T_SOCIAL_SITESEARCH", "pom", "spiderInfo"),)#创建一个多线程
    mm = time.clock()
    readOracle_writeES("T_SOCIAL", "pom", "spiderInfo") #表名虽然在程序中设置了转化为大写，但是还是全大写比较好
    readOracle_writeES("T_HOTSEARCH", "pom", "spiderInfo")
    readOracle_writeES("T_VIDEO_HOT", "pom", "spiderInfo")
    readOracle_writeES("T_PRESS", "pom", "spiderInfo")
    readOracle_writeES("T_INDUSTRY", "pom", "spiderInfo")
    readOracle_writeES("T_VIDEO_SITESEARCH", "pom", "involveVideo")
    readOracle_writeES("T_REALTIME_NEWS", "pom", "involveCeefax")
    readOracle_writeES("T_KEY_NEWS", "pom", "involveCeefax")
    readOracle_writeES("T_LOCAL_NEWS", "pom", "involveCeefax")
    readOracle_writeES("T_SOCIAL_SITESEARCH", "pom", "involveCeefax")
    readOracle_writeES("T_BASE_KEYWORDS", "pom", "keyWord")
    readOracle_writeES("T_BASE_SENSITIVEWORDS", "pom", "sensitiveWord")
    nn = time.clock()
    # conn.indices.close_index('pom')
    conn1.close()
    print '数据写入耗时：{}  成功写入数据{}条'.format(nn-mm,cc)

#实验多线程
    """
    while a < 100:
        conn.index(
            {'tableName': 'T_base_account', 'type': '1', 'tableId': '123', 'title': unicode('陈龙'), 'author': 'ABC',
            'content': 'ABC', 'publishTime': '12:00:00', 'browseNum': '12', 'commentNum': '12', 'dataType': '1'},
            "pom", "spiderInfo", )  # 将数据写入索引pom的spiderInfo
        a += 1
    print time.ctime()
    """
"""
    threads = []
    t1 = threading.Thread(target=readOracle_writeES,args=("T_SOCIAL","pom","spiderInfo"))
    threads.append(t1)
    #t3 = threading.Thread(target=ww,args=(10,))
    #threads.append(t3)
    #t2 = threading.Thread(target=readOracle_writeES,args=("T_SOCIAL_SITESEARCH", "pom", "spiderInfo"))
    #threads.append(t2)
    print time.ctime()
    for t in threads:
        t.setDaemon(True)
        t.start()
    t.join()
"""

五、编译过程的问题

1、直接print游标cur.execute ( ) 将不能得到我们想要的结果

result2 = cur.execute('select T_SOCIAL_ID from T_SOCIAL')

print result2

      返回：<__builtin__.OracleCursor on > 
    

       result2 = cur.execute('select T_SOCIAL_ID  from T_SOCIAL') 
     
       print result2 
     
       num = result2.fetchall() 
     
       print num 
     
       for i in num: 
     
           print i[0]

       返回：[(55,), (56,), (57,), (58,), (59,), (60,), (61,), (62,), (63,), (64,), (65,), (66,), (67,), (68,), (69,), (70,)] 
     
            55

注意：用fetchall()得到的数据为：[(55,), (56,), (57,), (58,), (59,)] 元组而不是数字。

用变量[num] 的方式取出具体的数值

2、cx_Oracle中文编码乱码问题

显示中文乱码：��Ǳ��

或者显示未知的编码：('\xce\xd2\xd5\xe6\xb5\xc4\xca\xc7\xb1\xea\xcc\xe2',)

需要注意一下几个地方，将数据库中的中文编码转化成utf-8编码，并将中文写入elasticsearch

      os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8' #中文编码 
    

       reload(sys) #默认编码设置为utf-8 一定需要reload（sys） 
     
       sys.setdefaultencoding('utf-8')

      'title': 
     unicode('中文') 
    

python传递给js的列表中文乱码怎么解决？

        json.dumps(dictionary,ensure_ascii=False) 
      

3、远程连接不上Oracle数据库的问题

第一：确保connect（）中各个参数的值都正确。例如

    conn1 = cx_Oracle.connect("username","password","172.17.7.118:1521/ORCL")  #连接远程数据库 
  

    conn1 = cx_Oracle.connect('username','password','localhost:1521/ORCL') #连接本地数据库 
  

    conn2 = pyes.ES('127.0.0.1:9200')  #连接ES 
  

第二：确保安装的版本都符合要求，包括模块的版本。

4、提示TypeError: 'NoneType' object is not callable

确保mapping中的各个字段类型都设置正确

检查索引和映射是否都书写正确

5、脚本同时读取多个数据库表

涉及到Python中多线程的问题，给每一个表起一个线程，同时给每一个线程加锁

编译时碰到问题：AssertionError: group argument must be None for now（检查函数是否书写正确，读写冲突）

AttributeError: 'builtin_function_or_method' object has no attribute 'setDaemon'

cx_Oracle.ProgrammingError: LOB variable no longer valid after subsequent fetch（fetchall数据量过大，溢出设置一次取数据库中 rownum数）

TypeError: 'NoneType' object has no attribute '__getitem__' （注意数据库查询对应的大小写）

No handlers could be found for logger "pyes" 可能是连接超时

AttributeError: 'tuple' object has no attribute 'append' tuple不能直接用append

TypeError: 'tuple' object does not support item assignment tuple不能赋值

数据库批量读取

就多线程问题咨询了大神，大神建议用多进程来实现会比较简单

6、脚本定时触发问题

Linux crontab定时执行任务，crontab防止脚本周期内未执行完重复执行

7、单实例的问题。防止脚本没有执行完再次触发

刚开始设想在脚本中完成，后来知道这个可以在系统中设定

8、数据同步插件

网上有大量的关于同步关系型数据库的有关插件 logstash-input-jdbc 不太好安装，不知道如何使用。

MySQL和ES同步插件的介绍，例如elasticsearch-river-jdbc

在这儿启用的是bulk接口，批量导入。数据同步的速度大大提高

9、判断数据是否同步成功

这个是之前一直没有注意的问题，但其实在数据传输的时候是非常重要的。

目前的判断方法是看ES中的数据量到底有多少，然后对照统计量进行判断分析，，这也是在后期发现有部分数据没有同步过去的方法。

10、统计写入了多少数据

UnboundLocalError: local variable 'cc' referenced before assignment

定义了全局变量cc，但是在局部进行了修改，所以报错修改同名的全局变量，则认为是一个局部变量

五、源码改进

因为数据写入的速度太慢（40条数据 800Kb大小写入花费2S左右），所有在原来的基础上，修改了读取数据库中未写入内容的策略和ES写入的策略。

插入完成的源码

调试问题：

1、pip install elasticsearch 引入helpers函数模块，使用bulk函数批量导入。

2、AttributeError: 'ES' object has no attribute 'transport' 因为原来使用的是pyes模块现在换成了elasticsearch,所以改成对应模块

 
   conn2 = Elasticsearch( 
   "127.0.0.1:9200")

其他常见错误

SerializationError：JSON数据序列化出错，通常是因为不支持某个节点值的数据类型

RequestError：提交数据格式不正确

ConflictError：索引ID冲突

TransportError：连接无法建立

最后通过了解其实是找到了数据同步的插件 logstash-input-jdbc 能够实现数据的同步增删改查，按照网上的教程能够很轻松的实现，遇到的问题就是插件同步过去的字段都必须是小写。

------------

Python中cx_Oracle的一些函数：

commit() 提交
rollback() 回滚

cursor用来执行命令的方法:
callproc(self, procname, args):用来执行存储过程,接收的参数为存储过程名和参数列表,返回值为受影响的行数
execute(self, query, args):执行单条sql语句,接收的参数为sql语句本身和使用的参数列表,返回值为受影响的行数
executemany(self, query, args):执行单挑sql语句,但是重复执行参数列表里的参数,返回值为受影响的行数
nextset(self):移动到下一个结果集

cursor用来接收返回值的方法:
fetchall(self):接收全部的返回结果行.
fetchmany(self, size=None):接收size条返回结果行.如果size的值大于返回的结果行的数量,则会返回cursor.arraysize条数据.
fetchone(self):返回一条结果行.

scroll(self, value, mode='relative'):移动指针到某一行.如果mode='relative',则表示从当前所在行移动value条,如果 mode='absolute',则表示从结果集的第一行移动value条.

MySQL中关于中文编码的问题

conn = MySQLdb.Connect(host='localhost', user='root', passwd='root', db='python') 中加一个属性：

conn = MySQLdb.Connect(host='localhost', user='root', passwd='root', db='python',charset='utf8')

charset是要跟你数据库的编码一样，如果是数据库是gb2312 ,则写charset='gb2312'。

你可能感兴趣的:(Python编写Oracle和Elasticsearch数据同步脚本)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
15个小技巧，让我的Windows电脑更好用了！曹元_
01.桌面及文档处理第一部分的技巧，主要是围绕桌面的一些基本操作，包括主题设置、常用文档文件快捷打开的多种方式等等。主题换色默认情况下，我们的Win界面可能就是白色的文档界面，天蓝色的图表背景，说不出哪里不好看，但是就是觉得不够高级。imageimage说到高级感，本能第一反应就会和暗色模式联想起来，如果我们将整个界面换成黑夜模式的话，它会是这样的。imageimage更改主题颜色及暗色模式，我们
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
月光下的罪恶（5）允歌玖沐
5.被孤立顾纨是转校过来的，进入学校后，回头率很高“诶诶诶，你看那女生，哪个系的？”“不知道没见过。”“看那样，一看就是个胆小的货。”顾纨当做没听到，更狠的话她都听过，更何况女生们耍心眼？“他爸爸是做黑生意的，估计女儿也不是什么好的，你以后离他一家子远点。”她走向自己要上课的教室，一进门，所有人的目光看向她，顾纨若无其事的走进教室，开始上课。下课，一群人站起来，但是很显然，她周围的一圈人都不愿意和
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
三件事—小白猫·雨天·八段锦咸鱼月亮
1.最近楼下出现一只非常漂亮的粘人小白猫，看着不像是流浪猫，非常亲人。眼睛比蓝球的还大，而且是绿色的，很漂亮。第一次遇到它，它就跟我到电梯口，如果我稍微招招手，肯定就跟我进电梯了。后来我喂过它几次，好可惜不能养它，一只蓝球就是我的极限了。2.下雨天就心烦，好奇怪。明明以前我超爱看窗外的雨和听雨声，看来近来的心情不够宁静了。3.最近在练八段锦，从第一次就爱上了这个运动，很轻松缓慢，但是却出汗。感觉可
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
2023-11-02 一帆f
发现浸润心田的感觉：今天一个机缘之下突然想分享我的婆媳关系，我一边分享一边回忆我之前和儿媳妇关系的微妙变化，特别是分享到我能感受到儿媳妇的各种美好，现在也能心平气和的和老公平等对话，看到自己看到老公，以己推人以人推己自然而然的换位思考，心中有一种美好的能量在涌动，一种浸润心田的感觉从心胸向全身扩散，美好极了……我很想记住这种感觉，赶紧把它写下来以留纪念，也就是当我看见他人的美好，美好的美妙的浸润心
贫穷家庭的孩子考上985以后会怎样？ Mellisa蜜思言
我出生在一个贫穷的农村家庭，据我妈说，我出生的时候才4斤多，而她生完我以后月子里就瘦到70斤。家里一直很穷，父母都是在菜市场卖菜的，家里还有几亩地种庄稼的。我很小开始就要去帮忙，暑假的生活就是帮忙去卖菜和割稻谷，那时候自己对于割稻谷这种事情有着莫名的恐惧，生怕自己长大以后还是每年都要过着割稻谷这种日子。父母因为忙于生计无暇顾及我的学习，幸好我因为看到他们这样子的生活，内心里有深深的恐惧感，驱使着我
实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
日更50天有什么收益？星湾二宝
坚持在平台上日更50天了，平台也为我生成了日更50天徽章，小开心一下这份坚持。日更50天徽章那坚持50天都有哪些收益呢？收益一，就是最直观的那些钻和贝，我这边确实不太高，但是这些贝足够支撑我保持会员的资格，能够在发文的时候帮助友友们去除广告，方便阅读。钻和贝收益二，文章的收获，日更50天，坚持写作3.7万文字，书写的文字也从开始的流水账/碎碎念逐渐加入自己的思考和观点。以前，一个念头会一晃而过，如
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
ARM 和 AMD 架构的区别 m0_69576880 arm开发 windows 架构
ARM架构和AMD架构是两种不同的计算机处理器架构，它们有以下几个主要区别：设计出发点、兼容性、性能特点、市场定价。设计出发点：①ARM构架：ARM架构最初是为嵌入式系统设计的，旨在提供低功耗和高效能的解决方案。它主要应用于移动设备、嵌入式系统和物联网设备②AMD架构：AMD架构是基于x86架构的扩展，旨在提供与Intel架构兼容的处理器。它主要用于台式机、服务器和工作站等计算机系统。兼容性：AR
关于流媒体播放器EasyPlayer和EasyPlayerPro的介绍以及其区别 EasyDarwin EasyDarwin 音视频 ffmpeg 人工智能大数据 ar
EasyPlayer是一款流媒体播放器系列项目，它支持多种流媒体协议的播放，包括但不限于RTSP、RTMP、HTTP、HLS、UDP、RTP、File等。除此之外，EasyPlayer还支持本地文件播放和多种功能特性，包括本地抓拍、本地录像、播放旋转、多屏播放、倍数播放等。EasyPlayer核心基于ffmpeg，稳定、高效、可靠、可控。随着多年的不断发展和迭代，EasyPlayer基于成功的实践
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
2022-04-07 上善若水1979527
昨天苏阿姨来给我送普门品！和她一块来的还有另外一个阿姨！我下去拿时！那阿姨说你不是干房产的小赵！帮我租房的！我说你认识我？对啊！你帮我租的房子！我没印象了！我和保红一块！我说我想起来了阿姨！你这运动服一换！小电车一骑！一下年轻十岁我早记不得了！我只记得一九年五一带看了河滨美航还有德胜的好多套房子！你都不当意！你告诉我你每晚拜观音菩萨说快让小赵普萨帮我找套合适的房子吧！我把本子上记得半年内的德胜房源
互信息：理论框架、跨学科应用与前沿进展大千AI助手人工智能 Python #OTHER 人工智能深度学习算法互信息香农通信随机变量
1.起源与核心定义互信息（MutualInformation,MI）由克劳德·香农（ClaudeShannon）在1948年开创性论文《AMathematicalTheoryofCommunication》中首次提出，该论文奠定了现代信息论的基础。互信息用于量化两个随机变量之间的统计依赖关系，定义为：若已知一个随机变量的取值，能为另一个随机变量提供的信息量。数学上，对于离散随机变量XXX和YYY，
《实际生活是我们的指南针》——教育中寻找曙光托克托126何芳
陶行知先生的文章相对《致青年教师》比较难理解，但是他热爱学生,在书中处处能感受到。在《实际生活是我们的指南针》文中他说道:“我虽觉得我有好多地方可以帮助诸位,但指志针确是有些不敢当。我和诸位同是在乡村里摸路的人。我们的真正指南针只是实际生活。”这些话不仅使人感到他非常谦虛,既不夸大自己的作用也不轻视自己的作用。图片发自App我们的真正指南针只是实际生活。实际生活向我们供给无穷的问题,要求不断的解决
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
氧惠官方邀请码333777，氧惠邀请码怎么获得？氧惠邀请码有什么套路？知行导师
问：氧惠邀请码怎么获得？答：氧惠官方邀请码333777返点高佣金高真的高。问：氧惠邀请码有什么套路？答：氧惠官方邀请码333777返点高佣金高真的高。氧惠APP汇聚各大主流电商和生活服务平台优惠，展示全网全品类商品，满足网购爱好者对品质好货与极致性价比的追求，并同时享受大平台购物权益保障。满足用户日常吃喝玩乐衣食住行的聚合APP，独特的商业模式，响应国家号召，为实现全民共富而努力奋斗。氧惠邀请码3
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置