RicardoOzZ

Qlib教程——基于源码（二）本地数据保存与加载

文章目录

1. Data Preparation
- 1.1 Qlib 数据
- 1.2 CSV数据
2. Data API
- 2.1 数据检索示例
- 2.2 关于 qlib.init()
3. Data Loader
- 3.1 数据查询示例
4. Data Handler
5. Dataset

本篇主要讲解Qlib源码中数据的获取与保存部分。
从上一章中我们知道，源码中与数据相关的，主要是以下两个文件夹：

scripts 脚本文件，用于外部数据下载与保存
data 数据缓存与处理相关文件

数据方面主要包含以下操作：

Data Preparation
Data API
Data Loader
Data Handler
Dataset
Cache
Data and Cache File Structure

数据部分的主要工作流如下：

用户下载CSV数据并将数据转换为 Qlib 格式（文件名后缀为.bin的二进制文件）。在此步骤中，通常只有一些基本的量价数据存储在磁盘上，如开盘价、收盘价、成交量等。除了量价数据以外，Qlib还设计了一套用于处理财务数据的PIT数据库。
基于Qlib的表达式引擎创建一些基本特征（例如“Ref($close, 60) / $close”，最近60个交易日的收益）。这一步通常在Qlib的Data Loader中实现，它是Data Handler的一个组件。
如果用户需要更复杂的数据处理（例如数据标准化），Data Handler支持用户自定义的处理函数来清洗数据。处理函数不同于表达式引擎中的运算符。它是为一些复杂的数据处理方法而设计的。
最后，Dataset 负责将 Data Handler 处理后数据存为数据集，用来输入模型。

1. Data Preparation

1.1 Qlib 数据

Qlib里自带了一套直接下载股票数据并保存到本地的方法，且可以设置每日自动更新，这套数据我直接将其称为Qlib数据。
Qlib数据中包含了交易日历、A股全市场股票日级别量价数据（官网里说也支持分钟级），以及CSI100、300、500的股票池成分股数据。
这套数据对于我们了解Qlib框架大有帮助，建议使用如下代码先下载到本地。数据源是微软开放的URL地址，但是对于专业人士来说肯定不会只满足于此，一般都希望更换为自己熟悉的、稳定的数据源。

import qlib
# region in [REG_CN, REG_US]
from qlib.constant import REG_CN

provider_uri = "~/.qlib/qlib_data/cn_data"  # target_dir
qlib.init(provider_uri=provider_uri, region=REG_CN)

# 下载数据
from qlib.tests.data import GetData
aa = GetData()
aa.qlib_data(target_dir = provider_uri, region="cn")

这个下载方法和官网里给的方法相同，只不过官网给出的是命令行代码：

# daily data
python get_data.py qlib_data --target_dir ~/.qlib1/qlib_data/cn_data --region cn

# 1min  data (Optional for running non-high-frequency strategies)
python get_data.py qlib_data --target_dir ~/.qlib1/qlib_data/cn_data_1min --region cn --interval 1min

对于学生或初学者而言，可以直接使用此的数据，并跳过本章接下来的内容。
下面我们将深入了解数据准备的高级内容，探索如何导入CSV数据以及更换自定义数据源。

1.2 CSV数据

一般而言，我们可以直接使用CSV数据进行深度学习与模型的开发。但Qlib声称其专门设计了一种数据结构（bin文件）来管理金融数据，这套数据的好处的更容易对数据的列进行科学计算，从而便于构建基于量价数据的金融指标。
Qlib提供了将CSV数据转为bin格式数据的脚本：scripts/dump_bin.py
我们先下载用于演示的CSV数据：

import qlib
# region in [REG_CN, REG_US]
from qlib.constant import REG_CN

provider_uri = "~/.qlib/qlib_data/cn_data"  # target_dir
qlib.init(provider_uri=provider_uri, region=REG_CN)

# 下载数据
from qlib.tests.data import GetData
aa = GetData()
aa.csv_data_cn(target_dir=provider_uri)

在文件夹中，我们可以看到每只股票的CSV数据格式，包含date、symbol，以及其他的特征列，如open、close等。
在scripts/dump_bin.py文件的主函数中，我们运行如下代码：

provider_uri = "~/.qlib/qlib_data/cn_data"  # target_dir
aa = DumpDataAll(csv_path=provider_uri, qlib_dir=provider_uri, include_fields='open,close,high,low,volume,adjclose')
# 执行转储
aa.dump()

即可对对应文件夹内的股票csv数据进行转储，该运行方式与官网中给出的脚本方式作用相同，即：

python scripts/dump_bin.py dump_all --csv_path  ~/.qlib/csv_data/my_data --qlib_dir ~/.qlib/qlib_data/my_data --include_fields open,close,high,low,volume,factor

这里，我们细看一下aa.dump()函数，其包含了三个子函数，分别用来存储日历、股票、特征数据：

    def dump(self):
        self._get_all_date()
        self._dump_calendars()
        self._dump_instruments()
        self._dump_features()

先看self._get_all_date()，我们先把该项目中常用到的多进程进度条更新代码框架给出：

# tqdm进度条，总进度数为总csv文件数
with tqdm(total=len(self.csv_files)) as p_bar:
    # 多进程执行函数，self.works默认为16
    with ProcessPoolExecutor(max_workers=self.works) as executor:
    	# 将csv_files中的文件名作为参数集，输入_dump_func中，并行运算。
        for _ in executor.map(_dump_func, self.csv_files):
        	# 并行计算中的程序每完成一次，进度条更新一次
            p_bar.update()

此时，我们再细看self._get_all_date()的内容：

def _get_all_date(self):
    logger.info("start get all date......")
    all_datetime = set()
    date_range_list = []
    # 函数，用于获取每个股票csv中的日期列表
    _fun = partial(self._get_date, as_set=True, is_begin_end=True)
    with tqdm(total=len(self.csv_files)) as p_bar:
        with ProcessPoolExecutor(max_workers=self.works) as executor:
            for file_path, ((_begin_time, _end_time), _set_calendars) in zip(
                self.csv_files, executor.map(_fun, self.csv_files)
            ):	
            	# 将原all_datetime中的日期列表 与 新csv中的日期列表_set_calendars 合并，获得总日期列表 all_datetime_set
                all_datetime = all_datetime | _set_calendars
                
				# date_range_list 用于记录股票池，每行数据类似： SZ300800	2019-11-06	2020-09-23， 
				# 第一列为股票名，第二列为选入股票池时间，第三列为离开股票池时间（若未离开股票池，则为最新时间点）。
                if isinstance(_begin_time, pd.Timestamp) and isinstance(_end_time, pd.Timestamp):
                    _begin_time = self._format_datetime(_begin_time)
                    _end_time = self._format_datetime(_end_time)
                    symbol = self.get_symbol_from_file(file_path)
                    _inst_fields = [symbol.upper(), _begin_time, _end_time]
                    date_range_list.append(f"{self.INSTRUMENTS_SEP.join(_inst_fields)}")
                p_bar.update()
    self._kwargs["all_datetime_set"] = all_datetime
    self._kwargs["date_range_list"] = date_range_list
    logger.info("end of get all date.\n")

接下来的_dump_calendars()和_dump_instruments()很简单，分别将日期列表和股票池列表存为txt。
重点说一下_dump_features()，其同样嵌套了上面介绍的多进程进度条更新框架，单个csv文件的处理函数_dump_bin如下：

# 输入参数为文件名和总日期列表，文件名支持path和pd.DataFrame两种格式，我们目前只看path
def _dump_bin(self, file_or_data: [Path, pd.DataFrame], calendar_list: List[pd.Timestamp]):
    if not calendar_list:
        logger.warning("calendar_list is empty")
        return
    if isinstance(file_or_data, pd.DataFrame):
        if file_or_data.empty:
            return
        code = fname_to_code(str(file_or_data.iloc[0][self.symbol_field_name]).lower())
        df = file_or_data
    # 直接看这一步
    elif isinstance(file_or_data, Path):
    	# 解析股票名
        code = self.get_symbol_from_file(file_or_data)
        # 获取csv文件中的数据，函数中将日期列表换为了统一的日期格式
        df = self._get_source_data(file_or_data)
    else:
        raise ValueError(f"not support {type(file_or_data)}")
    if df is None or df.empty:
        logger.warning(f"{code} data is None or empty")
        return

    # 删除日期列中的重复行，一般不会存在重复，除非数据源数据不干净
    df = df.drop_duplicates(self.date_field_name)

    # 制作feature文件夹中，每个股票所对应的空文件夹，如：../feature/sz300800
    features_dir = self._features_dir.joinpath(code_to_fname(code).lower())
    features_dir.mkdir(parents=True, exist_ok=True)
    
    # 继续下面的函数
    self._data_to_bin(df, calendar_list, features_dir)

# 将股票数据存入对应的文件夹中。
def _data_to_bin(self, df: pd.DataFrame, calendar_list: List[pd.Timestamp], features_dir: Path):
    if df.empty:
        logger.warning(f"{features_dir.name} data is None or empty")
        return
    if not calendar_list:
        logger.warning("calendar_list is empty")
        return
    # 对其索引，将df的日期索引更换为 calendar_list
    _df = self.data_merge_calendar(df, calendar_list)
    # 数据文件开头的日期索引，若为0，则表示从calendar_list中的第一天开始。
    date_index = self.get_datetime_index(_df, calendar_list)
	
	# 下面的代码比较好理解，通过nu.tofile()将数据分列存为bin格式，每个特征列中的数据存为一个bin文件。
    for field in self.get_dump_fields(_df.columns):
        bin_path = features_dir.joinpath(f"{field.lower()}.{self.freq}{self.DUMP_FILE_SUFFIX}")
        if field not in _df.columns:
            continue
        if bin_path.exists() and self._mode == self.UPDATE_MODE:
            # 更新模式
            with bin_path.open("ab") as fp:
                np.array(_df[field]).astype(").tofile(fp)
        else:
            # 首次存储
            np.hstack([date_index, _df[field]]).astype(").tofile(str(bin_path.resolve()))

到此位置，大家对csv数据的存储基本上有了概念。其实说起来也很简单，就是分特征列，每列数据通过nu.tofile()存为一个bin文件。并没有什么过于高大上的技巧，只是方便列式计算因子、以及新增每只股票的特征并更新数据。

除此以外，Qlib还设计了一套用于处理财务数据的数据库——PIT Database (Point-In-Time Database) 。在财务数据（尤其是财务报告）中，同一条数据可能会被多次修改。如果我们只使用最新版本数据进行历史回测，就会发生数据泄露。PIT数据库旨在解决此问题，以确保用户在任何历史时间戳都获得正确版本的数据。它将保持实盘交易和历史回测的性能相同。截至2022.7，这套数据存储方法应该还处于开发中，不算特别成熟。过段时间，我会再对此进行讲解。

2. Data API

2.1 数据检索示例

数据API主要用于快速对数据进行查询与检索，以及构建自定义特征。
我们先试用数据检索方法，首先初始化：

import qlib
qlib.init(provider_uri='~/.qlib/qlib_data/cn_data')

检索交易日历：

from qlib.data import D
aa = D.calendar(start_time='2010-01-01', end_time='2017-12-31', freq='day')[:2]

"""
[Timestamp('2010-01-04 00:00:00') Timestamp('2010-01-05 00:00:00')
 Timestamp('2010-01-06 00:00:00') Timestamp('2010-01-07 00:00:00')
 Timestamp('2010-01-08 00:00:00')]
"""

在给定日期内，获得股票池股票：

from qlib.data import D
instruments = D.instruments(market='csi300')
aa = D.list_instruments(instruments=instruments, start_time='2010-01-01', end_time='2017-12-31', as_list=True)[:5]
print(aa)

"""
['SH600000', 'SH600004', 'SH600009', 'SH600010', 'SH600011']
"""

使用名称过滤器 NameDFilter：

from qlib.data import D
from qlib.data.filter import NameDFilter
nameDFilter = NameDFilter(name_rule_re='SH[0-9]{4}55')
instruments = D.instruments(market='csi300', filter_pipe=[nameDFilter])
aa = D.list_instruments(instruments=instruments, start_time='2015-01-01', end_time='2016-02-15', as_list=True)
print(aa)

"""
['SH600655', 'SH601555']
"""

使用表达式过滤器ExpressionDFilter（注意，这里如有报错”RuntimeError: An attempt has been made to start a new process before the current process has finished its bootstrapping phase…“，需将函数运行在if __name__ == "__main__":下面，如下所示：

import qlib
# region in [REG_CN, REG_US]
from qlib.constant import REG_CN
from qlib.data import D
from qlib.data.filter import ExpressionDFilter

if __name__ == "__main__":
    provider_uri = "F:/qlib_data/cn_data"  # target_dir
    qlib.init(provider_uri=provider_uri, region=REG_CN)
    
    expressionDFilter = ExpressionDFilter(rule_expression='$close>200')
    instruments = D.instruments(market='csi300', filter_pipe=[expressionDFilter])
    aa = D.list_instruments(instruments=instruments, start_time='2015-01-01', end_time='2016-02-15', as_list=True)
    print(aa)

"""
['SH600066', 'SH600177', 'SH600340', 'SH600570', 'SZ000651', 'SH600415']
"""

获取股票在一段时间内的某些特征：

from qlib.data import D
instruments = ['SH600000']
fields = ['$close', '$volume', 'Ref($close, 1)', 'Mean($close, 3)', '$high-$low']
aa = D.features(instruments, fields, start_time='2010-01-01', end_time='2017-12-31', freq='day').head()
print(aa)

"""
                           $close       $volume  ...  Mean($close, 3)  $high-$low
instrument datetime                              ...                             
SH600000   2010-01-04    4.260015  3.292462e+08  ...         4.323008    0.142738
           2010-01-05    4.292182  5.727642e+08  ...         4.304245    0.158820
           2010-01-06    4.207747  4.814119e+08  ...         4.253314    0.084436
           2010-01-07    4.113258  4.239778e+08  ...         4.204396    0.148772
           2010-01-08    4.159496  3.268403e+08  ...         4.160167    0.100523
...                           ...           ...  ...              ...         ...
SH600066   2017-12-25  218.081284  8.424011e+05  ...       218.804443    6.131180
           2017-12-26  222.420258  7.908619e+05  ...       219.936356    5.942520
           2017-12-27  226.287613  1.909335e+06  ...       222.263046   11.696396
           2017-12-28  226.098969  1.504564e+06  ...       224.935608    6.791458
           2017-12-29  227.042236  1.003559e+06  ...       226.476273    4.527634

[3794 rows x 5 columns]
"""

当自定义的特征比较复杂时，可以改用如下方法，方便输入：

from qlib.data.ops import *
f1 = Feature("high") / Feature("close")
f2 = Feature("open") / Feature("close")
f3 = f1 + f2
f4 = f3 * f3 / f3

aa = data = D.features(["sh600519"], [f4], start_time="20200101").head()
print(aa)

"""
                       Div(Mul(Add(Div($high,$close),Div($open,$close)),Add(Div($high,$close),Div($open,$close))),Add(Div($high,$close),Div($open,$close)))
instrument datetime                                                                                                                                        
sh600519   2020-01-02                                           2.011558                                                                                   
           2020-01-03                                           2.071280                                                                                   
           2020-01-06                                           2.007217                                                                                   
           2020-01-07                                           1.988525                                                                                   
           2020-01-08                                           2.000000                                                                                   
"""

2.2 关于 qlib.init()

在详细了解其他API之前，我们先说一说这个init大概做了些什么事。init的存在是事先配置环境，同时也支持客户端与服务器模式，后者我们先不细究，本地数据可以直接使用默认的客户端模式。

在事先配置环境中，除了设置我们比较容易理解的provider_uri、region等参数外，还有一个重要的作用，就是对数据provider相关函数的注册，即C.register()，函数注册功能使我们可以在配置文件中通过参数（如本地模式或服务器模式）自动调用我们所需要的数据供给函数。

Provider基类使用了Mixin技术，即ProviderBackendMixin，实现了类似于端分离的数据供给方式，其主要作用是方便切换多个不同的数据后端，设置自定义的数据源。

Provider数据供给函数的基类包括：CalendarProvider、InstrumentProvider、FeatureProvider、PITProvider、ExpressionProvider、DatasetProvider

本地数据模式的Provider继承自以上基类，如：LocalCalendarProvider；

服务器数据模式的Provider继承自以上基类，如：ClientCalendarProvider；

除上面以外，还有个更加方便、更上层的数据API——BaseProvider，相当于集成用户对了CalendarProvider、InstrumentProvider、FeatureProvider的数据需求，方便我们直接查看数据库中的日历列表、股票池、股票特征等。
此API同样有本地和客户端两个子类：LocalProvider和ClientProvider。我们实例中用到的from qlib.data import D便是本地数据子类LocalProvider。

这一节的数据API是便于用户查询和操作数据特征，下一节我们将介绍用于模型的数据加载器和数据处理器，即Data Loader与Data Handler。

3. Data Loader

刚开始，我对Data Loader和前一章中的Data API的异同存在一定疑惑，两者都是获取数据的工具，有什么使用上的区别呢？官方的文档中似乎也并没有对此做细致的说明。稍看一下源码我们便知晓，其实Data Loader仅仅只是前一章中数据查询API的封装，使我们更加方便的获取我们所需的数据而已。

因此，我的建议是，在工具的使用过程中，直接忘掉Data API获取数据的方法，统一改用Data Loader来获取数据（这是官网文档中比较迷惑的一部分，官网文档中详细介绍了Data API的使用，但却没有详细介绍Data Loader的使用，这会对我等新人造成一定的误导）。

3.1 数据查询示例

from qlib.data.dataset.loader  import QlibDataLoader

qdl = QlibDataLoader(config=(['$close / Ref($close, 10)'], ['RET10']))
qdl.load(instruments=['sh600519'], start_time='20190101', end_time='20191231')

"""		
datetime	instrument	RET10
2019-01-02	sh600519	1.014326
2019-01-03	sh600519	0.998409
2019-01-04	sh600519	1.041883
2019-01-07	sh600519	1.053943
2019-01-08	sh600519	1.065878
...	...	...
2019-12-25	sh600519	0.978188
2019-12-26	sh600519	0.998329
2019-12-27	sh600519	1.000000
2019-12-30	sh600519	1.032999
2019-12-31	sh600519	1.011128
"""

4. Data Handler

Data Handler则是基于Data Loader，通过更高级的封装，使我们仅需要简洁的语言便可以对加载的数据进行处理，如数据标准化、填充nan值等。

首先，我们先查看未进行数据处理的数据：

df = qdl.load(instruments=['sh600519'], start_time='20190101', end_time='20191231')
df.isna().sum()
"""
RET10    4
dtype: int64
"""

df.plot(kind='hist')

输出图片：

数据中存在4个nan，且数据分布不均匀。

接下来，我们进行数据处理：

from qlib.data.dataset.handler import DataHandlerLP
from qlib.data.dataset.processor import ZScoreNorm, Fillna

# NOTE: normally, the training & validation time range will be  `fit_start_time` ， `fit_end_time`
# however，all the components are decomposed, so the training & validation time range is unknown when preprocessing.
dh = DataHandlerLP(instruments=['sh600519'], start_time='20170101', end_time='20191231',
             infer_processors=[ZScoreNorm(fit_start_time='20170101', fit_end_time='20181231'), Fillna()],
             data_loader=qdl)
df = dh.fetch()
df.isna().sum()

"""
RET10    0
dtype: int64
"""

df.plot(kind='hist')

输出图片：

可以看到，经过处理后，数据中的nan数量变成了0，且数据分布更接近于正太分布。

5. Dataset

将Data Handler处理后的数据，再用Dataset类处理，就成为了我们所熟悉的机器学习（深度学习）数据集格式，我们可以直接将此数据集导入模型开始训练。

这里，我们通过dataset将数据集分为训练集和预测集：

from qlib.data.dataset import DatasetH, TSDatasetH

ds = DatasetH(dh, segments={"train": ('20180101', '20181231'), "valid": ('20190101', '20191231')})

ds.prepare('train')
"""
datetime	instrument	RET10
2018-01-02	sh600519	0.745535
2018-01-03	sh600519	1.022683
2018-01-04	sh600519	1.075765
2018-01-05	sh600519	1.195880
2018-01-08	sh600519	1.514492
...	...	...
2018-12-24	sh600519	-0.529233
2018-12-25	sh600519	-0.764602
2018-12-26	sh600519	-1.105943
2018-12-27	sh600519	-1.372358
2018-12-28	sh600519	-0.337375
"""

ds.prepare('valid')
"""
2019-01-02	sh600519	-0.001186
2019-01-03	sh600519	-0.278425
2019-01-04	sh600519	0.478799
2019-01-07	sh600519	0.688852
2019-01-08	sh600519	0.896746
...	...	...
2019-12-25	sh600519	-0.630645
2019-12-26	sh600519	-0.279825
2019-12-27	sh600519	-0.250719
2019-12-30	sh600519	0.324053
2019-12-31	sh600519	-0.056887
"""

你可能感兴趣的:(量化投资专栏,数据挖掘,深度学习,python,pytorch)

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
python抓包与解包_Python—网络抓包与解包（pcap、dpkt） weixin_39691055 python抓包与解包
pcap安装[root@localhost~]#pipinstallpypcap抓包与解包#-*-coding:utf-8-*-importpcap,dpktimportre,threading,requests__black_ip=['103.224.249.123','203.66.1.212']#抓包：param1eth_name网卡名，如：eth0,eth3。param2p_type日志捕
华为OD机试 - 单向链表中间节点（Java & JS & Python & C & C++）华为OD题库华为od 链表 java
须知哈喽，本题库完全免费，收费是为了防止被爬，大家订阅专栏后可以私信联系退款。感谢支持文章目录须知题目描述输出描述解析代码题目描述给定一个单链表L，请编写程序输出L中间结点保存的数据。如果有两个中间结点，则输出第二个中间结点保存的数据。例如：给定L为1→7→5，则输出应该为7；给定L为1→2→3→4，则输出应该为3；输入描述每个输入包含1个测试用例。每个测试用例：第一行给出链表首结点的地址、结点总
python 推导式(派生、衍生) sanduo112 人工智能 python windows 开发语言
python推导式一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。2.列表(list)推导式3.字典(dict)推导式4.集合(set)推导式5.元组(tuple)推导式二、代码概述一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。Python支持各种数
【算法分析与设计】去除重复字母五敷有你算法分析与设计 java javascript 开发语言算法数据结构
个人主页：五敷有你系列专栏：算法分析与设计⛺️稳中求进，晒太阳题目给你一个字符串s，请你去除字符串中重复的字母，使得每个字母只出现一次。需保证返回结果的字典序最小（要求不能打乱其他字符的相对位置）。示例示例1：输入：s="bcabc"输出："abc"示例2：输入：s="cbacdcbc"输出："acdb"思路贪心+单调栈实现【字符串删除一个字符使其字典序最小的贪心策略】：对于两个长度相同的字符串，
数据挖掘|数据预处理|基于Python的数据标准化方法皖山文武数据挖掘数据建模与分析 python 数据挖掘开发语言
基于Python的数据标准化方法1.z-score方法2.极差标准化方法3.最大绝对值标准化方法在数据分析之前，通常需要先将数据标准化（Standardization），利用标准化后的数据进行数据分析，以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。1.z-score方法Z-score方法是基于原始数据的均值和标准差来进行数据标准化的，处理后的数据均值为0，方差为1，符合标准正态分布
CSV指南：Python程序获取大型CSV文件行数孤独打铁匠Julian 笔记经验分享 python
本指南提供了几种使用Python来获取大型CSV文件行数的方法，并解释了每种方法的适用场景。方法1:使用csv.reader处理复杂CSV文件当你的CSV文件中包含多行字段（即某些字段的值中包含换行符）时，使用csv.reader是一个可靠的选择，因为它能够正确处理这些复杂情况。这个方法适用于大多数大小的CSV文件，但是对于非常大的文件，读取整个文件可能会占用较多的时间和内存。对于极大的文件，考虑
谷歌浏览器驱动Chromedriver（114-120版本）文件以及驱动下载教程 pigerr杨 Python python chrome drivers
ChromeDriver官方网站GitHub||GoogleChromeLabs/chrome-for-testingChromeDriver113-125_JSONChromeforTestingavailability123-125zip白月黑羽Python基础|进阶|Qt图形界面|Django|自动化测试|性能测试|JS语言|JS前端|原理与安装
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
python转码 Desamond python 开发语言
转码在许多场景中都有应用，以下是一些常见的场景：网页开发：当用户在网页上输入文本时，可能需要将特殊字符（如空格、引号、特殊符号等）进行转码，以防止这些字符对URL或HTML代码产生干扰。文件名处理：在处理文件名时，可能需要将特殊字符进行转码，以避免文件名被错误地解析或显示。数据传输：在数据传输过程中，为了确保数据的完整性和正确性，可能需要将数据中的特殊字符进行转码。数据存储：在数据库或数据存储中，
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
27.Python从入门到精通—Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为以山河作礼。 #Python基础入门—详解版 python java 服务器
27.从入门到精通：Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理在Python中，异常处理是一种处理程序在执行期间可能遇到的错误的方法。当Python解释器遇到错误时，它会引发异常。异常是一种Python对象，它包含有关错误的信息，例如错误类型和错误位置。为了处理异常，您可以使用try-except语句。在
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
Python | Redis工具类 -拟墨画扇- Python redis 数据库缓存 python
一、需求自动连接Redis数据库，通过连接池处理数据对输出结果进行Log打印并保存到文件二、代码Utils.redisUtils.py#!/usr/bin/envpython#-*-coding:utf-8-*-importredisfromUtils.loggerimportlog"""Redis数据格式(1)字符串|存储形式:key-value:str-存储二进制数据:可以存储任意类型的数据，
Python dict字符串转json对象，小数精度丢失问题朝如青丝暮成雪 json python
一前言JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式，dict是Python的一种数据格式。本篇介绍一个float数据转换时精度丢失的案例。二问题描述importjsontest_str1='{"π":3.1415926535897932384626433832795028841971}'test_str2='{"value":10.00000}'print
Python+Requests模拟发送GET请求爱学习的执念自动化测试软件测试技术分享 python 开发语言
模拟发送GET请求前置条件：导入requests库一、发送不带参数的get请求代码如下：以百度首页为例importrequests#发送get请求response=requests.get(url="http://www.baidu.com")print(response.content.decode("utf-8"))#以utf-8的编码输出内容二、发送带参数的get请求发送带参数的get请求有
Python极速入门：五分钟开启实战之旅！知白守黑V Python 编程语言系统运维 python 编程语言 python开发 python学习 python入门 python数据分析
1.Python基础语法和结构：了解Python的基本语法，包括变量、数据类型、运算符、注释等。控制流：掌握条件语句（if-elif-else）、循环（for和while）及其控制（break和continue）。函数：学习如何定义和使用函数，包括参数传递、返回值、作用域和闭包。模块和包：理解如何导入和使用模块，以及如何创建和使用自己的包。2.数据处理列表、元组和集合：学习这些序列类型的操作和方法
Python Flask 使用数据库安果移不动 python flask 开发语言
pipinstallflask_sqlalchemy官方文档：Flask-SQLAlchemy—Flask-SQLAlchemyDocumentation(3.1.x)为了不报错也需要导入另外两个库#pipinstallflask_sqlalchemy#pipinstallmysqlclient完整代码importosfromflaskimportFlaskfromflask_sqlalchemy
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
PaperWeekly sapienst Papers PaperwithCode General ML
1.Python软件包解决DL在未见过的数据分布下性能差的问题：（1）神经网络和损失分离的模块化设计（2）强大便捷的基准测试能力（3）易于使用但难以修改（4）github:https://github.com/marrlab/domainlabTrainer和Models之间是什么关系Trainer和Models是DomainLab中的两个核心概念。Trainer是一个用于指导数据流向模型并计算S
使用Python读取Excel文件并计算平均分嘻嘻爱编码 Python从入门到放弃 python excel 开发语言
在这篇博客中，我们将探讨如何使用Python的pandas库来读取Excel文件，并计算其中数据的平均分。pandas是一个强大的数据分析工具，它允许我们以简单直观的方式处理表格数据。安装必要的库在开始之前，确保你的环境中安装了pandas和openpyxl库。可以使用以下命令进行安装：pipinstallpandasopenpyxl读取Excel文件首先，我们需要读取Excel文件。假设我们有一
python项目练习——7.网站访问日志分析器 F—— python项目练习 python 信息可视化数据分析数据挖掘开发语言学习
项目功能分析：这个项目可以读取网站的访问日志文件，统计访问量、独立访客数、访问来源等信息，并以图表或表格的形式展示出来。这个项目涉及到文件操作、数据处理、数据可视化等方面的技术。示例代码：importrefromcollectionsimportCounterimportmatplotlib.pyplotaspltdefparse_log_file(log_file):#读取日志文件内容witho
python的while双重循环九九乘法表 Jinm_R python 开发语言
a=1whilea<=9:b=1#乘数每次需要从1开始whileb<=a:print(f"{a}*{b}={a*b}\t",end='')#\t为制表符使乘法表整齐end=''代表用空格代替换行b+=1a+=1print()#乘数每加一换行
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
《外观模式（极简c++）》 Bovinitwo 设计模式（极简c++版）c++开发语言
本文章属于专栏-概述-《设计模式（极简c++版）》-CSDN博客模式说明方案：外观模式提供了一个统一的接口，简化了一组复杂子系统的访问方式。优点：将客户端与子系统解耦，降低了复杂性。提高了代码的灵活性和可维护性。缺点：可能导致外观类过于庞大，承担了过多的责任。增加了系统的抽象层，有时会影响性能。本质思想：外观模式的本质思想是为一组复杂的子系统提供一个简单的接口，隐藏其复杂性，使得客户端可以更轻松地
Python自动化测试web常见框架汇总自动化测试薰儿软件测试技术分享 python 前端开发语言
1、前言目前，有非常多的Python框架，用来帮助你更轻松的创建web应用。这些框架把相应的模块组织起来，使得构建应用的时候可以更快捷，也不用去关注一些细节（例如socket和协议），所以需要的都在框架里了。接下来我们会介绍不同的选项。经过初期的不起眼，Python已经成为互联网最流行的服务端编程语言之一。根据W3Techs的统计，它被用于很多的大流量的站点很多的大流量的站点很多的大流量的站点，超
python安装jupter在线ide 晚风拂柳颜生活小经验 python3 ide jupter
我在虚拟3.6.8的环境里面安装的，具体用了以下命令；pipinstallipython-ihttps://mirrors.aliyun.com/pypi/simple/pipinstalljupyter-ihttps://mirrors.aliyun.com/pypi/simple/jupyternotebook当然，jupter可以直接通过python环境里script目录下的jupyter-
opencv 十八 python下实现0缓存掉线重连的rtsp直播流播放器摸鱼的机器猫 opencv实战 opencv python 缓存
使用opencv打开rtsp视频流时，会因为网络问题导致VideoCapture掉线；也会因为图像的后处理阶段耗时过长导致opencv缓冲区数据堆积，从而使程序无法及时处理最新的数据。为此对cv2.VideoCapture进行封装，实现0缓存掉线重连的rtsp直播流播放器，让程序能一直处理最新的数据。代码实现fromcollectionsimportdequeimportthreadingimpo
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb