Ben_Fu

搜广推之特征工程：基本原理和前沿研究（2023）

前言

本文主要结合以往工作经验和前沿论文（截止2023年9月），来分析工业界和学术界中特征工程相关研究点，以及对未来发展的思考。详细报告内容请参考PPT文档：

GitHub - BinFuPKU/CTRRecommenderModels: I have surveyed the technology and papers of CTR & Recommender System, and implemented 25 common-used models with Pytorch for reusage. （对工业界学术界的CTR推荐调研并实现25个算法模型，2023）I have surveyed the technology and papers of CTR & Recommender System, and implemented 25 common-used models with Pytorch for reusage. （对工业界学术界的CTR推荐调研并实现25个算法模型，2023） - GitHub - BinFuPKU/CTRRecommenderModels: I have surveyed the technology and papers of CTR & Recommender System, and implemented 25 common-used models with Pytorch for reusage. （对工业界学术界的CTR推荐调研并实现25个算法模型，2023）https://github.com/BinFuPKU/CTRRecommenderModels

特征工程的意义和发展阶段：

数据和特征决定了效果的上限，算法和模型只是逼近这个上限的手段。
根据场景业务特点设计合理的特征和模型。
目前AutoFE处于初级探索阶段，不够有效，依然考验经验直觉和业务知识。

特征构建

现有搜广推的特征主要分为用户侧特征、物品侧特征和上下文特征：

用户侧:(用户画像)
- 基本属性: id、人口属性(如性别、年龄、学历、职业、位置等)和注册信息(手机品牌、注册时间等)、兴趣爱好、购买力、婚育、薪资、颜值。
- 社交特征: 好友、点赞、关注等。强关系和弱关系。U2U兴趣人群、同小区等。
- 行为特征: 各种行为历史，如曝光、点击、播放、点赞、反对等。显式反馈和隐式反馈。
  - 不同粒度时间窗口: 最近、过去1小时、过去1天、过去1周、过去1月、至今，考虑时间衰减。热度时效性等。
  - 正向/负向: 转发/点赞/踩/跳过等。
  - 统计: 次数/时长/金额/比率/单位价格/活跃情况。
  - 序列特征。
物品侧:(物品画像)
- 基本属性: 品牌、id、类目、标题、价格、产地、适用人群、评分、销量、商家信息、商圈等。
- 内容特征: 基于内容理解技术打上多级分类标签或关键词topic等。知识图谱等。
  - 文本:评论、签名等。通过Ngram/TFIDF/LDA/word2vec/fasttext等挖掘。
  - 图像:通过CNN将图片解析成向量。
- 反馈信息:
  - 点击量、点击率、购买量、CTR、CVR等;月比趋势等.
上下文特征:
- 地理位置(经纬度、城市、距离、IP等)、天气、社会事件、手机品牌、操作系统。
- 时间:季节、工作日、休息日、发薪日、早中晚等。
- 推荐场景特征: APP、浏览器主Feed推荐、相似推荐、当前刷次、翻页动作等;场景平均点击率转化率。搜索词query。
- 网络类型:wifi、4G、5G等。

特征预处理

特征缺失处理：
- 固定值填充: 均值/中位数/众数等。
- 模型预测值填充:xgboost可处理缺失值。
统计量特征数据平滑:
- 贝叶斯平滑:实验多次，随机事件接近其真实概率分布。如利用beta分布(,)建模点击率先验。 $Rate = \frac{C+\alpha }{I+\alpha +\beta }$
- 威尔逊平滑:样本多可信，样本少不可信需要修正。
- 消偏:冷热门类目、长短视频等。相当于提权降权作用。

类别特征处理

单值特征
多值特征：平均池化、最大池化、最小池化、加权池化(注意力融合，类似FiBiNET)。

稠密特征处理

不做离散化：
- Wide&Deep中作为Wide部分处理。
- 需要归一化/标准化/非线性变换（log/sqrt/square）/缩放等。
- 缺点：表达能力弱，无法实现与离散特征之间的交叉，数值敏感缺乏鲁棒性。

两阶段：离散化后嵌入表征学习
- 硬离散化（hard）：
  - 无监督分桶：等距、等频和log离散化floor(log⁡())。
  - 有监督分桶：树模型，如xgboost。
- 优点是方便后续进行特征交叉。
- 缺点：
  - 两阶段误差扩大；
  - 划分点附近相似特征被划分开；
  - 同一桶内左右边界点差异大。

端到端的离散化表征学习
- Key-Value Memory方法[1]：利用记忆网络实现一维到二维转换。

$v=\sum_{i=0}^{N-1}{w_i v_i}$

$w_i = softmax(\frac{1}{|q-k_i + \epsilon |})$

$k_i = \frac{2i+1}{2N}$

AutoDis[2]: 注意力 $\hat{x}_j$ +元嵌入 $ME_j \in \mathbb{R}^{H_j \times d}$

$\hat{x}_j = W_j h_j + \alpha h_j$

$e_j = softmax(\hat{x}_j) \cdot ME_j$

超参数：任意特征的分桶数和维度。

DEER[3]：中值平滑代替注意力，假设 $s_i - s_{i-1} \propto exp(w_i)$

$s_i = s_0 + \sum_{k=0}^{I}{\frac{exp(w_k)}{\sum_{l=1}^{n}{exp(w_l))}}(s_n - s_{0})}$

$f(x) = \frac{s_i - s_{k-1}}{s_k - s_{k-1}} \vec{e}_{s_{k-1}} + \frac{s_k - s_i}{s_k - s_{k-1}} \vec{e}_{s_{k}}$

NaryDis: 自监督对比学习正则项。相近的相似（连续性），远离的不相似（判别性）。
- 超参数：正则项系数∈[0.5,0.9]和编码空间大小∈[1,4]。

特征交叉

为什么需要特征交叉？
- 特征之间存在关联模式，DNN通过隐式方式难以学习到。如年龄、性别和兴趣偏好。
设计角度：
- 二阶和高阶。
- 显式和隐式：手工经验设计或自动交叉。

$\text{Explicit feature interaction:} f_{ij} = \vec{e}_i \otimes \vec{e}_j$

$\text{Implicit feature interaction:} f_{ij} = NN([\vec{e}_i; \vec{e}_j])$

- 线性和非线性。
- Bit-wise和field-wise。
交叉类型：
- 内积（Inner Product）：如 FM、FFM、AFM、DeepFM等。

- 外积（Outer Product ）：如PNN等。
- 哈马达乘积（Hadamard Product）

- 双线性交叉（Bilinear Interaction）

- 注意力机制: AutoInt。
自动特征交叉[5~8]：
- 组合优化问题：采用一些手段（NAS、强化学习、进化算法[8]等）来寻找最优组合。
- AutoFeature[5]：利用神经架构搜索（NAS）技术搜索合适的特征交叉。
  - 特征交叉视为一个子神经网络，利用朴素贝叶斯来学习这些网络有效或无效。
    平衡探索和利用。

高阶交叉
- 典型案例：DCN、xDeepFM等。
- AdnFM深度多层（≤3）交互[9]：
  - 加权池化输入特征。
  - 利用残差连接和注意力获取每层的交互特征，类似DenseNet。

交叉形式
- CAN（Co-Action Network）交叉[10]：
  - Target Item和用户行为序列进行多层次交叉。
  - 效果很好。

EDCN层次交叉[11]：多层反复交叉。

FINAL利用深层网络实现高阶交叉[12]。

特征选择

意义：
- 最大化相关、最小化冗余。
- 降低复杂性，避免过拟合，简化模型，提高泛化能力。
- 节省存储和计算时延。
方法：
- 过滤方法：
  - 无监督：方差、覆盖率
  - 有监督：互信息（类别类型之间）、皮尔逊相关系数（连续类型之间）、单特征AUC等
- 正则法：L2、L1和L0等。
- 封装法：有监督模型。
- 深度模型方法：
  - AdaFS [13]: 特征权重（注意力）的top-k个（超参数）。结果显示选择50%的特征其效果有竞争力。

- - LPFS平滑门控函数[14]: 训练过程中不断衰减，使其自适应学习，激活概率分布更加集中。

$g_{\epsilon}(x) = \frac{x^2}{x^2 + \epsilon} = \begin{cases} & =0 \text{ if } x= 0 \\ & \approx 1 \text{ if } x \neq 0 \end{cases}, \epsilon \text{ is a small positive number}$

类似的工作[15]。

- - AutoFSS [16]: 采用神经架构搜索（one-shot NAS）技术（强化学习）搜索合适的特征子集。

- - Catch [17]: 采用强化学习来搜索合适的特征子集。

特征服务架构

离线：
- 全量生成离线特征并存储，并用于模型训练。
  如采用Hive构建简单特征、Spark构建复杂逻辑的特征。
  模型训练框架采用Tensorflow/Pytorch等。
实时：
- 根据请求（时间窗口）实时生成特征。
- Redis线上存储KV特征。
- 使用消息队列收集数据，如kafka/Flink。
离线在线特征一致性：
- 避免数据穿越。
- 尽量使用同一套处理逻辑。
- 在线埋点存特征到日志处理后喂给离线模型。

公开数据集

淘宝用户购物行为数据集:
- https://tianchi.aliyun.com/dataset/649
- 用户ID；商品ID；商品类目ID；行为类型包括('pv', 'buy', 'cart', 'fav‘)；时间戳
Avazu：https://www.kaggle.com/competitions/avazu-ctr-prediction/data
- id: ad identifier；click: 0/1 for non-click/click； hour: format is YYMMDDHH, so 14091123 means 23:00 on Sept. 11, 2014 UTC；C1 -- anonymized categorical variable；banner_pos；site_id；site_domain；site_category；app_id；app_domain；app_category；device_id；device_ip；device_model；device_type；device_conn_type；C14-C21 -- anonymized categorical variables
Criteo: http://labs.criteo.com/2014/02/kaggle-display-advertising-challenge-dataset/
其他数据集：
- https://www.baltrunas.info/context-aware

未来研究探索方向

新的特征交叉算子。
自动搜索合适的特征交叉，自动特征工程。
和其他问题结合，如多任务多场景。
与语言大模型（LLM）结合，提高特征表达能力。
模型可解释性（如ID嵌入特征）

[1] Multi-modal Representation Learning for Short Video Understanding and Recommendation. ICME Workshops 2019.

[2] An Embedding Learning Framework for Numerical Features in CTR Prediction, KDD 2021.

[3] Dynamic Explicit Embedding Representation for Numerical Features in Deep CTR Prediction, CIKM 2022.

[4] Numerical Feature Representation with Hybrid -ary Encoding, CIKM 2022.

[5] AutoFeature: Searching for Feature Interactions and Their Architectures for Click-through Rate Prediction, CIKM 2020.

[6] Towards Automated Neural Interaction Discovery for Click-Through Rate Prediction, KDD 2020.

[7] AutoGroup: Automatic Feature Grouping for Modelling Explicit High-Order Feature Interactions in CTR Prediction, SIGIR 2020.

[8] Cognitive Evolutionary Search to Select Feature Interactions for Click-Through Rate Prediction, KDD 2023.

[9] AdnFM: An Attentive DenseNet based Factorization Machine for Click-Through-Rate Prediction, ICCDE 2022.

[10] CAN:Feature Co-Action Network for Click-Through Rate Prediction, WSDM 2022.

[11] Enhancing Explicit and Implicit Feature Interactions via Information Sharing for Parallel Deep CTR Models , DLP-KDD 2021.

[12] FINAL: Factorized Interaction Layer for CTR Prediction, SIGIR 2023.

[13] AdaFS: Adaptive Feature Selection in Deep Recommender System, KDD 2022.

[14] LPFS:Learnable Polarizing Feature Selection for Click-Through Rate Prediction, 2022.

[15] Optimizing Feature Set for Click-Through Rate Prediction, WWW 2023.

[16] Automatic Feature Selection By One-Shot Neural Architecture Search In Recommendation Systems, WWW 2023.

[17] Catch: Collaborative Feature Set Search for Automated Feature Engineering, WWW 2023.

你可能感兴趣的:(RS,人工智能)

unblock with ‘mysqladmin flush-hosts‘ 解决方法祈祷平安,加油数据库常见问题 oracle 数据库
MySqlHostisblockedbecauseofmanyconnectionerrors;unblockwith'mysqladminflush-hosts'解决方法环境：linux，mysql5.5.21错误：Hostisblockedbecauseofmanyconnectionerrors;unblockwith'mysqladminflush-hosts'原因：同一个ip在短时间内产
下载Android源码赛非斯
repoinit-uhttps://mirrors.tuna.tsinghua.edu.cn/git/AOSP/platform/manifest-bandroid-10.0.0_r411.首先下载repo：a）终端运行gitclonegit://codeaurora.org/tools/repo.gitb）mkdir~/binc）拷贝repo到~/bin下面，修改repo权限，chmoda+x~
1.计算机处理器架构+嵌入式处理器架构及知识 vv 啊 arm-linux学习 linux 系统架构
目录一：x86-64处理器架构二：Intel80386处理器（i386）1.i3862.i686三：嵌入式Linux知识：1.MinGW2.GNU计划2.1GNU工具链概述此次只分享英特尔和ADM处理器有关于x86的架构，至于嵌入式处理器架构请查看https://en.wikipedia.org/wiki/List_of_ARM_processors一：x86-64处理器架构x86-64，也称为x
C++学习笔记（lambda函数） __TAT__ C&C++c++学习笔记
C++learningnote1、lambda函数的语法2、lambda函数的几种用法1、lambda函数的语法lambda函数的一般语法如下：[capture_clause](parameters)->return_type{function_body}capture_clause：需要捕获的变量，但要求该变量必须在这个作用域中。通常的捕获方式有以下几种：[]：不捕获任何变量[&]：按引用捕获变
keras.optimizers优化器中文文档地上悬河 python 开发语言后端
优化器optimizers优化器是编译Keras模型必要的两个参数之一model=Sequential()model.add(Dense(64,init='uniform',input_dim=10))model.add(Activation('tanh'))model.add(Activation('softmax'))sgd=SGD(lr=0.01,decay=1e-6,momentum=0.
chrome扩展，“manifest_version“: 3, chrome 扩展图标点击事件徐同保 chrome 前端
在Chrome扩展中，从ManifestV3开始，后台脚本（backgroundscripts）被服务工作线程（serviceworkers）所取代。这改变了扩展图标点击事件（通常称为浏览器操作或者页面操作）的处理方式。在ManifestV3中，您需要使用chrome.action.onClicked监听器来处理扩展图标的点击事件。下面是一个如何设置扩展图标点击事件处理器的示例：在manifest
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
第一次用eclipse,导入项目错误Plug-in “org.eclipse.m2e.editor“ was unable to instantiate MavenPomEditor zhangfeng1133 eclipse java ide
第一次用eclipse,导入项目错误Plug-in"org.eclipse.m2e.editor"wasunabletoinstantiateMavenPomEditor。各种项目包，都不存在，maven应该能自动载入类包，比Php的composer方便太多Thecontainer'MavenDependencies'referencesnonexistinglibrary'C:\Users\Ad
max_element()和min_element()函数及用法介绍藕粉和藕片数据结构 c++
头文件：algorithminta[]={1,4,7,2,8,9,3,5};1.max_element（first,last）作用：返回数组区间[first，last）中最大元素的位置用法：intt=max_element(a,a+8)-a;//注意要减去a本身的地址cout<
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
VGG16滤镜可视化和类激活图 LIjin_1006 人工智能神经网络深度学习 cnn
这个用keras2.2.4+tensorflow1.15.0importkeraskeras.__version__fromkeras.applicationsimportVGG16fromkerasimportbackendasKimportnumpyasnpfromkerasimportmodelsimportmatplotlib.pyplotaspltimporttensorflowastf
C语言pthread互斥锁(mutex)和可重入锁(递归锁recursive)的演示嫦娥妹妹等等我开发语言 c语言
实验理论参考:1一旦共享资源被互斥锁锁定,则其余线程想访问共享资源必须等待，直到锁被释放2使用normal属性的互斥锁,一旦发生重入逻辑,则阻塞,成为死锁需要将属性改为recursive成为可重入的,递归的代码功能:1命令行传参1model=1演示异步未上锁之乱序演示count在数据竞态（RaceCondition）下的错误值2命令行传参2model=2演示使用互斥锁后线程的执行顺序演示count
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
.NET Core 将实体类转换为 SQL(ORM 映射) 你小子在看什么…… .NET .netcore sqlsugar postgresql
一、环境说明PostgreSQL数据库Npgsql数据库连接库SqlSugarORM框架二、映射流程1、创建数据库：检查指定数据库是否存在，如果不存在则创建数据库。2、初始化SqlSugar实例：使用SqlSugarClient初始化数据库连接配置。3、筛选实体类：根据指定的命名空间和排除条件筛选需要创建表的实体类。4、创建表：使用CodeFirst.InitTables方法创建数据库表。////
Nginx服务老伙子53 nginx 运维
Nginx服务一、什么是Nginx1、概念Nginx是一个高性能的开源的HTTP和反向代理服务器，以及邮件（IMAP/POP3）代理服务器。它最初由IgorSysoev创建，并于2004年首次公开发布。Nginx的主要特点包括高性能、低内存占用、高并发处理能力以及高度的可靠性。2、特点高性能Nginx被设计成高性能的服务器软件，能够处理大量并发连接和高流量的请求。它采用了事件驱动的架构，使用异步I
设置mysql 数据库和表的编码方式UTF-8 盖盖衍上中间件数据库 mysql oracle
要设置MySQL数据库表和字段的编码方式为UTF-8，可以使用下面的SQL语句：1.设置数据库默认编码为UTF-8：ALTERDATABASEyour_database_nameCHARACTERSETutf8mb4COLLATEutf8mb4_unicode_ci;2.创建表时指定编码为UTF-8：CREATETABLEyour_table_name(column1VARCHAR(100)CHA
python项目练习——7.网站访问日志分析器 F—— python项目练习 python 信息可视化数据分析数据挖掘开发语言学习
项目功能分析：这个项目可以读取网站的访问日志文件，统计访问量、独立访客数、访问来源等信息，并以图表或表格的形式展示出来。这个项目涉及到文件操作、数据处理、数据可视化等方面的技术。示例代码：importrefromcollectionsimportCounterimportmatplotlib.pyplotaspltdefparse_log_file(log_file):#读取日志文件内容witho
【Git安装及使用学习笔记】可可西里啊零零散散的学习笔记 git 学习笔记 c++qt5
Git学习笔记Git安装Git创建本地版本库以及提交文件使用Git提交代码到码云使用Git从码云拉取代码参考博客Git安装这里参考Git详细安装教程（详解Git安装过程的每一个步骤）Git创建本地版本库以及提交文件1.查看git版本信息：git--version2.设置对应用户名与邮箱地址gitconfig--globaluser.name"your_usernamegitconfig--glob
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
ChatGPT：AI合作伙伴助你成为论文写作高手 2401_83550420 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达摘要：本文将介绍ChatGPT3.5Turbo（以下简称ChatGPT），一款强大的AI合作伙伴，能够助你成为一名论文写作高手。我们将深入探讨ChatGPT的特点、优势，并提供多个示例，展示ChatGPT在论文写作中的应用。无论是开展研究、撰写论文、还是与ChatGPT进行互动交流，都能够帮助你提升写作效率和质量。引言：随着人工智能的发展，聊天型语言模型在各个领域都
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
2021-12-23 人文二班zxh
2021-2022第一学期复盘模版：1我的大学生活之大学英语学习1）在这个学期的大学英语学习中，我的GPS[Gains]Ilearnedalot.Ilearnedalotofinterestingstories[Problems]Donotunderstandsomewordsandsentences[Suggestions]TryhardertolearnEnglish2）在这个学期的复盘日志中
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
python安装jupter在线ide 晚风拂柳颜生活小经验 python3 ide jupter
我在虚拟3.6.8的环境里面安装的，具体用了以下命令；pipinstallipython-ihttps://mirrors.aliyun.com/pypi/simple/pipinstalljupyter-ihttps://mirrors.aliyun.com/pypi/simple/jupyternotebook当然，jupter可以直接通过python环境里script目录下的jupyter-
ChatGPT：智能论文写作指南，让您成为写作高手 AI臻蚌 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达写作是学术研究中不可或缺的一环，然而，对于许多人来说，写作往往是一项艰巨而费时的任务。但是，现在有了ChatGPT，您将能够以前所未有的速度和准确性编写高质量的论文。本文将向您介绍如何利用ChatGPT的强大功能成为写作高手，并为您提供一些示例，展示其在不同领域的应用。1.简介ChatGPT是一种基于人工智能的语言模型，它可以理解并生成人类语言。通过训练大量的语料库
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
部署es集群 liushaojiax elasticsearch java 大数据
我们会在单机上利用docker容器运行多个es实例来模拟es集群。不过生产环境推荐大家每一台服务节点仅部署一个es的实例。部署es集群可以直接使用docker-compose来完成，但这要求你的Linux虚拟机至少有4G的内存空间创建es集群首先编写一个docker-compose文件，内容如下：version:'2.2'services:es01:image:elasticsearch:7.12
PTE阅读考试比较难的句子该如何突破？气泡_2e06
PTE阅读是让很多小伙伴们头疼的一项，考完分数总是差2、3分。为什么PTE阅读比较难呢?如何提高自己的阅读分数呢?今天小编来教大家PTE比较难的句子该如何突破。Step1.找出下列句子的主语和谓语1)StudyingEnglishtakestimes.2)Thefirststepisalwaysthehardest.3)ChattingontheInternetbringsmealotoffun.
数字逻辑不可能涌现出智能 dog250 人工智能
先看一系列竖式乘法的步骤：相乘的两个数数位越大，步骤越多。如果不纠结数制，二进制运算也是这回事，把单个步骤用一个晶体管表达(其实一个步骤不止一个晶体管)，数位越大，所需的晶体管越多。先说结论，所有基于n进制的逻辑运算都不可扩展。硅基时序电路可如此巧妙完成精确计算，开启了数字化时代，人们试图将AI构建在这二进制世界。但若二进制运算不可扩展，基于数字逻辑的人工智能就不可能。前面提到过，二进制运算本质上
Elasticsearch8 - Docker安装Elasticsearch8.12.2 王谷雨_ ElasticSearch elasticsearch docker
前言最近在学习ES，所以需要在服务器上装一个单节点的ES服务器环境：centos7.9安装下载镜像目前最新版本是8.12.2dockerpulldocker.elastic.co/elasticsearch/elasticsearch:8.12.2创建配置新增配置文件elasticsearch.ymlhttp.host:0.0.0.0http.cors.enabled:truehttp.cors.
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他