pixelpilot

使用Python爬虫+代理IP批量获取招聘信息训练面试AI（手把手保姆级教程）

文章目录

- 前言：当爬虫遇上AI会擦出什么火花？
- 一、准备工作（这些坑我帮你踩过了！）
- - 1.1 工具全家福
  - 1.2 重要法律提示
- 二、代理IP配置实战（以亮数据为例）
- - 2.1 获取代理密钥
  - 2.2 Python代理配置
- 三、逆向分析招聘网站（以某直聘为例）
- - 3.1 抓包分析Ajax接口
  - 3.2 请求头伪装关键参数
- 四、完整爬虫代码实现
- 五、数据清洗与存储
- - 5.1 技能关键词提取
  - 5.2 数据存储
- 六、AI模型训练速览
- - 6.1 数据预处理
  - 6.2 岗位分类模型
- 七、防封策略大全（血泪经验！）
- 八、常见问题Q&A
- 九、总结与展望

前言：当爬虫遇上AI会擦出什么火花？

最近在做一个超有意思的实验项目——用真实招聘数据训练面试AI助手！结果发现市面上的公开数据集都太陈旧了（都是2020年前的），于是决定自己动手丰衣足食。但现实马上给我泼了盆冷水：连续爬了3个招聘网站后，IP直接被封了（哭）…这才意识到代理IP的重要性！

今天就把这个完整的踩坑经验分享给大家，手把手教你如何用Python爬虫+亮数据代理IP，安全高效地获取最新招聘数据。文末还会附赠AI模型训练的小技巧哦~（文中有5处隐藏踩坑预警，看到记得拿小本本记下来！）

一、准备工作（这些坑我帮你踩过了！）

1.1 工具全家福

Python 3.8+（推荐用Anaconda管理环境）
Requests库（HTTP请求神器）
BeautifulSoup4（HTML解析必备）
Pandas（数据处理大杀器）
亮数据代理服务（防封IP关键！）

（⚠️踩坑预警1：千万别用免费代理！我测试过15个免费代理池，平均可用率不到5%，爬10次被封9次！）

1.2 重要法律提示

在开始前务必检查目标网站的robots.txt文件！比如某联招聘的规则是：

User-agent: *
Disallow: /search

这意味着我们不能直接爬取搜索页数据。不过别慌！我们可以通过分析Ajax接口来合法获取数据（具体方法见第三章）。

二、代理IP配置实战（以亮数据为例）

2.1 获取代理密钥

注册亮数据账号后，在控制台找到"住宅代理"服务，复制你的认证信息：

用户名：your_username
密码：your_password
端口：22225

2.2 Python代理配置

import requests

proxies = {
    'http': 'http://USERNAME:PASSWORD@proxy.亮数据域名.com:22225',
    'https': 'http://USERNAME:PASSWORD@proxy.亮数据域名.com:22225'
}

response = requests.get('https://api.myip.com', proxies=proxies)
print(f"当前代理IP：{response.json()['ip']}")  # 验证IP是否生效

（小技巧：添加verify=False参数可跳过SSL验证，但生产环境慎用！）

三、逆向分析招聘网站（以某直聘为例）

3.1 抓包分析Ajax接口

使用Chrome开发者工具，我们发现真实数据接口：

GET https://www.xxx.com/jobs/list_ajax
Params:
   keyword: Python
   city: 北京
   page: 2

3.2 请求头伪装关键参数

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    'Referer': 'https://www.xxx.com/search',
    'X-Requested-With': 'XMLHttpRequest'  # 关键！标识Ajax请求
}

（⚠️踩坑预警2：缺少X-Requested-With头会被识别为爬虫！）

四、完整爬虫代码实现

def get_jobs(keyword, max_page=10):
    for page in range(1, max_page+1):
        params = {
            'keyword': keyword,
            'city': '全国',
            'page': page
        }
        
        try:
            response = requests.get(
                url='https://www.xxx.com/jobs/list_ajax',
                params=params,
                headers=headers,
                proxies=proxies,
                timeout=10
            )
            
            # 解析JSON数据
            data = response.json()
            for job in data['list']:
                yield {
                    'title': job['jobTitle'],
                    'company': job['companyName'],
                    'salary': job['salary'],
                    'skills': extract_skills(job['jobDesc'])  # 技能提取函数
                }
                
            time.sleep(random.uniform(1,3))  # 随机延时
        
        except Exception as e:
            print(f"第{page}页抓取失败：{str(e)}")

（⚠️踩坑预警3：一定要加随机延时！固定间隔会被识别！）

五、数据清洗与存储

5.1 技能关键词提取

import jieba.analyse

def extract_skills(desc):
    tags = jieba.analyse.extract_tags(desc, topK=10, withWeight=False)
    return [tag for tag in tags if tag in SKILL_DICT]  # SKILL_DICT预定义的技能词库

5.2 数据存储

import pandas as pd

df = pd.DataFrame(jobs_data)
df.to_csv('jobs.csv', index=False, encoding='utf_8_sig')  # 中文编码

六、AI模型训练速览

6.1 数据预处理

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(max_features=500)
X = tfidf.fit_transform(df['skills'].apply(' '.join))

6.2 岗位分类模型

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
model.fit(X, df['job_type'])  # 提前标注的岗位类型

（进阶方案：用BERT模型做语义理解，准确率提升30%+！）

七、防封策略大全（血泪经验！）

IP轮换策略：每次请求更换不同IP（亮数据自动实现）
请求指纹伪装：随机切换User-Agent和Cookie
行为模拟：随机滚动页面、点击等操作（可用Selenium实现）
验证码破解：不建议自研，推荐使用第三方打码平台
分布式爬取：使用Scrapy-Redis搭建集群

（⚠️踩坑预警4：某联招聘的Cookie有效期为30分钟！）

八、常见问题Q&A

Q：爬到的数据怎么保证质量？
A：建议设置三级校验：

格式校验（薪资字段正则匹配）
业务校验（薪资下限<上限）
人工抽检（每天随机抽检5%）

Q：数据量很大时怎么处理？
A：上MongoDB分片集群！百万级数据查询速度提升10倍不止！

九、总结与展望

通过这个项目，我深刻体会到：

代理IP不是万能药，必须配合反反爬策略使用
数据质量 > 数据数量，清洗环节最耗时
AI模型效果80%取决于数据质量

未来想尝试：

用知识图谱构建岗位技能关系网
开发实时薪资预测系统
结合大语言模型打造智能面试助手

（私藏资源：在GitHub搜"awesome-job-spider"发现宝藏仓库！）

最后的小贴士：本文所有代码已通过测试，但网站接口可能随时变更。如果遇到问题，记得检查以下三点：

代理IP是否生效
请求头是否完整
参数格式是否变化

欢迎在评论区交流你的实战心得！下期预告：《用强化学习打造自动调参爬虫系统》敬请期待~

你可能感兴趣的:(python,爬虫,tcp/ip,其他)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
centos7出现 bash: ip: command not found 微信圈 centos
centos7出现bash:ip:commandnotfoundyum-yinstallinitscripts
什么是缓存雪崩？缓存击穿？缓存穿透？分别如何解决？什么是缓存预热？ daixin8848 缓存 redis java 开发语言
缓存雪崩：在一个时间段内，有大量的key过期，或者Redis服务宕机，导致大量的请求到达数据库,带来巨大压力-给key设置不同的TTL、利用Redis集群提高服务的高可用性、添加多级缓存、添加降级流策略缓存击穿：给某一个key设置了过期时间，当key过期的时间，恰好这个时间点有大量的并发请求访问这个key，可能会瞬间把数据库压垮-互斥锁：缓存失败时，只允许一个请求去加载数据并更新缓存，其他请求阻塞
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
CentOS容器没有ip addr命令 BLZxiaopang centos tcp/ip linux docker
centos容器没有ip命令[root@Centos/]#ipadd-bash:ip:commandnotfound[root@Centos/]#yum-yinstallinitscripts
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
5G-RAN与语义通信RAN 一去不复返的通信er 智简网络&语义通信 5G 人工智能语义通信
1️⃣RAN协议栈与TCP/IP五层协议栈的对应关系a.物理层（TCP/IP）↔PHY（RAN）对应关系：5GNRRAN的物理层直接对应TCP/IP的物理层。功能对比：TCP/IP物理层：负责比特流的物理传输，如通过电缆、光纤或无线介质传输信号。RAN物理层：处理无线信号的调制、编码、信道估计和传输（如OFDM、LDPC编码）。在5GNR中，物理层负责将数据映射到无线信道（如PDSCH、PUSCH
云集怎么赚钱？云集APP分享购物赚钱攻略古楼
云集app怎么赚钱?云集app作为是一个全面的电商导购平台,提供诸如淘宝、京东、拼多多等各大平台的优惠券,其他同类型的导购平台相比,更加的全面,线上线下全面出击。如果你想通过云集赚钱,那你可以把这款APP推荐给淘宝(10亿用户)、拼多多(3亿用户)、京东(1亿用户)使用,那你能赚到他们购物返佣,也可以自己购物领优惠券能省不少钱,以后还有更多的商家与粉象合作,这么免费的App人人都需要,很好推广。至
02-Breakout靶机攻略 ZLlllllll0 02-Breakout靶机
第一步搭建靶机下载地址：https://download.vulnhub.com/empire/02-Breakout.zip下载好了之后直接用VM打开然后右击虚拟机，把网络连接改成nat模式第二步，信息收集然后开启虚拟机，左上角编辑，虚拟网络编辑器里面看一下靶机是哪个网段。打开kali用nmap扫一下的这个网段的存活主机，也就是扫除这个靶机的具体ip地址nmap192.168.109.1/24扫
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
中原焦点团队坚持原创分享第 1172天金JJ
信阳案例督导：在学生出现危机时，学校启动心理应急程序，一位心理老师安抚个案的同时，其他心理老师给班级同学进行团体心理辅导，学校方面马上通知家长前来学校。学校危机干预应急流程的成熟，能有效降低个案的自杀风险。个案不愿谈及家庭及自己自杀行为等问题时，用沙盘、玩具等分散注意力，谈论他感兴趣的话题，老师温和的态度，关切的言语，个案的情绪逐渐平复。从个案自己说的，流露的非言语，家长、老师、同学、以往的记录，
《家庭教育促进法》解读（14）落到实处方是真愿我们顺利平安
点击上方蓝字，关注我们吧！坚持写作第七十七天今天继续为大家解读和普及我国首部家庭类法律——《家庭教育促进法》的第四章“社会协同”。这一章是上一章“国家支持”的落脚点。第三十八条居民委员会、村民委员会可以依托城乡社区公共服务设施，设立社区家长学校等家庭教育指导服务站点，配合家庭教育指导机构组织面向居民、村民的家庭教育知识宣传，为未成年人的父母或者其他监护人提供家庭教育指导服务。个人认为这一点非常必要
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
小确幸5.23 聪聪和茵茵
图片发自App经常有好友问我，你是怎么教育孩子的？尽管我没仔细去思考这个问题，不过我还是知无不言，言无不尽的。每个孩子都是独特的，大概只有父母最为了解自己的孩子，所以其他人的做法不一定适合你的孩子，还是自己多用心去感受和体会这其中的酸甜苦辣吧。我想大概出于对孩子打出内心深处的爱，有时难免急燥粗暴地解决问题，但过后会反思，意识到自己的错误，会认真的和孩子交谈，并道歉。我是第一次当妈妈，你们是第一次当
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
父母别做“包工头”，让孩子做“小主人” 静云妈妈
文/静云妈妈很多父母，特别是爷爷奶奶外公外婆，俨然一个“包工头”，比如帮孩子穿衣、帮孩子喂饭、帮孩子洗漱、帮孩子处理与其他小朋友发生的冲突等等。这对孩子并不好，其实只是我们打着“爱孩子”的名义，剥夺了孩子自我发展的权利。像教孩子走路一样不会有哪位家长打算抱一个正常的孩子一辈子，我们总是在孩子适合的年龄想各种办法辅助孩子自己行走，最终孩子由摇摇摆摆到走得十分平顺，甚至跑步前进。面对孩子所有的事情，家
Selenium基础教程 lemontree1945 selenium python 测试工具
1.Selenium环境安装1.1浏览器安装Chrome和ChromeDriver下载地址:https://googlechromelabs.github.io/chrome-for-testing/注意：驱动版本号要和浏览器版本号一致；安装后关闭浏览器自动更新:services.msc:打开系统服务找到和google相关的服务，全部修改为禁用1.2安装第三方库seleniumpipinstall
著作权登记申请流程知识产权宗师猫
著作权也就是版权登记一般经过下列程序：一、作品登记应提交的材料：1、作品登记申请书（由作品登记机关提供标准格式）；2、作者或其他著作权人的身份证明文件：作者身份证明（复印件，须作者签名）；法人或非法人单位的工商注册登记证明或其他相关证明文件（复印件）；继承人身份证明文件（复印件）；委托作品的委托合同（复印件）；合作作者的合作协议或合同及各合作作者的身份证明（复印件）。3、作品著作权归属证明文件：作
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用代码生成艺术字：设计个性化海报的秘密
本文围绕“用代码生成艺术字：设计个性化海报的秘密”展开，先概述代码生成艺术字在海报设计中的独特价值，接着介绍常用的代码工具（如HTML、CSS、JavaScript等），详细阐述从构思到实现的完整流程，包括字体样式设计、动态效果添加等，还分享了提升艺术字质感的技巧及实际案例。最后总结代码生成艺术字的优势，为设计师提供打造个性化海报的实用指南，助力提升海报设计的独特性与吸引力，符合搜索引擎SEO标准
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
19.0-《超越感觉》-说服他人 SAM52
Becausethoughtfuljudgmentsdeservetobeshared,andthewaytheyarepresentedcanstronglyinfluencethewayothersreacttothem.因为经过深思熟虑的判断值得分享，而这些判断的呈现方式会强烈影响其他人对它们的反应。Bylearningtheprinciplesofpersuasionandapplying
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他