o不ok!

二手房数据可分析-python

1、jupyter lab或jupyter notebook环境下

项目名称：二手房屋数据可视化

一、导包

In [51]:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
##忽略警告
import warnings
warnings.filterwarnings('ignore')
plt.rcParams['font.family'] = ['SimHei']   #设置字体为黑体
plt.rcParams['axes.unicode_minus'] = False #解决保存图像时负号“-”显示为方块的问题

In [52]:

%config InlineBackend.figure_format = 'svg'

二、读取数据

In [53]:

house=pd.read_csv('E:/新建文件夹/实训/项目/二手房数据.csv',encoding='gbk')
house

Out[53]:

	市区	小区	户型	朝向	楼层	装修情况	电梯	面积(㎡)	价格(万元)	年份
0	朝阳	育慧里一区	1室0厅	西	7	精装	有电梯	52.0	343.0	2001
1	朝阳	大西洋新城A区	2室2厅	南北	10	精装	有电梯	86.0	835.0	1999
2	朝阳	团结湖路	2室1厅	东西	6	精装	无电梯	65.0	430.0	1980
3	朝阳	尚家楼48号院	2室1厅	南北	12	精装	有电梯	75.0	610.0	1998
4	朝阳	望京西园一区	3室2厅	南北	6	精装	无电梯	115.0	710.0	1997
...	...	...	...	...	...	...	...	...	...	...
23672	西城	真武庙六里	2室1厅	南北	18	精装	有电梯	78.0	888.0	1988
23673	西城	右安门内大街	1室1厅	西北	7	其他	无电梯	45.0	405.0	1991
23674	西城	玉桃园二区	2室1厅	南北	6	简装	无电梯	60.0	650.0	1997
23675	西城	红莲南里	2室1厅	南北	7	精装	无电梯	61.0	470.0	1992
23676	西城	白广路6号院	3室0厅	南	6	简装	NaN	84.0	635.0	1955

23677 rows × 10 columns

一、数据清洗和预处理

In [54]:

###查看是否有空缺值
house.info()##可以看出只有电梯那一列有空缺值


RangeIndex: 23677 entries, 0 to 23676
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   市区      23677 non-null  object 
 1   小区      23677 non-null  object 
 2   户型      23677 non-null  object 
 3   朝向      23677 non-null  object 
 4   楼层      23677 non-null  int64  
 5   装修情况    23677 non-null  object 
 6   电梯      15420 non-null  object 
 7   面积(㎡)   23677 non-null  float64
 8   价格(万元)  23677 non-null  float64
 9   年份      23677 non-null  int64  
dtypes: float64(2), int64(2), object(6)
memory usage: 1.8+ MB

In [55]:

house['电梯'].fillna('未知', inplace=True)###填充数据

In [56]:

###去除电梯那一列，在原来数据的基础上进行删除
# house.drop(labels='电梯',axis=1,inplace=True)
# house##查看数据

In [56]:

###再次进行查看是否有空缺值
house.info()###确认数据没有空缺值


RangeIndex: 23677 entries, 0 to 23676
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   市区      23677 non-null  object 
 1   小区      23677 non-null  object 
 2   户型      23677 non-null  object 
 3   朝向      23677 non-null  object 
 4   楼层      23677 non-null  int64  
 5   装修情况    23677 non-null  object 
 6   电梯      23677 non-null  object 
 7   面积(㎡)   23677 non-null  float64
 8   价格(万元)  23677 non-null  float64
 9   年份      23677 non-null  int64  
dtypes: float64(2), int64(2), object(6)
memory usage: 1.8+ MB

In [57]:

house.isnull().any()##可以看到每一列都没有空缺值

Out[57]:

市区        False
小区        False
户型        False
朝向        False
楼层        False
装修情况      False
电梯        False
面积(㎡)     False
价格(万元)    False
年份        False
dtype: bool

四、利用pyecharts画图

In [58]:

from pyecharts.globals import CurrentConfig, NotebookType

CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_LAB

In [59]:

import pandas as pd
from pyecharts.charts import Map
from pyecharts.charts import Bar
from pyecharts.charts import Line
from pyecharts.charts import Grid
from pyecharts.charts import Pie
from pyecharts.charts import Scatter
from pyecharts import options as opts

(1)统计各城区二手房数量

In [60]:

g = house.groupby('市区')
df_region = g.count()['小区']
region = df_region.index.tolist()
count = df_region.values.tolist()
df_region

Out[60]:

市区
东城     1533
丰台     2952
大兴     2115
密云       12
平谷       41
延庆      469
怀柔       15
房山     1442
昌平     2811
朝阳     2973
海淀     2983
石景山     882
西城     2130
通州     1602
门头沟     496
顺义     1221
Name: 小区, dtype: int64

In [104]:

g = house.groupby('市区')
df_region = g.count()['小区']
region = df_region.index.tolist()
count = df_region.values.tolist()
new = [x + '区' for x in region]
m = (
        Map()
        .add('', [list(z) for z in zip(new, count)], '北京')
        .set_global_opts(
            title_opts=opts.TitleOpts(title='北京市二手房各区分布',is_show=True),
            visualmap_opts=opts.VisualMapOpts(max_=3000,is_show=True),
        )
    )
m.render('北京市二手房各区分布.html')

Out[104]:

'E:\\新建文件夹\\实训\\北京市二手房各区分布.html'

(2)各城区二手房数量-平均价格柱状图

In [62]:

house_price=house.groupby('市区')['价格(万元)'].mean()
house_price

Out[62]:

市区
东城     851.425245
丰台     525.103591
大兴     460.469693
密云     425.333333
平谷     308.658537
延庆     549.876333
怀柔     785.200000
房山     360.611859
昌平     469.230345
朝阳     757.320148
海淀     827.740194
石景山    468.926757
西城     828.909202
通州     455.107553
门头沟    388.054032
顺义     558.339885
Name: 价格(万元), dtype: float64

In [63]:

price=[round(x,2) for x in house_price.values.tolist()]
price

Out[63]:

[851.43,
 525.1,
 460.47,
 425.33,
 308.66,
 549.88,
 785.2,
 360.61,
 469.23,
 757.32,
 827.74,
 468.93,
 828.91,
 455.11,
 388.05,
 558.34]

In [64]:

# 各城区二手房数量-平均价格柱状图
bar = (
    Bar()
    .add_xaxis(region)
    .add_yaxis('数量', count,
              label_opts=opts.LabelOpts(is_show=True))
    .extend_axis(
        yaxis=opts.AxisOpts(
            name="价格（万元）",
            type_="value",
            min_=200,
            max_=900,
            interval=100,
            axislabel_opts=opts.LabelOpts(formatter="{value}"),
        )
    )
    .set_global_opts(
        tooltip_opts=opts.TooltipOpts(
            is_show=True, trigger="axis", axis_pointer_type="cross"
        ),
        xaxis_opts=opts.AxisOpts(
            type_="category",
            axispointer_opts=opts.AxisPointerOpts(is_show=True, type_="shadow"),
        ),
        yaxis_opts=opts.AxisOpts(name='数量',
            axistick_opts=opts.AxisTickOpts(is_show=True),
            splitline_opts=opts.SplitLineOpts(is_show=False),)
    )
)
line2 = (
    Line()
    .add_xaxis(xaxis_data=region)
    .add_yaxis( 
        series_name="价格",
        yaxis_index=1,
        y_axis=price,
        label_opts=opts.LabelOpts(is_show=True),
        z=10)
)
bar.overlap(line2)
bar.load_javascript()

Out[64]:

In [77]:

bar.render_notebook()

Out[77]:

均价分析

(3)二手房价格最高的Top

In [78]:

####二手房价格最高的Top20
top_price=house.sort_values(by='价格(万元)',ascending=False)[:15]
top_price

Out[78]:

	市区	小区	户型	朝向	楼层	装修情况	电梯	面积(㎡)	价格(万元)	年份
20390	西城	朱雀门	4室2厅	东南	5	其他	有电梯	376.0	6000.0	2008
22228	东城	贡院六号	5室2厅	南北	23	精装	有电梯	459.0	5500.0	2002
22907	东城	NAGA上院	6室2厅	东南	12	精装	有电梯	608.0	5000.0	2008
3219	顺义	丽宫	5室2厅	南北	3	精装	未知	685.0	5000.0	2007
22982	东城	当代MOMA	5室2厅	东南	7	精装	未知	384.0	4988.0	2006
20202	西城	耕天下	5室3厅	南北	7	其他	有电梯	330.0	4650.0	2003
6191	昌平	碧水庄园	5室3厅	南北	2	精装	未知	571.0	4600.0	2005
2391	顺义	丽嘉花园	4室2厅	东南	2	其他	未知	548.0	4500.0	2007
17285	朝阳	首府官邸	叠拼别墅	南北	5	精装	未知	523.4	4500.0	2007
15327	海淀	紫御府	4室2厅	南北	12	精装	有电梯	374.0	4368.0	2008
23240	东城	长安太和	4室1厅	东	24	精装	有电梯	314.0	4350.0	2012
21012	西城	西派国际公寓	5室2厅	东南	17	精装	未知	355.0	4270.0	2009
20240	西城	金融世家	4室2厅	西北	15	精装	有电梯	300.0	4250.0	2008
14531	海淀	西山壹号院	4室3厅	东南	6	毛坯	有电梯	561.0	4150.0	2011
21760	西城	丽豪园	4室2厅	西南	6	精装	有电梯	289.0	4055.0	1999

In [79]:

area=top_price['小区'].values.tolist()
count=top_price['价格(万元)'].values.tolist()
bar_1=(
    Bar()
    .add_xaxis(area)
    .add_yaxis('数量',count,category_gap='50%')
    .set_global_opts(
        yaxis_opts=opts.AxisOpts(name='价格(万元)'),
        xaxis_opts=opts.AxisOpts(name='数量'),
    )
)
bar_1.load_javascript()

Out[79]:

In [80]:

bar_1.render_notebook()

Out[80]:

In [82]:

####二手房价格最高的Top7
top_price=house.sort_values(by='价格(万元)',ascending=False)[:7]
top_price

Out[82]:

	市区	小区	户型	朝向	楼层	装修情况	电梯	面积(㎡)	价格(万元)	年份
20390	西城	朱雀门	4室2厅	东南	5	其他	有电梯	376.0	6000.0	2008
22228	东城	贡院六号	5室2厅	南北	23	精装	有电梯	459.0	5500.0	2002
22907	东城	NAGA上院	6室2厅	东南	12	精装	有电梯	608.0	5000.0	2008
3219	顺义	丽宫	5室2厅	南北	3	精装	未知	685.0	5000.0	2007
22982	东城	当代MOMA	5室2厅	东南	7	精装	未知	384.0	4988.0	2006
20202	西城	耕天下	5室3厅	南北	7	其他	有电梯	330.0	4650.0	2003
6191	昌平	碧水庄园	5室3厅	南北	2	精装	未知	571.0	4600.0	2005

In [83]:

area=top_price['小区'].values.tolist()
count=top_price['价格(万元)'].values.tolist()
bar_2=(
    Bar()
    .add_xaxis(area)
    .add_yaxis('数量',count,category_gap='50%')
    .set_global_opts(
        yaxis_opts=opts.AxisOpts(name='价格(万元)'),
        xaxis_opts=opts.AxisOpts(name='数量'),
    )
)
bar_2.load_javascript()

Out[83]:

In [84]:

bar_2.render_notebook()

Out[84]:

(4)装修情况/有无电梯玫瑰图

In [85]:

house_fitment=house.groupby('装修情况')['小区'].count()
house_fitment

Out[85]:

装修情况
其他     3239
毛坯      583
简装     8499
精装    11356
Name: 小区, dtype: int64

In [86]:

house_direction=house.groupby('电梯')['小区'].count()
house_direction

Out[86]:

电梯
无电梯    6078
有电梯    9342
未知     8257
Name: 小区, dtype: int64

In [87]:

house_fitment

Out[87]:

装修情况
其他     3239
毛坯      583
简装     8499
精装    11356
Name: 小区, dtype: int64

In [88]:

fitment=house_fitment.index.tolist()
count1=house_fitment.values.tolist()
directions=house_direction.index.tolist()
count2=house_direction.values.tolist()
bar = (
    Bar()
    .add_xaxis(fitment)
    .add_yaxis('', count1, category_gap = '50%')
    .reversal_axis()
    .set_series_opts(label_opts=opts.LabelOpts(position='right'))
    .set_global_opts(
        yaxis_opts=opts.AxisOpts(name='装修情况'),
        xaxis_opts=opts.AxisOpts(name='数量'),
        title_opts=opts.TitleOpts(title='装修情况/有无电梯玫瑰图（组合图）',pos_left='33%',pos_top="5%"),
        legend_opts=opts.LegendOpts(type_="scroll", pos_left="90%",pos_top="58%",orient="vertical")
    )
)

c2 = (
    Pie(init_opts=opts.InitOpts(
            width='800px', height='600px',
            )
       )
        .add(
        '',
        [list(z) for z in zip(directions, count2)],
        radius=['10%', '30%'],
        center=['75%', '65%'],
        rosetype="radius",
        label_opts=opts.LabelOpts(is_show=True),
        )
        .set_global_opts(title_opts=opts.TitleOpts(title='有/无电梯',pos_left='33%',pos_top="5%"),
                        legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%",pos_top="25%",orient="vertical")
                        )
        .set_series_opts(label_opts=opts.LabelOpts(formatter='{b}:{c} \n ({d}%)'),position="outside")
    )
bar.overlap(c2)
bar.load_javascript()

Out[88]:

In [89]:

bar.render_notebook()

Out[89]:

In [90]:

df=house.groupby('装修情况')[['价格(万元)']].sum()
data1=df['价格(万元)'].values.tolist()

In [91]:

import pyecharts.options as opts
from pyecharts.charts import Grid, Boxplot, Scatter
x_data = fitment
y_data1= data1
s= Scatter()
# 添加横轴的数据
s.add_xaxis(xaxis_data=x_data)
# 添加纵轴的数据
s.add_yaxis(
    series_name='',
    y_axis=y_data1,
    label_opts=opts.LabelOpts(is_show=False),
)
s.set_global_opts(
        title_opts=opts.TitleOpts(title='装修与价格的散点图'),
        yaxis_opts=opts.AxisOpts(name='价格'),
        xaxis_opts=opts.AxisOpts(name='装修情况'),
    )
s.load_javascript()

Out[91]:

In [92]:

s.render_notebook()

Out[92]:

In [93]:

import pyecharts.options as opts
from pyecharts.charts import Grid, Boxplot, Scatter
df1=house.groupby('装修情况')[['面积(㎡)']].sum()
data2=df1['面积(㎡)'].values.tolist()
x_data = fitment
y_data2= data2
line=Line()
line.add_xaxis(xaxis_data=x_data)
line.add_yaxis(
    series_name='',
    y_axis=y_data2,
    label_opts=opts.LabelOpts(is_show=False),
)
line.set_global_opts(
        title_opts=opts.TitleOpts(title='装修与价格的折线图'),
        yaxis_opts=opts.AxisOpts(name='面积'),
        xaxis_opts=opts.AxisOpts(name='装修情况'),
    )
line.load_javascript()

Out[93]:

In [94]:

line.render_notebook()

Out[94]:

(5)二手房总价与面积散点图

In [95]:

s = (
    Scatter()
    .add_xaxis(house['面积(㎡)'].values.tolist())
    .add_yaxis('',house['价格(万元)'].values.tolist())
    .set_global_opts(xaxis_opts=opts.AxisOpts(name='面积(㎡)',type_='value'),
                    yaxis_opts=opts.AxisOpts(name='价格(万元)'),)
)
s.load_javascript()

Out[95]:

In [96]:

s.render_notebook()

Out[96]:

(6)二手房楼层分布柱状图

In [97]:

g1 =house.groupby('楼层')
house_floor = g1.count()['小区']
house_floor

Out[97]:

楼层
1        6
2       94
3      201
4      465
5     1070
6     7658
7      821
8      321
9      670
10     406
11     790
12     702
13     405
14     745
15     787
16    1033
17     373
18    1553
19     347
20     638
21     644
22     577
23     253
24     858
25     357
26     456
27     402
28     505
29     167
30     126
31      64
32      99
33      33
34      21
35      17
36       8
40       3
42       1
57       1
Name: 小区, dtype: int64

In [98]:

floor =house_floor.index.tolist()
count = house_floor.values.tolist()
bar = (
    Bar()
    .add_xaxis(floor)
    .add_yaxis('数量', count)
    .set_global_opts(
        title_opts=opts.TitleOpts(title='二手房楼层分布柱状缩放图'),
        yaxis_opts=opts.AxisOpts(name='数量'),
        xaxis_opts=opts.AxisOpts(name='楼层'),
        datazoom_opts=opts.DataZoomOpts(type_='slider')
    )
)
bar.load_javascript()

Out[98]:

In [99]:

bar.render_notebook()

Out[99]:

(7)房屋面积分布柱状图

In [100]:

area_level = [0, 50, 100, 150, 200, 250, 300, 350, 400, 1500]    
label_level = ['小于50', '50-100', '100-150', '150-200', '200-250', '250-300', '300-350', '350-400', '大于400']    
jzmj_cut = pd.cut(house['面积(㎡)'], area_level, labels=label_level)        
df_area = jzmj_cut.value_counts()
df_area

Out[100]:

50-100     13653
100-150     5809
150-200     1677
小于50        1562
200-250      545
250-300      226
300-350       94
大于400         56
350-400       55
Name: 面积(㎡), dtype: int64

In [101]:

area = df_area.index.tolist()
count = df_area.values.tolist()

bar = (
    Bar()
    .add_xaxis(area)
    .add_yaxis('数量', count)
    .reversal_axis()
    .set_series_opts(label_opts=opts.LabelOpts(position="right"))
    .set_global_opts(
        title_opts=opts.TitleOpts(title='房屋面积分布纵向柱状图'),
        yaxis_opts=opts.AxisOpts(name='面积(㎡)'),
        xaxis_opts=opts.AxisOpts(name='数量'),
    )
)
bar.load_javascript()

Out[101]:

In [102]:

bar.render_notebook()

Out[102]:

模型评价

根据面积和价格预测所要预测数据属于哪种装修情况

In [88]:

X=house[['面积(㎡)', '价格(万元)']]
from sklearn.neighbors import KNeighborsClassifier
y=house[['装修情况']]
knn=KNeighborsClassifier(n_neighbors=5)
knn.fit(X,y)##训练数据
x_test=pd.DataFrame({'面积(㎡)':[55,67,89,34],'价格(万元)':[788.8,789,2343,88]})###预测数据
x_test

Out[88]:

	面积(㎡)	价格(万元)
0	55	788.8
1	67	789.0
2	89	2343.0
3	34	88.0

In [89]:

knn.predict(x_test)###预测结果

Out[89]:

array(['简装', '简装', '精装', '其他'], dtype=object)

In [90]:

house.columns

Out[90]:

Index(['市区', '小区', '户型', '朝向', '楼层', '装修情况', '电梯', '面积(㎡)', '价格(万元)', '年份'], dtype='object')

数据的分类转换

In [106]:

house.rename(columns={'市区':'region','小区':'disrict','户型':'room','朝向':'direction','楼层':'floor',
                      '装修情况':'renovation','电梯':'elevator','面积(㎡)':'area','价格(万元)':'price','年份':'year'},inplace=True)
house_data=house[['region', 'disrict', 'room', 'direction', 'renovation','elevator', 'area', 'year', 'floor']]
#对region进行转换
squ=house_data['region'].unique()
m={}
for i,work in enumerate(region):
    m[work]=i
    
#进行转换
house_data['region']=house['region'].map(m)
for col in house_data.columns[1:6]:
    print(col)

disrict
room
direction
renovation
elevator

In [107]:

####批量转换
for col in house_data.columns[1:6]:
    u=house_data[col].unique()
    def convert(x):
        return np.argwhere(u==x)[0,0]
    house_data[col]=house_data[col].map(convert)

In [108]:

house_data.head()

Out[108]:

	region	disrict	room	direction	elevator	area	year	floor
0	9	0	0	0	0	52.0	2001	7
1	9	1	1	1	0	86.0	1999	10
2	9	2	2	2	1	65.0	1980	6
3	9	3	2	1	0	75.0	1998	12
4	9	4	3	1	1	115.0	1997	6

In [109]:

house1=house[['region','elevator','area','price']]
####批量转换
for col in house1.columns[0:2]:
    u=house1[col].unique()
    def convert(x):
        return np.argwhere(u==x)[0,0]
    house1[col]=house1[col].map(convert)

In [110]:

house1

Out[110]:

	region	elevator	area	price
0	0	0	52.0	343.0
1	0	0	86.0	835.0
2	0	1	65.0	430.0
3	0	0	75.0	610.0
4	0	1	115.0	710.0
...	...	...	...	...
23672	14	0	78.0	888.0
23673	14	1	45.0	405.0
23674	14	1	60.0	650.0
23675	14	1	61.0	470.0
23676	14	2	84.0	635.0

23677 rows × 4 columns

knn模型调参

总体效果来看，n_neighbors=5时要好一点

In [133]:

from sklearn.model_selection import train_test_split
X=house1####数据
y=house1['price']###y===>目标
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2)
knn=KNeighborsClassifier(n_neighbors=3,weights="distance")
knn.fit(x_train,y_train.astype("int"))
y_=knn.predict(x_test)
result=y_==y_test
result.mean()

Out[133]:

0.7430320945945946

In [148]:

X=house1####数据
y=house1['price']###y===>目标
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2)
knn=KNeighborsClassifier(n_neighbors=5,weights="distance")
knn.fit(x_train,y_train.astype("int"))
y_=knn.predict(x_test)
result=y_==y_test
result.mean()

Out[148]:

0.7440878378378378

In [187]:

x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2)
knn=KNeighborsClassifier(n_neighbors=7,weights="distance")
knn.fit(x_train,y_train.astype("int"))
y_=knn.predict(x_test)
result=y_==y_test
result.mean()

Out[187]:

0.7356418918918919

In [230]:

x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2)
knn=KNeighborsClassifier(n_neighbors=10,weights="distance")
knn.fit(x_train,y_train.astype("int"))
y_=knn.predict(x_test)
result=y_==y_test
result.mean()

Out[230]:

0.730152027027027

In [245]:

x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2)
knn=KNeighborsClassifier(n_neighbors=15,weights="distance")
knn.fit(x_train,y_train.astype("int"))
y_=knn.predict(x_test)
result=y_==y_test
result.mean()

Out[245]:

0.7164273648648649

决策树模型

In [246]:

from sklearn.model_selection import train_test_split
X=house_data####数据
y=house['price']###y===>目标
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2)#修正测试集和训练集的索引
for i in [x_train,x_test,y_train,y_test]:
    i.index = range(i.shape[0])
from sklearn.model_selection import cross_val_score
""""初始模型"""
from sklearn.model_selection import KFold
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import make_scorer
from sklearn.model_selection import GridSearchCV
clf = DecisionTreeRegressor(splitter='best',max_depth=12)
clf=clf.fit(x_train, y_train)
score_tr = clf.score(x_train,y_train)
score_te = clf.score(x_test,y_test)#测试集分数
score_tc= cross_val_score(clf,X,y,cv=10).mean()#使用交叉验证
print(score_tr,score_te,score_tc)

0.9531080066732065 0.7745982538131777 0.6047073569939521

In [247]:

tr = []
te = []
tc = []
N = 10
for i in range(N):
    clf = DecisionTreeRegressor( random_state=25
                                ,max_depth=i+1 #拟合不同最大深度的决策
                                ,criterion="friedman_mse"#尝试调参
                               )
    clf = clf.fit(x_train,y_train)
    score_tr = clf.score(x_train, y_train)#训练集分数
    score_te = clf.score(x_test,y_test)#测试集分数
    score_tc = cross_val_score(clf,X, y, cv=10).mean()#模型交叉验证分数
    tr.append(score_tr)
    te.append(score_te)
    tc.append(score_tc)
print(max(tc))###发现结果还比原来的好

0.6383923356782749

In [248]:

plt.plot ( range(1,N+1) ,tr,color="red" ,label="train")
plt.plot (range(1,N+1) ,te,color="blue" ,label="test")
plt.plot(range(1,N+1) ,tc,color="green",label="cross")
plt.xticks ( range (1,N+1))#横坐标标尺，只显示1-10。
plt.legend()
plt.xlabel("max_depth")
plt.ylabel("score")
plt.show()

线性回归

In [249]:

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
X=house_data####数据
y=house['price']###y===>目标
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2)#修正测试集和训练集的索引
for i in [x_train,x_test,y_train,y_test]:
    i.index = range(i.shape[0])
# lr=LinearRegression(fit_intercept=False)
# lr.fit(x_train,y_train)
from sklearn.model_selection import cross_val_score
""""初始模型"""
from sklearn.model_selection import KFold
from sklearn.metrics import make_scorer
from sklearn.model_selection import GridSearchCV
lr = LinearRegression(fit_intercept=False)
lr=lr.fit(x_train, y_train)
score_tr = lr.score(x_train,y_train)
score_te = lr.score(x_test,y_test)#测试集分数
score_tc= cross_val_score(lr,X,y,cv=10).mean()#使用交叉验证
print(score_tr,score_te,score_tr)

0.6905104199409964 0.6829968035712277 0.6905104199409964

In [250]:

lr.predict(x_test)

Out[250]:

array([ 514.01980998,   16.55808561, 1177.51447509, ..., 1071.80962829,
        795.808886  ,  467.86695568])

In [251]:

house_data.columns

Out[251]:

Index(['region', 'disrict', 'room', 'direction', 'renovation', 'elevator',
       'area', 'year', 'floor'],
      dtype='object')

In [252]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn
plt.style.use('ggplot')
from sklearn import tree
import sys
import os
import time
##忽略警告
import warnings
warnings.filterwarnings('ignore')
plt.rcParams['font.family'] = ['SimHei']   #设置字体为黑体
plt.rcParams['axes.unicode_minus'] = False #解决保存图像时负号“-”显示为方块的问题
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score

In [112]:

data=pd.read_csv('E:/新建文件夹/实训/项目/二手房数据.csv',encoding='gbk')
data.head()

Out[112]:

	市区	小区	户型	朝向	楼层	装修情况	电梯	面积(㎡)	价格(万元)	年份
0	朝阳	育慧里一区	1室0厅	西	7	精装	有电梯	52.0	343.0	2001
1	朝阳	大西洋新城A区	2室2厅	南北	10	精装	有电梯	86.0	835.0	1999
2	朝阳	团结湖路	2室1厅	东西	6	精装	无电梯	65.0	430.0	1980
3	朝阳	尚家楼48号院	2室1厅	南北	12	精装	有电梯	75.0	610.0	1998
4	朝阳	望京西园一区	3室2厅	南北	6	精装	无电梯	115.0	710.0	1997

In [114]:

data.info()


RangeIndex: 23677 entries, 0 to 23676
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   市区      23677 non-null  object 
 1   小区      23677 non-null  object 
 2   户型      23677 non-null  object 
 3   朝向      23677 non-null  object 
 4   楼层      23677 non-null  int64  
 5   装修情况    23677 non-null  object 
 6   电梯      15420 non-null  object 
 7   面积(㎡)   23677 non-null  float64
 8   价格(万元)  23677 non-null  float64
 9   年份      23677 non-null  int64  
dtypes: float64(2), int64(2), object(6)
memory usage: 1.8+ MB

In [113]:

data.describe

Out[113]:

In [115]:

data.rename(columns={'市区':'region','小区':'disrict','户型':'room','朝向':'direction','楼层':'floor',
                      '装修情况':'renovation','电梯':'elevator','面积(㎡)':'area','价格(万元)':'price','年份':'year'},inplace=True)
data.head()

Out[115]:

	region	disrict	room	direction	floor	renovation	elevator	area	price	year
0	朝阳	育慧里一区	1室0厅	西	7	精装	有电梯	52.0	343.0	2001
1	朝阳	大西洋新城A区	2室2厅	南北	10	精装	有电梯	86.0	835.0	1999
2	朝阳	团结湖路	2室1厅	东西	6	精装	无电梯	65.0	430.0	1980
3	朝阳	尚家楼48号院	2室1厅	南北	12	精装	有电梯	75.0	610.0	1998
4	朝阳	望京西园一区	3室2厅	南北	6	精装	无电梯	115.0	710.0	1997

In [116]:

data1=data[['year','region','disrict','room','direction','renovation','elevator','floor','area','price']]
data1.loc[(data['floor']>=6)&(data["elevator"].isnull()),"elevator"]="有电梯"
data1.loc[(data['floor']<=6)&(data["elevator"].isnull()),"elevator"]="无电梯"
data0=data[(data["elevator"]=="有电梯")|(data["elevator"]=="无电梯")]

In [117]:

data1["room"]=data1["room"].apply(lambda x:x.replace("房间","室"))
data1=data1[~data1["room"].str.contains("卫")]#筛选不包含“卫"的数据
data1["room_num"]=data1["room"].apply(lambda x:x[0])
data1[ "hall_num" ]=data1[ "room" ].apply(lambda x:x[2])

特征工程

In [118]:

"""追加新特征，选用需要分析的属性列,调整属性列顺序"""
data1["perprice"]=round(data1["price"]/data1["area"],2)
data1=data1[["year" , "region", "disrict", "direction", "room", "room_num","hall_num", "floor", "elevator", "renovation", "perprice","area","price"]]

In [119]:

data1.head()###数据预览

Out[119]:

	year	region	disrict	direction	room	room_num	hall_num	floor	elevator	renovation	perprice	area	price
0	2001	朝阳	育慧里一区	西	1室0厅	1	0	7	有电梯	精装	6.60	52.0	343.0
1	1999	朝阳	大西洋新城A区	南北	2室2厅	2	2	10	有电梯	精装	9.71	86.0	835.0
2	1980	朝阳	团结湖路	东西	2室1厅	2	1	6	无电梯	精装	6.62	65.0	430.0
3	1998	朝阳	尚家楼48号院	南北	2室1厅	2	1	12	有电梯	精装	8.13	75.0	610.0
4	1997	朝阳	望京西园一区	南北	3室2厅	3	2	6	无电梯	精装	6.17	115.0	710.0

In [127]:

figl=plt.figure(figsize=(15,15))#设置图窗口
import seaborn as sns
sns.barplot( x='region',y='perprice',palette="Blues_d",data=data1)#统计北京各大区二手房每平米单价
plt.tick_params (axis='x' ,labelsize=20)
plt.tick_params ( axis='y' ,labelsize=20)
plt.xlabel('区域' ,fontsize=30)
plt.ylabel('每平米单价（均价）',fontsize=30)

Out[127]:

Text(0, 0.5, '每平米单价（均价）')

In [128]:

figl=plt.figure(figsize=(15,15))#设置图窗口
sns.boxplot(x='region',y='price',data=data1)
plt.tick_params(axis='x' ,labelsize=20)
plt.tick_params(axis='y' ,labelsize=20)
plt.xlabel('区域',fontsize=30)
plt.ylabel( '二手房总价',fontsize=30)
plt.show()

In [131]:

"""面积分析"""
sns.distplot(data['area'],bins=20,color="skyblue")#面积分布情况（直方图)
plt.tick_params(axis='x' ,labelsize=15)
plt.tick_params(axis='y' ,labelsize=15)
plt.xlabel('area',fontsize=20)
plt.ylabel( '',fontsize=20)
plt.show()

In [134]:

plt.figure(figsize=(40,40))#设置图窗口
fig3,[ax1,ax2]=plt.subplots(2,1)
df_layout=data.groupby("room")["area"].count().sort_values(ascending=False).to_frame ().reset_index()
sns.barplot(y="room",x="area",data=df_layout.head(20) , ax=ax1,orient="h")
ax1.set_xlabel("数量" ,fontsize=12)
ax1.set_ylabel("户型",fontsize=12)
sns.barplot( x='room',y='perprice',data=data1,ax=ax2)#统计各户型二手房每平米单价
ax2.tick_params (axis='x' ,labelsize=6)
ax2.tick_params (axis='y' ,labelsize=6)
ax2.set_xlabel('户型',fontsize=10)
ax2.set_ylabel( '每平米单价（均价)',fontsize=10)
plt.show()

In [135]:

"""年份分析"""
fig4=plt.figure()
ax1=plt.subplot2grid((2,1),(0,0))#设置第一张子图，位置0,0
ax2=plt.subplot2grid((2,1),(1,0))#设置第二张子图，位置0,1
sns.regplot( x="year" , y="price" ,data=data1,ax=ax1)
sns.barplot(x="year",y="price",data=data1,ax=ax2)
ax2.tick_params(axis='x' ,labelsize=4)
plt.show()

二、源码文件

链接：https://pan.baidu.com/s/15N8ESHjAU58ZyL39VOgbpQ
提取码：yyss

html格式源码文件：

链接：https://pan.baidu.com/s/1LM2ZLQElIN7m2wc5UqMiOA
提取码：yyss

所采用的数据：

链接：https://pan.baidu.com/s/1QSiS0Is57nZmRVUhiDwKtg
提取码：yyss

三、作者有话

建议提取html源码格式文件，自己试着在jupyter lab中运行，此上面运行出的图片就不展示了，本人超级懒，懒得截图。

你可能感兴趣的:(python,开发语言)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
Python 程序设计讲义（25）：循环结构——嵌套循环
Python程序设计讲义（25）：循环结构——嵌套循环目录Python程序设计讲义（25）：循环结构——嵌套循环一、嵌套循环的执行流程二、嵌套循环对应的几种情况1、内循环和外循环互不影响2、外循环迭代影响内循环的条件3、外循环迭代影响内循环的循环体嵌套循环是指在一个循环体中嵌套另一个循环。while循环中可以嵌入另一个while循环或for循环。反之，也可以在for循环中嵌入另一个for循环或wh
基于Python引擎的PP-OCR模型库推理张欣-男 python ocr 开发语言 PaddleOCR PaddlePaddle
基于Python引擎的PP-OCR模型库推理1.文本检测模型推理#下载超轻量中文检测模型：wgethttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tartarxfch_PP-OCRv3_det_infer.tarpython3tools/infer/predict_det.py--image_dir=".
一个开源AI牛马神器 | AiPy，平替Manus，装完直接上手写Python！ Agent加载失败人工智能 python 开源算法 AI编程
还记得三个月前那个在闲鱼被炒到万元邀请码的Manus吗？现在你点官网，直接提示「所在地区不可用」了它走了，但更香的国产开源项目出现了：AiPy（爱派）。主打一个极致简化的AIAgent理念：别搞什么插件市场、Agent路由，直接给AI一个Python解释器，让它用自然语言写代码干活。听起来狠活？实际体验更狠：•完全本地化，界面傻瓜式操作，支持自然语言生成&执行Python任务；•数据清洗、文档总结
零数学基础理解AI核心概念：梯度下降可视化实战九章云极AladdinEdu 人工智能 gpu算力深度学习 pytorch python 语言模型 opencv
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。用Python动画演示损失函数优化过程，数学公式具象化读者收获：直观理解模型训练本质，破除"数学恐惧症"当盲人登山者摸索下山路径时，他本能地运用了梯度下降算法。本文将用动态可视化技术，让你像感受重力一样理解AI训练的核心原理——无需任何数学公式推导。一、梯度下降：AI世界的"万有
2025.07 Java入门笔记01 殷浩焕笔记
一、熟悉IDEA和Java语法（一）LiuCourseJavaOOP1.一直在用C++开发，python也用了些，Java是真的不熟，用什么IDE还是问的同事；2.一开始安装了jdk-23，拿VSCode当编辑器，在cmd窗口编译运行，也能玩；但是想正儿八经搞项目开发，还是需要IDE；3.安装了IDEA社区版：（1）IDE通常自带对应编程语言的安装包，例如IDEA自带jbr-21（和jdk是不同的
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
Python STL概念学习与代码实践体制教科书
本文还有配套的精品资源，点击获取简介：通过”py_stl_learning”项目，学习者可以使用Python实现和理解C++STL的概念，包括数据结构、算法、容器适配器、模板和泛型容器等。Python中的列表、集合、字典等数据结构与STL中的vector、set、map等类似，而Python的itertools和functools模块提供了STL风格的算法功能。Python通过其面向对象的特性以及
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class