Tinali_127

Task2 论文作者统计

# 加载需要的包
import seaborn as sns #用于画图
from bs4 import BeautifulSoup #用于爬取arxiv的数据
import re #用于正则表达式，匹配字符串的模式
import requests #用于网络连接，发送网络请求，使用域名获取对应信息
import json #读取数据，我们的数据为json格式的
import pandas as pd #数据处理，数据分析
import matplotlib.pyplot as plt #画图工具

import os
os.getcwd()

'D:\\jupyter_notebook\\Github\\datawhale数据分析_学术前沿趋势分析\\AcademicTrends'

1. 数据读取（same as task1）

def readArxivFile(path, columns=['id', 'submitter', 'authors', 'title', 'comments', 'journal-ref', 'doi',
       'report-no', 'categories', 'license', 'abstract', 'versions',
       'update_date', 'authors_parsed'], count=None):
    '''
    定义读取文件的函数
        path: 文件相对路径
        columns: 需要选择的列--M默认使用数据集中所有列
        count: 读取行数(原数据有17万+行)
    '''
    data = []

    with open(path,"r") as f:
        for idx,line in enumerate(f):
            if idx == count: # 已经到了第count+1条数据--可以停止了，不放在data的list中
                break # 跳出循环--停止读取数据
            
            d = json.loads(line) # line是字典形式，loads之后也是字典形式
            d = {
     col:d[col] for col in columns} # 字典生成式，提取出想要的列&对应样本的值
            
            data.append(d) # 把字典append到list中
        data = pd.DataFrame(data)
        return data

data = readArxivFile('./data/arxiv-metadata-oai-2019.json', columns=['id', 'authors', 'categories', 'authors_parsed'],
                    count = 100000) # 读取10万条数据
data

	id	authors	categories	authors_parsed
0	0704.0297	Sung-Chul Yoon, Philipp Podsiadlowski and Step...	astro-ph	[[Yoon, Sung-Chul, ], [Podsiadlowski, Philipp,...
1	0704.0342	B. Dugmore and PP. Ntumba	math.AT	[[Dugmore, B., ], [Ntumba, PP., ]]
2	0704.0360	T.V. Zaqarashvili and K Murawski	astro-ph	[[Zaqarashvili, T. V., ], [Murawski, K, ]]
3	0704.0525	Sezgin Aygun, Ismail Tarhan, Husnu Baysal	gr-qc	[[Aygun, Sezgin, ], [Tarhan, Ismail, ], [Baysa...
4	0704.0535	Antonio Pipino (1,3), Thomas H. Puzia (2,4), a...	astro-ph	[[Pipino, Antonio, ], [Puzia, Thomas H., ], [M...
...	...	...	...	...
99995	1905.00812	Zhiyi Huang, Xue Zhu	cs.DS	[[Huang, Zhiyi, ], [Zhu, Xue, ]]
99996	1905.00814	Tuomas P. Hyt\"onen	math.AP math.CV math.FA	[[Hytönen, Tuomas P., ]]
99997	1905.00815	Morteza Baniasad Azad and Behrooz Khosravi	math.GR	[[Azad, Morteza Baniasad, ], [Khosravi, Behroo...
99998	1905.00816	Ozgur Asar, Marie-Cecile Fournier, Etienne Dantan	stat.AP	[[Asar, Ozgur, ], [Fournier, Marie-Cecile, ], ...
99999	1905.00818	Patricia Schmidt, Tanja Hinderer	gr-qc astro-ph.HE	[[Schmidt, Patricia, ], [Hinderer, Tanja, ]]

100000 rows × 4 columns

data.info() # 这里每一列都是字符串格式


RangeIndex: 100000 entries, 0 to 99999
Data columns (total 4 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   id              100000 non-null  object
 1   authors         100000 non-null  object
 2   categories      100000 non-null  object
 3   authors_parsed  100000 non-null  object
dtypes: object(4)
memory usage: 3.1+ MB

data.authors[0]

'Sung-Chul Yoon, Philipp Podsiadlowski and Stephan Rosswog'

data.authors_parsed[0]

[['Yoon', 'Sung-Chul', ''],
 ['Podsiadlowski', 'Philipp', ''],
 ['Rosswog', 'Stephan', '']]

2. 只考虑cs.CV的论文作者

2.1 提取categories中包含cs.CV的论文

# 选择类别为cs.CV下面的论文
data2 = data[data['categories'].apply(lambda x: 'cs.CV' in x)]

2.1的分解

匿名函数–关键字：lambda

当我们传入函数时：有些时候，不需要显式的定义函数，直接传入匿名函数即可
lambda 函数的参数: 返回的expression
- 只能有一个表达式，不用写return
一般与map()/apply()/filter()函数连用
- map(函数，iterable可迭代对象)：将函数作用到iterable的每一个元素上
- dataframe[column].apply（函数）：将函数作用在这一列的每个值上
- filter（函数，iterable）：函数的返回值必须是布尔值T/F，函数作用在iterable的每个值上，filter的结果只保留返回值=True的参数

# 可以将匿名函数赋值给一个变量，再利用变量来调用这个函数
is_odd = lambda x: x%2==1 # return的结果是T/F
print(list(map(is_odd,range(1,20))))

[True, False, True, False, True, False, True, False, True, False, True, False, True, False, True, False, True, False, True]

list(filter(is_odd, range(1, 20))) # is_odd匿名函数 作用在range(1,20)上，filter的结果只保留返回值=True

[1, 3, 5, 7, 9, 11, 13, 15, 17, 19]

continue:

data['categories']

0                       astro-ph
1                        math.AT
2                       astro-ph
3                          gr-qc
4                       astro-ph
                  ...           
99995                      cs.DS
99996    math.AP math.CV math.FA
99997                    math.GR
99998                    stat.AP
99999          gr-qc astro-ph.HE
Name: categories, Length: 100000, dtype: object

# 因为有的论文的categories可能有多个，所以不能直接=="cs.CV"，要用in 查看是否包含这个string
data['categories'].apply(lambda x: 'cs.CV' in x) # apply这个匿名函数到categories这一列的每个string（lambda里面的参数x）上

0        False
1        False
2        False
3        False
4        False
         ...  
99995    False
99996    False
99997    False
99998    False
99999    False
Name: categories, Length: 100000, dtype: bool

data2 = data[data['categories'].apply(lambda x: 'cs.CV' in x)]
data2 # 用布尔值，筛选出符合条件的行 i.e论文

	id	authors	categories	authors_parsed
531	0802.1412	Mahesh Pal	cs.NE cs.CV	[[Pal, Mahesh, ]]
1408	0905.1235	Serguei A. Mokhov, Stephen Sinclair, Ian Cl\'e...	cs.SD cs.CL cs.CV cs.MM cs.NE	[[Mokhov, Serguei A., , for the MARF R&D Group...
3231	1107.2875	Chris Aholt, Bernd Sturmfels, Rekha Thomas	math.AG cs.CV	[[Aholt, Chris, ], [Sturmfels, Bernd, ], [Thom...
4120	1203.0905	Jos\'e I. Ronda, Antonio Vald\'es and Guillerm...	cs.CV	[[Ronda, José I., ], [Valdés, Antonio, ], [Gal...
4378	1206.2627	Tanaya Guha and Rabab K. Ward	cs.CV	[[Guha, Tanaya, ], [Ward, Rabab K., ]]
...	...	...	...	...
99943	1905.00742	Georgios Kapidis and Ronald Poppe and Elsbeth ...	cs.CV	[[Kapidis, Georgios, ], [Poppe, Ronald, ], [va...
99946	1905.00745	Ahmed Mazari and Hichem Sahbi	cs.CV	[[Mazari, Ahmed, ], [Sahbi, Hichem, ]]
99965	1905.00773	Mariana-Iuliana Georgescu, Radu Tudor Ionescu	cs.CV cs.LG	[[Georgescu, Mariana-Iuliana, ], [Ionescu, Rad...
99969	1905.00780	Suraj Srinivas, Francois Fleuret	cs.LG cs.CV stat.ML	[[Srinivas, Suraj, ], [Fleuret, Francois, ]]
99976	1905.00789	Sheng Lin, Xiaolong Ma, Shaokai Ye, Geng Yuan,...	cs.LG cs.CV stat.ML	[[Lin, Sheng, ], [Ma, Xiaolong, ], [Ye, Shaoka...

5167 rows × 4 columns

2.2 将所有cs.CV论文的作者名进行拼接

放到一个超大list中，每个作者名是一个list

# 拼接所有作者
all_authors = sum(data2['authors_parsed'], [])

2.2的分解步骤

sidenote：将一篇论文的所有作者，放到一个list中：

现在是每个作者一个list–>构成2D的嵌套列表
如何把一个2D嵌套的列表形式 $list_1],[list_2]...]$ 变成一个1维的列表形式 $list_1中的元素,list_2中的元素...]$

data2['authors_parsed'][1408]

[['Mokhov', 'Serguei A.', '', 'for the MARF R&D Group'],
 ['Sinclair', 'Stephen', '', 'for the MARF R&D Group'],
 ['Clément', 'Ian', '', 'for the MARF R&D Group'],
 ['Nicolacopoulos', 'Dimitrios', '', 'for the MARF R&D Group']]

# 方法一：列表生成式
[s for l in data2['authors_parsed'][1408] for s in l]

['Mokhov',
 'Serguei A.',
 '',
 'for the MARF R&D Group',
 'Sinclair',
 'Stephen',
 '',
 'for the MARF R&D Group',
 'Clément',
 'Ian',
 '',
 'for the MARF R&D Group',
 'Nicolacopoulos',
 'Dimitrios',
 '',
 'for the MARF R&D Group']

# 方法二：用iterable（二维嵌套列表）和空列表进行sum
sum(data2['authors_parsed'][1408],[])
# sum(iterable, /, start=0)
# Docstring:
# Return the sum of a 'start' value (default: 0) plus an iterable of numbers

# 将空列表[]和iterable可迭代对象中的每个元素：1D列表进行相加

['Mokhov',
 'Serguei A.',
 '',
 'for the MARF R&D Group',
 'Sinclair',
 'Stephen',
 '',
 'for the MARF R&D Group',
 'Clément',
 'Ian',
 '',
 'for the MARF R&D Group',
 'Nicolacopoulos',
 'Dimitrios',
 '',
 'for the MARF R&D Group']

# sum(iterable of lists,[])的过程如下：
[] + ['Mokhov', 'Serguei A.', '', 'for the MARF R&D Group'] \
+ ['Sinclair', 'Stephen', '', 'for the MARF R&D Group'] \
+ ['Clément', 'Ian', '', 'for the MARF R&D Group'] \
+ ['Nicolacopoulos', 'Dimitrios', '', 'for the MARF R&D Group']

['Mokhov',
 'Serguei A.',
 '',
 'for the MARF R&D Group',
 'Sinclair',
 'Stephen',
 '',
 'for the MARF R&D Group',
 'Clément',
 'Ian',
 '',
 'for the MARF R&D Group',
 'Nicolacopoulos',
 'Dimitrios',
 '',
 'for the MARF R&D Group']

将所有cs.CV论文的作者名放到一个大二维list中–其中每个作者名是个list

data2['authors_parsed'] # 将series中的每个values拼接起来，形成一个大的二维list

531                                      [[Pal, Mahesh, ]]
1408     [[Mokhov, Serguei A., , for the MARF R&D Group...
3231     [[Aholt, Chris, ], [Sturmfels, Bernd, ], [Thom...
4120     [[Ronda, José I., ], [Valdés, Antonio, ], [Gal...
4378                [[Guha, Tanaya, ], [Ward, Rabab K., ]]
                               ...                        
99943    [[Kapidis, Georgios, ], [Poppe, Ronald, ], [va...
99946               [[Mazari, Ahmed, ], [Sahbi, Hichem, ]]
99965    [[Georgescu, Mariana-Iuliana, ], [Ionescu, Rad...
99969         [[Srinivas, Suraj, ], [Fleuret, Francois, ]]
99976    [[Lin, Sheng, ], [Ma, Xiaolong, ], [Ye, Shaoka...
Name: authors_parsed, Length: 5167, dtype: object

# 方法一：列表生成式
[j for i in data2['authors_parsed'] for j in i][:10]

[['Pal', 'Mahesh', ''],
 ['Mokhov', 'Serguei A.', '', 'for the MARF R&D Group'],
 ['Sinclair', 'Stephen', '', 'for the MARF R&D Group'],
 ['Clément', 'Ian', '', 'for the MARF R&D Group'],
 ['Nicolacopoulos', 'Dimitrios', '', 'for the MARF R&D Group'],
 ['Aholt', 'Chris', ''],
 ['Sturmfels', 'Bernd', ''],
 ['Thomas', 'Rekha', ''],
 ['Ronda', 'José I.', ''],
 ['Valdés', 'Antonio', '']]

# 方法二：用sum(iterable,[])
# 其中iterable：是series的形式，values仍然是二维list
sum(data2['authors_parsed'], [])[:10]

[['Pal', 'Mahesh', ''],
 ['Mokhov', 'Serguei A.', '', 'for the MARF R&D Group'],
 ['Sinclair', 'Stephen', '', 'for the MARF R&D Group'],
 ['Clément', 'Ian', '', 'for the MARF R&D Group'],
 ['Nicolacopoulos', 'Dimitrios', '', 'for the MARF R&D Group'],
 ['Aholt', 'Chris', ''],
 ['Sturmfels', 'Bernd', ''],
 ['Thomas', 'Rekha', ''],
 ['Ronda', 'José I.', ''],
 ['Valdés', 'Antonio', '']]

all_authors[:10]

[['Pal', 'Mahesh', ''],
 ['Mokhov', 'Serguei A.', '', 'for the MARF R&D Group'],
 ['Sinclair', 'Stephen', '', 'for the MARF R&D Group'],
 ['Clément', 'Ian', '', 'for the MARF R&D Group'],
 ['Nicolacopoulos', 'Dimitrios', '', 'for the MARF R&D Group'],
 ['Aholt', 'Chris', ''],
 ['Sturmfels', 'Bernd', ''],
 ['Thomas', 'Rekha', ''],
 ['Ronda', 'José I.', ''],
 ['Valdés', 'Antonio', '']]

for x in all_authors[:10]:
    print(x)

['Pal', 'Mahesh', '']
['Mokhov', 'Serguei A.', '', 'for the MARF R&D Group']
['Sinclair', 'Stephen', '', 'for the MARF R&D Group']
['Clément', 'Ian', '', 'for the MARF R&D Group']
['Nicolacopoulos', 'Dimitrios', '', 'for the MARF R&D Group']
['Aholt', 'Chris', '']
['Sturmfels', 'Bernd', '']
['Thomas', 'Rekha', '']
['Ronda', 'José I.', '']
['Valdés', 'Antonio', '']

" ".join(['Pal', 'Mahesh', '']) # " ".join(iterable)--iterable是个列表
# 将iterable的每个元素用空格" "进行拼接

'Pal Mahesh '

[' '.join(x) for x in all_authors[:10]]
# all_authors是个嵌套的2D列表--每个元素是个list
# x：all_authors这个iterable中的每个元素--list
# 对于x这个iterable中的每个元素--string--用" "进行拼接
# 列表生成式，每个元素是作者名in string--每个部分用空格分隔形成的string

['Pal Mahesh ',
 'Mokhov Serguei A.  for the MARF R&D Group',
 'Sinclair Stephen  for the MARF R&D Group',
 'Clément Ian  for the MARF R&D Group',
 'Nicolacopoulos Dimitrios  for the MARF R&D Group',
 'Aholt Chris ',
 'Sturmfels Bernd ',
 'Thomas Rekha ',
 'Ronda José I. ',
 'Valdés Antonio ']

3 终于生成了cs.CV所有作者姓名的DF

其中作者的姓名并不是去重之后的，一个姓名可能出现在多行

authors_names = [' '.join(x) for x in all_authors]
authors_names = pd.DataFrame(authors_names,columns=["names"]) # list转换成DF
authors_names

	names
0	Pal Mahesh
1	Mokhov Serguei A. for the MARF R&D Group
2	Sinclair Stephen for the MARF R&D Group
3	Clément Ian for the MARF R&D Group
4	Nicolacopoulos Dimitrios for the MARF R&D Group
...	...
23122	Ma Xiaolong
23123	Ye Shaokai
23124	Yuan Geng
23125	Ma Kaisheng
23126	Wang Yanzhi

23127 rows × 1 columns

3.1 统计频数Top10的作者姓名

authors_names["names"].value_counts() # 去重&计数
# 统计每个unique的名字出现的次数

Tao Dacheng        50
Van Gool Luc       27
Liu Wei            24
Zhang Lei          22
Darrell Trevor     21
                   ..
Ding Shouhong       1
Li Chun-Guang       1
Eitel Fabian        1
Zhu Qikui           1
Wu Bojian           1
Name: names, Length: 15131, dtype: int64

authors_names["names"].value_counts().head(10) # 发表论文数top10的作者姓名

Tao Dacheng            50
Van Gool Luc           27
Liu Wei                24
Zhang Lei              22
Darrell Trevor         21
Wang Xiaogang          21
Navab Nassir           21
Reid Ian               18
Zafeiriou Stefanos     17
Torr Philip H. S.      17
Name: names, dtype: int64

# 画图
plt.figure(figsize=(10,6)) # 创建画布
authors_names["names"].value_counts().head(10).plot(kind="barh");

# 修改图配置
names = authors_names["names"].value_counts().index[:10] 
_ = plt.yticks(range(0, len(names)), names) # yticks中值 不用写成index.values[:10]的形式
plt.ylabel('Author')
plt.xlabel('Count')

authors_names["names"].value_counts().head(10)

Tao Dacheng            50
Van Gool Luc           27
Liu Wei                24
Zhang Lei              22
Darrell Trevor         21
Wang Xiaogang          21
Navab Nassir           21
Reid Ian               18
Zafeiriou Stefanos     17
Torr Philip H. S.      17
Name: names, dtype: int64

authors_names["names"].value_counts().index[:10]
# value_counts()的结果是个series
# series.index是所有unique的作者姓名--结果是Index(...)
# 这里取前10

Index(['Tao Dacheng ', 'Van Gool Luc ', 'Liu Wei ', 'Zhang Lei ',
       'Darrell Trevor ', 'Wang Xiaogang ', 'Navab Nassir ', 'Reid Ian ',
       'Parikh Devi ', 'Davis Larry S. '],
      dtype='object')

authors_names["names"].value_counts().index.values
# series.index.values--结果是array(...)

array(['Tao Dacheng ', 'Van Gool Luc ', 'Liu Wei ', ..., 'Galal Sameh ',
       'Davis L. Taylor ', 'Jubair Mohammad Imrul '], dtype=object)

3.2 统计出现频数top10的姓氏last name

也就是authors_parsed字段中作者第一个单词：

# all_authors中每个列表的第一个string
[x[0] for x in all_authors][:10] # all_authors这个可迭代对象中的每个元素x: 一维列表 # 按顺序显示前10个
# 从x取出第一个元素string--last name

['Pal',
 'Mokhov',
 'Sinclair',
 'Clément',
 'Nicolacopoulos',
 'Aholt',
 'Sturmfels',
 'Thomas',
 'Ronda',
 'Valdés']

authors_lastnames = [x[0] for x in all_authors]
authors_lastnames = pd.DataFrame(authors_lastnames,columns=["last_names"]) # 列表变DF

authors_lastnames

	last_names
0	Pal
1	Mokhov
2	Sinclair
3	Clément
4	Nicolacopoulos
...	...
23122	Ma
23123	Ye
23124	Yuan
23125	Ma
23126	Wang

23127 rows × 1 columns

# 画图
plt.figure(figsize=(10, 6))
authors_lastnames["last_names"].value_counts().head(10).plot(kind="barh")

names = authors_lastnames["last_names"].value_counts().index.values[:10]
_ = plt.yticks(range(0, len(names)), names)
plt.ylabel('Author Last_Names')
plt.xlabel('Count')

Text(0.5, 0, 'Count')

绘制得到的结果，从结果看出这些都是华人或者中国姓氏~

3.3 统计出现频数top10的姓氏的第一个字符

all_authors[0] # i--i.e二维嵌套列表中的每个元素--1D list

['Pal', 'Mahesh', '']

all_authors[0][0] # last name

'Pal'

all_authors[0][0][0] # last name的第一个字符

'P'

[i[0][0] for i in all_authors ][:10]

['P', 'M', 'S', 'C', 'N', 'A', 'S', 'T', 'R', 'V']

authors_lastnames_first = [i[0][0] for i in all_authors ]
authors_lastnames_first = pd.DataFrame(authors_lastnames_first,columns=["last_names_first_character"]) # 列表变DF

authors_lastnames_first

	last_names_first_character
0	P
1	M
2	S
3	C
4	N
...	...
23122	M
23123	Y
23124	Y
23125	M
23126	W

23127 rows × 1 columns

# 画图
plt.figure(figsize=(10, 6))
authors_lastnames_first["last_names_first_character"].value_counts().head(10).plot(kind='barh')

names = authors_lastnames_first["last_names_first_character"].value_counts().index[:10]
_ = plt.yticks(range(0, len(names)), names)
plt.ylabel('Author Last_Names_First_Character')
plt.xlabel('Count')
plt.show()

所有代码的汇总baseline–no分解步骤

# %load Task2 论文作者统计.py
#!/usr/bin/env python

# ## 任务说明
# 
# - 任务主题：论文作者统计，统计所有论文作者出现频率Top10的姓名；
# - 任务内容：论文作者的统计、使用 **Pandas** 读取数据并使用字符串操作；
# - 任务成果：学习 **Pandas** 的字符串操作；

# ## 数据处理步骤
# 
# 在原始arxiv数据集中论文作者`authors`字段是一个字符串格式，其中每个作者使用逗号进行分隔分，所以我们我们首先需要完成以下步骤：
# 
# - 使用逗号对作者进行切分；
# - 剔除单个作者中非常规的字符；
# 
# 具体操作可以参考以下例子：

# ```
# C. Bal\\'azs, E. L. Berger, P. M. Nadolsky, C.-P. Yuan
# 
# # 切分为，其中\\为转义符
# 
# C. Ba'lazs
# E. L. Berger
# P. M. Nadolsky
# C.-P. Yuan
# ```

# 当然在原始数据集中`authors_parsed`字段已经帮我们处理好了作者信息，可以直接使用该字段完成后续统计。

# ## 字符串处理
# 
# 在Python中字符串是最常用的数据类型，可以使用引号('或")来创建字符串。Python中所有的字符都使用字符串存储，可以使用方括号来截取字符串，如下实例：

# In[1]:


var1 = 'Hello Datawhale!'
var2 = "Python Everwhere!"
 
print("var1[-10:]: ", var1[-10:])
print("var2[2:7]: ", var2[0:7])


# 同时在Python中还支持转义符：
# 
# | \(在行尾时) | 续行符     |
# | ----------- | ---------- |
# | \\          | 反斜杠符号 |
# | \'          | 单引号     |
# | \"          | 双引号     |
# | \n          | 换行       |
# | \t          | 横向制表符 |
# | \r          | 回车       |
# 
# Python中还内置了很多内置函数，非常方便使用：
# 
# | **方法**            | **描述**                                                     |
# | :------------------ | :----------------------------------------------------------- |
# | string.capitalize() | 把字符串的第一个字符大写                                     |
# | string.isalpha()    | 如果 string 至少有一个字符并且所有字符都是字母则返回 True,否则返回 False |
# | string.title()      | 返回"标题化"的 string,就是说所有单词都是以大写开始，其余字母均为小写(见 istitle()) |
# | string.upper()      | 转换 string 中的小写字母为大写                               |
# 


# ## 具体代码实现以及讲解

# ### 数据读取

# In[1]:


# 导入所需的package
import seaborn as sns #用于画图
from bs4 import BeautifulSoup #用于爬取arxiv的数据
import re #用于正则表达式，匹配字符串的模式
import requests #用于网络连接，发送网络请求，使用域名获取对应信息
import json #读取数据，我们的数据为json格式的
import pandas as pd #数据处理，数据分析
import matplotlib.pyplot as plt #画图工具


# In[9]:


def readArxivFile(path, columns=['id', 'submitter', 'authors', 'title', 'comments', 'journal-ref', 'doi',
       'report-no', 'categories', 'license', 'abstract', 'versions',
       'update_date', 'authors_parsed'], count=None):
    '''
    定义读取文件的函数
        path: 文件路径
        columns: 需要选择的列
        count: 读取行数
    '''
    
    data  = []
    with open(path, 'r') as f: 
        for idx, line in enumerate(f): 
            if idx == count:
                break
                
            d = json.loads(line)
            d = {
     col : d[col] for col in columns}
            data.append(d)

    data = pd.DataFrame(data)
    return data

data = readArxivFile('arxiv-metadata-oai-snapshot.json', 
                     ['id', 'authors', 'categories', 'authors_parsed'],
                    100000)


# 为了方便处理数据，我们只选择了三个字段进行读取。

# ### 数据统计
# 
# 接下来我们将完成以下统计操作：
# 
# - 统计所有作者姓名出现频率的Top10；
# - 统计所有作者姓（姓名最后一个单词）的出现频率的Top10；
# - 统计所有作者姓第一个字符的评率；
# 
# 为了节约计算时间，下面选择部分类别下的论文进行处理：

# In[10]:


# 选择类别为cs.CV下面的论文
data2 = data[data['categories'].apply(lambda x: 'cs.CV' in x)]

# 拼接所有作者
all_authors = sum(data2['authors_parsed'], [])


# 处理完成后`all_authors`变成了所有一个list，其中每个元素为一个作者的姓名。我们首先来完成姓名频率的统计。

# In[11]:


# 拼接所有的作者
authors_names = [' '.join(x) for x in all_authors]
authors_names = pd.DataFrame(authors_names)

# 根据作者频率绘制直方图
plt.figure(figsize=(10, 6))
authors_names[0].value_counts().head(10).plot(kind='barh')

# 修改图配置
names = authors_names[0].value_counts().index.values[:10]
_ = plt.yticks(range(0, len(names)), names)
plt.ylabel('Author')
plt.xlabel('Count')


# 接下来统计姓名姓，也就是`authors_parsed`字段中作者第一个单词：

# In[12]:


authors_lastnames = [x[0] for x in all_authors]
authors_lastnames = pd.DataFrame(authors_lastnames)

plt.figure(figsize=(10, 6))
authors_lastnames[0].value_counts().head(10).plot(kind='barh')

names = authors_lastnames[0].value_counts().index.values[:10]
_ = plt.yticks(range(0, len(names)), names)
plt.ylabel('Author')
plt.xlabel('Count')


# 绘制得到的结果，从结果看出这些都是华人或者中国姓氏~
# 
# 
# 统计所有作者姓第一个字符的评率，这个流程与上述的类似，同学们可以自行尝试。
#

你可能感兴趣的:(数据分析)

最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
写完作业的感觉很爽乡村算卦师
今天终于一口气把一个数据分析课的作业写完了。明天还要继续写一个，写完，就可以暂时轻松一下了。想想还是很开心的，哈哈哈。刚出去跑了一圈，结果下雨了，虽然不是很大，可是没办法跑，怕下大。现在在小区门口，吹吹风，也是极好的。希望一些都变的越来越好，加油！
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
Amazon广告投放：如何精准筛选并添加关键词？新置元人工智能亚马逊广告 amazon
在亚马逊广告投放领域，关键词的选择是影响广告效果的核心要素之一。一个精准的关键词策略不仅能够提升广告的曝光度，还能确保产品能够被真正的目标受众看到，从而实现更高的转化率。然而，关键词的筛选并不是一个简单的操作，它需要结合数据分析、市场趋势和消费者行为模式进行科学的规划。一、关键词筛选的必要性：为什么精准匹配如此重要？1.提升广告投放的精准度关键词的精准度决定了广告是否能够投放给真正有购买意愿的用户
【数据分析】抓包工具的定义常见类型分类使用场景及注意事项
抓包工具的定义常见类型分类使用场景及注意事项-CSDN直播抓包工具的定义常见类型分类使用场景及注意事项抓包工具的定义常见类型分类使用场景及注意事项抓包工具概述抓包工具顾名思义是一种用于捕获并分析网络数据包的软件或硬件工具它能够在数据传输过程中截取并记录网络流量让用户能够深入理解并排查网络问题这类工具的用途广泛从网络安全测试到应用程序调试都离不开抓包工具的帮助在众多的抓包工具中WiresharkFi
构建高效的物流车辆定位管理系统体制教科书
本文还有配套的精品资源，点击获取简介：物流车辆定位管理系统利用信息技术提高物流效率和安全性。通过集成GPS技术进行实时车辆追踪和监控，它提供及时的货物运送和异常处理。系统的关键技术包括GPS车辆定位、C#编程语言、数据库管理、车辆管理、在途情况监控、预警与通知、数据分析与报告、用户界面设计、安全性与隐私保护以及系统集成。这些要素共同保障物流流程的高效、安全和智能化。1.物流车辆定位管理系统的应用与
# 【GEE基础及工具）（一）】工欲善其事，必先利其器：借助Open Earth Engine实现影像高效处理及批量任务执行遥感AI实战 GEE基础教程遥感 GEE 地理信息信息可视化 sentinel
在遥感数据分析与处理工作中，海量影像数据的预处理（如去云、裁剪）和分析（如均值计算）是支撑后续研究的核心环节。而Sentinel-2影像作为常用的遥感数据源，常因云层遮挡、数据量大等问题增加处理难度。同时，在使用GoogleEarthEngine（GEE）处理数据时，“批量导出任务需手动逐个启动”的问题也会显著降低效率。本文将从“工具优化”和“数据处理”两个维度展开，详细介绍如何通过GEE完成Se
Navicat 全面支持金仓数据库 KingbaseES，为金仓生态圈注入新动能 Navicat中国 Navicat 17 焕新上市 Navicat 免费版数据库
近日，我们宣布Navicat系列产品全面支持中电科金仓（北京）科技股份有限公司旗下金仓数据库管理系统KingbaseES。KingbaseES是面向全行业、全客户关键应用的企业级大型通用融合数据库产品，适用于事务处理类应用、数据分析类应用、海量时序数据采集检索类应用、要求苛刻的互联网等应用场景。这次合作，不仅是Navicat在数据库管理领域的又一重要里程碑，更凭借卓越的技术为金仓数据库的生态注入新
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
如何用Python才能进行数据分析？_运用pycharm做数据分析的步骤 2401_84254530 python 数据分析 pycharm
数据分析流程Python是数据分析利器，掌握了Python的编程基础后，就可以逐渐进入数据分析。一个完整的数据分析项目大致可分为以下五个流程：数据获取→数据存储→数据预处理→建模与分析→可视化分析1)数据获取一般有数据分析师岗位需求的公司都会有自己的数据库，数据分析师可以通过SQL查询语句来获取数据库中想要数据。Python已经具有连接sqlserver、mysql、orcale等主流数据库的接口
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
Python【一】Python全方位知识指南程序员_CLUB python 开发语言
目录背景：为什么Python成为开发者必备技能？‌‌一、Python是什么？‌‌二、Python能做什么？六大核心应用场景‌‌1.自动化办公‌‌2.网络爬虫‌‌3.数据分析‌‌三、零基础入门Python：环境搭建与学习路径‌‌1.环境搭建（Windows/Mac详细步骤）‌2‌.基础语法速成（7天掌握）‌四、实战项目推荐（*****）‌‌五、学习建议与避坑指南（新手常见错误）‌六、总结：**背景：
有人考过CDA数据分析师二级吗？ cda2024 数据分析数据挖掘 mysql
一、引言在当今数字化浪潮席卷各个行业的时代，数据成为了最宝贵的资产之一。无论是金融、电信、零售还是其他传统行业，都在积极寻求能够从海量数据中挖掘价值的专业人才。“有人考过CDA数据分析师二级吗？”这个问题不仅反映了人们对提升自身数据技能的渴望，也折射出市场对高水平数据分析师的需求日益增长。今天，我们就来聊聊这个话题。二、CDA数据分析师二级概述（一）认证的重要性首先得明确，CDA数据分析师二级可不
Python数据分析第一课：Anaconda的安装使用二狗的编程之路 Python数据分析 python 数据分析开发语言
Python数据分析第一课：Anaconda的安装使用1.Anaconda是什么？Anaconda是一个便捷的获取包，并且对包和环境进行管理的虚拟环境工具,Anaconda包括了conda、Python在内的超过180多个包和依赖项简单来说，Anaconda是包管理器和环境管理器2.Anaconda从何而来？Anaconda包括了Python和conda，我们从这这两个部分来叙述PythonPyt
数据分析概念和总结小小少年Boy
参考：什么是数据分析？总结：决策=数据+分析数据分析的框架：明确分析目标、数据收集、数据清理、数据分析、数据报告、执行与反馈数据分析与数据挖掘，前者偏向于业务分析，后者偏向于数据库算法，借助数据来指导决策数据分析的框架1.首先是数据分析的目的性极强区别于数据挖掘的找关联、分类、聚类，数据分析更倾向于解决现实中的问题。我想解决什么问题？通过这次的分析能让我产生什么决策？比如是否在某个高校举办一场活动
深度评测：拼多多官方返利APP vs 其他返利平台，谁更胜一筹？日常购物技巧呀
购物新宠儿！拼多多官方返利APP，引领智能返利新时代。随着科技的不断发展智能化已经成为了各个领域的发展趋势。在返利领域也不例外拼多多官方返利app凭借其强大的智能技术和创新能力正引领着智能返利新时代。这款app通过大数据分析用户行为习惯精准推送符合用户需求的商品和优惠信息。让你在享受智能化服务的同时也能获得更加精准的返利回报。在繁多的返利app中，高省app凭借其独特的优势脱颖而出，成为众多用户的
朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事
“朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事”咱们先聊个现实点的：你刷朋友圈、微博、抖音的时候，有没有发现一些账号的点赞数、评论数特别整齐划一？要么都是那种无意义的“支持”“666”，要么一夜之间视频播放量暴涨，看着就不太对劲。其实，这背后很可能就是数据欺诈，而且这种现象在社交媒体上特别常见。作为一个做大数据分析的人，我最直观的感受就是：社交媒体上的数据从来不是完全干净的，里面水分多得很。如
【Python】pandas.cut()函数的用法
pandas.cut()函数是一个非常有用的工具，用于将数值型数据按照指定的分箱或区间进行分割，从而将连续的数值变量转换为离散的类别变量。这在数据分析和机器学习的特征工程中尤其有用，因为它可以帮助揭示不同区间内的数据分布特征，或者简化模型的输入。基本用法pandas.cut()的基本语法如下：pandas.cut(x,bins,right=True,labels=None,retbins=Fals
基于Python的酒店订单数据分析与可视化实战不若浮生一梦 python作业 python 数据分析开发语言
本文将通过一个酒店订单数据集，展示如何使用Python进行完整的数据分析流程，包括数据清洗、特征工程、探索性分析、可视化以及业务洞察，适合数据分析初学者或想通过项目提升数据思维的开发者。一、项目背景随着旅游业的迅速发展，酒店运营者越来越依赖数据分析来提升客户体验与优化收益管理。本项目基于某国际连锁酒店集团提供的真实订单数据，包含超过10万条记录，涵盖订单类型、顾客行为、取消情况等多个维度。目标是通
2025年最值得推荐的10款开源数据库管理工具全解析 ivwdcwso 运维与云原生开源数据库管理工具运维管理
在数据驱动的时代，数据库管理工具已成为开发者、数据分析师和运维工程师的必备利器。随着技术的快速发展，2025年的数据库管理工具市场涌现出许多强大而高效的开源解决方案。本文将为您详细介绍10款在2025年表现突出的开源数据库管理工具，帮助您选择最适合自己需求的工具。一、2025年数据库管理工具的新趋势在介绍具体工具前，让我们先了解2025年数据库管理工具的几个关键发展趋势：AI增强功能：越来越多的工
Python Pandas.cut函数解析与实战教程皓月照山川 pandas python pandas 开发语言
PythonPandas.cut函数解析与实战教程摘要pandas.cut是数据分析工具库Pandas中一个极其强大且常用的函数。它的核心功能是将连续的数值型数据根据指定的间断点（bins）进行分割，转换成离散化的区间类别（categoricaldata）。这种操作在数据预处理、特征工程和数据可视化中至关重要，例如，将用户的年龄分段、将考试分数评级、或将销售额划分为不同的等级。本文章将从基础用法到
实践篇：构建基于LLM与本地Pandas的混合式数据分析引擎超人阿亚 pandas 数据分析数据挖掘
公众号：dify实验室基于LLMOps平台-Dify的一站式学习平台。包含不限于：Dify工作流案例、DSL文件分享、模型接入、Dify交流讨论等各类资源分享。在上一篇《思路探索：当大型语言模型遇见数据分析的现实挑战》中，我们阐述了团队确立的技术路线：利用大型语言模型（LLM）作为自然语言到代码的“翻译器”，并结合PythonPandas库作为后端的高性能“计算核心”。本文将从工程实践的角度，详细
【tower】Rust tower库原理详解以及axum限流实战景天科技苑 Rust语言通关之路 rust 开发语言后端 tower rust tower axum限流
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Rust开发，Python全栈，Golang开发，云原生开发，PyQt5和Tkinter桌面开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django
数据赋能（335）——技术平台——技术赋能 lh1793 数据
概述技术赋能原则在数据赋能中占据核心地位。它确保了数据分析、处理和应用过程中的高效、准确和可靠，为业务决策提供了坚实的技术基础。原则定义数据技术赋能原则：在组织运营和业务决策中，以数据技术为核心，通过数据收集、分析、处理和应用，推动业务创新、优化运营和提升决策质量以下是数据技术赋能原则的具体分点表示：战略对齐：数据技术的应用应与组织的战略目标紧密对齐，确保技术投资能够直接支持业务增长和竞争优势的建
思路探索：当大型语言模型遇见数据分析的现实挑战
大家好，我是dify实验室的阿亚。近期，我们团队启动了一项旨在简化数据分析流程的探索性项目。我们的目标是构建一个能够通过自然语言进行交互的数据分析工具，让业务人员无需编写复杂的查询语句，仅通过提问即可获取数据洞察。然而，在将这一构想付诸实践的过程中，我们遇到了一系列预料之外的挑战。本文旨在记录我们的探索路径与思考沉淀。一、第一阶段探索：直接利用大模型进行数据分析项目初期，我们最直接的设想是利用大型
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D