coder learner

百度paddlepaddle《青春有你2》技术打卡五天学习总结与创意赛参加

1. 心得

这是我第一次参加百度打卡训练营，之前对python稍有一些了解，因为此前包括现在的研究生硕士阶段一直常用Matlab，但现今python同样作为主要编程软件，尤其在人工智能领域，我希望能多一份python方面的学习。
整个过程一周左右，我很喜欢训练营的学习氛围和形式，助教们在媒体平台进行直播、答疑、互动等，在AI Studio进行练习实践，遇到问题我们可以在微信讨论群里问津，在AI Studio讨论区畅所欲言，所有的模式都让我觉得很舒适，节奏不快不慢，每一天的学习都是循序渐进的，适合我这类有一些基础或者是没有基础的其他同学。

在学习之后，我联想到的自己海外好朋友poly，她是一个俄罗斯女孩，在中国留学期间去过一些中国的城市，但时光荏苒，去年她毕业回国了。通过图像处理技术，我们一起游玩了其他一些城市。快看看吧。

哪张图片是原图呢？你能猜出来吗？
Paddlehub帮助Poly去了更多的地方，比如故宫。
快来我的AI Studio主页，看看如何实现这些美妙的旅程吧。
https://aistudio.baidu.com/aistudio/projectdetail/457015

2. 五天的学习

对数据的提取，画图呈现是十分基本、重要的内容，python在这些方面有着极高的效率，我们通过爬取，提取青春有你选手的体重信息分布，并绘制饼状图，如：

也通过爬取某视频软件中青春有你某一期节目的评论热词云图，热词频率图等。

Day1-Python基础练习

深度学习离不开数学分析（高等数学）、线性代数、概率论等知识，更离不开以编程为核心的动手实践。

无论是在机器学习还是深度学习中，Python 已经成为主导性的编程语言。而且，现在许多主流的深度学习框架都提供Python接口，Python被用于数据预处理、定义网络模型、执行训练过程、数据可视化等

熟悉 Python 的基础语法，并掌握 NumPy，Pandas 及其他基础工具模块的使用对深度学习实践是非常重要的！

例如我们去查找特定名称文件遍历”Day1-homework”目录下文件；找到文件名包含“2020”的文件；将文件名保存到数组result中；按照序号、文件名分行打印输出。应当怎么做呢？

`#首先需要导入OS模块
import os
#待搜索的目录路径
path = "Day1-homework"
#待搜索的名称
filename = "2020"
#定义保存结果的数组
result = []

def findfiles():
    i = 1
    for root, dirs, files in os.walk(path):
        for iter_file in files:
            if iter_file.find(filename) !=-1:
                result.append(i)
                result.append(os.path.realpath(iter_file))
                print(result)
                i += 1
        result = []
    return 'done searching!'
    
if __name__ == '__main__':

Day2-《青春有你2》选手信息爬取

任务描述
本次实践使用Python来爬取百度百科中《青春有你2》所有参赛选手的信息。数据获取：https://baike.baidu.com/item/青春有你第二季

1.上网的全过程:普通用户:

打开浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 渲染到页面上。

爬虫程序:

模拟浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 提取有用的数据 --> 保存到本地/数据库。
爬虫的过程：1.发送请求（requests模块）

2.获取响应数据（服务器返回）

3.解析并提取数据（BeautifulSoup查找或者re正则）

4.保存数据

本实践中使用以下两个模块，首先对这两个模块简单了解以下：
request模块：requests是python实现的简单易用的HTTP库，官网地址：http://cn.python-requests.org/zh_CN/latest/

requests.get(url)可以发送一个http get请求，返回服务器响应内容。

BeautifulSoup库：BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。网址：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml，
BeautifulSoup(markup, “html.parser”)或者BeautifulSoup(markup, “lxml”)，推荐使用lxml作为解析器,因为效率更高。

import json
import re
import requests
import datetime
from bs4 import BeautifulSoup
import os

#获取当天的日期,并进行格式化,用于后面文件命名，格式:20200420
today = datetime.date.today().strftime('%Y%m%d')    
def crawl_wiki_data():
    """
    爬取百度百科中《青春有你2》中参赛选手信息，返回html
    """
    headers = { 
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    }
    url='https://baike.baidu.com/item/青春有你第二季'                         
    try:
        response = requests.get(url,headers=headers)
        print(response.status_code)
        #将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串
        soup = BeautifulSoup(response.text,'html.parser')     
        #返回的是class为table-view log-set-param的所有标签
        tables = soup.find_all('table',{'class':'table-view log-set-param'})
        crawl_table_title = "参赛学员"
        for table in  tables:           
            #对当前节点前面的标签和字符串进行查找
            table_titles = table.find_previous('div').find_all('h3')
            for title in table_titles:
                if(crawl_table_title in title):
                    return table       
    except Exception as e:
        print(e)
二、对爬取的页面数据进行解析，并保存为JSON文件
 def parse_wiki_data(table_html):
    '''
    从百度百科返回的html中解析得到选手信息，以当前日期作为文件名，存JSON文件,保存到work目录下
    '''
    bs = BeautifulSoup(str(table_html),'html.parser')
    all_trs = bs.find_all('tr')
    error_list = ['\'','\"']
    stars = []
    for tr in all_trs[1:]:
         all_tds = tr.find_all('td')
         star = {}
         print(all_tds)
         #姓名
         star["name"]=all_tds[0].text
         #个人百度百科链接
         star["link"]= 'https://baike.baidu.com' + all_tds[0].find('a').get('href')
         #籍贯
         star["zone"]=all_tds[1].text
         #星座
         star["constellation"]=all_tds[2].text
         #身高
         star["height"]=all_tds[3].text
         #体重
         star["weight"]= all_tds[4].text
         #花语,去除掉花语中的单引号或双引号
         flower_word = all_tds[5].text
         for c in flower_word:
             if  c in error_list:
                 flower_word=flower_word.replace(c,'')
         star["flower_word"]=flower_word   
         #公司
         if not all_tds[6].find('a') is  None:
             star["company"]= all_tds[6].find('a').text
         else:
             star["company"]= all_tds[6].text       
         stars.append(star)
    json_data = json.loads(str(stars).replace("\'","\""))   
    with open('work/' + today + '.json', 'w', encoding='UTF-8') as f:
        json.dump(json_data, f, ensure_ascii=False)
三、爬取每个选手的百度百科图片
 def crawl_pic_urls():
    '''
    爬取每个选手的百度百科图片，并保存
    ''' 
    with open('work/'+ today + '.json', 'r', encoding='UTF-8') as file:
         json_array = json.loads(file.read())
    headers = { 
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' 
     }
    for star in json_array:
        pic_urls = []
        pic_set = set()
        name = star['name']
        link = star['link']
        response = requests.get(link,headers=headers)
        print(response.status_code)
        #将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串
        soup = BeautifulSoup(response.text,'html.parser')
        #picture
        imgs_middle = soup.find_all('a',{'class':'image-link'})
        imgs_left = soup.find_all('div',{'class':'summary-pic'})
        imgs_url = []
        imgs= soup.find_all('a',{'class':'lemma-album'})
        #  这种方式获取全部图册 1052张
        # for item in imgs:
        #     imgResponse = requests.get("https://baike.baidu.com"+item['href'],headers=headers)
        #     imgSoup = BeautifulSoup(imgResponse.text,'html.parser') 
        #     imgs_a= imgSoup.find_all('a',{'class':'pic-item'})
        #     for a_item in imgs_a:
        #         if a_item.img['src'] not in pic_set:
        #             pic_set.add(a_item.img['src'])
        #             pic_urls.append(a_item.img['src'])
        # 这种方式获取词条图册 482张
        for item in imgs_left:
            imgResponse2 = requests.get("https://baike.baidu.com"+item.a['href'],headers=headers)
            imgSoup2 = BeautifulSoup(imgResponse2.text,'html.parser')
            imgs_a2= imgSoup2.find_all('a',{'class':'pic-item'})
            for a_item in imgs_a2:
                if a_item.img:
                    if a_item.img['src'] not in pic_set:
                        pic_set.add(a_item.img['src'])
                        pic_urls.append(a_item.img['src'])
        down_pic(name,pic_urls)
     def down_pic(name,pic_urls):
    '''
    根据图片链接列表pic_urls, 下载所有图片，保存在以name命名的文件夹中,
    '''
    path = 'work/'+'pics/'+name+'/'
    if not os.path.exists(path):
      os.makedirs(path)
    print("正在下载:%s" %(str(name)))
    for i, pic_url in enumerate(pic_urls):
        try:
            pic = requests.get(pic_url, timeout=15)
            string = str(i + 1) + '.jpg'
            with open(path+string, 'wb') as f:
                f.write(pic.content)
                print('成功下载第%s张图片: %s' % (str(i + 1), str(pic_url)))
        except Exception as e:
            print('下载第%s张图片时失败: %s' % (str(i + 1), str(pic_url)))
            print(e)
            continue
四、打印爬取的所有图片的路径
def show_pic_path(path):
    '''
    遍历所爬取的每张图片，并打印所有图片的绝对路径
    '''
    pic_num = 0
    for (dirpath,dirnames,filenames) in os.walk(path):
        for filename in filenames:
           pic_num += 1
           print("第%d张照片：%s" % (pic_num,os.path.join(dirpath,filename)))           
    print("共爬取《青春有你2》选手的%d照片" % pic_num)
    if __name__ == '__main__':
     #爬取百度百科中《青春有你2》中参赛选手信息，返回html
     html = crawl_wiki_data()
     #解析html,得到选手信息，保存为json文件
     parse_wiki_data(html)
     #从每个选手的百度百科页面上爬取图片,并保存
     crawl_pic_urls()
     #打印所爬取的选手图片路径
     show_pic_path('/home/aistudio/work/pics/')
     print("所有信息爬取完成！")
Day3-《青春有你2》选手数据分析
这次作业是选手籍贯、体重等可视化，在这里我绕了挺多弯，从网页上爬取的体重信息是含有单位，在数值比较之前需要去除体重的单位 “kg”。
import matplotlib.pyplot as plt
import numpy as np 
import json
import matplotlib.font_manager as font_manager
import pandas as pd

df = pd.read_json('data/data31557/20200422.json')

grouped=df['weight']

weight_kg=[]
for weight in grouped:
        weight_kg.append(weight)
a=0
b=0
c=0
d=0

for weight in weight_kg:
 weight=float(weight.replace('kg', ''))
    if weight > 55.0:
        a=a+1
    elif 55.0>= weight >=50.0:
        b=b+1
    elif 50.0> weight >45.0:
        c=c+1
    else:
        d=d+1
 
labels ='>55kg','50~55kg','45~50kg','<=45kg'
fraces = [a,b,c,d]
explode = [0,0,0.1,0]
plt.axes(aspect=1)
plt.pie(x=fraces,labels= labels,autopct='%0f%%',explode= explode,shadow=True)
plt.show()
Day4-PaddleHub之《青春有你2》作业：五人识别
图像分类是计算机视觉的重要领域，它的目标是将图像分类到预定义的标签。近期，许多研究者提出很多不同种类的神经网络，并且极大的提升了分类算法的性能。
#CPU环境启动请务必执行该指令
%set_env CPU_NUM=1 env: CPU_NUM=1
#安装paddlehub
!pip install paddlehub==1.6.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
Step1、基础工作加载数据文件导入python包
!unzip -o file.zip -d ./dataset/unzip:  cannot find or open file.zip, file.zip.zip or file.zip.ZIP.
import paddlehub as hub
Step2、加载预训练模型
接下来我们要在PaddleHub中选择合适的预训练模型来Finetune，由于是图像分类任务，因此我们使用经典的ResNet-50作为预训练模型。PaddleHub提供了丰富的图像分类预训练模型，包括了最新的神经网络架构搜索类的PNASNet，我们推荐您尝试不同的预训练模型来获得更好的性能。
Step3、数据准备接着需要加载图片数据集。
我们使用自定义的数据进行体验，请查看适配自定义数据
from paddlehub.dataset.base_cv_dataset import BaseCVDataset
   
class DemoDataset(BaseCVDataset):	
   def __init__ (self):	
       # 数据集存放位置
       self.dataset_dir = "."
       super(DemoDataset, self).__init__(
           base_path=self.dataset_dir,
           train_list_file="dataset/train_list.txt",
           validate_list_file="dataset/validate_list.txt",
           test_list_file="dataset/test_list.txt",
           label_list_file="dataset/label_list.txt",
           )
dataset = DemoDataset()
Step4、生成数据读取器
接着生成一个图像分类的reader，reader负责将dataset的数据进行预处理，接着以特定格式组织并输入给模型进行训练。当我们生成一个图像分类的reader时，需要指定输入图片的大小
data_reader = hub.reader.ImageClassificationReader(
    image_width=module.get_expected_image_width(),
    image_height=module.get_expected_image_height(),
    images_mean=module.get_pretrained_images_mean(),
    images_std=module.get_pretrained_images_std(),
    dataset=dataset)[2020-04-26 14:54:08,965] [    INFO] - Dataset label map = {'虞书欣': 0, '许佳琪': 1, '赵小棠': 2, '安崎': 3, '王承渲': 4}
Step5、配置策略
在进行Finetune前，我们可以设置一些运行时的配置，例如如下代码中的配置，表示：use_cuda：设置为False表示使用CPU进行训练。如果您本机支持GPU，且安装的是GPU版本的PaddlePaddle，我们建议您将这个选项设置为
 True；epoch：迭代轮数；
batch_size：每次训练的时候，给模型输入的每批数据大小为32，模型训练时能够并行处理批数据，因此batch_size越大，训练的效率越高，但是同时带来了内存的负荷，过大的batch_size可能导致内存不足而无法训练，因此选择一个合适的batch_size是很重要的一步；
log_interval：每隔10 step打印一次训练日志；
eval_interval：每隔50 step在验证集上进行一次性能评估；
checkpoint_dir：将训练的参数和数据保存到cv_finetune_turtorial_demo目录中；
strategy：使用DefaultFinetuneStrategy策略进行finetune；更多运行配置，请查看RunConfig同时PaddleHub提供了许多优化策略，如AdamWeightDecayStrategy、ULMFiTStrategy、DefaultFinetuneStrategy等。
config = hub.RunConfig(
    use_cuda=False,                              #是否使用GPU训练，默认为False；
    num_epoch=3,                                #Fine-tune的轮数；
    checkpoint_dir="cv_finetune_turtorial_demo",#模型checkpoint保存路径, 若用户没有指定，程序会自动生成；
    batch_size=3,                              #训练的批大小，如果使用GPU，请根据实际情况调整batch_size；
    eval_interval=10,                           #模型评估的间隔，默认每100个step评估一次验证集；
    strategy=hub.finetune.strategy.DefaultFinetuneStrategy())  #Fine-tune优化策略；
Step6、组建Finetune Task
有了合适的预训练模型和准备要迁移的数据集后，我们开始组建一个Task。由于该数据设置是一个二分类的任务，而我们下载的分类module是在ImageNet数据集上训练的千分类模型，所以我们需要对模型进行简单的微调，把模型改造为一个二分类模型：获取module的上下文环境，包括输入和输出的变量，以及Paddle Program；从输出变量中找到特征图提取层feature_map；在feature_map后面接入一个全连接层，生成Task；
input_dict, output_dict, program = module.context(trainable=True)
img = input_dict["image"]
feature_map = output_dict["feature_map"]
feed_list = [img.name]

task = hub.ImageClassifierTask(
    data_reader=data_reader,
    feed_list=feed_list,
    feature=feature_map,
    num_classes=dataset.num_labels,
    config=config)[2020-04-26 14:54:09,034] [    INFO] - 267 pretrained paramaters loaded by PaddleHub
Step7、开始Finetune
我们选择finetune_and_eval接口来进行模型训练，这个接口在finetune的过程中，会周期性的进行模型效果的评估，以便我们了解整个训练过程的性能变化。
Step8、预测当Finetune完成后，我们使用模型来进行预测，先通过以下命令来获取测试的图片
import numpy as np
import matplotlib.pyplot as plt 
import matplotlib.image as mpimg

with open("dataset/test_list.txt","r") as f:
    filepath = f.readlines()

data = [filepath[0].split(" ")[0],filepath[1].split(" ")[0],filepath[2].split(" ")[0],filepath[3].split(" ")[0],filepath[4].split(" ")[0]]

label_map = dataset.label_dict()
index = 0
run_states = task.predict(data=data)
results = [run_state.run_results for run_state in run_states]

for batch_result in results:
    print(batch_result)
    batch_result = np.argmax(batch_result, axis=2)[0]
    print(batch_result)
    for result in batch_result:
        index += 1
        result = label_map[result]
        print("input %i is %s, and the predict result is %s" %
              (index, data[index - 1], result))
Day5-综合大作业
第一步：爱奇艺《青春有你2》评论数据爬取(参考链接：https://www.iqiyi.com/v_19ryfkiv8w.html#curid=15068699100_9f9bab7e0d1e30c494622af777f4ba39)爬取任意一期正片视频下评论评论条数不少于1000条
第二步：词频统计并可视化展示数据预处理：清理清洗评论中特殊字符（如：@#￥%、emoji表情符）,清洗后结果存储为txt文档中文分词：添加新增词（如：青你、奥利给、冲鸭），去除停用词（如：哦、因此、不然、也好、但是）统计top10高频词可视化展示高频词
第三步：绘制词云根据词频生成词云可选项-添加背景图片，根据背景图片轮廓生成词云
第四步：结合PaddleHub，对评论进行内容审核
!pip install jieba
!pip install wordcloud
!ls /usr/share/fonts/
!fc-list :lang=zh | grep ".ttf"

!wget https://mydueros.cdn.bcebos.com/font/simhei.ttf # 下载中文字体
!mkdir .fonts
!cp simhei.ttf .fonts/

#安装模型
!hub install porn_detection_lstm==1.1.0
!pip install --upgrade paddlehub


from __future__ import print_function
import requests
import json
import re #正则匹配
import time #时间处理模块
import jieba #中文分词
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager as font_manager
from PIL import Image
from wordcloud import WordCloud  #绘制词云模块
import paddlehub as hub

#请求爱奇艺评论接口，返回response信息
def getMovieinfo(url):
    '''
    请求爱奇艺评论接口，返回response信息
    参数  url: 评论的url
    :return: response信息
    '''
    session=requests.Session()
    headers = { 
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
        "Accept":'application/json',
        "Referer":"https://www.iqiyi.com/v_19ryfkiv8w.html",
        "Origin":"http://m.iqiyi.com",
        "Host":"sns-comment.iqiyi.com",
        "Connection":"keep-alive",
        "Accept-Language":"zh-CN,zh;q=0.9",
        "Accept-Encoding":'gzip, deflate, br'
    }
    response=session.get(url,headers=headers)
    if response.status_code==200:
        return response.text
    return None

#解析json数据，获取评论
def saveMovieInfoToFile(lastId,arr):
    '''
    解析json数据，获取评论
    参数  lastId:最后一条评论ID  arr:存放文本的list
    :return: 新的lastId
    '''
    url='https://sns-comment.iqiyi.com/v3/comment/get_comments.action?agent_type=118&\
    agent_version=9.11.5&business_type=17&content_id=15068699100&\
    page=&page_size=10&types=time&last_id='
    url+=str(lastId)
    resTxt=getMovieinfo(url)
    resJson=json.loads(resTxt)
    comments=resJson['data']['commments']
    for val in comments:
        if "content" in val.keys():
            arr.append(val['content'])
        lastId=str(val['id'])
    return  lastId
#去除文本中特殊字符
def clear_special_char(content):
    '''
    正则处理特殊字符
    参数 content:原文本
    return: 清除后的文本
    '''
    s = re.sub(r"| |\t|\r", "", content)
    s=re.sub(r'\n',' ',s)
    s=re.sub(r'\*','\\*',s)
    s=re.sub(r'[^\u4e00-\u9fa5^a-z^A-Z^0-9]','',s)
    s=re.sub(r'[\001\002\003\004\005\006\007\x08\x09\x0a\x0b\x0c\x0d\x0e\x0f'    '\x10\x11\x12\x13\x14\x15\x16\x17x18\x19\x1a\x1b\x1c\x1d\x1e\x1f'    '\x20\x21\x22\x23\x24\x25\x26\x27\x28\x29\x2a\x2b\x2c\x2d\x2e\x2f'    '\x30\x31\x32\x33\x34\x35\x36\x37\x38\x39\x3a\x3b\x3c\x3d\x3e\x3f]','',s)
    s=re.sub(r'[a-zA-Z]','',s)
    s=re.sub('^d+(\.\d+)?$','',s)
    return sIn[8]def fenci(text):
    '''
    利用jieba进行分词
    参数 text:需要分词的句子或文本
    return：分词结果
    '''
    #jieba.load_userdict("words.txt")
    # import pdb; pdb.set_trace()
    seq=jieba.lcut(text,cut_all=False)
    return seq
def stopwordslist():
    '''
    创建停用词表
    参数 file_path:停用词文本路径
    return：停用词list
    '''
    stopwords = [line.strip() for line in open('work/stopwords.txt',encoding='ISO-8859-1').readlines()]
    acstopwords=['哦','因此','不然','也好','但是']
    stopwords.extend(acstopwords)
    return stopwordsIn[10]def movestopwords(sentense,stopwords,counts):
    '''
    去除停用词,统计词频
    参数 file_path:停用词文本路径 stopwords:停用词list counts: 词频统计结果
    return：None
    '''
    out=[]
    for word in sentense:
        if word not in stopwords:
            if len(word)!=1:
                counts[word]=counts.get(word,0)+1
    return None
def drawcounts(counts,num):
    '''
    绘制词频统计表
    参数 counts: 词频统计结果 num:绘制topN
    return：none
    '''
    x_aixs=[]
    y_aixs=[]
    c_order=sorted(counts.items(),key=lambda x:x[1],reverse=True)
    for c in c_order[:num]:
        x_aixs.append(c[0])
        y_aixs.append(c[1])
    matplotlib.rcParams['font.sans-serif'] = ['simhei'] # 指定默认字体
    #matplotlib.rcParams['axes.unicode_minus'] = False
    plt.bar(x_aixs,y_aixs)
    plt.title("词频统计结果")
    plt.show()
    return
]import sys
import os
import paddlehub as hub
 
#加载模型
humanseg = hub.Module(name = "deeplabv3p_xception65_humanseg")

 
#抠图
results = humanseg.segmentation(data = {"image":['work/beauty.jpg']})
 
for result in results:
    print(result['origin'])
    print(result['processed'])

def drawcloud(word_counts):
    '''
    根据词频绘制词云图
    参数 word_f:统计出的词频结果
    return：none
    '''
    # 词频展示
    # 关键一步
    font=r'simhei.ttf' 
    shape=np.array(Image.open('humanseg_output/beauty.png'))
    my_wordcloud = WordCloud(font_path=font,stopwords=stopwords,background_color='white',mask=shape,width=800,height=600,
                        max_words=200,max_font_size = 100,random_state=20).generate_from_frequencies(word_counts) 
    #显示生成的词云 
    plt.imshow(my_wordcloud)
    plt.axis("off") 
    plt.show() 
    my_wordcloud.to_file('pic.png')
    return


ef text_detection(text,file_path):
    '''
    使用hub对评论进行内容分析
    return：分析结果
    '''
    pdlstm=hub.Module(name='porn_detection_lstm')
    test_text=[]
    f = open("aqy.txt",'r',encoding='utf-8')
    for line in f:
        if len(line.strip())==1:
            continue
        test_text.append(line)
    f.close()
    input_dict={"text":test_text}
    results=pdlstm.detection(data=input_dict,use_gpu=True,batch_size=1)
    for index,item in enumerate(results):
        if item['porn_detection_key']=='porn':
            print(item['text'],':',item['porn_probs'])
    '''
    使用hub对评论进行内容分析
    return：分析结果
    '''
#评论是多分页的，得多次请求爱奇艺的评论接口才能获取多页评论,有些评论含有表情、特殊字符之类的
#num 是页数，一页10条评论，假如爬取1000条评论，设置num=100
if __name__ == "__main__":
    num=100
    lastId='0'
    arr=[]
    with open('aqy.txt','a',encoding='utf-8') as f:
        for i in range(num):
            lastId=saveMovieInfoToFile(lastId,arr)
            time.sleep(0.5)
        for item in arr:
            Item=clear_special_char(item)
            try:
                f.write(Item+'\n')
            except Exception as e:
                print(Item)
                print('含有特殊字符')
    print("共爬取评论:",len(arr))
共爬取评论: 997
f =open('aqy.txt','r',encoding='utf-8')
counts={}
for line in f:
    if line.strip():
        words=fenci(line)
        # print(words)
        # import pdb; pdb.set_trace()
        stopwords=stopwordslist()
        movestopwords(words,stopwords,counts)
f.close()

drawcounts(counts,10)

print(len(counts))


drawcloud(counts)


file_path='aqy.txt'
test_text=[]
text_detection(test_text,file_path)
 
display(Image.open('pic.png')) #显示生成的词云图像

                    
                        
                        
                             
                        
                        
                        
                            
                        
                        
                        
                            
                        
                    
                

        你可能感兴趣的:(百度paddlepaddle《青春有你2》技术打卡五天学习总结与创意赛参加)
        
            
                
                    x86-64汇编语言训练程序与实战
                        十除以十等于一

                        本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
                    
                    男士护肤品哪个牌子好？十大男士护肤品排行榜
                        高省APP珊珊

                        很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
                    
                    2022-10-20
                        体力劳动者

                        不因感觉稍纵即逝就不加记录。在女儿睡觉后我记下今天的小故事。接手新班级后，今天是第二次收到家长的感谢信（微信）。是我表扬次数最多的两位学生家长致来的感谢，他们明显感受到孩子自信、阳光了不少，写作业由被动变为了主动，家庭氛围也由鸡飞狗跳变成了其乐融融。在被顽皮的学生气得头晕之后，我感到了久违的价值感，责任感甚至使命感，我回复家长这样一句话：我们也需要家长的反馈好让我们的教育工作更有劲头。我也认识到，
                    
                    程翔授《评价一篇记叙文》
                        行吟斯基

                        桂林十一中高一2中学生自读程老师学生文章板书课题师巡看。看完举手。问：它是记叙文。不商量。独立打分。学生评价打分。师：高低都正常，不受干扰。师巡，略评。打完举手。调查：分层次举手——高分先举手。最低分。最高95分。最低45分。女：差距太大！师：同一篇，相差55分。若是你的文章，愿落谁手？男：身临其境感觉。师：你有此经历？没也没关系。女：不优美……，结尾无升华……无感悟……师：辞藻不美？(师追问)男
                    
                    《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单
                        windy天意晚晴

                        《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
                    
                    移动端城市区县二级联动选择功能实现包
                        good2know

                        本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
                    
                    日更006 终极训练营day3
                        懒cici

                        人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
                    
                    自律打卡第四天：比昨天进步一点点
                        花儿的念想

                        今天新闻我们县城又确诊了一例，截止目前已经确诊的三例了，打开，看了一篇简友写的武汉的真实情况，有病住不了院，还没等到床位已经去世的消息，心里更加的难受，武汉尚且这样，如果是我们这没有高速没有火车的十八线的小县城发生这种情况，那情况将是更加的不堪设想，不敢想，唯有祈求灾难早点快去，平安才是最大的福气。突然觉得我的自律打卡，比昨天进步一点点。更希望疫情战争每一天都要比昨天好一点，希望一觉醒来听到的是好
                    
                    9、汇编语言编程入门：从环境搭建到简单程序实现
                        神经网络酱
汇编语言MEPISGNU工具链
                        汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
                    
                    月光下的罪恶（5）
                        允歌玖沐

                        5.被孤立顾纨是转校过来的，进入学校后，回头率很高“诶诶诶，你看那女生，哪个系的？”“不知道没见过。”“看那样，一看就是个胆小的货。”顾纨当做没听到，更狠的话她都听过，更何况女生们耍心眼？“他爸爸是做黑生意的，估计女儿也不是什么好的，你以后离他一家子远点。”她走向自己要上课的教室，一进门，所有人的目光看向她，顾纨若无其事的走进教室，开始上课。下课，一群人站起来，但是很显然，她周围的一圈人都不愿意和
                    
                    day15｜前端框架学习和算法
                        universe_01
前端算法笔记
                        T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
                    
                    贝多芬诞辰250周年纪念
                        万千星河赴远方

                        就算不是古典音乐爱好者，你也一定听说过贝多芬。作为古典音乐史上最伟大的音乐家之一，他不仅是古典主义风格的集大成者，同时也是浪漫主义风格的开创者。贝多芬肖像画（1813年）贝多芬的一生共创作了9部交响曲、36首钢琴奏鸣曲、10部小提琴奏鸣曲、16首弦乐四重奏、1部歌剧及2部弥撒曲等等。数量虽然不及前辈海顿、莫扎特多，但他几乎改造了当时所有的音乐表达形式，赋予了它们全新的价值，对后世音乐的发展产生了极
                    
                    三件事—小白猫·雨天·八段锦
                        咸鱼月亮

                        1.最近楼下出现一只非常漂亮的粘人小白猫，看着不像是流浪猫，非常亲人。眼睛比蓝球的还大，而且是绿色的，很漂亮。第一次遇到它，它就跟我到电梯口，如果我稍微招招手，肯定就跟我进电梯了。后来我喂过它几次，好可惜不能养它，一只蓝球就是我的极限了。2.下雨天就心烦，好奇怪。明明以前我超爱看窗外的雨和听雨声，看来近来的心情不够宁静了。3.最近在练八段锦，从第一次就爱上了这个运动，很轻松缓慢，但是却出汗。感觉可
                    
                    25-1-2019
                        树藤与海岛呢

                        hello八月来报道了今天看到了一篇文章就只想记下那两句话：良田千顷不过一日三餐广夏万间只睡卧榻三尺大概的意思就是要珍惜当下不要等来不及的时候才珍惜分享今天的两餐最近没有时间运动呢下个月补回好了说完了哈哈goodnight图片发自App图片发自App
                    
                    《极简思维》第三部分
                        小洋苏兮

                        整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
                    
                    力扣热题100-------54. 螺旋矩阵
                        海航Java之路
力扣leetcode矩阵java
                        给你一个m行n列的矩阵matrix，请按照顺时针螺旋顺序，返回矩阵中的所有元素。示例1：输入：matrix=[[1,2,3],[4,5,6],[7,8,9]]输出：[1,2,3,6,9,8,7,4,5]示例2：输入：matrix=[[1,2,3,4],[5,6,7,8],[9,10,11,12]]输出：[1,2,3,4,8,12,11,10,9,5,6,7]提示：m==matrix.lengthn
                    
                    我不懂什么是爱，但我给你全部我拥有的
                        香尧

                        因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
                    
                    你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。
                        霖霖z

                        打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
                    
                    SpringMVC执行流程（原理），通俗易懂
                        国服冰
SpringMVCspringmvc
                        SpringMVC执行流程（原理），通俗易懂一、图解SpringMVC流程二、进一步理解Springmvc的执行流程1、导入依赖2、建立展示的视图3、web.xml4、spring配置文件springmvc-servlet5、Controller6、tomcat配置7、访问的url8、视图页面一、图解SpringMVC流程图为SpringMVC的一个较完整的流程图，实线表示SpringMVC框架提
                    
                    C++ 计数排序、归并排序、快速排序
                        每天搬一点点砖
c++数据结构算法
                        计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
                    
                    现在发挥你的优势
                        爱生活的佑嘉

                        来和我做咨询的一些朋友，涉及到定位的，都会说，我不知道我的优势是什么，你能不能帮我看看？还有一些朋友，喜欢做各种测试来了解自己，测试过后，然并卵。今天，我想来聊聊优势，如何能了解自己的优势是什么。首先，我们要知道，如果要成为“不一般”的人，我们所做的事情，就要基于自身的优势。我做管理者十多年，看到每个员工都有不同的特长，有的擅长数字，有的擅长人际，有的擅长写作。这些知道自己优势并且在这方面刻意练习
                    
                    2023-11-02
                        一帆f

                        发现浸润心田的感觉：今天一个机缘之下突然想分享我的婆媳关系，我一边分享一边回忆我之前和儿媳妇关系的微妙变化，特别是分享到我能感受到儿媳妇的各种美好，现在也能心平气和的和老公平等对话，看到自己看到老公，以己推人以人推己自然而然的换位思考，心中有一种美好的能量在涌动，一种浸润心田的感觉从心胸向全身扩散，美好极了……我很想记住这种感觉，赶紧把它写下来以留纪念，也就是当我看见他人的美好，美好的美妙的浸润心
                    
                    贫穷家庭的孩子考上985以后会怎样？
                        Mellisa蜜思言

                        我出生在一个贫穷的农村家庭，据我妈说，我出生的时候才4斤多，而她生完我以后月子里就瘦到70斤。家里一直很穷，父母都是在菜市场卖菜的，家里还有几亩地种庄稼的。我很小开始就要去帮忙，暑假的生活就是帮忙去卖菜和割稻谷，那时候自己对于割稻谷这种事情有着莫名的恐惧，生怕自己长大以后还是每年都要过着割稻谷这种日子。父母因为忙于生计无暇顾及我的学习，幸好我因为看到他们这样子的生活，内心里有深深的恐惧感，驱使着我
                    
                    48. 旋转图像 - 力扣（LeetCode）
                        Fiee-77
#数组leetcode算法python数据结构数组
                        题目：给定一个n×n的二维矩阵matrix表示一个图像。请你将图像顺时针旋转90度。你必须在原地旋转图像，这意味着你需要直接修改输入的二维矩阵。请不要使用另一个矩阵来旋转图像。示例1：输入：matrix=[[1,2,3],[4,5,6],[7,8,9]]输出：[[7,4,1],[8,5,2],[9,6,3]]示例2：输入：matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,
                    
                    日更50天有什么收益？
                        星湾二宝

                        坚持在平台上日更50天了，平台也为我生成了日更50天徽章，小开心一下这份坚持。日更50天徽章那坚持50天都有哪些收益呢？收益一，就是最直观的那些钻和贝，我这边确实不太高，但是这些贝足够支撑我保持会员的资格，能够在发文的时候帮助友友们去除广告，方便阅读。钻和贝收益二，文章的收获，日更50天，坚持写作3.7万文字，书写的文字也从开始的流水账/碎碎念逐渐加入自己的思考和观点。以前，一个念头会一晃而过，如
                    
                    别再讲道理啦，对方听不进去的
                        方所

                        我之前写过一篇叫做《你总妄想改变他人》，然后就有朋友跟我说，有一些方法可以改变他人之类的。嗯，是这样，但是任何具体的问题，都要限定好语境，描述清楚前提条件，然后再表达观点，我的这位朋友的说法就犯了一刀切的错误，这样并不能让讨论正常展开（这篇我得先给她看看，不然可能会挨揍）。好了，hhhh，谁让她不能写文章呢，我就来再说一说吧。我前面说过，我们在学到一个道理、学会一种方法之后，总是迫不及待地想要去与
                    
                    Git 与 GitHub 的对比与使用指南
                        一念&
其它gitgithub
                        Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
                    
                    英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
                        

                        英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
                    
                    Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程
                        倾听铃的声
后端springjavamvc开发语言分布式
                        前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
                    
                    ARM 和 AMD 架构的区别
                        m0_69576880
arm开发windows架构
                        ARM架构和AMD架构是两种不同的计算机处理器架构，它们有以下几个主要区别：设计出发点、兼容性、性能特点、市场定价。设计出发点：①ARM构架：ARM架构最初是为嵌入式系统设计的，旨在提供低功耗和高效能的解决方案。它主要应用于移动设备、嵌入式系统和物联网设备②AMD架构：AMD架构是基于x86架构的扩展，旨在提供与Intel架构兼容的处理器。它主要用于台式机、服务器和工作站等计算机系统。兼容性：AR
                    
                                书其实只有三类
                                    西蜀石兰
类
                                    一个人一辈子其实只读三种书，知识类、技能类、修心类。 
 
知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？ 
知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
                                
                                《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他
                                    bylijinnan
tcp
                                    《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。 
 
这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： 
http://pcvr.nl/tcpip/ 
 
下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 
 
1.
                                
                                Linux—— 静态IP跟动态IP设置
                                    eksliang
linuxIP
                                    一.在终端输入 
vi /etc/sysconfig/network-scripts/ifcfg-eth0 
静态ip模板如下： 
DEVICE="eth0"      #网卡名称
BOOTPROTO="static" #静态IP（必须）
HWADDR="00:0C:29:B5:65:CA" #网卡mac地址
IPV6INIT=&q
                                
                                Informatica update strategy transformation
                                    18289753290

                                    更新策略组件：   标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表   forward  rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
                                
                                使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态
                                    酷的飞上天空
request
                                    现象就是： 
程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。 
刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。 
经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 
连接地址如下http://twistedmatrix.
                                
                                利用预测分析技术来进行辅助医疗
                                    蓝儿唯美
医疗
                                    2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊 所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着 什么。  
克利夫兰诊所负责企业信息管理和分析的医疗
                                
                                java 线程(一)：基础篇
                                    DavidIsOK
java多线程线程
                                                                                            &nbs
                                
                                Tomcat服务器框架之Servlet开发分析
                                    aijuans
servlet
                                    最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析： 
 
疑问： 为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？ 
 
分析之我见： doGet方法的
                                
                                揭秘玖富的粉丝营销之谜 与小米粉丝社区类似
                                    aoyouzi
揭秘玖富的粉丝营销之谜
                                    玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。 
  
　　近日，一直坚持微信粉丝营销
                                
                                Java web的会话跟踪技术
                                    百合不是茶
url会话Cookie会话Seession会话Java Web隐藏域会话
                                    会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点 
  
会话:多次请求与响应的过程 
  
  
1,url地址传递参数,实现页面跟踪技术 
         格式:传一个参数的 
url?名=值  
    传两个参数的 
url?名=值 &名=值 
  
关键代码
                                
                                web.xml之Servlet配置
                                    bijian1013
javaweb.xmlServlet配置
                                    定义： 
<servlet>
  <servlet-name>myservlet</servlet-name>
  <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class>
  <init-param>
   <param-name>
                                
                                利用svnsync实现SVN同步备份
                                    sunjing
SVN同步E000022svnsync镜像
                                    1. 在备份SVN服务器上建立版本库 
   svnadmin create test 
2. 创建pre-revprop-change文件 
    cd test/hooks/ 
    cp pre-revprop-change.tmpl pre-revprop-change 
3. 修改pre-revprop-
                                
                                【分布式数据一致性三】MongoDB读写一致性
                                    bit1129
mongodb
                                    本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括： 
 
 数据一致性概述与CAP 
 最终一致性(Eventually Consistency) 
 网络分裂(Network Partition)问题 
 多数据中心(Multi Data Center) 
 多个写者(Multi Writer)最终一致性 
 一致性图表(Consistency Chart) 
 数据
                                
                                Anychart图表组件-Flash图转IMG普通图的方法
                                    白糖_
Flash
                                    问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。 
  
那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
                                
                                Window 80端口被占用 WHY?
                                    bozch
端口占用window
                                    平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？ 
   下面坐下总结： 
        1、web服务器是最经常见的占用80端口的，例如：tomcat , apache  , IIS , Php等等； 
        2
                                
                                编程之美-数组的最大值和最小值-分治法（两种形式）
                                    bylijinnan
编程之美
                                    

import java.util.Arrays;

public class MinMaxInArray {

	/**
	 * 编程之美 数组的最大值和最小值 分治法
	 * 两种形式
	 */
	public static void main(String[] args) {
		int[] t={11,23,34,4,6,7,8,1,2,23};
		int[] 
                                
                                Perl正则表达式
                                    chenbowen00
正则表达式perl
                                    首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是： 
 
 
 
匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m） 
 
 
 
替换：s/<pattern>;/<replacement>;/ 
 
 
 
转化：tr/<pattern>;/<replacemnt>;
                                
                                [宇宙与天文]行星议会是否具有本行星大气层以外的权力呢?
                                    comsci

                                     
 
      举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ 
 
   &
                                
                                Oracle Profile 使用详解
                                    daizj
oracleprofile资源限制
                                    Oracle Profile 使用详解 转 
一、目的： 
Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。 
 
二、条件： 
创建profile必须要有CREATE PROFIL
                                
                                How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis
                                    dengkane
elasticsearchLucene
                                    This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. 
HipChat started in an unusual space, one you might not 
                                
                                循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序
                                    dcj3sjt126com
c算法
                                    # include <stdio.h>

int main(void)
{
	int n;
	int i;
	int f1, f2, f3;

	f1 = 1;
	f2 = 1;

	printf("请输入您需要求的想的序列：");
	scanf("%d", &n);

	for (i=3; i<n; i
                                
                                macbook的lamp环境
                                    dcj3sjt126com
lamp
                                      
sudo vim /etc/apache2/httpd.conf 
  
/Library/WebServer/Documents 
是默认的网站根目录 
  
重启Mac上的Apache服务 
    
这个命令很早以前就查过了，但是每次使用的时候还是要在网上查： 
停止服务：sudo /usr/sbin/apachectl stop 
开启服务：s
                                
                                java ArrayList源码 下
                                    shuizhaosi888
ArrayList源码
                                    版本 jdk-7u71-windows-x64 
  
JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890    
  
	/**
	 * 从这个列表中移除所有c中包含元素
	 */
	public boolean removeAll(Collection<?> c) {
                                
                                Spring Security（08）——intercept-url配置
                                    234390216
Spring Securityintercept-url访问权限访问协议请求方法
                                    intercept-url配置 
目录 
1.1     指定拦截的url 
1.2     指定访问权限 
1.3     指定访问协议 
1.4     指定请求方法 
   

1.1   &n
                                
                                Linux环境下的oracle安装
                                    jayung
oracle
                                    linux系统下的oracle安装 
本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
                                
                                hotspot虚拟机
                                    leichenlei
javaHotSpotjvm虚拟机文档
                                    JVM参数  
http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html 
  
JVM工具 
http://docs.oracle.com/javase/6/docs/technotes/tools/index.html 
  
JVM垃圾回收 
http://www.oracle.com
                                
                                读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活”
                                    noaighost
Webnode.js
                                    读《Node.js项目实践：构建可扩展的Web应用》 
——引编程慢慢变成系统化的“砌砖活” 
眼里的Node.JS 
初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
                                
                                快速开发Android应用
                                    rensanning
android
                                    Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 
Android Libraries 和 
Android UI/UX Libraries。 
 
编码越少，Bug越少，效率自然会高。 
 
但可能由于 根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
                                
                                理解Java中的弱引用
                                    tomcat_oracle
java工作面试
                                    　不久之前，我 
面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。   　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
                                
                                标签输出html标签" target="_blank">关于标签输出html标签
                                    xshdch
jsp
                                    http://back-888888.iteye.com/blog/1181202 
 
 
关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， 
&nb
                                
                
            
        
    

    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    

    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.