varstr="name=1&age=2&school=high";vara1=str.split('&');varargs=newObject();for(vari=0;i
List<String> 去重排序
欣晟
streamlistjava算法
Stringarea="[\"1\",\"71\",\"81\",\"82\",\"1\",\"71\",\"81\",\"82\",\"5\",\"85\",\"541\",\"-1\"]";Stringdat=area.replaceAll("\\\"","");Listlist=Arrays.asList(dat.replaceAll("[\\[\\]]","").split(","));l
python小工具合集
Aronup
pythonexcel开发语言
小工具合集1.python切分excel2.python检查excel输出每列最大长度[目录下所有文件or目录下每个文件]1.python切分excel"""@Project:pythonProject@File:splitFile.py@IDE:PyCharm@Author:alice@Date:2025/3/2113:48"""importpandasaspdimportosdefsplit_
Windows 窗体应用(.NET Framework)全部控件大全
Ro小陌
C#Windowswindows.netc#
在.NETFramework的Windows窗体应用(WinForms)中,控件是构建用户界面的基础。以下是常见控件的分类及说明,涵盖官方控件和扩展方式:一、官方控件分类1.容器控件Panel:用于分组和布局其他控件,支持滚动条。GroupBox:带标题的容器,用于逻辑分组。TabControl:多标签页容器,切换不同内容区域。SplitContainer:可调整大小的分隔窗格,用于分栏布局。Fl
论文复现 Rank consistent ordinal regression for neural networks withapplication to age estimation
DeniuHe
Pytorch算法
importtorchimporttorch.nn.functionalasFfromtorchimportnnfromtorch.autogradimportVariableimportpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccurac
Pytorch实现目标检测
importosimportrandomimportpandasaspdimportnumpyasnpimportcv2fromsklearn.model_selectionimporttrain_test_splitimporttorchfromtorch.utils.dataimportDataset,DataLoaderimporttorch.nnasnnimporttorch.nn.fun
Python 代码库之URL字符串最后一项内容(含demo源码)
iCloudEnd
Python代码库之URL字符串最后一项内容(含demo源码)源码url="https://www.django.com/ai/weixin/python/reportlab.html"templist=url.split("/")templist[-1]运行效果In[14]:url="https://www.django.com/ai/weixin/python/reportlab.html".
Java 字符串 split 踩坑记
mghio
1.1split的坑前几天在公司对通过FTP方式上传的数据文件按照事先规定的格式进行解析后入库,代码的大概实现思路是这样的:先使用流进行文件读取,对文件的每一行数据解析封装成一个个对象,然后进行入库操作。本以为很简单的一个操作,然后写完代码后自己测试发现对文件的每一行进行字符串分割的时候存在问题,在这里做个简单的记录总结。在Java中使用split方法对字符串进行分割是经常使用的方法,经常在一些文
【无标题】
Auspemak-Derafru
python
我在处理一个和文件名有关的操作,由于我不确定文件名,为了防止违法字符,我需要对文件名进行合法性检查,并且剔除非法字符我写了这样的一个函数defformat_filename(filepath):dir,filename=os.path.split(filepath)invalid_chars_regex=r'[:"/\\|?*\x00-\x1F]'后不报错了
Linux 文件分割与合并
AntsCode(码蚁编程)
Linux技巧分享展示代码linuxbash
Linux文件分割与合并#Linux压缩文件分割及合并##1、压缩文件tar-czf./file.tar.gz./file/##2、分割文件split-b20M-d-a1./file.tar.gz./file.tar.gz.##3、合并文件cat./file.tar.gz.*>./file.tar.gz##4、解压文件tar-xzf./file.tar.gz#tar#-c,--create创建压缩
Codeforces Round 958 (Div. 2 ABCDE题) 视频讲解
阿史大杯茶
Codeforces算法c++数据结构
A.SplittheMultisetProblemStatementAmultisetisasetofnumbersinwhichtherecanbeequalelements,andtheorderofthenumbersdoesnotmatter.Forexample,{2,2,4}\{2,2,4\}{2,2,4}isamultiset.YouhaveamultisetSSS.Initiall
PTA-浙大版 《Python程序设计》 第二章编程题(1)WEEK2
Jurio.21
Pythonpython开发语言
目录1.产生每位数字相同的n位数2.转换函数使用3.比较大小4.求平方与倒数序列的近似和5.计算函数f(x)代码思路仅供参考,欢迎大家批评指正!1.产生每位数字相同的n位数读入2个正整数A和B,1<=A<=9,1<=B<=10,产生数字AA…A,一共B个Aa,b=input().split(",")a=a.strip
split() 函数在 Java、JavaScript 和 Python 区别
CATTLECODE
pythonjava
split()函数在Java、JavaScript和Python中均用于字符串分割,但在语法、参数设计和行为上存在显著差异。以下是三者的核心区别及使用示例:1.语法与参数设计语言语法参数说明JavaString.split(regex,limit)regex:必须为正则表达式(需转义特殊字符如.、`JavaScriptstr.split(separator,limit)separator:支持字符
uniapp打开导航软件并定位到目标位置的实现
界面架构师
uniappuni-app导航前端vue
/***打开导航*@paramlocation经纬度(例如:"117.214713,39.116884")*@paramaddress地址*/exportfunctionmapNavigation(location,address){constlocationArr=location.split(',')constlongitude=locationArr[0]constlatitude=loca
最新虚拟串口 Virtual Serial Port Driver V11.0.1068 已经汉化
中游鱼
虚拟串口汉化虚拟串口VSPD11.0.1047
最新虚拟串口VirtualSerialPortDriverV11.0.1068已经汉化1、简介1.1、项目技术分析1.2、项目及技术应用场景1.3、项目特点1.4、总结2、软件功能2.1、创建任意数量的虚拟串口对(pairs)2.2、回环(loopback)端口捆绑2.3、串口分割(Splitting)2.4、结合COM端口(Joining)2.5、创建捆绑连接(bundles)2.6、自动切换端
牛客-倒置字符串
小张0.0
OJ算法题题目心得算法leetcode动态规划
1.题目描述2.题目链接倒置字符串_牛客题霸_牛客网3.代码解答importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannerscanner=newScanner(System.in);Strings=scanner.nextLine();//按空格分割单词(处理多个连续空格的情况,split("
c++读取文件中图像信息并用opencv展示
送分童子笑嘻嘻
#include#include#include#include#include#include#include//usingnamespacestd;usingnamespacecv;//字符串分割函数,std::vectorsplit(std::stringstr,std::stringpattern){std::string::size_typepos;std::vectorresult;s
Spark RDD 之 Partition
博弈史密斯
SparkRDD怎么理解RDD的粗粒度模式?对比细粒度模式SparkRDD的task数量是由什么决定的?一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份,每份数据对应到RDD中的一个Partition,Partition的数量决定了task的数量,影响着程序的并行度支持保存点(checkpoint)虽然RDD可以通过lineage实现faultrecove
代码相关(python)
一个月只能修改一次次
代码python
python程序崩溃提示符用python的时候的各个tips矩阵python判断某个矩阵是否满足要求python生成二维随机数文件/档python检查某个文件存不存在python添加有特定字段的文件到列表python矩阵保存为txt文档python按行读文档python写文档python文档操作字符串python用split来拆分字符串python搜索字符串某个字符的位置给字符串前/后添加字符画图
【Python】LEGB作用域 + re模块 + 正则表达式
文章目录一LEGB作用域二re(RegularExpression)预览1.`re.match()`——从字符串开头匹配2.`re.search()`——搜索整个字符串3.`re.findall()`——返回所有匹配的字符串列表4.`re.finditer()`——返回所有匹配的迭代器5.`re.sub()`——替换匹配的字符串6.`re.split()`——按正则表达式分割字符串7.`re.co
「日拱一码」033 机器学习——严格划分
胖达不服输
「日拱一码」机器学习人工智能严格划分组划分
目录简单随机划分(train_test_split)分组划分(GroupSplitting)简单分组划分(GroupSplitting)分层分组划分(StratifiedGroupSplitting)交叉验证法(Cross-Validation)分组K折交叉验证(GroupKFold)留一组法(LeaveOneGroupOut)简单随机划分(train_test_split)简单随机分组通过随机分
GEE土地分类——利用landsat 8 和随机森林方法进行土地分类
此星光明
gee土地分类专栏前端gee机器学习土地分类随机森林Landsat土地利用
目录简介代码解释代码函数ee.Classifier.smileRandomForest(numberOfTrees,variablesPerSplit,minLeafPopulation,bagFraction,maxNodes,seed)Arguments:Returns:Classifier结果简介GEE土地分类——利用landsat8和随机森林方法进行土地分类代码解释这段代码是用Google
【机器学习【9】】评估算法:数据集划分与算法泛化能力评估
roman_日积跬步-终至千里
#机器学习机器学习
文章目录一、数据集划分:训练集与评估集二、K折交叉验证:提升评估可靠性1.基本原理1.1.K折交叉验证基本原理1.2.逻辑回归算法与L22.基于K折交叉验证L2算法三、弃一交叉验证(Leave-One-Out)1、基本原理2、代码实现四、ShuffleSplit交叉验证1、基本原理2、为什么能降低方差3、代码测试五、选择建议在机器学习中,评估算法的核心目标是衡量模型在“未知数据”上的表现,而不是仅
Vim多列操作指南
小米人儿
我的博客vim
我们在使用Vim时,经常需要同时编辑多个文件,或者同一个文件的不同部分。Vim提供了分割窗口(split)和垂直分割窗口(vsplit)的功能,允许我们在同一个Vim会话中查看多个缓冲区(buffer)。以下是关于拆分多列(垂直分割)、切换列、关闭列的操作方法:1.拆分窗口(垂直分割):在普通模式下,输入::vsplit[文件名]或:vsp[文件名]如果不指定文件名,则垂直分割当前文件。也可以使用
刘月林 | atom 分屏
刘月林Yuelin_MELB
方法一鼠标右键点击,出现如下图菜单imageSplitUp–在上方打开一个分屏SplitDown–在下方打开一个分屏SplitLeft–在左方打开一个分屏SplitRight–在右方打开一个分屏演示:imageimage方法二image其他操作同方法一,不与赘述刘月林写于浙江宁波2018/8/28
PythonDay01
这里写目录标题一、注释1、单行注释2、多行注释二、定义变量1、要求2、代码三、关键字四、print函数五、基本数据类型1、整型2、字符串类型3、小数类型4、布尔类型5、空类型六、类型之间的相互转换1、从字符串转成int类型2、字符串转换成浮点型3、float转换成int4、丢失精度时不会去做四舍五入5、布尔类型七、字符串的常见操作1、split切分2、strip去除字符串两边的隐藏字符3、字符串的
【JS三兄弟谁是谁】搞懂 splice、slice、split,只需一杯奶茶的时间!
dorabighead
前端八股总结javascript前端开发语言
JavaScript有三兄弟,经常一起“切人”。他们名字相似、功能相关,但性格迥异,常被搞混。今天,就带你喝着奶茶,笑着剖析,帮你彻底搞懂:splice、slice、split到底是谁?干了啥?凭啥这么火?一、三兄弟登场:不同对象,不同任务名称作用对象是否修改原对象返回类型功能简述splice数组✅是被删除元素数组原地删除元素并可插入新元素slice数组/字符串❌否副本(子集)复制选中部分,原体不
Flink DataStream API详解(二)
一、引言咱两书接上回,上一篇文章主要介绍了DataStreamAPI一些基本的使用,主要是针对单数据流的场景下,但是在实际的流处理场景中,常常需要对多个数据流进行合并、拆分等操作,以满足复杂的业务需求。Flink的DataStreamAPI提供了一系列强大的多流转换算子,如union、connect和split等,下面我们来详细了解一下它们的功能和用法。二、多流转换2.1union算子union算
【大模型与机器学习解惑】什么是A/B测试,为何进行A/B测试?
以下内容将围绕机器学习中的A/B测试展开,从概念与背景到实施细节、示例代码、优化思路和未来建议,并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试(也常被称作对照试验、SplitTest)最早多用于互联网产品的功能或界面迭代中,指的是将用户或样本随机分为两组
apache 安装linux windows
墙头上一根草
apacheinuxwindows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装,另外一种就是通过yum 安装,此中安装方式,需要物理机联网。以下分别介绍两种的安装方式
通过二进制文件安装Apache需要的软件有apr,apr-util,pcre
1,安装 apr 下载地址:htt
fill_parent、wrap_content和match_parent的区别
Cb123456
match_parentfill_parent
fill_parent、wrap_content和match_parent的区别:
1)fill_parent
设置一个构件的布局为fill_parent将强制性地使构件扩展,以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。
2) wrap_conte
网页自适应设计
天子之骄
htmlcss响应式设计页面自适应
网页自适应设计
网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起,更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小,需要设计几套css样式,用js脚本判断窗口大小,选择加载。结构臃肿,加载负担较大。现笔者经过一定时间的学习,有所心得,故分享于此,加强交流,共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql
一炮送你回车库
SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘
3213213333332132
javaimage
package awt;
import java.awt.Color;
import java.awt.Font;
import java.awt.Graphics;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import javax.imagei
自己的String动态数组
宝剑锋梅花香
java动态数组数组
数组还是好说,学过一两门编程语言的就知道,需要注意的是数组声明时需要把大小给它定下来,比如声明一个字符串类型的数组:String str[]=new String[10]; 但是问题就来了,每次都是大小确定的数组,我需要数组大小不固定随时变化怎么办呢? 动态数组就这样应运而生,龙哥给我们讲的是自己用代码写动态数组,并非用的ArrayList 看看字符
pinyin4j工具类
darkranger
.net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号:大中小
引入pinyin4j-2.5.0.jar包:
pinyin4j是一个功能强悍的汉语拼音工具包,主要是从汉语获取各种格式和需求的拼音,功能强悍,下面看看如何使用pinyin4j。
本人以前用AscII编码提取工具,效果不理想,现在用pinyin4j简单实现了一个。功能还不是很完美,
StarUML学习笔记----基本概念
aijuans
UML建模
介绍StarUML的基本概念,这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。
模型、视与图(Model, View and Diagram)
&
Activiti最终总结
avords
Activiti id 工作流
1、流程定义ID:ProcessDefinitionId,当定义一个流程就会产生。
2、流程实例ID:ProcessInstanceId,当开始一个具体的流程时就会产生,也就是不同的流程实例ID可能有相同的流程定义ID。
3、TaskId,每一个userTask都会有一个Id这个是存在于流程实例上的。
4、TaskDefinitionKey和(ActivityImpl activityId
从省市区多重级联想到的,react和jquery的差别
bee1314
jqueryUIreact
在我们的前端项目里经常会用到级联的select,比如省市区这样。通常这种级联大多是动态的。比如先加载了省,点击省加载市,点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。 针对这种场景,如果我们使用jquery来实现,要考虑很多的问题,数据部分,以及大量的dom操作。比如这个页面上显示了某个区,这时候我切换省,要把市重新初始化数据,然后区域的部分要从页面
Eclipse快捷键大全
bijian1013
javaeclipse快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记 函数
征客丶
JavaScript
一、函数的使用
1.1、定义函数变量
var vName = funcation(params){
}
1.2、函数的调用
函数变量的调用: vName(params);
函数定义时自发调用:(function(params){})(params);
1.3、函数中变量赋值
var a = 'a';
var ff
【Scala四】分析Spark源代码总结的Scala语法二
bit1129
scala
1. Some操作
在下面的代码中,使用了Some操作:if (self.partitioner == Some(partitioner)),那么Some(partitioner)表示什么含义?首先partitioner是方法combineByKey传入的变量,
Some的文档说明:
/** Class `Some[A]` represents existin
java 匿名内部类
BlueSkator
java匿名内部类
组合优先于继承
Java的匿名类,就是提供了一个快捷方便的手段,令继承关系可以方便地变成组合关系
继承只有一个时候才能用,当你要求子类的实例可以替代父类实例的位置时才可以用继承。
在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。
内部类不是很好理解,但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成,而内部类相
盗版win装在MAC有害发热,苹果的东西不值得买,win应该不用
ljy325
游戏applewindowsXPOS
Mac mini 型号: MC270CH-A RMB:5,688
Apple 对windows的产品支持不好,有以下问题:
1.装完了xp,发现机身很热虽然没有运行任何程序!貌似显卡跑游戏发热一样,按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响!
2.反观安装了Mac os的展示机,发热量很小,运行了1天温度也没有那么高
&nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder
bylijinnan
java设计模式
声明: 本文只为方便我个人查阅和理解,详细的分析以及源代码请移步 原作者的博客http://chjavach.iteye.com/
/**
* 生成器模式的意图在于将一个复杂的构建与其表示相分离,使得同样的构建过程可以创建不同的表示(GoF)
* 个人理解:
* 构建一个复杂的对象,对于创建者(Builder)来说,一是要有数据来源(rawData),二是要返回构
JIRA与SVN插件安装
chenyu19891124
SVNjira
JIRA安装好后提交代码并要显示在JIRA上,这得需要用SVN的插件才能看见开发人员提交的代码。
1.下载svn与jira插件安装包,解压后在安装包(atlassian-jira-subversion-plugin-0.10.1)
2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法
comsci
工作
对于搞工程和技术的朋友来讲,在工作中常常遇到一些实际问题,而采用常规的思维方式无法很好的解决这些问题,那么这个时候我们就需要用数学语言和数学工具,而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法,仅供学习和参考
函数思想
把某一数学问题用函数表示出来,并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型
daizj
oracle集合typepl/sql
--集合类型
/*
单行单列的数据,使用标量变量
单行多列数据,使用记录
单列多行数据,使用集合(。。。)
*集合:类似于数组也就是。pl/sql集合类型包括索引表(pl/sql table)、嵌套表(Nested Table)、变长数组(VARRAY)等
*/
/*
--集合方法
&n
[Ofbiz]ofbiz初用
dinguangx
电商ofbiz
从github下载最新的ofbiz(截止2015-7-13),从源码进行ofbiz的试用
1. 加载测试库
ofbiz内置derby,通过下面的命令初始化测试库
./ant load-demo (与load-seed有一些区别)
2. 启动内置tomcat
./ant start
或
./startofbiz.sh
或
java -jar ofbiz.jar
&
结构体中最后一个元素是长度为0的数组
dcj3sjt126com
cgcc
在Linux源代码中,有很多的结构体最后都定义了一个元素个数为0个的数组,如/usr/include/linux/if_pppox.h中有这样一个结构体: struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖
dcj3sjt126com
linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest,即使加了-f也是不能强行覆盖的,这时怎么回事的呢?一两个文件还好说,就输几个yes吧,但是要是n多文件怎么办,那还不输死人呢?下面提供三种解决办法。 方法一
我们输入alias命令,看看系统给cp起了一个什么别名。
[root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld
frank1234
memcached
一、简介
高性能的架构离不开缓存,分布式缓存中的佼佼者当属memcached,它通过客户端将不同的key hash到不同的memcached服务器中,而获取的时候也到相同的服务器中获取,由于不需要做集群同步,也就省去了集群间同步的开销和延迟,所以它相对于ehcache等缓存来说能更好的支持分布式应用,具有更强的横向伸缩能力。
二、客户端
选择一个memcached客户端,我这里用的是memc
Search in Rotated Sorted Array II
hcx2013
search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed?
Would this affect the run-time complexity? How and why?
Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API
jinnianshilongnian
spring4generic type
Spring4新特性——泛型限定式依赖注入
Spring4新特性——核心容器的其他改进
Spring4新特性——Web开发的增强
Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC
Spring4新特性——Groovy Bean定义DSL
Spring4新特性——更好的Java泛型操作API
Spring4新
CentOS安装JDK
liuxingguome
centos
1、行卸载原来的:
[root@localhost opt]# rpm -qa | grep java
tzdata-java-2014g-1.el6.noarch
java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64
java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64
[root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素
OpenMind
二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。
用数学语言描述如下:p满足
(1),对任意的x1,x2,y,如果x1<x2,则p(x1,y)<p(x2,y);
(2),对任意的x,y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2);
2,问题:
给定满足1的数组p和一个整数k,求是否存在x0,y0使得p(x0,y0)=k?
3,算法分析:
(
java 随机数 Math与Random
SaraWon
javaMathRandom
今天需要在程序中产生随机数,知道有两种方法可以使用,但是使用Math和Random的区别还不是特别清楚,看到一篇文章是关于的,觉得写的还挺不错的,原文地址是
http://www.oschina.net/question/157182_45274?sort=default&p=1#answers
产生1到10之间的随机数的两种实现方式:
//Math
Math.roun
oracle创建表空间
tugn
oracle
create temporary tablespace TXSJ_TEMP
tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf'
size 32m
autoextend on
next 32m maxsize 2048m
extent m
使用Java8实现自己的个性化搜索引擎
yangshangchuan
javasuperword搜索引擎java8全文检索
需要对249本软件著作实现句子级别全文检索,这些著作均为PDF文件,不使用现有的框架如lucene,自己实现的方法如下:
1、从PDF文件中提取文本,这里的重点是如何最大可能地还原文本。提取之后的文本,一个句子一行保存为文本文件。
2、将所有文本文件合并为一个单一的文本文件,这样,每一个句子就有一个唯一行号。
3、对每一行文本进行分词,建立倒排表,倒排表的格式为:词=包含该词的总行数N=行号