搜客天下网络信息采集器高级用法:虎客语言1

        搜客天下网络信息采集器的规则底层使用的是虎客公司自己研发的虎客语言所创建的,它的使用方法和windowsAPI的使用方法比较相似,只需要调用相应的函数,便能实现相应的功能。
        那么,我们首先要理解虎客语言的语法,它的表达方式和普通编程语言的便达方式比较相似,比如字符串连接的函数的声明方式是:BaseFunction<string>:ConcatString("字符串1","字符串2"); 其中BaseFunction是所有的函数标记,任何一个虎客语言的函数都是以这个标记作为开始,<string>指的是函数的返回类型,这里指的是返回的类型是字符串类型,ConcatString是要调用的函数名称,括号里面表示的是函数所接收的参数。需要注意的是,虎客语言是严格区分大小写的。
         我们明白了虎客语言的简单语法之后,我们该如何去使用它呢?
         

如图所示,我们只需要在规则中设置Url动态执行,或者Post动态执行,那么程序会自动将您在基础网址中的文本当作虎客语言并在适当的时候进行执行。
         虎客语言主要用在什么地方呢?有的时候,我们抓取到的信息需要在抓取过程中进行处理才能符合我们的需求,这个时候虎客语言就可以很轻松满足您。比如网页上能提供的信息是数字10,可是得到的Url中AllItem=150中的150是页数乘以15,而网页上只能得到页数,那么我们就可以运用虎客语言很轻松的实现这一逻辑。

         其中<1>是Url分析中的第一个匹配规则匹配出的数据,也就是我们能得到的页数。

Var < string > :url(BaseFunction < string > :ConcatString( " http://soft.sokezone.com/SoftTest/test.aspx?type1=<1>&type2=<2>&page=<0,1,<3>,1,1> " , "\r\n" ));
BaseFunction < void > :WriteFile( " c:\\a.txt " ,MemberField:url);
Var
< string > :url();

         这段逻辑的意思是将当前生成的URL血入到一个文件中,这样随着抓取的进行,URL就会被记录下来,我们可以使用记录下来的URL列表将资源下载下来。
         就是这么简单,在接下来的文章里,我们将逐步帮您慢慢的理解并学习虎客语言的使用方法和技巧,便于您更好的组建您的抓取规则,谢谢。

         搜客天下网络信息采集器 

你可能感兴趣的:(信息采集)