发布了一个基于Javascript的html内容提取器

阅读更多

Javascript Html Extractor v0.0.1

当前的版本是 v0.0.1。

项目地址:http://code.google.com/p/javascripthtmlextractor/

 

该内容提取器主要用于快速提取指定的html字符串中的指定内容。

如有发现问题或有建议,请留言,谢谢。

 

 

先看示例:

示例一:"

div1

".jhe_im("div") 返回:["

div1

"] 示例二:"
div1
".jhe_ma("div", "id") 返回: ["attr_div1"] 示例三:"

div1

".jhe_mt("div") 返回: ["div1"] 示例四:"
div1
div2
".jhe_om("div") 返回: ["
div2
", "
div2
"] 示例五:"
div1
div2 content
".jhe_im("div", "@id=div2") 返回: 'div2 content' 示例六:"

div1

div2

".jhe_im("div", "p") 返回:["div1", "div2"] 示例七:"

div1

div2

".jhe_im("div", ">p") 返回: ["div1"] 示例八:"

11

div2
".jhe_im("^div") 返回: [] 示例九:"
div2

11

".jhe_im("^div") 返回: ["div2"]

更多的示例可以看代码中的单元测试文件。


方法说明:

  1. jhe_im(匹配参数..)
  2. 该方法返回符合匹配参数的标签内的所有内容,返回值类型是数组。
  3. jhe_om(匹配参数..)
  4. 该方法返回符合匹配参数标签及其标签内的所有内容,返回值类型是数组。
  5. jhe_ma(匹配参数.., 属性名)
  6. 该方法返回符合匹配参数标签的指定属性的属性值,返回值类型是数组。
  7. jhe_mt(匹配参数..)
  8. 该方法返回符合匹配参数的标签下的所有文本内容, 返回值类型是数组。
  9. 关于匹配参数,匹配参数是个不定长的参数,他可以为以下内容

    html标签: 如 'div', 'a'...,表示为需要匹配的标签名称
属性表达式: @attributeName=attributeValue, 如 '@class=red', '@id=container',表示需要匹配的标签的属性必须符合指定条件
属性表达式: @@attributeName=attributeValue, 如 '@@class=\\w', '@id=[1-9]*',表示需要匹配的标签的属性必须符合指定的正则式条件
^+html标签:,表示当前html字符串的第一个标签
>+html标签 ,表示紧接前一标签的下一标签

你可能感兴趣的:(HTML,JavaScript,正则表达式,单元测试,Google)