关于HTML解析 For IOS

最近公司有一个需求,需要从某网页上获取一些数据传给后台。那就是通过固定网址下载html网页源代码,然后解析。

我先说下解析的库是Ono,他的作者是mattt,也是AFNetworking的贡献者。

Ono非常小,如果是不用CocoaPods添加的话也只需加入ONOXMLDocument.h和ONOXMLDocument.m两个文件就好了,不过还要导入libxml2系统自带的库,在Build Setting-Header Search Paths中加入 "/usr/include/libxml2"路径。(后有截图)

当然如果使用CocoaPods的话就:
pod 'Ono'

Ono库可以单独使用也可以配合AFNetworking一起用。

解析完整过程

这里的url是中国商品信息服务平台的查询接口。

首先获取html:

NSString *urlstring = [NSString stringWithFormat:@"http://search.anccnet.com/searchResult2.aspx?keyword=%@",string];
NSData *data = [NSData dataWithContentsOfURL:[NSURL URLWithString:urlstring] options:CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000) error:nil];

url中的string是商品条形码的数字(当然也可以是商品名)。
CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000) 这是网页的编码格式,一般中国网站的编码格式都是gb2312,当然这也能在html头信息中看到(下面会讲到)。

具体内容你可以用chrome、firefox等浏览器打开看下源代码。你也可以用:

NSString *appConnect = [NSString stringWithContentsOfURL:[NSURL URLWithString:urlstring] encoding:CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000) error:nil];

然后输出字符串查看具体内容。因为内容较多,我就把需要中到的内容展示出来(不需要的内容我删掉了):





    
    
    
  1. ![](/img/empty_90-90.8.png)

    商标:
    惠松
    发布厂家:
    浙江惠松制药有限公司
    商品条码:
    06949322340125
    名称:
    复方鱼腥草合剂
    规格型号:
    10ML12凭
    描述:

html的内容我就不解释了,可以在w3school 中查看。
可以看到头部中有显示是gb2312编码格式。我要获取到的就是其中商品的一些信息(包括商品条码、名称、规格型号、描述、商标和发布厂商)。

下面是解析的代码:

ONOXMLDocument *document = [ONOXMLDocument HTMLDocumentWithData:data error:nil];
HTMLMedicine *medicine = [[HTMLMedicine alloc] init];
NSString *xpath = @"//body/form/div[@class='wrap']/div[@class='bodyer']/div[@class='mainly']/div[@id='outter']/ol[@id='results']/li[1]/div[@class='result']";
[document enumerateElementsWithXPath:xpath usingBlock:^(ONOXMLElement *element, NSUInteger idx, BOOL *stop) {
        NSLog(@"%@: %@", element.tag, element.attributes);
        
        for (ONOXMLElement *celement in element.children) {
            
            //商家和发布厂家
            if ([celement.tag isEqualToString:@"dl"] && [celement.attributes[@"class"] isEqualToString:@"p-supplier"]) {
                NSInteger i = 0;
                for (ONOXMLElement *ccelement in celement.children) {
                    if ([ccelement.tag isEqualToString:@"dd"] && i == 0) {
                        medicine.brand = [ccelement stringValue];
                        i++;
                    }
                    else if ([ccelement.tag isEqualToString:@"dd"] && i == 1) {
                        medicine.manufacturer = [[ccelement stringValue] stringByTrimmingCharactersInSet:[NSCharacterSet whitespaceAndNewlineCharacterSet]];
                    }
                    
                }
            }
            
            //商品条码、名称、规格型号、描述
            if ([celement.tag isEqualToString:@"dl"] && [celement.attributes[@"class"] isEqualToString:@"p-info"]) {
                NSInteger i = 0;
                for (ONOXMLElement *ccelement in celement.children) {
                    if ([ccelement.tag isEqualToString:@"dd"] && i == 0) {
                        medicine.code = [ccelement stringValue];
                        i++;
                    }
                    else if ([ccelement.tag isEqualToString:@"dd"] && i == 1) {
                        medicine.name = [ccelement stringValue];
                        i++;
                    }
                    else if ([ccelement.tag isEqualToString:@"dd"] && i == 2) {
                        medicine.specificagionmodel = [ccelement stringValue];
                        i++;
                    }
                    else if ([ccelement.tag isEqualToString:@"dd"] && i == 3) {
                        medicine.descriptions = [ccelement stringValue];
                    }
                }
            }
        }
        NSLog(@"%@",medicine);
    }];

首先把NSData转成ONOXMLDocument,然后定位到你需要的信息位置(用xpath),定位到后得到相应的ONOXMLElement,其中的tag表示节点是什么,attributes是节点中的内容,其它属性可以自己查看Ono。

具体的解析我就不讲了,这里我建了个HTMLMedicine的模型存储,包含以下属性:

@property (nonatomic, strong) NSString *code;                 //商品条码
@property (nonatomic, strong) NSString *name;                 //名称
@property (nonatomic, strong) NSString *specificagionmodel;   //规格型号
@property (nonatomic, strong) NSString *descriptions;         //描述
@property (nonatomic, strong) NSString *brand;                //商标
@property (nonatomic, strong) NSString *manufacturer;         //发布厂商

如果你的项目有集成AFNetworking这里也有个便捷的使用方式。

最后是Ono手动集成配置的截图,感谢阅读:)


关于HTML解析 For IOS_第1张图片
libxml2添加

关于HTML解析 For IOS_第2张图片
Header Search Paths添加路径

你可能感兴趣的:(关于HTML解析 For IOS)