Spark-再次分析Apache访问日志

分析日志的包

自己编译下:

sbt compile
sbt test
sbt package
ApacheLogParser.jar

对于访问日志简单分析grep等利器比较好,但是更复杂的查询就需要Spark了。

代码:

import com.alvinalexander.accesslogparser._
val p = new AccessLogParser
val log = sc.textFile("log.small")
//log.count
//分析Apache日志中404有多少个
def getStatusCode(line: Option[AccessLogRecord]) = {
  line match {
    case Some(l) => l.httpStatusCode
    case None => "0"
  }
}
log.

你可能感兴趣的:(大数据框架,spark/hadoop学习)