E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
tokenize
Hadoop2.7.1-WordCount Demo
阅读更多packagemytest.hadoop.mr1;importjava.io.IOException;importjava.util.String
Tokenize
r;importorg.apache.hadoop.conf.Configuration
jsjrjz08
·
2015-10-12 13:00
MR
Hadoop
WordCount
Hadoop2.7.1-WordCount Demo
packagemytest.hadoop.mr1; importjava.io.IOException; importjava.util.String
Tokenize
r; importorg.apache.hadoop.conf.Configuration
jsjrjz08
·
2015-10-12 13:00
hadoop
wordcount
mr
poco框架库Foundtion部分:字符串处理
常用的例子如下:(源码来自网络)一字符串分割#include "Poco/String
Tokenize
r.h" #i
Qlinux
·
2015-10-12 11:32
C++
字符串处理
POCO
poco框架库Foundtion部分:字符串处理
常用的例子如下:(源码来自网络)一字符串分割#include "Poco/String
Tokenize
r.h" #i
Qlinux
·
2015-10-12 11:32
C++
字符串处理
POCO
MapReduce之单词(字母)个数的统计
packagecom.hadoop.study;importjava.io.IOException;importjava.util.String
Tokenize
r;importorg.apache.hadoop.conf.Configuration
qq_21178933
·
2015-10-06 15:00
mapreduce
hadoop
Java的字符串分割的不同实现
一个是从jdk1.1就开始的String
Tokenize
r类,另一个是调用split方法进行分割。
Marksinoberg
·
2015-10-06 10:00
java
字符串
字符串分割
Java中的String
Tokenize
r类的使用方法
String
Tokenize
r是字符串分隔解析类型,属于:java.util包。
断剑残缺
·
2015-09-29 23:00
java
StringTokenizer
Python自然语言处理(一)--利用NLTK自带方法完成NLP基本任务
NLTK安装教程:www.pythontip.com/blog/post/10011/下面介绍如何利用NLTK快速完成NLP基本任务一、NLTK进行分词用到的函数:nltk.sent_
tokenize
(
海涛anywn
·
2015-09-29 11:04
nlp
python
自然语言处理
Python自然语言处理(一)--利用NLTK自带方法完成NLP基本任务
NLTK安装教程:www.pythontip.com/blog/post/10011/ 下面介绍如何利用NLTK快速完成NLP基本任务一、NLTK进行分词用到的函数:nltk.sent_
tokenize
lihaitao000
·
2015-09-29 11:00
python
NLP
elasticsearch中的mapping简介
MappingMappingistheprocessofdefininghowadocumentshouldbemappedtotheSearchEngine,includingitssearchablecharacteristicssuchaswhichfieldsaresearchableandif/howtheyare
tokenize
d.InElasticsearch
凯文加内特
·
2015-09-28 11:00
学习日志---初次接触mapreduce
wordcount程序package org.robby.mr; import java.io.IOException; import java.util.String
Tokenize
r; import
wukong0716
·
2015-09-24 11:02
hadoop
Java获取客户端代码大全
阅读更多Stringagent=request.getHeader("user-agent");System.out.println(agent);String
Tokenize
rst=newString
Tokenize
r
xiaoyu123456
·
2015-09-23 15:00
java
浏览器
scheme
servlet
脚本
Java获取客户端代码大全
阅读更多Stringagent=request.getHeader("user-agent");System.out.println(agent);String
Tokenize
rst=newString
Tokenize
r
xiaoyu123456
·
2015-09-23 15:00
java
浏览器
scheme
servlet
脚本
Java获取客户端代码大全
Stringagent=request.getHeader("user-agent");System.out.println(agent);String
Tokenize
rst=newString
Tokenize
r
xiaoyu123456
·
2015-09-23 15:00
java
浏览器
servlet
Scheme
脚本
String
Tokenize
r类的使用 .
String
Tokenize
r是一个用来分隔String的应用类,相当于VB的split函数。
413620659
·
2015-09-23 10:59
public
而且
String
Tokenize
r类的使用 .
String
Tokenize
r是一个用来分隔String的应用类,相当于VB的split函数。
413620659
·
2015-09-23 10:59
public
而且
MapReduce——wordcount
packagehadoop.examples; importjava.io.IOException; importjava.util.String
Tokenize
r; importorg.apache.hadoop.conf.Configuration
mmc2015
·
2015-09-18 10:00
mapreduce
wordcount
hadoop mr优化
但是之前可以尝试使用combiner来压缩数据看是否能解决问题3,Map阶段不使用正则表达式4,split使用StringUtils,据测试性能远高于(String,Scanner,String
Tokenize
r
osenlin
·
2015-09-01 00:00
Solr 关于Analyzer、
Tokenize
r、和Filter,以及中文分词器
这些工作,一般由Analyzers、
Tokenize
rs、和Filter来实现。这三个东东配置在fieldType中。
ClementAD
·
2015-08-19 20:00
filter
Solr
中文分词
tokenizer
analizer
python的nltk中文使用和学习资料汇总帮你入门提高
原文地址:http://blog.csdn.net/huyoo/article/details/12188573作者:糊糊nltk是一个python工具包,用来处理和自然语言处理相关的东西.包括分词(
tokenize
糊糊
·
2015-08-12 20:00
自然语言处理
NLTK
IK 分词器 2012 FF 版本取消了 org.wltea.analyzer.solr.IK
Tokenize
rFactory 类【导致只能使用ik分词器来进行分词,无法使用solr自带的其它过滤方式
qb.doudang.com/doc-view-910.html看到ik分词器支持solr4.0,于是下载了试用,结果发现IK分词器2012FF版本取消了org.wltea.analyzer.solr.IK
Tokenize
rFactory
buster2014
·
2015-08-12 15:00
javaweb,通过request获取访问者的操作系统以及浏览器信息
quot;user-agent")获取客户端浏览器和操作系统信息 String Agent = request.getHeader("User-Agent"); String
Tokenize
r
zzp1994114
·
2015-08-12 01:00
request
android学习笔记NO.3
3.设置分隔符MacTextView.set
Tokenize
r(newMultiAutoCompleteTextVi
itcoder-9527
·
2015-08-11 21:38
android
Java学习笔记(七) Enumertation接口的理解和使用和String
Tokenize
r的使用
Enumeration接口接口中的函数函数名称函数的作用hasMoreElements()检查当前集合中还有没有下一个元素nextElement()获得集合中的下一个元素如果当前集合中已经没有元素,那么会返回NoSuchElementException异常。一般情况下利用Enumeration接口来遍历采取下面的格式:Enumerationenum=...; while(enum.hasMoreE
qq_24451605
·
2015-07-29 22:00
java
Collection
Linkedin Interview - Shortest distance between two words
/* This class will be given a list of words (such as might be
tokenize
d * from a paragraph
yuanhsh
·
2015-07-26 14:00
interview
Hadoop例子中WordCount参数分析
packageorg.apache.hadoop.examples;importjava.io.IOException;importjava.util.String
Tokenize
r;importorg.apache.hadoop.conf.Configuration
chencheng192
·
2015-07-22 11:11
hadoop
Hadoop例子中WordCount参数分析
packageorg.apache.hadoop.examples;importjava.io.IOException;importjava.util.String
Tokenize
r;importorg.apache.hadoop.conf.Configuration
chencheng192
·
2015-07-22 11:11
hadoop
Hadoop的第一个程序 wordcount
wordcount packagecom.songguoliang.hadoop.chapter05; importjava.io.IOException; importjava.util.String
Tokenize
r
gnail_oug
·
2015-07-19 21:00
hadoop
wordcount
Java.io.Stream
Tokenize
r的使用小结
Stream
Tokenize
rdoublenavl——>如果当前标记是一个数字,则此字段将包含该数字的值。
aksdrxzd
·
2015-07-14 19:03
code
学习笔记01--在MR中优化用户的代码
在MR中优化用户的代码1:尽量减少正则表达式的使用2:String标记:测试标明:StringUtils.split 性能优于String
Tokenize
r优于String.split优于Scanner
nysyxxg
·
2015-07-08 10:00
文本建模常用的预处理方法
以MeTa代码为例:[[analyzers]] method="ngram-word" ngram=1 [[analyzers.filter]] type="whitespace-
tokenize
r"
mmc2015
·
2015-07-02 19:00
数据挖掘
机器学习
特征预处理
文本建模
ik扩展支持Solr配置
扩展ik原生代码:publicclassIKAnalyzer
Tokenize
rFactoryextends
Tokenize
rFactory{privatebooleanuseSmart;publicbooleanuseSmart
李克华
·
2015-06-29 17:00
ik扩展支持Solr配置
扩展ik原生代码:public class IKAnalyzer
Tokenize
rFactory extends
Tokenize
rFactory{ private boolean useSmart;
·
2015-06-29 17:00
Solr
跟益达学Solr5之拼音分词
首先我们来看看我当初使用Lucene5是如何实现的, 在Solr5中,我们只需要为IK
Tokenize
r扩展一个IK
Tokenize
rFactory,为PinyinTokenFilter扩展一个PinyinTokenFilterFactor
lxwt909
·
2015-06-27 13:00
Solr
Pinyin
跟益达学Solr5之拼音分词
首先我们来看看我当初使用Lucene5是如何实现的, 在Solr5中,我们只需要为IK
Tokenize
r扩展一个IK
Tokenize
rFactory,为PinyinTokenFilter扩展一个PinyinTokenFilterFactor
lxwt909
·
2015-06-27 13:00
Solr
Pinyin
利用gensim主题模型寻找相似的coursera课程
参考http://www.52nlp.cn/如何计算两个文档的相似度三#encoding=utf-8 fromnltk.
tokenize
importword_
tokenize
fromnltk.corpusimportstopwords
kesonyk
·
2015-06-26 15:00
WordCount 远程集群源码
package test; import java.io.IOException; import java.util.String
Tokenize
r; import org.apache.hadoop.conf.Configuration
·
2015-06-25 14:00
wordcount
String
Tokenize
r类的使用
文章转自:http://blog.csdn.net/riyunzhu/article/details/7989145String
Tokenize
r是一个用来分隔String的应用类,相当于VB的split
a1259109679
·
2015-06-25 12:00
Lucene中文分词mmseg4j
mmseg4j用Chih-HaoTsai的 MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的
Tokenize
rFactory以方便在Lucene和Solr中使用。
tianwei7518
·
2015-06-23 16:00
Lucene
全文检索
跟益达学Solr5之使用MMSeg4J分词器
要想在Sor中使用MMSeg4J分词器,首先你需要自定义一个
Tokenize
rFactory实现类,虽然直接配置Analyzer类也可以,但那样无法配置Analyzer构造函数的参数,不够灵活,
lxwt909
·
2015-06-22 17:00
Solr
mmseg4j
跟益达学Solr5之使用MMSeg4J分词器
要想在Sor中使用MMSeg4J分词器,首先你需要自定义一个
Tokenize
rFactory实现类,虽然直接配置Analyzer类也可以,但那样无法配置Analyzer构造函数的参数,不够灵活,
lxwt909
·
2015-06-22 17:00
Solr
mmseg4j
跟益达学Solr5之使用Ansj分词器
基于上篇博客,我们知道了在Solr中配置分词器有两种方式,一种是直接配置分词器类,比如: 一种是配置
Tokenize
rFactory类,由于SolrAPI中并没有内置类似IK,Ansj这样的中文分词器的
lxwt909
·
2015-06-19 13:00
Solr
ansj
跟益达学Solr5之使用Ansj分词器
基于上篇博客,我们知道了在Solr中配置分词器有两种方式,一种是直接配置分词器类,比如: 一种是配置
Tokenize
rFactory类,由于SolrAPI中并没有内置类似IK,Ansj这样的中文分词器的
lxwt909
·
2015-06-19 13:00
Solr
ansj
laravel5安装 数据库配置 模板 路由
安装;windows安装Laravel框架有一些系统上的需求:PHP版本>=5.4McryptPHP扩展OpenSSLPHP扩展MbstringPHP扩展
Tokenize
rPHP扩展都不想安装的可以从https
wsy5344
·
2015-06-19 10:00
编写WordCount程序
编写自己WordCount程序packagerock.lee.wordcount; importjava.io.IOException; importjava.util.String
Tokenize
r
mvplee
·
2015-06-15 15:00
Hadoop源码分析-Context
Wordcount,单词统计例子1packageorg.apache.hadoop.examples; 2 3importjava.io.IOException; 4importjava.util.String
Tokenize
r
lixuguang
·
2015-06-15 14:00
hadoop
context
hadoop任务提交过程
publicvoidmap(LongWritablekey,Textvalue, Contextcontext)throwsIOException,InterruptedException{ String
Tokenize
r
tokenize
r
hao707822882
·
2015-06-14 22:00
hadoop
MapReduce编程之WordCount
//mapreduce程序import java.io.IOException;import java.util.String
Tokenize
r; import org.apache.hadoop.conf.Configuration
sunlei1980
·
2015-06-12 16:00
mapreduce
hadoop
wordcount
MapReduce详解
WordCount分析1)源代码程序 packageorg.apache.hadoop.examples;importjava.io.IOException;importjava.util.String
Tokenize
r
cy20101234
·
2015-06-04 10:00
Hadoop的简单控制台log分析
首先把代码贴上来importjava.io.IOException; importjava.util.String
Tokenize
r; importorg.apach
huangxia73
·
2015-06-04 09:00
hadoop
wordcount
上一页
39
40
41
42
43
44
45
46
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他