tokenize 第40页

Hadoop-1.2.1 单词统计例子

packagecom.bjsxt.mr;importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.io.IntWritable

listen-raining·2016-03-03 08:40

自己动手为PHP7添加新的语法特性

："in"{ RETURN_TOKEN(T_IN); }为了让Zend引擎能识别T_IN这个记号，在zend_language_parser.y中加入：%tokenT_IN"in(T_IN)"重新生成tokenizer

Srggggg·2016-03-02 23:00

分割字符传的3中方式

packagecn.jiemoxiaodi.test; importjava.util.StringTokenizer; importorg.junit.Test; /** *字符串的切分

芥末小弟·2016-03-02 23:00

【算法系列三】 Quene

importjava.io.BufferedReader; importjava.io.IOException; importjava.io.InputStreamReader; importjava.io.StreamTokenizer

Hosee·2016-03-01 15:00

集成了Laravel的Eloquent ORM的Yaf框架

需要说明的一点是，EloquentORM用的5.0版本，其要求是PHP版本>=5.4 McryptPHP扩展 OpenSSLPHP扩展 MbstringPHP扩展 TokenizerPHP扩展

molaifeng·2016-02-28 23:00

一个封装了StandardTokenizer的自定义Lucene Analyzer

/*** *@authorYangXin *@info一个封装了StandardTokenizer的LuceneAnalyzer *带有小写过滤器的MyAnalyzer */ packageunitTen

u012965373·2016-02-27 18:00

NLTK提取全文词干

Python2.x代码如下所示：importnltk classMy_Tokenizer(): def__init__(self): withopen(infile_path,'r')asmyfile

vernice·2016-02-27 00:00

Elasticsearch 2.2.0 分词篇：分析模块

分词器是由一个分解器(Tokenizer)和零个或多个词元过滤器(tokenfilters)组成。分解器处理前可能要做一些预处理，比如去掉里面的HTML标记，这些处理的算法被称为字符过滤器

赛克蓝德·2016-02-19 10:00

MapReduce之WordCount

packagewordcount; importjava.io.IOException; importjava.util.StringTokenizer; importorg.apache.commons.math3

BrotherDong90·2016-02-17 21:00

hadoop_7 ： MapReduce代码

/设置Mapper接口，设置map的输入类型是:object是通用封装，封装多个类型 //RPC的返回和参数用该类型 //输出类型:Text是针对UTF-8的封装 publicstaticclassTokenizerMapperextendMapper

mijian1207mijian·2016-02-13 19:00

Hadoop 求最大值最小值 BiggestSmallest

packagecom.dtspark.hadoop.hellomapreduce;importjava.io.IOException;importjava.util.Iterator;importjava.util.StringTokenizer

duan_zhihua·2016-02-13 09:00

Hadoop 求平均值 Average

packagecom.dtspark.hadoop.hellomapreduce;importjava.io.IOException;importjava.util.Iterator;importjava.util.StringTokenizer

duan_zhihua·2016-02-13 08:00

使用StringTokenizer分解字符串

Java分割字符串，一般使用substring、split、StringTokenizer来处理，前两种是String对象的方法，使用字符串可以直接处理，本文介绍下StringTokenizer的使用。

catoop·2016-02-03 16:00

数学之路(机器学习实践指南)-文本挖掘与NLP(4)

tokenstr=nltk.word_tokenize(sample) fdist3=nltk.FreqDist(tokenstr) print"---美国出现的次数---" printfd

u010255642·2016-01-29 16:00

Enumeration接口和Iterator接口

首先我们从API文档分析Enumeration接口：java.util接口Enumeration所有已知子接口：NamingEnumeration所有已知实现类：StringTokenizerpublicinterfaceEnumeration

zcf396720·2016-01-29 10:00

【Mapreduce】以逗号为分隔符的WordCount词频统计

代码修改之后如下：importjava.io.IOException; importjava.util.StringTokenizer; importorg.apache.hadoop.conf.Configurat

yongh701·2016-01-27 17:00

java字符串分解 StringTokenizer用法

java字符串分解StringTokenizer用法标签： javastringtokenclass2011-09-0613:47 11583人阅读评论(3) 收藏举报分类：java（58） Java

wjj1013·2016-01-27 15:00

编写MYSQL插件(UDF)使其实现Split函数

MYSQLUDF插件好像不能返回结果集MFCDLL工程,静态库链接,UNICODE字符编码新建cpp,代码如下#include"stdafx.h" #include"tokenize.h" #include"mysql

Sidyhe·2016-01-19 16:00

从word count分析Map Reduce / Map Reduce的word count讲解

Contextcontext )throwsIOException,InterruptedException{//每个mapper对于每个key-value，一次调用map读进一个key-value StringTokenizeritr

guotong1988·2016-01-18 14:00

Java输入输出(用于比赛)

输入：publicstaticclassFastScanner{ BufferedReaderbr; StringTokenizerst; publicFastScanner(Strings){ try

squee_spoon·2016-01-12 14:00

使用Ansj分词器+Pig来统计中文的词频

weitao1026·2016-01-11 14:00

使用Ansj分词器+Pig来统计中文的词频

使用Ansj分词器+Pig来统计中文的词频，Pig的TOKENIZE只支持对英文句子的切分，为什么呢？

weitao1026·2016-01-11 14:00

使用Ansj分词器+Pig来统计中文的词频

weitao1026·2016-01-11 14:00

solr中文分词器

mmseg4j把jar包放到webapp\WEB-INF\lib目录下schema加入 tokenizer

yntmdr·2015-12-26 19:44

java实现投票程序设计

*;importjava.awt.event.ActionEvent;importjava.awt.event.ActionListener;importjava.util.StringTokenizer

luosijin123·2015-12-15 11:35

StringTokenizer用法

配置文件中android:versionCode="1" android:versionName="1ee.0z.mm">packagecom.example.stringtokenizerdemo;

u013210620·2015-12-10 18:00

Elasticsearch结构化搜索

tokenizer=standard "value" _analyze

OiteBody·2015-12-09 15:00

elasticsearch文档-analysis

elasticsearch文档-analysis analysis基本概念全文搜索引擎会用某种算法对要建索引的文档进行分析，从文档中提取出若干Token(词元)，这些算法称为Tokenizer(分词器)

·2015-12-09 11:52

hadoop wordcount 、wordmean代码阅读与分析

wordcount：packagehadoop1; importjava.io.IOException; importjava.util.StringTokenizer; impor

sr_sr·2015-12-07 15:00

Java 字符串分割

/** * StringTokenizer 分割 * * @param str * @param split * @param len

Mr_Miss·2015-12-07 15:00

SQL格式化工具

importjava.util.HashSet; importjava.util.LinkedList; importjava.util.Set; importjava.util.StringTokenizer

liguanfeng·2015-12-03 14:00

es Synonyms filter

my_synonym_filter":{ "type":"synonym", "synonyms":[ "中国,天朝", "北京,京城" ] } }, "analyzer":{ "my_synonyms":{ "tokenizer

m635674608·2015-12-02 19:00

一个完整的MapReduce程序

项目结构WordMapper类packagewordcount; importjava.io.IOException; importjava.util.StringTokenizer; importorg.apache.hadoop.io.IntWritable

pangjiuzala·2015-12-01 14:00

java实现文件单词频率统计 topN top K

Stringroute="青岛路青岛路济阳路口东济南路宴坡路"; Map<String,Integer>map=newHashMap<String,Integer>(); StringTokenizerst

农民阿姨·2015-11-28 14:00

java实现文件单词频率统计 topN top K

Stringroute="青岛路青岛路济阳路口东济南路宴坡路"; Map<String,Integer>map=newHashMap<String,Integer>(); StringTokenizerst

农民阿姨·2015-11-28 14:00

java 分割字符串后放入List中

publicstaticvoidmain(String[]args){ Stringstr="单机游戏,网络游戏,小游戏"; Listlist=newArrayList(); StringTokenizerst

BetterMan-·2015-11-26 13:00

MapReduce编程实例之自定义分区

201312013520145201482015920154Code：packagemrTest; importjava.io.IOException; importjava.util.StringTokenizer

Gamer_gyt·2015-11-25 21:00

lucene4.x自定义停用分词器

importorg.apache.lucene.analysis.Analyzer; importorg.apache.lucene.analysis.TokenStream; importorg.apache.lucene.analysis.Tokenizer

吕兵阳·2015-11-25 21:00

lucene中Field.Index,Field.Store详解

lucene在doc.add(newField("content",curArt.getContent(),Field.Store.NO,Field.Index.TOKENIZED));Field有两个属性可选

Yemon·2015-11-24 10:00

xunsearch数字搜索的特殊处理

xunsearch的默认分词器达不到效果，最相近的XSTokenizerXlen，默认是以2为步长，于是通过13可以搜索到138xxxx136xxxx131xxxx；但通过136搜索却一无所获。

深蓝苹果·2015-11-18 22:00

lucene中Field.Index,Field.Store的一些设置

lucene在doc.add(newField("content",curArt.getContent(),Field.Store.NO,Field.Index.TOKENIZED));Field有两个属性可选

kfcman·2015-11-18 16:00

Hadoop之WordCount源代码

packageorg.apache.hadoop.examples; importjava.io.IOException; importjava.util.Iterator; importjava.util.StringTokenizer

GarfieldEr007·2015-11-18 11:00

StringTokenizer类的使用

StringTokenizer是一个用来分隔String的应用类，相当于VB的split函数。

·2015-11-13 21:01

StringTokenizer类的使用

StringTokenizer是一个用来分隔String的应用类，相当于VB的split函数。

·2015-11-13 20:01

StringTokenizer类的使用

StringTokenizer是一个用来分隔String的应用类，相当于VB的split函数。

·2015-11-13 20:35

StringTokenizer类的使用

StringTokenizer是一个用来分隔String的应用类，相当于VB的split函数。

·2015-11-13 20:47

mmseg4j 中文分词 for .net版本

Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器，并实现 lucene 的 analyzer 和 solr 的TokenizerFactory

·2015-11-13 20:40

关于split与StringTokenizer的理解

关于split与StringTokenizer的理解一.split 依据匹配给定的正則表達式来拆分此字符串。

·2015-11-13 13:59

Java的StringTokenizer类

StringTokenizer是java中object类的一个子类，继承自 Enumeration接口。

·2015-11-13 13:22

JSP如何获取客户端的浏览器和操作系统信息？

string agent = request.getheader("user-agent"); stringtokenizer st = new stringtokenizer(agent

·2015-11-13 12:18

推荐频道

tokenize

Hadoop-1.2.1 单词统计例子

自己动手为PHP7添加新的语法特性

分割字符传的3中方式

【算法系列 三】 Quene

集成了Laravel的Eloquent ORM的Yaf框架

一个封装了StandardTokenizer的自定义Lucene Analyzer

NLTK提取全文词干

Elasticsearch 2.2.0 分词篇：分析模块

MapReduce之WordCount

hadoop_7 ： MapReduce代码

Hadoop 求最大值 最小值 BiggestSmallest

Hadoop 求平均值 Average

使用StringTokenizer分解字符串

数学之路(机器学习实践指南)-文本挖掘与NLP(4)

Enumeration接口和Iterator接口

【Mapreduce】以逗号为分隔符的WordCount词频统计

java字符串分解 StringTokenizer用法

编写MYSQL插件(UDF)使其实现Split函数

从word count分析Map Reduce / Map Reduce的word count讲解

Java输入输出(用于比赛)

使用Ansj分词器+Pig来统计中文的词频

使用Ansj分词器+Pig来统计中文的词频

使用Ansj分词器+Pig来统计中文的词频

solr中文分词器

java实现投票程序设计

StringTokenizer用法

Elasticsearch结构化搜索

elasticsearch文档-analysis

hadoop wordcount 、wordmean代码阅读与分析

Java 字符串分割

SQL格式化工具

es Synonyms filter

一个完整的MapReduce程序

java实现文件单词频率统计 topN top K

java实现文件单词频率统计 topN top K

java 分割字符串后放入List中

MapReduce编程实例之自定义分区

lucene4.x自定义停用分词器

lucene中Field.Index,Field.Store详解

xunsearch数字搜索的特殊处理

lucene中Field.Index,Field.Store的一些设置

Hadoop之WordCount源代码

StringTokenizer类的使用

StringTokenizer类的使用

StringTokenizer类的使用

StringTokenizer类的使用

mmseg4j 中文分词 for .net版本

关于split与StringTokenizer的理解

Java的StringTokenizer类

JSP如何获取客户端的浏览器和操作系统信息？

【算法系列三】 Quene

Hadoop 求最大值最小值 BiggestSmallest