tokenize 第43页

Hadoop2.7.1-WordCount Demo

jsjrjz08·2015-10-12 13:00

Hadoop2.7.1-WordCount Demo

packagemytest.hadoop.mr1; importjava.io.IOException; importjava.util.StringTokenizer; importorg.apache.hadoop.conf.Configuration

jsjrjz08·2015-10-12 13:00

poco框架库Foundtion部分：字符串处理

常用的例子如下：（源码来自网络）一字符串分割#include "Poco/StringTokenizer.h" #i

Qlinux·2015-10-12 11:32

poco框架库Foundtion部分：字符串处理

常用的例子如下：（源码来自网络）一字符串分割#include "Poco/StringTokenizer.h" #i

Qlinux·2015-10-12 11:32

MapReduce之单词（字母）个数的统计

packagecom.hadoop.study;importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration

qq_21178933·2015-10-06 15:00

Java的字符串分割的不同实现

一个是从jdk1.1就开始的StringTokenizer类，另一个是调用split方法进行分割。

Marksinoberg·2015-10-06 10:00

Java中的StringTokenizer类的使用方法

StringTokenizer是字符串分隔解析类型，属于：java.util包。

断剑残缺·2015-09-29 23:00

Python自然语言处理(一)--利用NLTK自带方法完成NLP基本任务

NLTK安装教程：www.pythontip.com/blog/post/10011/下面介绍如何利用NLTK快速完成NLP基本任务一、NLTK进行分词用到的函数：nltk.sent_tokenize(

海涛anywn·2015-09-29 11:04

Python自然语言处理(一)--利用NLTK自带方法完成NLP基本任务

NLTK安装教程：www.pythontip.com/blog/post/10011/ 下面介绍如何利用NLTK快速完成NLP基本任务一、NLTK进行分词用到的函数：nltk.sent_tokenize

lihaitao000·2015-09-29 11:00

elasticsearch中的mapping简介

MappingMappingistheprocessofdefininghowadocumentshouldbemappedtotheSearchEngine,includingitssearchablecharacteristicssuchaswhichfieldsaresearchableandif/howtheyaretokenized.InElasticsearch

凯文加内特·2015-09-28 11:00

学习日志---初次接触mapreduce

wordcount程序package org.robby.mr; import java.io.IOException; import java.util.StringTokenizer; import

wukong0716·2015-09-24 11:02

Java获取客户端代码大全

xiaoyu123456·2015-09-23 15:00

Java获取客户端代码大全

xiaoyu123456·2015-09-23 15:00

Java获取客户端代码大全

Stringagent=request.getHeader("user-agent");System.out.println(agent);StringTokenizerst=newStringTokenizer

xiaoyu123456·2015-09-23 15:00

StringTokenizer类的使用 .

StringTokenizer是一个用来分隔String的应用类，相当于VB的split函数。

413620659·2015-09-23 10:59

StringTokenizer类的使用 .

StringTokenizer是一个用来分隔String的应用类，相当于VB的split函数。

413620659·2015-09-23 10:59

MapReduce——wordcount

packagehadoop.examples; importjava.io.IOException; importjava.util.StringTokenizer; importorg.apache.hadoop.conf.Configuration

mmc2015·2015-09-18 10:00

hadoop mr优化

但是之前可以尝试使用combiner来压缩数据看是否能解决问题3，Map阶段不使用正则表达式4，split使用StringUtils，据测试性能远高于（String,Scanner,StringTokenizer

osenlin·2015-09-01 00:00

Solr 关于Analyzer、Tokenizer、和Filter，以及中文分词器

这些工作，一般由Analyzers、Tokenizers、和Filter来实现。这三个东东配置在fieldType中。

ClementAD·2015-08-19 20:00

python的nltk中文使用和学习资料汇总帮你入门提高

原文地址：http://blog.csdn.net/huyoo/article/details/12188573作者：糊糊nltk是一个python工具包,用来处理和自然语言处理相关的东西.包括分词(tokenize

糊糊·2015-08-12 20:00

IK 分词器 2012 FF 版本取消了 org.wltea.analyzer.solr.IKTokenizerFactory 类【导致只能使用ik分词器来进行分词，无法使用solr自带的其它过滤方式

qb.doudang.com/doc-view-910.html看到ik分词器支持solr4.0,于是下载了试用，结果发现IK分词器2012FF版本取消了org.wltea.analyzer.solr.IKTokenizerFactory

buster2014·2015-08-12 15:00

javaweb,通过request获取访问者的操作系统以及浏览器信息

quot;user-agent")获取客户端浏览器和操作系统信息 String Agent = request.getHeader("User-Agent"); StringTokenizer

zzp1994114·2015-08-12 01:00

android学习笔记NO.3

3.设置分隔符MacTextView.setTokenizer(newMultiAutoCompleteTextVi

itcoder-9527·2015-08-11 21:38

Java学习笔记(七) Enumertation接口的理解和使用和StringTokenizer的使用

Enumeration接口接口中的函数函数名称函数的作用hasMoreElements（）检查当前集合中还有没有下一个元素nextElement()获得集合中的下一个元素如果当前集合中已经没有元素，那么会返回NoSuchElementException异常。一般情况下利用Enumeration接口来遍历采取下面的格式：Enumerationenum=...; while(enum.hasMoreE

qq_24451605·2015-07-29 22:00

Linkedin Interview - Shortest distance between two words

/* This class will be given a list of words (such as might be tokenized * from a paragraph

yuanhsh·2015-07-26 14:00

Hadoop例子中WordCount参数分析

packageorg.apache.hadoop.examples;importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration

chencheng192·2015-07-22 11:11

Hadoop例子中WordCount参数分析

packageorg.apache.hadoop.examples;importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration

chencheng192·2015-07-22 11:11

Hadoop的第一个程序 wordcount

wordcount packagecom.songguoliang.hadoop.chapter05; importjava.io.IOException; importjava.util.StringTokenizer

gnail_oug·2015-07-19 21:00

Java.io.StreamTokenizer的使用小结

StreamTokenizerdoublenavl——>如果当前标记是一个数字，则此字段将包含该数字的值。

aksdrxzd·2015-07-14 19:03

学习笔记01--在MR中优化用户的代码

在MR中优化用户的代码1：尽量减少正则表达式的使用2：String标记：测试标明：StringUtils.split 性能优于StringTokenizer优于String.split优于Scanner

nysyxxg·2015-07-08 10:00

文本建模常用的预处理方法

以MeTa代码为例：[[analyzers]] method="ngram-word" ngram=1 [[analyzers.filter]] type="whitespace-tokenizer"

mmc2015·2015-07-02 19:00

ik扩展支持Solr配置

扩展ik原生代码：publicclassIKAnalyzerTokenizerFactoryextendsTokenizerFactory{privatebooleanuseSmart;publicbooleanuseSmart

李克华·2015-06-29 17:00

ik扩展支持Solr配置

扩展ik原生代码：public class IKAnalyzerTokenizerFactory extends TokenizerFactory{ private boolean useSmart;

·2015-06-29 17:00

跟益达学Solr5之拼音分词

首先我们来看看我当初使用Lucene5是如何实现的，在Solr5中，我们只需要为IKTokenizer扩展一个IKTokenizerFactory,为PinyinTokenFilter扩展一个PinyinTokenFilterFactor

lxwt909·2015-06-27 13:00

跟益达学Solr5之拼音分词

首先我们来看看我当初使用Lucene5是如何实现的，在Solr5中，我们只需要为IKTokenizer扩展一个IKTokenizerFactory,为PinyinTokenFilter扩展一个PinyinTokenFilterFactor

lxwt909·2015-06-27 13:00

利用gensim主题模型寻找相似的coursera课程

参考http://www.52nlp.cn/如何计算两个文档的相似度三#encoding=utf-8 fromnltk.tokenizeimportword_tokenize fromnltk.corpusimportstopwords

kesonyk·2015-06-26 15:00

WordCount 远程集群源码

package test; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration

·2015-06-25 14:00

StringTokenizer类的使用

文章转自：http://blog.csdn.net/riyunzhu/article/details/7989145StringTokenizer是一个用来分隔String的应用类，相当于VB的split

a1259109679·2015-06-25 12:00

Lucene中文分词mmseg4j

mmseg4j用Chih-HaoTsai的 MMSeg算法实现的中文分词器，并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。

tianwei7518·2015-06-23 16:00

跟益达学Solr5之使用MMSeg4J分词器

要想在Sor中使用MMSeg4J分词器，首先你需要自定义一个TokenizerFactory实现类，虽然直接配置Analyzer类也可以，但那样无法配置Analyzer构造函数的参数，不够灵活，

lxwt909·2015-06-22 17:00

跟益达学Solr5之使用MMSeg4J分词器

要想在Sor中使用MMSeg4J分词器，首先你需要自定义一个TokenizerFactory实现类，虽然直接配置Analyzer类也可以，但那样无法配置Analyzer构造函数的参数，不够灵活，

lxwt909·2015-06-22 17:00

跟益达学Solr5之使用Ansj分词器

基于上篇博客，我们知道了在Solr中配置分词器有两种方式，一种是直接配置分词器类，比如：一种是配置TokenizerFactory类，由于SolrAPI中并没有内置类似IK，Ansj这样的中文分词器的

lxwt909·2015-06-19 13:00

跟益达学Solr5之使用Ansj分词器

基于上篇博客，我们知道了在Solr中配置分词器有两种方式，一种是直接配置分词器类，比如：一种是配置TokenizerFactory类，由于SolrAPI中并没有内置类似IK，Ansj这样的中文分词器的

lxwt909·2015-06-19 13:00

laravel5安装数据库配置模板路由

安装；windows安装Laravel框架有一些系统上的需求：PHP版本>=5.4McryptPHP扩展OpenSSLPHP扩展MbstringPHP扩展TokenizerPHP扩展都不想安装的可以从https

wsy5344·2015-06-19 10:00

编写WordCount程序

编写自己WordCount程序packagerock.lee.wordcount; importjava.io.IOException; importjava.util.StringTokenizer

mvplee·2015-06-15 15:00

Hadoop源码分析-Context

Wordcount，单词统计例子1packageorg.apache.hadoop.examples; 2 3importjava.io.IOException; 4importjava.util.StringTokenizer

lixuguang·2015-06-15 14:00

hadoop任务提交过程

publicvoidmap(LongWritablekey,Textvalue, Contextcontext)throwsIOException,InterruptedException{ StringTokenizertokenizer

hao707822882·2015-06-14 22:00

MapReduce编程之WordCount

//mapreduce程序import java.io.IOException;import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration

sunlei1980·2015-06-12 16:00

MapReduce详解

WordCount分析1）源代码程序 packageorg.apache.hadoop.examples;importjava.io.IOException;importjava.util.StringTokenizer

cy20101234·2015-06-04 10:00

Hadoop的简单控制台log分析

首先把代码贴上来importjava.io.IOException; importjava.util.StringTokenizer; importorg.apach

huangxia73·2015-06-04 09:00

推荐频道

tokenize

Hadoop2.7.1-WordCount Demo

Hadoop2.7.1-WordCount Demo

poco框架库Foundtion部分：字符串处理

poco框架库Foundtion部分：字符串处理

MapReduce之单词（字母）个数的统计

Java的字符串分割的不同实现

Java中的StringTokenizer类的使用方法

Python自然语言处理(一)--利用NLTK自带方法完成NLP基本任务

Python自然语言处理(一)--利用NLTK自带方法完成NLP基本任务

elasticsearch中的mapping简介

学习日志---初次接触mapreduce

Java获取客户端代码大全

Java获取客户端代码大全

Java获取客户端代码大全

StringTokenizer类的使用 .

StringTokenizer类的使用 .

MapReduce——wordcount

hadoop mr优化

Solr 关于Analyzer、Tokenizer、和Filter，以及中文分词器

python的nltk中文使用和学习资料汇总帮你入门提高

IK 分词器 2012 FF 版本取消了 org.wltea.analyzer.solr.IKTokenizerFactory 类【导致只能使用ik分词器来进行分词，无法使用solr自带的其它过滤方式

javaweb,通过request获取访问者的操作系统以及浏览器信息

android学习笔记NO.3

Java学习笔记(七) Enumertation接口的理解和使用和StringTokenizer的使用

Linkedin Interview - Shortest distance between two words

Hadoop例子中WordCount参数分析

Hadoop例子中WordCount参数分析

Hadoop的第一个程序 wordcount

Java.io.StreamTokenizer的使用小结

学习笔记01--在MR中优化用户的代码

文本建模常用的预处理方法

ik扩展支持Solr配置

ik扩展支持Solr配置

跟益达学Solr5之拼音分词

跟益达学Solr5之拼音分词

利用gensim主题模型寻找相似的coursera课程

WordCount 远程集群源码

StringTokenizer类的使用

Lucene中文分词mmseg4j

跟益达学Solr5之使用MMSeg4J分词器

跟益达学Solr5之使用MMSeg4J分词器

跟益达学Solr5之使用Ansj分词器

跟益达学Solr5之使用Ansj分词器

laravel5安装 数据库配置 模板 路由

编写WordCount程序

Hadoop源码分析-Context

hadoop任务提交过程

MapReduce编程之WordCount

MapReduce详解

Hadoop的简单控制台log分析

laravel5安装数据库配置模板路由