Rseg是一个基于纯Ruby的中文分词插件,内置了CC-CEDICT和维基百科两本字典,目前只支持Ruby 187以上版本及UTF8编码。 项目地址:http://github.com/yzhang/rseg 分词算法:http://xiecc.blog.163.com/blog/static/14032200671110224190/ 安装 sudo gem install rseg –source=http://gemcutter.org 使用 Rseg目前支持两种用法,本地调用或者C/S模式调用。 1. 本地调用 > require ‘rubygems’ > require ‘rseg’ > Rseg.segment(“需要分词的文章”) ['需要', '分词', '的', '文章'] 第一次执行需要加载字典,大概需要30秒,不过你也可以调用Rseg#load来手动加载字典。 2. C/S方式 $ rseg_server 这条命令会监听4100端口,你可以通过http://localhost:4100/ 访问Web界面,也可以通过rseg命令远程调用: $ rseg ‘需要分词的文章’ 需要 分词 的 文章 还可以调用Rseg#remote_segment > require ‘rubygems’ > require ‘rseg’ > RSeg.remote_segment(“需要分词的文章”) ['需要', '分词', '的', '文章'] 这次就不需要加载字典了。 性能 [...]
