Rseg是一个基于纯Ruby的中文分词插件,内置了CC-CEDICT和维基百科两本字典,目前只支持Ruby 187以上版本及UTF8编码。
项目地址:http://github.com/yzhang/rseg
分词算法:http://xiecc.blog.163.com/blog/static/14032200671110224190/
安装
sudo gem install rseg –source=http://gemcutter.org
使用
Rseg目前支持两种用法,本地调用或者C/S模式调用。
1. 本地调用
> require 'rubygems'
> require 'rseg'
> Rseg.segment("需要分词的文章")
['需要', '分词', '的', '文章']
第一次执行需要加载字典,大概需要30秒,不过你也可以调用Rseg#load来手动加载字典。
2. C/S方式
$ rseg_server
这条命令会监听4100端口,你可以通过http://localhost:4100/ 访问Web界面,也可以通过rseg命令远程调用:
$ rseg ‘需要分词的文章’
需要 分词 的 文章
还可以调用Rseg#remote_segment
> require 'rubygems'
> require 'rseg'
> RSeg.remote_segment("需要分词的文章")
['需要', '分词', '的', '文章']
这次就不需要加载字典了。
性能
很多人比较关心性能,用我的小白测了一下,大概在5M/s,欢迎大家多提意见。

