1st Dec, 2009

Rseg: 纯Ruby中文分词插件

Rseg是一个基于纯Ruby的中文分词插件,内置了CC-CEDICT和维基百科两本字典,目前只支持Ruby 187以上版本及UTF8编码。

项目地址:http://github.com/yzhang/rseg
分词算法:http://xiecc.blog.163.com/blog/static/14032200671110224190/

安装

sudo gem install rseg –source=http://gemcutter.org

使用

Rseg目前支持两种用法,本地调用或者C/S模式调用。

1. 本地调用


> require 'rubygems'
> require 'rseg'
> Rseg.segment("需要分词的文章")
['需要', '分词', '的', '文章']

第一次执行需要加载字典,大概需要30秒,不过你也可以调用Rseg#load来手动加载字典。

2. C/S方式

$ rseg_server

这条命令会监听4100端口,你可以通过http://localhost:4100/ 访问Web界面,也可以通过rseg命令远程调用:

$ rseg ‘需要分词的文章’
需要 分词 的 文章

还可以调用Rseg#remote_segment


> require 'rubygems'
> require 'rseg'
> RSeg.remote_segment("需要分词的文章")
['需要', '分词', '的', '文章']

这次就不需要加载字典了。

性能

很多人比较关心性能,用我的小白测了一下,大概在5M/s,欢迎大家多提意见。

留条评论?

Your response:

Categories