Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

提议新建一个汉字处理组织 #24

Closed
LuoZijun opened this issue Sep 9, 2018 · 8 comments
Closed

提议新建一个汉字处理组织 #24

LuoZijun opened this issue Sep 9, 2018 · 8 comments

Comments

@LuoZijun
Copy link
Collaborator

LuoZijun commented Sep 9, 2018

提议新建一个汉字处理组织(比如 Rust-Han ),这个组织主要的目标旨在解决以下几个问题:

  • [已完成] 汉文分词(HMM/MMSEG)
  • [等待 Unihan 数据库的合并] 汉字简繁互换 (采用 Unicode 的数据库)
  • [等待 Unihan 数据库的合并]汉字拼音标注 (采用 Unicode 的数据库)
  • [等待 Unihan 数据库的合并]汉字日、韩、越、粤语言的发音标注(可选,采用 Unicode 的数据库)
  • [计划] 汉字发音系统(依据 汉语拼音 的音标进行发音,期望它的表现要好于 macOS 系统的 say 程序)

基于HMM的汉文分词实现: https://github.com/LuoZijun/rust-jieba/blob/master/src/hmm.rs
基于MMSEG的汉文分词实现: https://github.com/LuoZijun/rust-jieba/blob/master/src/mmseg.rs

对于汉字处理整个体系的雏形: https://github.com/LuoZijun/rust-pinyin/blob/patch-2/src/han.rs

对于汉词的词性标注方面,应该依照 《GB/T 20532—2006: 信息处理用现代汉语词类标记规范》:https://github.com/LuoZijun/rust-jieba/blob/master/src/word_class.rs

非汉字 字符的词汇切分应依照 Unicode Standard Annex #29 规则来实现,与该规则相关的Rust实现:

Unicode Utilities: Breaks (Segmentation) Demo: https://unicode.org/cldr/utility/breaks.jsp

SentenceBreak 需要达到的效果:

image

unic-ucd-unihan 的简单部分实现: rust-unic/pull/225 , 目前状态还在进行中。

@mozillazg
Copy link
Owner

@LuoZijun 可以呀。

@LuoZijun
Copy link
Collaborator Author

LuoZijun commented Sep 19, 2018

补充:

增加了 MMSEG 的分词方法。

文件: https://github.com/LuoZijun/rust-jieba/blob/master/src/mmseg.rs
用例: https://github.com/LuoZijun/rust-jieba/blob/master/examples/mmseg_cut.rs

拼音标注简繁互换 这需要等待 Unihan 的 PR 合并,合并之后,相信断句上,分词上,都可以达到 Unicode 官方测试工具的水准了。

届时,再聚焦 拼音和简繁。

@LuoZijun
Copy link
Collaborator Author

@mozillazg 刚创建了这个项目组: https://github.com/rust-han , 你觉得名字怎么样?

@mozillazg
Copy link
Owner

@LuoZijun 赞 👍 名字没问题呀,可以再传个 logo 😄

@LuoZijun
Copy link
Collaborator Author

@mozillazg 额,这不是我擅长的 ...

你可以推荐一个 ? 😄

@mozillazg
Copy link
Owner

@LuoZijun 用 PS 弄了两个 😃 :

rust-logo-256x256-blk-han

rust-logo-256x256-blk-wen

@LuoZijun
Copy link
Collaborator Author

@mozillazg 我找了个设计的朋友帮忙做了几张: https://github.com/rust-han/art

另外,我也把你做的这两个放进去了。看看哪个更合适。

注:朋友设计的那个“永”字的意思是,汉字的笔画加起来就是“永”字。

@LuoZijun
Copy link
Collaborator Author

LuoZijun commented Oct 6, 2018

@mozillazg 我已经迁移了之前的一些代码到 https://github.com/rust-han 里面,

看起来,这个 PR: open-i18n/rust-unic#225 的进展似乎有很多天没有更新了,我打算先 使用这个 PR 作者的版本。

这个问题就先关闭了吧。

@LuoZijun LuoZijun closed this as completed Oct 6, 2018
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants