-
-
Notifications
You must be signed in to change notification settings - Fork 24
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
提议新建一个汉字处理组织 #24
Comments
@LuoZijun 可以呀。 |
补充: 增加了 文件: https://github.com/LuoZijun/rust-jieba/blob/master/src/mmseg.rs
届时,再聚焦 拼音和简繁。 |
@mozillazg 刚创建了这个项目组: https://github.com/rust-han , 你觉得名字怎么样? |
@LuoZijun 赞 👍 名字没问题呀,可以再传个 logo 😄 |
@mozillazg 额,这不是我擅长的 ... 你可以推荐一个 ? 😄 |
@LuoZijun 用 PS 弄了两个 😃 : |
@mozillazg 我找了个设计的朋友帮忙做了几张: https://github.com/rust-han/art 另外,我也把你做的这两个放进去了。看看哪个更合适。 注:朋友设计的那个“永”字的意思是,汉字的笔画加起来就是“永”字。 |
@mozillazg 我已经迁移了之前的一些代码到 https://github.com/rust-han 里面, 看起来,这个 PR: open-i18n/rust-unic#225 的进展似乎有很多天没有更新了,我打算先 使用这个 PR 作者的版本。 这个问题就先关闭了吧。 |
提议新建一个汉字处理组织(比如 Rust-Han ),这个组织主要的目标旨在解决以下几个问题:
say
程序)基于HMM的汉文分词实现: https://github.com/LuoZijun/rust-jieba/blob/master/src/hmm.rs
基于MMSEG的汉文分词实现: https://github.com/LuoZijun/rust-jieba/blob/master/src/mmseg.rs
对于汉字处理整个体系的雏形: https://github.com/LuoZijun/rust-pinyin/blob/patch-2/src/han.rs
对于汉词的词性标注方面,应该依照 《GB/T 20532—2006: 信息处理用现代汉语词类标记规范》:https://github.com/LuoZijun/rust-jieba/blob/master/src/word_class.rs
非汉字 字符的词汇切分应依照 Unicode Standard Annex #29 规则来实现,与该规则相关的Rust实现:
SentenceBreak
Unicode Utilities: Breaks (Segmentation) Demo: https://unicode.org/cldr/utility/breaks.jsp
SentenceBreak
需要达到的效果:unic-ucd-unihan
的简单部分实现: rust-unic/pull/225 , 目前状态还在进行中。The text was updated successfully, but these errors were encountered: