forked from chenbjin/ASExtractor
-
Notifications
You must be signed in to change notification settings - Fork 3
/
Copy pathlog
53 lines (26 loc) · 2.63 KB
/
log
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
# ASExtractor
描述:中英文单文档自动摘要,提供不同相似度方法
###日志
阶段一. 基本框架搭建
03/17 计划:尝试中文摘要提取,限制字数,基本框架实现。结果:Success,下一步尝试摘要评估
03/18 由于中文文摘数据库不成熟,尝试将cnki的论文pdf,caj处理为数据集(pdf2txt),进行摘要结果评估。结果:Failure,由于论文期刊格式不一样,无法准确提取出原文已有摘要,pdf2txt原文信息部分丢失
03/19 Bug: SentenceExtraction.train()若用不同的source,结果会有较大差异,最好用'all_filters'
03/20 计划:了解/尝试英文摘要,文章句子比例提取。结果:Success,中文摘要按比例提取
03/22 实现英文分词,关键词提取,遗留问题:文本过长,提取关键词过多,是否要考虑文章长度,是否考虑以出现次数排序
03/23 实现英文摘要,UI修改,遗留问题:是否考虑限制100字以内,下载INSPEC摘要772条用于关键词提取评估
03/25 INSPEC数据处理,提取非受控关键词,进行关键词提取实验
03/27 英文摘要代码修改,考虑相似度改进,基于词频和词语位置
03/28 申请DUC2002语料,和Nicole Baten邮件交流,须提交申请,先将申请书打印填写,再扫描发送...估计得花两三天时间
04/02 向Chin-Yew Lin 申请测评软件ROOUGE安装包,README好难理解啊
04/03 改用pyrouge接口尝试,但是数据集格式要处理成每行一句
04/05 交了论文初稿,但实验结果不理想,结论是我的改进方法压根就没效...让我静静
阶段二. Wordnet相似度
04/07 了解wordnet语义词典的结构,实现词汇相似度/句子相似度的计算,时间36s左右,太耗时了
04/10 通过打表的方式改进相似度计算,17s,还是很慢。
04/11 关键词测评,结果确认ok
04/12 文摘测评,搞了很久ROUGE,终于可以用了,system和model采用txt格式,每行一句,匹配(\w).(\w+)(\d+)-(\d+).txt,实验召回60%多,这有点不对啊~
04/15 ROUGE匹配格式出错,所有测试文档保存为DUC2002-###.txt格式,正常匹配somename.(\d+).txt,somename.#ID.txt,结果还是60%多
04/17 GUI修改,添加关键词栏,布局也更换,顶部添加菜单/工具栏
04/22 尝试多model测评,重新处理数据格式,model提取为somename.[A-Z].#ID.txt,system数据也重新生成
04/25 系统对比不同相似度standard/edit distance/wordnet,与DUC2002对比的话,实验结果有差异,不适合
> Written with [StackEdit](https://stackedit.io/).