Replies: 2 comments 1 reply
-
我们参考了一些PaddleOCR项目列出的数据集 目前内部格式p1.w|p1.h|....|pn.w|pn.h|(固定为空,表示点结束)|transcription|illegibility(0/1)|language 弱标注格式,没有位置信息 no points|(固定为空,表示点结束)|transcription|illegibility(0/1)|language 目前支持完整标注格式 {
“gt_1”: [{“points”: [[x1, y1], [x2, y2], …, [xn, yn]], “transcription” : “trans1”, "illegibility": false },
…
{“points”: [[x1, y1], [x2, y2], …, [xn, yn]], “transcription” : “trans2”, " illegibility ": false }],
……
} 弱标注格式 {
“gt_0”: [{ “transcription” : “trans1” }],
“gt_1”: [{“transcription” : “trans2” }],
“gt_2”: [{“transcription” : “trans3” }],
……
}
{
“gt_1”: [
{“points”: [[x1, y1], [x2, y2], …, [xn, yn]], “transcription” : “trans1”, “language” : “Latin”, "illegibility": false },
…
{“points”: [[x1, y1], [x2, y2], …, [xn, yn]], “transcription” : “trans2”, “language” : “Chinese”, "illegibility": false }
],
……
} 计划支持
<image_name>.txt <x1>,<y1>,<x2>,<y2>,<x3>,<y3>,<x4>,<y4>,<difficult>,"<transcript>";
<x1>,<y1>,<x2>,<y2>,<x3>,<y3>,<x4>,<y4>,<difficult>,"<transcript>";
... 研究中行识别,图片是经过裁切的,只保留文字部分,仿射到固定高度,标注只有识别出来的内容 数据集格式比较复杂,自定义的文件内容,需要专用浏览器 |
Beta Was this translation helpful? Give feedback.
0 replies
-
个人感觉OCR好像没有很主流的,像目标检测中coco和pascal voc这种很有影响力的格式,每个数据集根据自己的场景和需求可能会在多边形框和文字内容之外加一些项,比如CCPD有图片亮度和模糊程度的标注。不知道这种定制化标注数据项的需求是不是很常见。 |
Beta Was this translation helpful? Give feedback.
1 reply
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
大佬们好,PaddleLabel最近在建设OCR数据集的导入/导出。项目的后端之前没做过OCR,希望大佬们可以指导一下OCR数据集的格式。
下面介绍了我们目前实现了的和计划实现的导入导出格式,希望大佬们评价下我们做这些格式是不是能比较好的覆盖到大家常用的格式。大佬们如果用到过跟我们支持的格式不兼容的数据集,也可以介绍下格式,给个数据集网址之类的。
Beta Was this translation helpful? Give feedback.
All reactions