OCR数据集格式征集 #89

linhandev · 2022-10-22T07:05:27Z

linhandev
Oct 22, 2022
Maintainer

大佬们好，PaddleLabel最近在建设OCR数据集的导入/导出。项目的后端之前没做过OCR，希望大佬们可以指导一下OCR数据集的格式。

下面介绍了我们目前实现了的和计划实现的导入导出格式，希望大佬们评价下我们做这些格式是不是能比较好的覆盖到大家常用的格式。大佬们如果用到过跟我们支持的格式不兼容的数据集，也可以介绍下格式，给个数据集网址之类的。

linhandev · 2022-10-22T08:26:27Z

linhandev
Oct 22, 2022
Maintainer Author

我们参考了一些PaddleOCR项目列出的数据集

目前内部格式

p1.w|p1.h|....|pn.w|pn.h|(固定为空，表示点结束)|transcription|illegibility(0/1)|language

弱标注格式，没有位置信息

no points|(固定为空，表示点结束)|transcription|illegibility(0/1)|language

目前支持

ICDAR2019-LSVT

完整标注格式

{
  “gt_1”:  [{“points”: [[x1, y1], [x2, y2], …, [xn, yn]], “transcription” : “trans1”, "illegibility": false },
                …
               {“points”: [[x1, y1], [x2, y2], …, [xn, yn]], “transcription” : “trans2”, " illegibility ": false }],
  ……
}

弱标注格式

{
  “gt_0”:  [{ “transcription” : “trans1” }],
  “gt_1”:  [{“transcription” : “trans2” }],
  “gt_2”:  [{“transcription” : “trans3” }],
  ……
}

ICDAR 2019 - ArT：跟ICDAR2019-LSVT区别不大，多一个 language

{
  “gt_1”:  [ 
                 {“points”: [[x1, y1], [x2, y2], …, [xn, yn]], “transcription” : “trans1”, “language” : “Latin”, "illegibility": false },
                  …
                 {“points”: [[x1, y1], [x2, y2], …, [xn, yn]], “transcription” : “trans2”, “language” : “Chinese”, "illegibility": false }
               ],
……
}

计划支持

RCTW-17：一个图片一个txt，内容上和已支持的类似

<image_name>.txt

<x1>,<y1>,<x2>,<y2>,<x3>,<y3>,<x4>,<y4>,<difficult>,"<transcript>"; 
<x1>,<y1>,<x2>,<y2>,<x3>,<y3>,<x4>,<y4>,<difficult>,"<transcript>"; 
...

研究中

中文场景文字识别技术创新大赛

行识别，图片是经过裁切的，只保留文字部分，仿射到固定高度，标注只有识别出来的内容

CASIA Online and Offline Chinese Handwriting Databases

数据集格式比较复杂，自定义的文件内容，需要专用浏览器

https://www.nist.gov/srd/nist-special-database-19

https://github.com/YCG09/chinese_ocr

0 replies

linhandev · 2022-10-22T08:44:00Z

linhandev
Oct 22, 2022
Maintainer Author

个人感觉OCR好像没有很主流的，像目标检测中coco和pascal voc这种很有影响力的格式，每个数据集根据自己的场景和需求可能会在多边形框和文字内容之外加一些项，比如CCPD有图片亮度和模糊程度的标注。不知道这种定制化标注数据项的需求是不是很常见。

1 reply

linhandev Oct 22, 2022
Maintainer Author

感觉实现上可能可以把这些定制化的项也写到transcription里，用逗号分隔一下，比如车牌这个用

“transcription”: "车牌号，亮度值，模糊度值"

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

OCR数据集格式征集 #89

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 2 comments 1 reply

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

Select a reply

OCR数据集格式征集 #89

linhandev Oct 22, 2022 Maintainer

Replies: 2 comments · 1 reply

linhandev Oct 22, 2022 Maintainer Author

目前内部格式

目前支持

计划支持

研究中

linhandev Oct 22, 2022 Maintainer Author

linhandev Oct 22, 2022 Maintainer Author

linhandev
Oct 22, 2022
Maintainer

Replies: 2 comments 1 reply

linhandev
Oct 22, 2022
Maintainer Author

linhandev
Oct 22, 2022
Maintainer Author

linhandev Oct 22, 2022
Maintainer Author