整理的超全OCR训练数据集

1、SynthText in the Wild dataset

数据集下载链接：

http://www.robots.ox.ac.uk/~vgg/data/scenetext/

数据集介绍：一个综合生成的数据集，其中单词实例放置在自然场景图像中，同时考虑场景布局。数据集由大约80万个合成词实例的800万个图像组成。每个文本实例都使用其文本字符串、字级和字符级边界框进行注释。

2、Google FSNS

数据集下载链接：

http://rrc.cvc.uab.es/?ch=6&com=downloads

数据集介绍：Google FSNS数据集包含了100多万张从法国Google街景图片中截取的街道名称标志图片。每个图像包含同一街道名称标志的四个视图。路标上的文字最多可以跨越三行。每一个路标都有一个规范的抄本。

3、COCO-Text

数据集下载链接：

https://vision.cornell.edu/se3/coco-text-2/

数据集介绍：63686个图像，145859个文本实例，3个细粒度文本属性。

此数据集基于MSCOCO数据集。

主要内容：

Text localizations as bounding boxes
Text transcriptions for legible text
Multiple text instances per image
More than 63,000 images
More than 145,000 text instances
Text instances categorized into machine printed and handwritten text
Text instances categorized into legible and illegilbe text
Text instances categorized into English script and non-English script

4、MSRA-TD500

数据集下载链接：

http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_%28MSRA-TD500%29

数据集介绍：MSRA文本检测500数据库（MSRA-TD500）包含500幅自然图像，这些图像是使用袖珍相机从室内（办公室和商场）和室外（街道）场景拍摄的。室内图像以标牌、门牌、警示牌为主，室外图像以复杂背景下的导板、广告牌为主。图像的分辨率从1296x864到1920x1280不等。由于文本的多样性和图像中背景的复杂性，数据集是具有挑战性的。文本有不同的语言（中文、英文或两者的混合）、字体、大小、颜色和方向。背景可能包含植被（如树木和灌木丛）和重复的图案（如窗户和砖块），这些图案与文本没有太大的区别。数据集分为训练集和测试集两部分，训练集包含从原始数据集中随机选择的300个图像，其余200个图像构成测试集，此数据集中的所有图像都已完全注释。