亚马逊研究新的文字识别技术,没想到先干掉了验证码

亚马逊研究新的文字识别技术,没想到先干掉了验证码

不管你有没有听过,OCR 技术已经渗入到我们生活中的方方面面。

亚马逊研究新的文字识别技术,没想到先干掉了验证码

但发展到现在,对于 OCR 技术来说依旧有一个瓶颈没有突破,那就是弯曲文字。

什么是弯曲文字?

像这样,

亚马逊研究新的文字识别技术,没想到先干掉了验证码

这样,

亚马逊研究新的文字识别技术,没想到先干掉了验证码

还有这样的。

亚马逊研究新的文字识别技术,没想到先干掉了验证码

实际上,Captcha & reCAPTCHA,也就是你登录网站常常输入错的歪歪扭扭的文字验证码,也是基于 OCR 的这个弱点,来防止被攻击的。

亚马逊研究新的文字识别技术,没想到先干掉了验证码

过去的 OCR 大多是解决水平文字的检测或者倾斜文字的检测,但其实像上图的弯曲在生活中十分常见。

简单来说,该算法首先会对目标图像进行建模,建立一个曲线函数,然后再分析出出半径以及中间轴,继而生成一个文本选取分区。

亚马逊研究新的文字识别技术,没想到先干掉了验证码

效果怎么样?

亚马逊研究新的文字识别技术,没想到先干掉了验证码

为了更好地测试 TextTubes 的性能,亚马逊在 CTW- 1500 以及 Total-Text 两个训练系统上进行评估。当中 CTW- 1500 含有 1500 张图像、超过 10000 个文本实体,每张图像至少还有一个弯曲文本,而 Total-Text 则共有 1255 个训练图像、300 个测试图像,每张图片也是含有一个或多个弯曲文本。

亚马逊研究新的文字识别技术,没想到先干掉了验证码

那么成绩如何?TextTubes 在两个测试中都获得了优秀的成绩,在 CTW- 1500 则更为突出,准确率为 83.65%,相比之下,排第二名的那位学生,准确率只有 75.6%。

亚马逊表示,当 TextTubes 正式投入使用之后,对于那些高度依赖 OCR 技术展开业务的企业来说,是一个福音。根据 Grand View Research 的数据,市场对于 OCR 的需求仍在不断增大,预计到 2025 年 OCR 解决方案市场规模将达到 133.8 亿美元。

等等,不是说文字验证码是基于 OCR 的这个弱点的吗?如果突破了,验证码还安全吗?

亚马逊研究新的文字识别技术,没想到先干掉了验证码

这不所以推出了从一堆刘翔中找出王自如的验证码吗?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。返回搜狐,查看更多

责任编辑: