帖子

[开发者福利日] 【体验报告】手写体识别,十三年开发经验的大佬评测

[复制链接]

该用户从未签到

25867 栗子讲究 发表于 2018-5-25 10:47:03 1#
通用文字识别体验报告
体验环境:
开发语言:Python 3.4.5
客户端硬件:笔记本电脑


体验的目标:
体验 WebAPI 接口识别手写输入图片识别的准确性和实时性,是否可以在实际业务中运用。

手写识别准确率,低的时候是60%,高的时候差不多88%,同一张图片,讯飞的效果比百度的好
识别率最低的样例:
体验报告图片.png

识别结果:
result is  {"code":"0","data":{"block":[{"type":"text","line":[{"confidence":1,"word":[{"content":"美丽"}]},{"confidence":1,"word":[{"content":"辽布像长城中脑一样一立要用“一幅品”共用国家文中"},{"content":"3"}]},{"confidence":1,"word":[{"content":"弧一个小叶3c"},{"content":"机一次,坚持用进口原料.(六乳要学会早日长补短中心"}]},{"confidence":1,"word":[{"content":"所的部件都要分钱去研发,用学习和包容的姿态去接纳世界"}]},{"confidence":1,"word":[{"content":"d.在停车的计划(举制下.字、艰望图和国临.(完造香港,生存等)。"}]},{"confidence":1,"word":[{"content":"我半年(当时联想布早有吉泰布2个陵东,许多古30%~1980年"}]},{"confidence":1,"word":[{"content":"中国一户收到为代官碍前要卷(,并一个在政府卡一之以参源,所以98"}]},{"confidence":1,"word":[{"content":"吸利开办学习,在偏爱国家年龄气导在香港当双后,本口式就"}]},{"confidence":1,"word":[{"content":"诗画出乎机文,这三权整,诗乡遇到,可红要学会多沟"}]},{"confidence":1,"word":[{"content":"的期性,同时合体人的资源非常重要,"}]}]}]},"desc":"success","sid":"wcr00008cdb@dx761e0e583f2d6f2300"}

同一张图片,百度的识别结果 体验报告图片2.png { "errno": 0, "msg": "success", "data": { "log_id": "3300751035696253765", "direction": 0, "words_result_num": 7, "words_result": [ { "words": "c、长中8b-有-2闭一示“点127+0子", "probability": { "variance": 0.038158, "average": 0.727255, "min": 0.372546 } }, { "words": "-7小方3e4-2,(3打速际半(行含会算平长平起并", "probability": { "variance": 0.049085, "average": 0.684119, "min": 0.371653 } }, { "words": "布计x1年1下间到永国中(倦。全行", "probability": { "variance": 0.028955, "average": 0.740046, "min": 0.436134 } }, { "words": "¥?(3叶联三27、个多吉5%21(万", "probability": { "variance": 0.053878, "average": 0.722857, "min": 0.376222 } }, { "words": "中-)了边代(老,5个衣2-2n5(1只", "probability": { "variance": 0.057316, "average": 0.679225, "min": 0.371489 } }, { "words": "“%项气,花2(到家上2号在若2后本2", "probability": { "variance": 0.040895, "average": 0.767881, "min": 0.360837 } }, { "words": "131到今tb、)4车.门乡到要公数", "probability": { "variance": 0.037789, "average": 0.691048, "min": 0.359186 } } ] } }



反馈建议:
关于接口文档的建议:关于接口文档和官网的描述不一致,导致第一次体验接口返回格式问题。通过QQ群反馈和技术人员解释才找到适宜的接口和参数。
建议 :进一步完善文档和简化开发的学习曲线,尽快将 Python 版本接口调整到 3,毕竟 Python 官方已经明确 python2 的维护终止时间,市场上使用 python2.7 的越来越少。

关于准确率:业务场景对 NLP 文本图片识别对时效性要求不高,但是对于准确率要求较高,目前讯飞产品返回的识别结果准确率大概在 80%左右,返回的而结果没有【置信度】的参数。
建议:对于识别的文字返回内容每一个 content 增加一个置信度,置信度低意味着识别的可信度不高,需要人工介入,在准确率不高的前提下,有助于用户更快的人工介入,通过 AI 和人工结合的方式迈出工程化的第一步,尽快从实验室走出来。

总结:
百度的 OCR 识别,讯飞的 OCR 识别,包括阿里开放平台试用后,目前看来,讯飞在技术上有稍许的领先,主要体现在识别的准确率上。


——文章来自 苏州崔先生,感谢!







 楼主| 栗子讲究 发表于 2018-5-28 15:02:35
来自 2#
活动详情
AI新品体验营 | 印刷体识别高级权限免费体验!
http://bbs.xfyun.cn/forum.php?mo ... 1&fromuid=42440
(出处: 讯飞开放平台社区)



使用道具 举报 回复
yongwang 发表于 2018-6-4 17:46:47
来自 3#
以数据说话,提出的意见也很好,也是讯飞需要完善优化的地方。不仅仅是能力这块,相应的配套信息(开发文档说明、反馈渠道、处理机制),都是需要一步一步来完善。
使用道具 举报 回复
嘉木 发表于 2018-5-25 10:52:21
4#
赞赞赞
使用道具 举报 回复
代码堆砌者 发表于 2018-5-25 12:15:43
5#
不知道和汉王的比怎么样,讯飞的手写体识别是不是也用了深度学习的引擎在里边?是不是用一个人的手迹去训练之后,对这个人写的字识别率就非常高了呢?
使用道具 举报 回复
cherry 发表于 2018-5-25 21:03:12
6#
赞赞赞赞赞赞
使用道具 举报 回复
135****7403 发表于 2018-5-26 15:39:28
7#
谢谢分享效果

使用道具 举报 回复
zhaoliyuan1973@ 发表于 2018-8-30 10:19:42
8#
大佬大佬
使用道具 举报 回复