让盲人“看见”图片 我们离这项黑科技还有多远

当我们还在为语音识别的普及欢呼雀跃的时候,图像识别像暗夜里的蔓藤,正悄悄地在伸展自己的身体。

上周Facebook告诉我们它们正在开发的功能已经能让盲人”看到“图片的时候,晒图狂们突然发现,哇,原来图像识别已经离我们的生活如此之近,以至于盲人伯伯们也能用听的方式get到你此时正在三里屯撩妹的信息巴拉巴拉……但在毫无标签的情况下识别也太那个了,是不是用了什么非常手段?是不是欺负咱们不懂科学?

当然!黑科技只能用黑科技的办法解决。

实际牛掰的东东

雷锋网先带各位来回顾一下Facebook发布的这款黑科技————能对图片上的内容进行自动描述,从而让盲人或视觉障碍患者“看到”图片。该工具可对照片进行自动文本处理,从而让用户听到照片上的内容描述,如“有三个人,面带微笑,站在户外”等。

借助VPN翻墙到iPhone版Facebook后,发现iPhone自带的voiceover功能对于本来有文字描述的东西都能读出来,这跟Facebook本身图片识别的功能牛不牛掰并无关系,真正牛掰的是它对没有任何标签图片里物体的识别能力。

实际体验的效果,雷锋网按下Voiceover后暂时听到还只是“two people in the story,actions is available” 这样的效果,试了其它图片(中国长城风景图,非洲沙漠和人图片,一堆人聚餐图片),得到的反馈跟这个差别不大,目前还没听到特别连贯的描述。(莫非因为俺是翻墙用户,所以体验不纯正?强烈期待中国版上线!)

但就Facebook自己允诺的目标——————能让用户听到照片上的内容描述,如“有三个人,面带微笑,站在户外”等。图普科技海洋直言:这种难度蛮大的,主要在于准确率方面,对于单一标签的图片(仅识别人物或者物体)可以把识别准确率训练得很高,但对于组合来说,很难保证超高的识别准去率。

跟ImageNet有关

2014年9月的时候Google的图片识别技术还是遥遥领先的,当时媒体给的标题也是《技高一筹?最新的Google图片识别技术能够“认出”大部分物品》

在那年的ImageNet图像识别比赛里面,隶属于Google的GoogLeNet团队刷新了“分类和侦测”记录,挑战主要遵循三个步骤:分类、分类并锁定以及侦测,当时其精度比前年的记录提升了两倍。当时从谷歌发布的照片中我们可以看出,目前这项技术可以识别出我们常见的物体,比如宠物猫、鸡蛋、香蕉、橘子、电视机、显示器、书架等。

然后到了2015年12月的时候,媒体给的标题是 《ImageNet图像识别大赛 微软打败谷歌获多项第一》,也就是说当年这个名誉易主给微软了。

当时ImageNet图像识别大赛要求选手所设计的图像系统能准确定位来自Flickr和搜索引擎的10万张图片,并把图片划分入1000个物体分类中(狼蛛、iPod、清真寺、玩具店、调制解调器等),错误率越低越好。微软参赛系统的分类错误率为3.5%,定位错误率为9%。在整个比赛中,微软打败谷歌获多项第一。

可谁也没有想到,使用了这项功能后让大家觉得最“黑科技”的却是坐拥14亿个用户社交图片网站的Facebook。实话说,要比图片库Facebook不一定比Google多,但是用户对单张图片信息量的关注度,在Facebook上一定比Google强,就好比我们每天会去刷大量朋友圈看好友的点点滴滴,但不会没事就往搜索引擎里传图片……而现在,盲人们也能天天刷Facebook“看”好友的点点滴滴,让我们一下子就get到这个点的牛掰之处了。

AD:《极客网》企业会员火热招募中...

  • 写评论
  • 0