当我们还在为语音识别的普及欢呼雀跃的时候,图像识别像暗夜里的蔓藤,正悄悄地在伸展自己的身体。
上周Facebook告诉我们它们正在开发的功能已经能让盲人”看到“图片的时候,晒图狂们突然发现,哇,原来图像识别已经离我们的生活如此之近,以至于盲人伯伯们也能用听的方式get到你此时正在三里屯撩妹的信息巴拉巴拉……但在毫无标签的情况下识别也太那个了,是不是用了什么非常手段?是不是欺负咱们不懂科学?
当然!黑科技只能用黑科技的办法解决。
实际牛掰的东东
雷锋网先带各位来回顾一下Facebook发布的这款黑科技————能对图片上的内容进行自动描述,从而让盲人或视觉障碍患者“看到”图片。该工具可对照片进行自动文本处理,从而让用户听到照片上的内容描述,如“有三个人,面带微笑,站在户外”等。
借助VPN翻墙到iPhone版Facebook后,发现iPhone自带的voiceover功能对于本来有文字描述的东西都能读出来,这跟Facebook本身图片识别的功能牛不牛掰并无关系,真正牛掰的是它对没有任何标签图片里物体的识别能力。
实际体验的效果,雷锋网按下Voiceover后暂时听到还只是“two people in the story,actions is available” 这样的效果,试了其它图片(中国长城风景图,非洲沙漠和人图片,一堆人聚餐图片),得到的反馈跟这个差别不大,目前还没听到特别连贯的描述。(莫非因为俺是翻墙用户,所以体验不纯正?强烈期待中国版上线!)
但就Facebook自己允诺的目标——————能让用户听到照片上的内容描述,如“有三个人,面带微笑,站在户外”等。图普科技海洋直言:这种难度蛮大的,主要在于准确率方面,对于单一标签的图片(仅识别人物或者物体)可以把识别准确率训练得很高,但对于组合来说,很难保证超高的识别准去率。
跟ImageNet有关
2014年9月的时候Google的图片识别技术还是遥遥领先的,当时媒体给的标题也是《技高一筹?最新的Google图片识别技术能够“认出”大部分物品》
在那年的ImageNet图像识别比赛里面,隶属于Google的GoogLeNet团队刷新了“分类和侦测”记录,挑战主要遵循三个步骤:分类、分类并锁定以及侦测,当时其精度比前年的记录提升了两倍。当时从谷歌发布的照片中我们可以看出,目前这项技术可以识别出我们常见的物体,比如宠物猫、鸡蛋、香蕉、橘子、电视机、显示器、书架等。
然后到了2015年12月的时候,媒体给的标题是 《ImageNet图像识别大赛 微软打败谷歌获多项第一》,也就是说当年这个名誉易主给微软了。
当时ImageNet图像识别大赛要求选手所设计的图像系统能准确定位来自Flickr和搜索引擎的10万张图片,并把图片划分入1000个物体分类中(狼蛛、iPod、清真寺、玩具店、调制解调器等),错误率越低越好。微软参赛系统的分类错误率为3.5%,定位错误率为9%。在整个比赛中,微软打败谷歌获多项第一。
可谁也没有想到,使用了这项功能后让大家觉得最“黑科技”的却是坐拥14亿个用户社交图片网站的Facebook。实话说,要比图片库Facebook不一定比Google多,但是用户对单张图片信息量的关注度,在Facebook上一定比Google强,就好比我们每天会去刷大量朋友圈看好友的点点滴滴,但不会没事就往搜索引擎里传图片……而现在,盲人们也能天天刷Facebook“看”好友的点点滴滴,让我们一下子就get到这个点的牛掰之处了。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。