李彦宏认可的人工智能公司博彦科技为度秘提供语料与机器训练服务

编辑时间: 2018-01-12 21:54:38    关键字:

       语音识别 、图片识别、自动驾驶的现状与挑战

       20180112220131.png20180112220131.png
       去年的百度世界大会介绍了多款业务和产品,李彦宏亲自介绍的是百度的语音搜索产品度秘,李彦宏用了几段方言来测试度秘的语音分析能力,现场的许多观众都没有听懂那句话,但度秘却轻松听懂了。度秘这款产品,可以为百度糯米等产品提供语音文字输入,能够用来购买产品、寻找地址,还与华为 荣耀手机“智灵键”深度集成,为华为手机用户提供秘书化搜索服务。
       按照李彦宏的逻辑,在移动互联网触屏 时代,80后之前的人可能还愿意打字交流,但90后甚至00后,可能更愿意和习惯用语音来与智能设备 交互。所以度秘是百度方便用户使用并引领用户习惯变迁的重要产品。
       如果不懂人工智能 开发的繁杂和困难,会觉得让机器听懂一个人说话有那么难吗?其实这个过程非常复杂。实际上,百度、谷歌、阿里巴巴等公司至今也没有在语音识别这个领域做的尽善尽美。比如对方言和嘈杂环境中的语音识别,差错率也还是有一些的。
       目前,度秘等产品承担的主要还是听懂的功能,而微软小冰等交互机器人产品,则进一步在承担人机交流对话的功能。小冰现在用户众多,微软对小冰机器人寄予厚望,认为是其移动互联网的重要入口。
       人工智能的应用,还体现在电商图片搜索领域。此前传统的搜索方式主要是通过品牌货号进行文字搜索。现在,用户上传一张服装的图片即可以在淘宝 搜索出多个类似款式的衣服。
       之所以能够搜出来,是因为淘宝对大量的服装进行了标注,比如该衣服是长款还是短款,什么颜色,带领还是无领等,但由于目前标注点还比较少,所以给出的搜索结果是多款类似的衣服,用户可以在其中找寻合适的款式,或在给出的结果中再自行搜索那个同品牌同款式的衣服。
       想要通过图片搜索直接找到同品牌同款式服装,需要成倍增加标注点,成本大幅上升,对淘宝来说未必划算。但据说目前已经有了拥有图片精确搜索技术的公司,相信随着人工智能的迭代发展,通过图片搜索服装、鞋子、包包、家具 等产品都将更加直接和容易。
       此外,自动驾驶也是人工智能领域最前端的技术。目前,包括百度、谷歌在内的公司,都在积极研发之中,但完全商业化,需要假以时日。自动驾驶面临更多更繁杂的数据,包括与其他车辆的距离、车速、变道时机、刹车幅度、避让行人、天气、行驶路线等各种因素,其对大数据 的需求量更大。
       大数据应数量与质量并重,上下游公司协同配合
       上述的语音识别、图片识别和自动驾驶等人工智能的应用,都需要基础数据作为支撑。度秘和微软小冰,需要提前为其输入大量语料,其再根据语料来构建算法和模型,并对其进行持续训练和持续提供最新热点语料,才能制造出一个跟得上时代的交互机器人。
       而由于地域广阔,方言繁多,方言采集清洗就是一个巨大的挑战。对于微软小冰来说,要为其设定合适的年龄、性别和性格,这也需要为其提供适合其身份的语料。
       博彦科技的基础数据处理团队及数据工程师团队一直持续在为微软小冰、百度度秘提供语料与机器训练服务。博彦科技与BAT、微软、谷歌等企业保持着多年的基础数据业务合作。
       大数据是人工智能发展的基础,在大数据与人工智能的发展征途中,需要上下游各家公司的协同配合。大数据的设计算法和数据处理都需要大量的人工服务,有多少人工就能产生多少智能。大数据的质量和数量,影响着人工智能呈现效果。
       在语音和图片识别领域,博彦科技拥有超过400人的全职自有团队,十余年的大数据服务经验,投入了大量科技研发力量以增强算法和数据服务,建立了完备的数据质量保障体系。
       博彦科技副总裁孙铁林表示,中国人工智能的发展,也需要有扎实的大数据基础,需要进行大量的人力和资金投入。数据数量与质量都非常重要,如果只看重数量,而不看重质量,人工智能产品最终呈现的效果会受到很大影响。目前,google、微软等世界巨头科技企业,每年都会在人工智能领域投入大量预算用于提高数据数量与质量。
       大数据的进一步应用,掘金1.6万亿美元市场
       几十年前各国IT部门就已经在花力气研究人工智能,但因为当时的信息传输能力、计算能力有限,所以人工智能的发展和应用一直不温不火。但现在人工智能在各个领域迅速发展。未来用户看到的篮球 比赛的精彩回放,可能就是来自于机器的自动抓取回放。一些创业公司也在力争让机器看得懂人类喜怒哀乐的表情,在婴儿的啼哭声音中发现其啼哭的原因。
       根据戴尔公司总裁迈克尔·戴尔提供的数据,今天我们的处理能力、带宽、存储正以每年10倍的速度成倍增长,而未来15年我们的技术将会比现在更强大1000倍。今天破解一个人类基因组需要16个小时,2031年将只需要一秒。每一个新生儿在医院 都将有个性化的医疗,电脑的处理能力将超过人脑 ,且成本将不到1美元。
       现在一些智能手机 、电视、无人机 和其他基础设施都在连上互联网成为物联网 的一部分,这会进一步催生数据中心和数据运营商的发展。云计算 、大数据、人工智能是紧密关联的数字化变动动力。
       在日前刚闭幕的中国第二届大数据产业峰会上,微软全球执行副总裁陆奇认为,如果能够善用大数据,全球企业将额外获得1.6万亿美元的数字红利 ,而中国将占据其中可观的份额。但数据只有经过精雕细琢才能体现真正的价值,未来在高级分析、机器学习、神经网络等领域,需要积累和发展先进的技术和经验,将其中的内涵和关联转化为智能硬件 更适合使用的产品。
       未来,大数据将广泛应用于电商等各个领域。比如目前中国的企业库存就有十几万亿,如果通过大数据减少库存甚至成为零库存,则将节省巨大的资源、产生巨大的价值。未来汽车 零件磨损或发生交通事故,新的零件会及时自动生成订单 ,以便及时为车辆进行更换。
       现在,已经发展出来能够模拟人脑的大型神经网络系统,在摩根定律的进化下,人类已经有了前所未有的计算能力。人工智能还发展出各种深度学习算法,机器可以利用大数据不断学习人类的智能行为,替代人类完成简单的体力甚至脑力劳动。
       下一次的产业技术革命将建立在大数据基础上的人工智能技术上,中国有望成为全球领先的人工智能技术国家。现在,掘金其中正当时。

推荐热图

合作推荐

2010-2018 可思数据版权所有 About SYKV | ICP备案:京ICP备14056871号