【百一商汇安防版】|【百一商汇IT版】|【百一商汇汽车版】
返回首页| 移动触屏版| |设为首页
登陆 免费注册

官方微信 精彩呈现

您当前的位置:首页>行业资讯>数码资讯>正文

iPhone7全揭秘:苹果在iPhone里藏了个“人工智能大脑”(二)

放大字体  缩小字体 发布日期:2016-09-10 来源:爱范儿 浏览次数:73
Siri起源于一个雄心勃勃的项目DARPA的智能助手,不久后,就有几个科学家组建了一个公司,打算用这种技术来打造一个app。

在2010年SteveJobs亲自说服了创始人把它卖给了苹果。Siri直接被构建进了操作系统中,并成为了2011年10月iPhone4S发布会的重头戏。而现在,它完完全全可以应用在实际中。当用户长按Home键或是简单的说一句“Hey,Siri。”就可以使用(iPhone有个特性,能让其中一个收音器始终打开又不会费电)。Siri无论在它工作时还是沉默时都和AppleBrain是一个整体。就核心产品而言,Cue用了产品的四个组件来说明:语音识别(理解你在和它说话),自然语言理解能力(掌握并理解你所说的话),执行(实现你的询问和要求),回答(回应你)。“机器学习影响了这些极其重要的方面”。Cue说道。

Siri高级研发负责人TomGruber(上)、以及Siri语音大师AlexAcero(下)TomGruber在2011年其中一个创始人离开后加入了苹果,提到在苹果给Siri使用应用神经网络之前,其用户群就提供了大量数据,这对于锻炼这个神经网络很重要。

Steve曾说过,你会一夜之间从一个不知名的app一跃拥有一亿用户,并且无需公测。用户会告诉你他们是怎么和你的app对话,这就是第一次革命,接着,应用神经网络就来了。Siri从最初的应用神经网络到现在能够应对用户的各种要求,全靠语音识别团队的高管AlexAcero等几位AI专家。90年代早期,Acero就开始了在苹果语音识别团队的生涯,然后又去了微软研究院。

“我喜欢那里的日子,我还发表了很多论文,”他说道“但是当Siri面世的时候,我觉得这就是一个把应用神经网络得以实现的好机会啊!不是仅仅让一百个人知道,而是要让一百万个人用到。”换句话来说,这就是苹果一直需要的科学家,热衷于研发产品而不是发表论文。

机器学习非常显著的、从多个方面对Siri造成了冲击

在Acero三年前加入苹果那时,Siri的语音技术实际上还主要是来自第三方的协议授权,这注定要做出改变。Federighi还注意到这实际上是苹果不断重复的模式:

当这个技术成为决定我们能否做出好产品的关键技术,我们就会建立自己的内嵌功能然后实现我们想要的效果。但如果想要让它变得完美,我们必须自己拥有技术并且不断创新,语音技术就是我们采纳一个东西,并且最终实现落地的最好例子。

苹果团队第一步选择了用神经网络代替Siri原有的底层,“我们有一个不停运转的大型GPU集群,最终我们得到了大量的数据”Acero透露到。2014年7月的发布证明这些循环性学习并没有白费。

“在绝大多数语言中,错误率都实现了减半,有些情况下效果还会更好。这主要是因为深度学习技术以及我们的优化方式——不仅仅是算法本身,最重要是整个系统中内容的传递。”

这种内容的上传通常意味着泄密。苹果也不是第一家将DNN技术使用在语音识别上的公司,但是苹果证明了它在控制整个传输系统这件事上,有着先天的优势。

这首先就是因为苹果一直自己生产自己的硬件芯片,Acero甚至表示这让他能够直接和芯片设计团队以及芯片固件工程师进行编程,让神经网络的效能最大化。Siri团队的需求甚至还影响了iPhone设计中的其他很多方面。

“当然,这不仅仅是芯片。设备上设置多少个麦克风、麦克风应该如何放置、如何调整硬件、处理音频的底层软件,这些组件都需要进行协调。对比一些只是开发软件的公司,这个优势实在领先太多。”

另外一方面:当苹果的神经网络能够在一款产品中运行起来,它还能够作为其他用途中的核心技术。最终结果是,机器学习让Siri理解你,并且将输入方式从键入变成了听写。

比如在你写信息和邮件的时候,点击麦克风按钮、然后直接说,的确比跟软键盘较劲容易得多。

另外一个Cue提到的SIri组成是自然语言理解。2014年11月起,Siri开始使用机器学习来理解用户输入的内容,而更进一步基于深度学习的版本也在一年之后推出。

就像之前在语音识别上做的那样,机器学习也提升了用户的体验,尤其是在更灵活地理解用户命令。

Cue为此专门拿出了自己的iPhone现场演示了一个例子,在调用Siri之后,他分别发出了“用Square现金给Jane发20美元(SendJanetwentydollarswithSquareCash)”、“直接给我妻子发20美元(Shoottwentybuckstomywife)”,最终的得到的结果完全一样。

苹果最近还表示,如果没有Siri带来的这些而便利,它们不太可能迭代出现有这个在语音控制方面如此复杂的AppleTV。

尽管早期的Siri强迫你使用一个相对固定的方式说话,但是被深度学习加成之后的超级版本不仅能够区分一堆电影和音乐中的特殊选项。甚至还能处理一些模糊的概念:“我想看TomHanks主演的惊悚片(如果Siri足够聪明,它最终推荐的应该是《达芬奇密码》)”,在深度学习技术诞生之前,想要实现这样的效果就是做白日梦。

借助今年秋天即将发布的iOS10系统,Siri的声音成为了机器学习改良的最后一个部分。同样的,这个改变也是用神经网络直接代替了之前的第三方授权技术。

本质上来说,Siri的发声还是依靠一个采集了很多声音的大数据库,通过把句子打散成词汇,再将词汇的语音像堆积木一样拼在一起。而机器学习所扮演的角色,则是让单词之间更加流畅,从而让Siri的声音更加像真人。

Acero同样也做了一个演示——分别让Siri阅读两段一致的内容,第一个有着我们非常熟悉的“机器感”,而另外一个则非常流畅。而他所说的原因也非常简单:“深度学习”。

虽然看起来这是一个很小的不起眼的细节,但Siri有一副更加自然的嗓音实际上能够催生出大变化。Gruber说了下其中的差别:

音频只要更加高质量一点,用户们就会更加信任它。同时更好的语音也会引入用户,并且让用户对Siri的使用率更高。

当苹果最终将Siri对开发者开放,人们使用Siri的意愿,以及机器学习所带来的提升就变得更加重要了。对苹果批评者的意见进行处理是一个非常长期的过程。

也有很多人指出,苹果的第三方伙伴数量停留在了两位数,与亚马逊类似的Alexa拥有的、由外部开发者提供的超过1000种“技巧”相比,数量相差甚远。

苹果的回复则指出这样的对比并没有意义,因为在亚马逊产品上用户必须使用特定的语言去使用功能。而诸如SquareCash、Uber这样应用通过Siri来使用也更加自然。

与此同时,Siri的改变也给苹果产品以及用户带来了一些改变:用户得到的是新功能以及完成相同任务的更多方式;而Siri服务的请求次数也在不断上涨。

对于不断拓展机器学习的苹果来说,最大的问题在于如何在成功的同时坚持其原有的隐私证词。苹果加密了用户的信息,这样没有任何人、哪怕是苹果自己的律师也不能查看用户数据(记得之前吃瘪的FBI嘛?)苹果还专门表示:不会将收集的用户数据用于广告目的。

在用户的角度这也许是值得尊敬的,但这对于吸引顶尖的人工智能人才没有帮助。

所有机器学习的专家,都希望能够拥有一大堆数据。但是因为隐私政策,苹果一直不愿使用这些数据。这种做法是否合理仍需进一步讨论,但这确实让苹果一直被人看做人工智能世界中的局外人。

这种有普遍代表性的观点,换回来的却是苹果高层的激烈抗议。他们认为在不保存用户存档的前提下,为机器学习提供所有所需文件,甚至将用户行为的实例保存下来训练神经网络都是可能的。Federighi补充到:

这一块一直存在错误的叙述和权衡,大家认为我们是保护用户隐私的异类其实是一件好事,但是为了让绝大多数用户的利益,我们愿意给行业中的其他人指出一条发展之路。

我们已经找到了获取我们需要的数据,同时又能保护用户隐私的方法。

这里有两个关键问题,第一个涉及个人信息在机器学习基础系统中的处理,当用户的详细信息被神经网络所收集,那么最终我们能得到什么资料呢?

第二个问题涉及到为了训练神经网络和识别规律之时的信息聚集分类,你怎样在保证群体数据的同时剔除个人信息?苹果其实有同时解决两者的方法,Cue表示:

有的人认为我们不能用人工智能来做这些数据分析,因为我们并不拥有这些数据,但是我们已经找到了方法,在获取信息的同时保持隐私属性。这也是我们的底线。

首先是第一个问题——保护被神经网络识别的个人喜好和信息,解决方法在于用更加独特的方法来控制软硬件。简单一点的解释就是,最为私人的东西会停留在苹果大脑之内,“我们将最敏感的信息保存在能够执行ML的本地”。

举个例子来说,右滑之后出现的应用列表。在设计中,这个位置需要显示你接下来最可能打开的几个应用。这些预测基于一系列因素,很多都涉及到用户行为本身,这对于其他用户来说并没有意义,苹果的处理方法就是直接在手机本地处理需求。

最终功能的效果也非常明显,预测用户接下来用什么应用基本能够达到90%的准确率。

苹果在设备上保存的其他个人信息主要是——用户使用iPhone输入法键入的内容。通过利用神经网络系统分析你的输入,苹果可以能够发现关键性的时间和物品,比如航班信息,联系方式,甚至是约会——但是信息本身只会停留在你自己的手机当中。

即便部分信息会存储在苹果的云中,也会通过特定处理,让这些存储的信息无法反向还原“苹果公司不需要知道你的爱好,或者你什么时候打算去哪里玩”。

苹果也在尽量减少保存的信息量,对此Federighi也提到了一个例子:如果你的一段对话中有一部分需要进行搜索,其他公司必须将整段对话上传到云端进行分析,而苹果设备能够在数据不离开设备的条件下检测出关键信息——这是因为手机会将这些信息与手机内的“知识库”进行匹配。

它很精简,但是是一个综合性知识库,包括了成千上万的定位和对象。我们之所以采用本地化的策略,是因为我们知道你在哪里。

Federighi还透露,这个知识库其实与所有的苹果应用都有相连,包括我们用的搜索栏、地图、甚至是浏览器,可以帮助用户实现自动纠错。

它其实一直在iPhone后台,保持着工作状态。

接下来的问题就是机器学习的循环问题:究竟苹果的隐私政策是否真的影响到了它的神经网络算法?因为通常来说,神经网络都需要大量的数据来高效训练网络的准确度,但是苹果并没有放开使用所有用户的行为,那他们又怎么能够了解用户呢?

就像很多其他公司一样,苹果也是有利用一些公开的信息库来训练他们的神经网络,但是有些时候的确需要更加及时、更加特定的信息,这些智能从用户的数据中来。

而苹果的做法是——从用户那里拿数据,但是又确保自己不知道这些数据对应的用户是谁。之前的做法是,完全让数据匿名,然后以完全独立于AppleID的另外一套系统来标识他们。(另外一套系统和AppleID之间的关系只有苹果知道)

进入iOS10时代之后,苹果更采用了一种全新的技术:差分隐私。能够在向大众收集数据的同时完全不去辨识区分个体。

这方面的应用例子就好像苹果向你展示最近的时髦词汇,但是他们并不在之前所提到的知识库甚至是输入法的词典当中;还有突然因为越来越多询问而“浮出表面”的链接;或者单个emoji表情的使用频率增加。

完成这些事的传统方式是把所有信息,比如你输入的所有字词,上传到服务器短,然后由他们来发现其中有意思的东西。我们也有做端到端的加密,所以我们选择不这样做。

虽然差分隐私现在听起来更像一个学术词汇,但是苹果正在尝试将这项技术普及出去。我们正在将它从研究所内转移到数以十亿记的用户面前。

Federighi紧接着又补充了一些相关的细节:

我们在很多年前就开始做这件事,并且已经在大规模应用中获得了有趣的成果。而且,你会为它的隐私程度感到意外。

他紧接着描述了一个系统其中包括了虚拟的随机和加密机制,即便我专门写过一本关于加密的书,也很难跟随他的思维。但是总结一点来说,它实际上是把数学噪声加到苹果收集的用户信息碎片当中去。

在他看来苹果的贡献也是非常显著的,同时也非常罕见的成为了苹果对外公开的技术,因为苹果授权相应的科学家将工作细节和研究成果公制于众。

对于机器学习如何改变苹果的产品,这一点我们是可以肯定的。但是机器学习将如何改变苹果自身这并不明确。按照其中一种思维来说,机器学习似乎与苹果本身的气质不符。苹果一直都是一家能够全方位控制用户体验的公司。所有东西都被预先设计好,并且以最谨慎的方式写好代码。

但是当工程师开始应用及其学习,他们实际上是在让软件自身不断去发现解决方案。苹果是否能够适应当下的机器学习系统?机器学习的结果是否最终会影响实际产品的设计?这都还是变数。Federighi对此表示:

这件事在内部其实也引起了很多争议,我们之前其实进行过非常长远的思考。之前我们都是根据自己的经验,从多个维度去控制人机交互的细节,最终达到最佳的用户体验。

但如果你尝试通过大量数据训练机器,从而模拟出用户的行为,结果苹果设计师的经验就不再占据领导地位,一切都是数据说了算。

苹果的典型用户将在自己的日常使用中体会到深度学习带来的改变

但是苹果没有因此而退缩,Schiller表示:

这些新技术的确在影响着我们设计产品的思路,最终有一天我们也会因为他们能够让我们打造出更好的产品而是用他们。

这也许就是苹果最终的解决方案:苹果接下来依旧不会对采用的人工智能技术过多标榜,而是一如既往的利用它们来提升产品质量,你iPhone里面的那个“大脑”就是最好的例子。

典型的苹果用户,将在体验深度学习过程中愈发热爱苹果产品。而最令人激动的是这一切是那么难以察觉,以至于当你回过头看差别的时候不仅发出感叹:“这一切是怎么发生的?”

至于天网嘛,也许还要等等。

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!

0条 [查看全部]  相关评论
首页产品信息行业资讯技术方案视频中心企业名录热门品牌服务中心会员中心关于百一商汇会员服务广告服务支付方式联系我们意见反馈

百一商汇 (www.xjbysh.com) 新ICP备16001722号 广告投放/会员办理:0991-4886165 | 客服热线:0991-4886165