我们其实还不能理解机器学习

发布者：财富猫2019-02-20评论()

随着每一波自动化，我们想象我们正在创造的是拟人化的机器或是具有广义智能的机器。

　　财富成都智库力荐：人们错误地认为机器学习是一种单一的、通用的东西，而这也一直是在理解自动化上的误区：随着每一波自动化，我们想象我们正在创造的是拟人化的机器或是具有广义智能的机器。

　　本文来源于微信公众号阿尔法工场（ID:alpworks)，作者：Benedict Evans，翻译：LuckyB，钛媒体经授权转载。

　　爆炸式地发展了四五年后，机器学习而今已逐渐成为人们耳熟能详的概念。

　　机器学习的发展，不仅仅体现在相关创业公司不断涌现，以及科技公司的自身重建（许多大公司都在推进相关的项目）；更为显著的意义在于，它可能是下一波工业革命的核心。

　　机器学习中的一个重要组成部分是神经网络，也就是有规律的模式和数据。借助机器学习，我们可以在数据中找到非直接的、隐含的数据结构。

　　机器学习解决了以前“人类能办到但计算机办不到”的一类问题——或者更准确地说：“人们难以向计算机描述的问题”。

　　虽然，一些很酷的机器学习语音和视频应用样本已经逐步浮出水面；但是，我们似乎还没有彻底理解机器学习。比如：它对科技公司以及传统行业意味着什么，人们该如何思考它能够带来的创新，以及它可以解决哪些重要问题？

　　“人工智能”一词其实不太能帮助我们理解机器学习的内涵，而且多数人一听到这个词就懵了。

　　一旦我们说“AI”，就好像人类进化的转折点出现了，我们也瞬间变成了猿猴，冲着我们不能理解的未来尖叫，挥舞着我们的拳头。

　　我们其实还不能理解机器学习

　　实际上，目前市面上关于机器学习的讨论并不能帮助我们真正理解机器学习。例如：

　　数据是新石油

　　谷歌和中国（或Facebook，或亚马逊，或BAT）拥有所有数据AI将掠夺走人类的工作

　　人工智能

　　而更有用的讨论方向可能是：

　　自动化

　　赋能技术层

　　关系数据库（SQL）

　　为何谈到关系数据库？因为它是一个新的基础支持层，改变了计算机可以做的事情。

　　在关系数据库出现之前——也就是20世纪70年代末之前，如果希望数据库算出特定主题的内容，例如“购买此产品并居住在这个城市的所有客户”，通常需要一个自定义的项目。

　　而由于数据库的结构并不适用于任意交叉的查询，如果想问一个问题，就需要建立一个专门的数据库。

　　可见，数据库是一种记录保存系统。而关系数据库，则将它们转变为商业智能系统。

　　关系数据库在很大程度上改变了数据库的使用方式，从而创建了新的范例和上亿美元市值公司。

　　关系数据库为我们带来了甲骨文（NYSE：ORCL），也给了我们SAP（NYSE:SAP；全球最大的企业管理和协同化电子商务解决方案供应商）。

　　SAP及其同行，为我们提供了全球即时供应链，从而使得苹果（NASDAQ:AAPL）和星巴克（NASDAQ:SBUX）的诞生成为了可能。

　　到了20世纪90年代，几乎所有的企业软件都是关系数据库，比如PeopleSoft（甲骨文旗下一款协同合作企业软件）、Salesforce（一款客户关系管理软件）以及SuccessFactors（一款人力资源管理软件）等几十种软件都运行在关系型数据库上。

　　显然，事实已经证明，人们在看到Salesforce或SuccessFactors时，不会再说“因为甲骨文拥有所有的数据库，所以其他模式永远不会奏效”。

　　相反，关系数据库已经成为了全球企业管理领域创造更多可能的中坚力量。而这，正是如今理解机器学习的一个很好的方式。

　　机器学习让我们改变了使用计算机做事情的方式，而这将为企业创造出更多不同的产品。最终，多数的产品将来都将会应用到机器学习。

　　这里一个重要的点是，虽然关系数据库具有规模效应，却也有赢家通吃的问题。

　　即便两家公司共用一个数据库，却不能协同使得一个数据库变得更好，如果卡特彼勒(NYSE:CAT)购买和Safeway(北美最大的食品和药品零售商之一)相同的数据库，后者的数据库也不会变得更好。

　　机器学习就是这样的：关键在于数据，但数据对特定应用程序具有高度特异性。

　　更多的手写数据将使手写识别器变得更好，更多的燃气轮机数据将使一个系统更好地预测燃气轮机故障，但这二者并不能互相提升——数据具有不可替代性。

　　这就是在理解机器学习时最常见的误解：人们错误地认为机器学习是一种单一的、通用的东西，认为谷歌(NASDAQ:GOOG)或微软(NASDAQ:MSFT)各自建立了一套机器学习系统，或者IBM(NYSE:IBM)有一个名为“Watson”的机器学习机器。

　　而这也一直是在理解自动化上的误区：随着每一波自动化，我们想象我们正在创造的是拟人化的机器或是具有广义智能的机器。

　　比如：在二十世纪二十年代和三十年代，我们想象钢铁工人拿着锤子在工厂里走来走去的样子，在20世纪50年代，我们想象着人形机器人在厨房里走动做家务。然而最后，我们没有得到机器人仆人，我们创造出了洗衣机。

　　我们其实还不能理解机器学习

　　洗衣机是机器人，但它们并不“智能”。它们不知道什么是水或衣服。此外，即使仅仅在洗涤方面，它们也不是通用的——你不能把餐具放在洗衣机里，也不能把衣服放在洗碗机里。

　　洗衣机只是另一种自动化，在概念上与传送带或取放机器没有什么不同。

　　同样，尽管机器学习能够解决计算机之前无法解决的问题，但这其中的问题并不是一概而论的，而是每个问题都需要不同的方案、不同的数据以及不同的公司来解决。它们中的每一个都是自动化的一部分，都是一台洗衣机。

　　因此，理解机器学习的一个挑战是：我们不但要理解其中的数学方程，也要拥有对AI的幻想。

　　机器学习不会成为一种先知型的机器人，但将其仅仅视为数据统计工具也不妥。大家都说说“机器学习可以让你提出这些新问题”，但到底是什么问题却不明确。

　　我们可以做出很棒的语音识别和图像识别系统，但问题是，普通公司会拿这些系统做些什么呢？

　　正如美国一家大型媒体公司的团队不久前对我说的那样：我知道我们可以使用机器学习来编排十年间采访运动员的视频，但为什么要这样做？

　　那么，对于企业而言，机器学习对于它们的真正意义是什么？我认为有两套思考方法可以采用。首先是根据数据类型和问题类型的方式进行思考：

　　1. 机器学习可以作为一种分析或优化技术，对于已有的数据及问题提供更好的结果。例如， Instacart （美国一家在线杂货配送服务商）建立了一个系统，通过杂货店优化个人购物者的路线选取，并实现了提高50％的优化（这是由三位工程师使用Google的开源工具Keras和Tensorflow构建的）。

　　2. 机器学习可以让我们对已有数据提出新的问题。例如，正在寻找案件线索的律师，可能会搜索带有“愤怒”“焦虑”等情感类关键词的电子邮件，或异常的发信规律或文档集群，以及进行更多的关键字搜索，3. 机器学习开辟了新的数据类型进行分析。从前计算机无法真正读取音频，图像或视频，但是现在，这都将变为可能。

　　在这一点上，我发现成像是最令人兴奋的：虽然只要我们有计算机，计算机就可以处理文本和数字，但在以前，图像（和视频）大部分是不能被处理的；现在有了机器学习，计算机将不但能够“看到”图像，并且能够理解其中含义。

　　这意味着图像传感器（和麦克风）将成为一种全新的输入机制，像一种功能强大且灵活的传感器，可以生成机器可读的数据流。这些都可以归结为的计算机视觉问题。

　　我最近遇到了一家为汽车行业供应座椅的公司，该公司已将神经网络放在廉价的DSP（数字信号处理）芯片上，配备便宜的智能手机图像传感器，以检测织物是否有皱纹。

　　我们更应该期待各种类似的用途，也就是机器学习在非常细微领域，例如微型小部件以及单一件事件上的应用。

　　而将机器学习描述为“人工智能”是没有用的，它更多的是把以前无法实现自动化的任务自动化。

　　这种自动化能力就是思考机器学习的第二条思路。发现纺织物是否有皱纹不需要20年的经验——它真的只需要哺乳动物的大脑。

　　事实上，我的一位同事建议，机器学习将能够做任何你可以训练狗做的事情——这也是一种思考AI的不错的方法：狗究竟学到了什么？训练数据中有什么？你怎么问？但这也不是全部，因为狗确实有智商和常识，不像神经网络。

　　五年前，如果你给计算机一堆照片，它除了按尺寸排序外，还做不了别的。一个十岁的孩子可以把它们分成几个男人和一个女人，一个十五岁的孩子把它们分成酷和不酷的，一个实习生可以指出最有意思的那张。

　　今天，借助机器学习，计算机将匹配十岁孩子的能力，也许是十五岁的。它可能永远不会达到实习生的水平。但是，如果你有一百万个十五岁的孩子来查看你的数据，你会怎么做？会发现什么，会看到什么图像，会检查哪些文件传输或信用卡付款？

　　也就是说，机器学习不需要匹配专家或数十年的经验判断。我们需要“听取所有电话并找到带有愤怒情绪的电话”。“阅读所有电子邮件，找到带有焦虑情绪的电子邮件”。“看看十万张照片，找到那些很酷（或至少很奇怪）的人。”

　　从某种意义上说，这就是自动化。

　　Excel没有给我们人工会计师，Photoshop和Indesign没有给我们人工图形设计师，而且蒸汽机确实没有给我们人造马。相反，我们是在成规模地逐一攻克每一个小问题。

　　上面这个比方的意思是，机器学习不仅可以找到我们已经认识到的东西，而且可以找到人类还没有识别的东西，或找到那些十岁的孩子辨别不出的模式或推论。

　　这就好像是AlphaGo。

　　AlphaGo不像电脑一样下国际象棋，也就是按顺序分析每一个可能的决策步骤；与之相反，AlphaGo被编入了规则，需要自己制定战略，AlphaGo通过和自己下棋来学习，而这数量是人类在好几生中下棋的数量。

　　也就是说，这不是一千名速度非常快的实习生，而是机器学习在看到第三百万张图像时，可以识别出一种没有被发现的模式。

　　那么，哪些领域足够细化，让我们可以告诉机器学习一套系统规则，而且足够深入，以至于能够看到人类所看不到的数据，而这会带来意想不到的结果？

　　我花了很多时间与大公司见面并讨论他们的技术需求，它们确实有一些需求通过机器学习就能解决。比如它们有很多明显的分析和优化问题，以及很多图像识别问题或音频分析问题。

　　同样，我们谈论自动驾驶汽车和混合现实的唯一原因，是因为机器学习能够让它们变为实现。

　　机器学习为汽车提供了一种途径，让它们了解周围的事物以及人类驾驶员可能会做采取的行动，并提供混合现实一种解决方案，明确我应该看到的事物，就像一副可以显示任何东西的眼镜。

　　但在我们谈到面料皱纹或情绪分析之后，这些公司往往会坐下来问“好吧，还有什么？”这会带来什么其他的东西，以及它会发现什么未知的东西？

　　得到这些问题的答案，我们可能至少还需要十到十五年时间，直到那时我们或能真正透彻理解了机器学习。

　　

新浪腾讯 QQ 人人更多