作者 | Hamel Husain,Nick Handel
编译 | Huò Jìng,Jennifer Zhu,云舟
创新互联公司2013年至今,先为湄潭等服务建站,湄潭等地企业,进行企业商务咨询服务。为湄潭企业网站制作PC+手机+微官网三网同步一站式服务解决您的所有建站问题。
机器学习作为人工智能领域广受关注的技术一直倍受学习者的追捧,但其较高的技术门槛和对学习者时间、精力的要求又使人望而却步,这篇来自Airbnb的文章就将教你自动化机器学习的实现方法。
Airbnb的数据科学项目涉及大量的机器学习,而众所周知,机器学习的流程其实有许多重复的任务,其中包括了(但不局限于)以下几项内容:
AML时代来临
越来越多的社区开始创建各种工具来自动化上述及其他机器学习的工作流程。包含了类似范式的概念,这些流程常常被称为自动化的机器学习(以下简称为AML)
自动化的机器学习引起热议
实践中的AML
对于AML,迄今为止还没有公认的范畴,但那些常在年度ICML会议上组织AML研讨会的专家们在他们的网站上定义了一个合理的AML范畴,其中包括了前文中提到的所有重复型任务的自动化。
这个对AML范畴的定义看起来很有野心,但AML在实践中真的有效吗?答案取决于你如何使用它。AML很难完全取代数据科学家,因此我们需要特定领域的专业知识加上人为判断来正确配置大部分的机器学习问题。
我们还发现AML工具对使用表格式数据集的回归和分类问题最有效。AML领域正在迅速发展。总的来说,可以相信AML在某些情况下能成倍地提高数据科学家的生产率。
在Airbnb中AML已经形成了以下成果:
(1)设定标杆
(2)诊断和探索
(3)自动化
AML工具
目前市面上有很多商业版本的或开源的AML工具。我们最喜欢的AML平台之一是DataRobot。这是个建立在很多为大家熟知的开源算法基础上的商业化平台。Airbnb正在进行的很多项目都使用了DataRobot。
Airbnb也尝试过以下正在开发中的开源AML工具:
案例研究:顾客终身价值模型的竞争基准
Airbnb使用了机器学习来建立房客和房主的终身价值(LTV(lifetime value))模型。这些模型可以帮助Airbnb用预期回报来精细地校准营销花费(最细可到单个用户水平)。
对于房客,LTV模型被定义成一个标准的回归问题,目标变量是在每个房客在某段时间跨度内的消费。这个模型的特征包括:人口,地理位置,以及从Airbnb网络和移动应用获取的活动信息。这个模型中有许多可变更的部分可以解释供需弹性、预期成本和其他变量。
建模过程中重要的一点是数据科学家需要客观地选择算法。例如,一个复杂的模型可能比起简单的模型可以得到一个很小的增量效益,这种取舍就需要仔细斟酌。再比如,在建立LTV模型的过程中,我们倾向去使用 eXtreme gradient boosted trees (XGBoost),这是基于以下几点原因:
当Airbnb意识到这些偏见后,他们通过了AML平台(datarobot)对原始训练数据执行了完整性检查来设置模型的误差基准。
下图列出了这些基准。这个图表显示了各种模型的时间交叉验证集的均方根误差(RMSE)分布。y轴对应不同的“蓝图”,它是算法和特征工程步骤的结合。虽然我们不会讨论每个蓝图的细节,但下面的图表展示给读者了一个概况,以便读者了解现代AML系统能够完成的算法选择的任务范围。
DataRobot制作的蓝图基准
使用AML,可以很快得到另一种观点:线性模型对于这个问题非常有竞争力。事实上,AML平台可以测试很多特征工程步骤,以及进行更严格的超参数调整,而我们通常没有时间手动探索这些功能。此外,这些发现使得Airbnb改变了原来的算法,减少了超过5%的模型误差。
结论
AML能帮助我们快速探索数据,以及通过更有效的调参和诊断来提高模型的准确率。上述案例研究充分展示了AML提高模型准确率的能力,但AML也兼具其他优势。对于适合AML的问题,可以认为AML能够提供有效的建模方式,因为只要有训练数据AML就很容易上手。但要注意的是,AML并不能保证100%更优结果,但有技巧地使用AML往往能产生很不错的结果。
来源:
https://medium.com/airbnb-engineering/automated-machine-learning-a-paradigm-shift-that-accelerates-data-scientist-productivity-airbnb-f1f8a10d61f8?from=singlemessage&isappinstalled=0
【本文是专栏机构大数据文摘的原创译文,微信公众号“大数据文摘( id: BigDataDigest)”】
当前名称:机器学习都能自动化了?自动之自动=自动的乘方?
浏览路径:http://www.mswzjz.cn/qtweb/news35/530835.html
攀枝花网站建设、攀枝花网站运维推广公司-贝锐智能,是专注品牌与效果的网络营销公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 贝锐智能