南风金融网 - 中原最权威行情财经门户

热门关键词:  xxx  www.ymwears.cn  缪学刚    
热门: 对付勒索软件的利器:二级 还在为云存储掏冤枉钱?那 【MLinEcon文献推送1】文本 帮助你预防灾难的10款免费 利用Intel傲腾存储制定更智 【MLinEcon文献推送3】新闻

【MlinEcon文献推送2】使用机器学习估计消费者就餐的异质性偏好

来源:南风金融网 作者:南风金融网 人气: 发布时间:2019-12-03 22:55:49

原文信息

Athey, S., Blei, D., Donnelly, R., Ruiz, F., & Schmidt, T. (2018, May). Estimating heterogeneous consumer preferences for restaurants and travel time using mobile location data. American Economic Review: Papers and Proceedings, 2018, 108, 64-67.

https://www.aeaweb.org/articlesid=10.1257/pandp.20181031


推文作者|姜敏(上海财经大学商学院博士研究生)


一、导言


管有大量文献研究消费者对产品价格的反映,但鲜有研究关注企业如何选择地理位置和产品类型。新餐馆该如何选址?给定地理位置,哪种类型的餐馆更受欢迎?为解决这些问题,需构建将个人级别的对产品特征和出行时间异质性偏好包括在内的模型。本文使用独特的数据集,使用机器学习的方法,通过构建TTFM(travel-time factorization model)模型回答上述问题。本文构建的TTFM(travel-time factorization model)模型还包含了消费者对可观测和不可观测的餐馆特点和出行时间的偏好。这也是第一篇基于移动位置数据构建消费者选择的结构模型的文章。


二、数据


本文数据集由两部分构成:

1. 消费者位置数据。该数据来自SafeGraph,该公司收集匿名信息,汇总选择通过移动应用程序共享位置的消费者的位置信息。每个匿名消费者都具有唯一设备标识符。本文所用数据集包括2017年1月至2017年10月期间pings(发布的定位)的时间、日期、纬度,经度和其准确性。首先,本文将工作日上午9:00至11:15发现的消费者最常见位置定义为消费者的早晨位置。本文关注采样期间早上位置一致且位于旧金山湾区半岛(大致从南旧金山到圣何塞,不包括山脉和海岸)的消费者。如果在上午11:30到下午1:30的时间间隔内至少有两次pings且时间超过三分钟,则确定该消费者外出去了一家餐馆吃午餐。

2.餐馆数据。使用来自Yelp的数据来识别餐馆,这些数据包括餐馆的地理位置坐标、星级、价格范围、餐馆类别(例如,比萨饼或中式),并且还使用Yelp来推断餐馆开业和关闭的大概日期。

最后,本文将数据集的范围缩小到数据中出现频率很高的一部分餐馆以及访问足够数量餐馆的消费者。最终数据集包含9,188个消费者对4,924个位置的106,889次午餐访问。表1提供了有关数据集中包含的消费者和餐馆的摘要统计信息。



三、TTFM模型


TTFM模型融合了机器学习中最近开发的方法对具有大量潜变量的模型进行估计。它使用标准的离散选择框架来建模每个消费者对餐馆的选择,根据消费者的选择行为推断出消费者效用函数中的参数。TTFM在潜变量数量上与传统模型不同。它包含每个餐馆的潜在特征向量以及消费者对这些特征的偏好。此外,它还结合了消费者对出行距离的异质性偏好,该偏好因餐馆而异。这些距离偏好表示为餐馆特定特征与消费者因这些特征而前往餐馆的意愿的乘积。最后,TTFM是一种分层模型,其中可观测的餐馆特征会影响潜在餐馆特征的分布。本文使用贝叶斯方法进行推断,在该方法中,本文估算了每个消费者的偏好和每个餐馆的特征的后验分布。后验复杂且数据集很大。因此,为了使估计在计算上可行,本文使用随机梯度优化算法、依靠随机变分推断来近似后验分布。

消费者在选择餐馆时最大化其效用,消费者u第t次前往餐馆i的效用为:



其中wut表示消费者u第t次出行发生的星期,dui是消费者u到餐馆i的距离。λi是一个截距项,代表餐馆i的受欢迎程度;θu和αi是潜向量,分别代表消费者u的潜在偏好和餐馆i潜在特征;βi是一个向量,代表影响餐馆i的潜在出行距离的因素,而γu是消费者u愿意去这些地点的餐馆的潜在偏好。δw和μi代表每周/餐厅的时间效应的潜在向量;εuit是误差项,假设它们是独立的并且具有相同的Gumbel分布。本文指定了一个层次模型,其中餐馆的可观察特征(xi)会影响潜在餐馆特征αi和βi的分布平均值。

为了进行比较,本文还考虑了一个更简单的模型,即标准多项式logit模型(MNL),它是本文提出的模型的受限版本:λi在各个餐厅中都是恒定的,αi为商品的可观察特征, θu在整个消费者中是恒定的,省略了δw,并且γu·βi被限制为在消费者和餐厅之间是恒定的。

本文将数据集集随机分为三个部分:70.6%的训练集,5.0%的验证集和24.4%的测试集。本文使用验证数据集来选择参数,同时比较不同模型并评估测试数据集中的性能。


四、研究结论


研究表明,如表2和图2所示,在预测性上,TTFM是比MNL更好的模型。此外,TTFM模型还可以预测餐馆开业或关闭时如何在餐馆之间重新分配市场份额,并将这些预测与实践中发生的实际变化进行比较(见图4)。



本文还研究了餐馆特色和位置之间的匹配。本文随机选择一个餐馆位置,并使用TTFM模型来预测如果在原位置放置其他餐馆,总需求量将是多少,预计哪些地区将在午餐市场上提供最大的需求。例如,本文可以看到,在地图的东南部,一个越南人口稠密的地区预计越南餐馆的需求量最高。对菲律宾餐馆的需求相对分散。随着数字化的到来,有关消费者位置的面板数据集可以与丰富的结构模型结合起来,回答有关公司战略以及城市政策的问题。本文正是利用一个新颖的移动位置数据集,构建结构模型,分析消费者选择问题。本文提出的TTFM模型,允许消费者对餐馆特征以及出行时间存在偏好异质性,其中出行时间的偏好又在各餐馆之间也有所不同。这篇论文是营销领域内少有的利用机器学习方法进行因果推断的文章,并在结构模型中同时加入显变量和潜变量。对此感兴趣的同学可以下载论文认真学习,这将是一个很好的学习范本。


Abstract

This paper analyzes consumer choices over lunchtime restaurants using data from a sample of several thousand anonymous mobile phone users in the San Francisco Bay Area. The data is used to identify users approximate typical morning location, as well as their choices of lunchtime restaurants. We build a model where restaurants have latent characteristics (whose distribution may depend on restaurant observables, such as star ratings, food category, and price range), each user has preferences for these latent characteristics, and these preferences are heterogeneous across users. Similarly, each item has latent characteristics that describe users willingness to travel to the restaurant, and each user has individual-specific preferences for those latent characteristics. Thus, both users willingness to travel and their base utility for each restaurant vary across user-restaurant pairs. We use a Bayesian approach to es timation. To make the estimation computationally feasible, we rely on variational inference to approximate the posterior distribution, as well as stochastic gradient descent as a computational approach. Our model performs better than more standard competing models such as multinomial logit and nested logit models, in part due to the personalization of the estimates. We analyze how consumers reallocate their demand after a restaurant closes to nearby restaurants versus more distant restaurants with similar characteristics, and we compare our predictions to actual outcomes. Finally, we show how the model can be used to analyze counterfactual questions such as what type of restaurant would attract the most consumers in a given location.

排? ? 版 | 石庆宇

审?? ?核 |?郭???峰

责任编辑:南风金融网

最火资讯

首页 | 财经资讯 | 金融理财 | 价格行情

Copyright © 2012-2015 南风金融网门户站 版权所有 Power by DedeCms 豫ICP备12016580号  技术支持:南风金融网

电脑版 | 移动版