11月7日讯:世界上最大、最著名的拍卖网站eBay有 1.8 亿个活跃用户,平均同一时间内会有 3.5 亿件商品被销售。eBay 的拍卖搜索引擎上,每天会产生 2.5 亿次搜索。大量的搜索和购买记录需要大量的数据支持,也将产生更多的数据。
eBay搜索及平台副总裁Hugh Williams 说,公司在 Hadoop 集群和 Teradata 服务器上拥有10 PB的原始数据,通过对这些数据的利用,公司可以提高在线的交易量,引导用户购买更多商品。
Hugh Williams主要谈到了搜索引擎的优化。通过对数据的分析,公司可以寻求用户行为规律,从而优化搜索结果。“几年前 eBay 的搜索引擎只理解字面意思”,Williams说,“你可以在搜索引擎输入文字,它将按照字面含义寻找,但是并不能真正理解你想法的深层含义”。
如今,eBay要使搜索引擎更加“直觉化”。例入,eBay 发现,在那些想要购买 Pilzlampe 的用户中,输入的是“Pilz lampe”的用户则更可能购买商品,因为搜索引擎会给出更多结果。因此,搜索引擎通过在单词中增加一个空格,就可以增加在线交易量。
eBay会根据自己掌握的信息,改变或重写用户的搜索请求,增加同义词或者替换语句,从而给出更具相关性的结果。另外,eBay还通过大数据来预测商品是否销售出去,销量会是多少,然后调整商品在搜索引擎上的排名。
Williams说,增加因素来改变搜索结果是有风险的。公司通常需要几个月来增加一项因素,而且他们不知道是否真的对用户有用。为此,eBay会在一小部分用户那里先进行测试并观察他们的反应。
改善搜索引擎的过程中,对用户搜索请求的情景判断是一个挑战。毕竟搜索引擎优化得再智能,也不能完全契合用户的意思,在大数据下只能通过数据分析人员,对其做微小调整,引导用户到正确的信息上去。