主页 讲师 课程库 电影院 留言区 关于我们 注销
当前位置 : 行业资讯

大数据时代下如何打造最高效的移动广告平台

“大数据”一词已不容置否地成为当下最受瞩目的词汇之一,对于栖身大数据时代的全球移动广告平台而言,及时、精确、完整的数据收集和处理能力,是移动广告平台提高变现能力的根本手段。 在目前的大数据时代下,每家广告平台每天会接到来自全球上亿台设备的请求。面对这样的急需,移动广告平台中的百度DAP建立起最早的“离线计算”技术,保证了精准广告投放的效果。

离线计算是DAP数据平台最早建立的,为主干业务提供了数据支撑,离线计算负责抽取app请求和上报日志,经过转换然后加载到Hadoop集群中,通过计算生成基础数据模型、多维度数据模型、业务数据模型,通过与收益数据的关联完成聚合数据模型。下面将从离线数据流和业务数据流两方面对离线计算进行讨论。

离线数据流 离线计算可以采用两种方式收集数据,一种是将日志统一拉取到某几台服务器上,然后统一加载到Hadoop集群,过程如图1所示。

【 图1 数据收集方式 】 另外一种方式是通过上报和请求服务器直接加载Hadoop集群中,如图2所示。

【 图2 数据收集方式 】 考虑到海外机房网络的速度和不稳定性,DAP采用了第一种方式,使用分布式、多线程的拉取海外日志方式。在日志拉取过程中做了优化,通过给服务器进行分组,修改OS内核参数,确保每台日志服务器的流量不会将网卡占满,避免影响其它业务。通过对Sqoop服务化封装如图3所示,实现了异构数据源快速交换系统,可快速同步业务库中的广告元数据、业务数据至Hadoop集群中。

【 图3 Sqoop服务化封装 】

离线业务流

离线业务承载了多种功能, 有app上各种事件上报信息, 有广告展现和点击等商业信息, 也有客户端运行的debug信息(需用户同意开启), 这些事件按照一定的规则上报,尽量少的占用用户流量。 但是移动端的上报数据往往非常不稳定.各国家的网络状况不同,移动终端的特性不同,用户所处的环境不同,上报会有乱码,错位,重复等等问题. 而数据平台是后续所有业务的基础,这里的数据准确性非常重要。 面对这个问题,百度在数据上报时做了一些标记和规则,在数据平台处理离线业务数据时,根据这些标记和规则做清洗,过滤,去重等操作,确保业务数据从入口上保持准确和完整.对后续的业务提供有力保障. 在与上下游业务伙伴对接时, DAP数据平台都保持了较高的数据匹配度。

作为一个全球化的移动广告投放平台,每天需要处理来自200多个国家和地区的上亿台终端设备的广告请求、广告产生的各种事件、接口调用等数据,来保证最精准的广告投放。而面对这数T级别的数据量,百度也将继续开发、应用更多的数据处理技术,以保障最精确的广告投放方式,和最高效的开发者变现服务。

相关文章

文章排行

京ICP备11017824号/京ICP证130164号
北京市公安局朝阳分局备案编号:110105000501