电商数仓笔记

第一部分:用户行为数据采集

第1章 数仓概念

日志采集系统:分析用户,file文件,数据量很大(几亿条)
业务系统数据库:保证正常运行,mysql,几百万到千万条
爬虫、钉钉、OA、财务系统

数仓:为企业提供决策
面试:数据来自哪里?目的地是哪儿?
答:起码答出:来:日志采集系统、业务系统数据库
去:报表系统

第2章 项目需求及架构设计

2.1 项目需求分析

“留、转、G、复、活”

2.2项目框架

技术选型设计:
“技术选型方案提两套,有对比,一套熟悉,一套不熟悉需要时间”
MySql:数据量小,分析结果数据,用于可视化,速度快。HDFS:数据量大
MongoDB:爬虫数据

系统数据流程设计:
业务交互数据:业务过程正常流程数据
埋点用户行为数据:用户使用产品时,与客户端交互过程中产生的数据,提供分析用户行为
“提出方案时,也要提出系统数据流程设计图。体现出数据流向。”

框架版本选择:
面试:各种框架使用的都是什么版本?
注意:CDH中Spark默认原始版本是1.6,但是实际开发是2.0以上,面试会问。标红的框架要记住!还有框架尽量不用最新框架,最少要半年前左右稳定版。

集群规模:
中小公司数据基本上每天 1亿 到 2亿条
每条日志平均在 0.5K 到 2K,这里选则1K。