服务详情
服务内容全部包含: · 通过接口从上游抽取日志、订单等数据并按照数据存储规范存入 HDFS。 · 使用 Spark 对各类数据进行清洗、过滤、脱敏后转换为各自统一口径的数据格式。 · 分析各项指标进行相应数据的聚合, 优化聚合逻辑以达到高效率与低资源占用的平衡。 · 开发与优化归因模型: 全量归因模型、末次归因模型、线性归因模型、自定义归因模型等。 服务优势: · 深刻理解 Hadoop 生态圈: HDFS 读写流程及高可用架构、MapReduce 运行原理和 YARN 的资源调度策略。 · 熟练使用 Spark 技术栈, 能够通过 SparkCore、SparkSQL、SparkStreaming、StructuredStreaming 等模块进行业务开发。 服务前需客户提供的信息: · 需求是什么? · 最晚交付日期? · 目前有哪些资源? · 具体流程与细节? · 有无特殊要求? · 后续有没有可能继续合作?