相对大数据科学家DS《大数据分析科学家DS职能要求》,大数据工程师DE就比较杂了,做的事情也多。当时中国data team 就3个,2个大数据科学家DS,大数据工程师DE也就一个,DE的岗位有人认为是打杂的。因为大数据工程师DS只负责算法输出。你们想想,一个项目光有算法能行吗?谁去执行它,它要如何被外部调用?脏数据的清洗工作谁来做?还有很多很多的事情需要你考虑。
一、清洗数据
首先大数据工程师DE最重要的事情就是辅助DS清洗数据,我们叫data cleaning。因为很多时候从外部拿到的数据,无论是买来的,爬来的,还是已有的,都是原始数据,大数据工程师DS需要对这部分数据做一个预处理,否则很容易污染样本数据。DE的工作,很重要的一部分就是去清洗数据。至于规则是DE和DS讨论的,没有一个固定的模版。
二、获得数据来源
刚刚说到的数据来源,有一个是爬来的,所以你还得会爬虫。关于爬虫部分的内容我会另起一篇,给大家好好讲讲。当时我想做,但没有做的一部分就是爬虫,因为全美有很多公开数据是可以去获取的,当时我想做的是分类,包括清洗、过滤、入库、展示。没来得及做。
如果你会爬虫,DS就会很高兴了,因为他们不用为没有数据犯愁了,你要知道,对于DS来说,数据的数量和质量都是他们关心的东西。而老板更是了,因为DS要数据,他就要花钱去买,如果你是DE你说你可以尝试爬爬看,那老板对你什么看法?
三、后端开发
那你如果还会做后端开发就更好了,会自动化建设那就更好了。自动化建设一般老板是没有要求做,若你想着提升生产效率。这样可以提升工作效率,任务从一周时间缩减到1-2分钟,只需要改配置就可以了,当然这个过程是非常痛苦的,需要你前前后后与DS对需求,review代码。
服务端代码写好后,我们还可以做前端展示,对于vendor来说,他们不关心数据怎么来的,他们想看直接的东西dashboard。
所以对于大数据工程师DE来说,做的事情可以很多。那python就是我们的武器库了,武器是爬虫、数据清洗、后端、前端等等,要什么拿什么,就看你有多少了。而武器库里还可以加上kettle、tableau、informatica等等,这些只是附加项了。参加大数据分析培训机构4个月培训应对这个工作,信手拈来。
工作职责
1、参与大数据分析平台的规划和建设
2、协助相关业务数据服务接口的制定
3、负责大数据处理分析平台的服务框架的设计与开发
要求:
1. 重点本科或以上学历,计算机、数学、通信等相关专业;
2. 有海量数据处理和并行计算开发经验者,熟悉 Hadoop生态,有实际大数据项目经验;
3. 扎实的数据结构及算法功底,优秀的工程实现能力;
4. 了解并掌握MySQL/Hive/Spark的使用;
5. 精通设计模式、设计原则、面向对象编程开发,精通可扩展分布式编程经验;
6. 优秀的分析问题解决问题能力、学习能力、团队合作意识;
加分项:
1. 推荐系统、算法调优经验
2. 有海量大数据开发经验
3. 有 Hadoop/Spark/HBase/Kafka/Storm/Lucene/Elasticsearch 深入源代码分析经验
4. 熟悉机器学习、数据挖掘、分布式计算
填写下面表单即可预约申请免费试听!怕钱不够?可先就业挣钱后再付学费! 怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可推荐就业!
©2007-2022/ www.aaa-cg.com.cn 北京漫动者数字科技有限公司 备案号: 京ICP备12034770号 监督电话:010-53672995 邮箱:bjaaa@aaaedu.cc