当前位置: 首页 > news >正文

数据挖掘-理解业务和数据(二)

 目录

1、思想问题

避免对业务的轻视

明白可以为和不可以为

数据挖掘不是万能的

2、业务背景和目标

3、把握数据

总结


数据挖掘流程图 :

前置准备:

1、思想问题

避免对业务的轻视

要做什么样的人,要先去按照那样的人去思考。

做数据挖掘,一定要避免的思想问题
我学了很多的算法,穿着程序员的衣服,背着程序员的电脑,我就是一个优秀的数据挖掘工程师了
数据挖掘人员需要真正理解业务场景与挖掘需求
数据挖掘的本质是一种方法
要去解决问题,一定要源于业务需求,服务业务需求

如果要做一个成功的数据挖掘项目:

  • 深入学习业务,明白业务的关键点。
  • 在项目的需求阶段与业务方进行充分的沟通,在发现偏差时及时调整。
  • 在制定OKR的时候与业务方来共同制定

明白可以为和不可以为

 一个业务需求来了:

  • 明了业务的要求以及目标
  • 明白数据挖掘要解决的点在哪里
  • 技术在业务上绝不是万能的

比如你在做一个OTA酒店消歧的项目,酒店业务中的一个痛点:
不同的供应商提供的酒店信息可能存在一些区别,需要消耗大量的人工去做比对决策
实际上会遇到的情况:

  • 数据可能是残缺的导致无法使用算法处理
  • 不同供应商提供的同一家酒店名称可能是不同语种的,无法使用同样的模型来解决。不同的供应商提供的信息可能是不对等的,无法使用一套解决方案来完全解决所有问题
     

数据挖掘不是万能的

数据不完美:

每一个公司都只是掌握了部分数据,有些甚至没有多少数据,还需要去外面爬取数据来进行处理
数据的真实性、准确性、完整性具体到每一条数据时或者某一个需求时,是不完美的,甚至是匮乏的。

业务条件不完美:
数据挖掘项目通常都是跨团队的协作项目。
例如上面的酒店业务,需要与业务进行了更深入的讨论,最后确定目标是提升酒店运营人员的效率
项目降低了酒店运营60%的人力成本。

数据挖掘只能在有限的资源与条件下去提供最大化的解决方案
与业务方进行深入的沟通,同时对你所掌握的数据有充分的认识,对业务的难点和重点有明确的区分。
建立需求多方评估机制,让业务专家与技术专家参与进来,评估需求的合理性以及你的数据情况 。
对需求讲行坼解,以最大化在数据限制和业务限制前提下的项目效果 。

2、业务背景和目标

在进行数据挖掘之初就要去明确业务背景和业务目标
需求的产生必然是因为某种分析需求、某个问题或者某个业务目标的需求。
假设你现在是一个自媒体平台,
自媒体作者发布文章,很多用户会来看这些内容,从而产生互动行为
这些会刺激作者继续创作,而作者持续发布好内容又会吸引更多的用户来浏览

需求:要对发布内容的自媒体做一个贡献度评级模型
贡献度该如何去衡量?
对于一个作者,贡献度体现在他的内容上

  • CTR(点击率)高的内容贡献度高,还是有独特观点的内容贡献度高?
  • 能引发讨论的内容贡献度高,还是技术深度更深的内容贡献度高?
  • 发布内容的频率高贡献度高,还是发布的内容够长贡献度高? 

你应该展开沟通,并成立专家小组来对目标进行评审:
在沟通的过程中了解到:业务背景是在打造品牌影响力的时候,发现很多用户对我们的内容产生了质疑,业务方希望能够对作者形成一种分级制度。

3、把握数据

作为一个数据挖掘工程师,需要对你要用到的数据了如指掌
收集、存储、转换数据都是十分重要的环节。

1.是否有数据
是否有这样一个数据集来支持你做这样一个模型,来完成这样一个需求,来回答业务的问题

2.有多少数据
数量的不同会影响处理方式

3.是什么样的数据
需要考虑的是这些维度是否可以支持完成业务需求,是否与所提出的问题有关系4.标签
比如监督学习任务,每条数据都需要有结果的标注,这也是模型或者算法要学习的结果

总结

  • 思想准备――确保自己已经具备了一个专业的数据挖掘工程师的思维模式
  • 理解业务―—确保与业务需求方的充分沟通,对业务需求的充分理解
  • 理解数据――确保对可以掌握的数据有全面的了解,知道哪些数据有用,哪些数据没用
     

相关文章:

  • 使用riscv-tests进行指令测试(二)
  • 【c++】weak_ptr和观察者模式
  • 混合现实(MR)技术的应用场景
  • 程序员视角下的AIGC技术:现状、挑战与未来展望
  • 深度学习基础:循环神经网络中的Dropout
  • redis故障中出现的缓存击穿、缓存穿透、缓存雪崩?
  • 云计算与边缘计算:有何不同?
  • Vue + Echarts页面内存占用高问题解决
  • windows xrdp 到 ubuntu 的一些问题记录
  • Python爬虫实战入门:爬取360模拟翻译(仅实验)
  • KaiwuDB 拿下“物联之星”双项殊荣
  • nginx 模块 高级配置
  • 温振变送器为何被称为监测工频类设备故障的“利器”?
  • 【面试题】数组去重的五种方法(必会)
  • MySQL索引
  • JavaScript基础总结---重点
  • UnRaid设备共用其他UnRaid主UPS的详细设置方法
  • ESP32的MQTT AT固件烧录+STM32以ESP32的MQTT AT固件的AT指令连接EMQX下mqtt服务器实现消息订阅和发布
  • Python 多进程编程(一)Pool Manager in multiprocessing
  • 灰度变换 - 灰度切割(灰度级分层)+threshold函数
  • MyBatis 框架的思想及其第一次使用
  • 【Unity Shader】Unity中如何创建Cubemap?
  • 面试百问:项目上线后才发现bug怎么办?
  • C语言《文件版本通讯录》
  • 【无人机】基于EKF、UKF、PF、改进PF滤波算法的无人机航迹预测(Matlab代码实现)
  • 一篇文章让你搞懂Java中的静态代理和动态代理
  • ROS1云课-导航实践测评
  • React中路由的参数传递 - 路由的配置文件
  • (附源码)计算机毕业设计SSM基于web的健康饮食信息管理系统
  • 算法的意义、如何学习算法和算法的复杂度
  • 由浅到深带你详谈Java实现数组扩容的三种方式【建议收藏】
  • 【ML on Kubernetes】第 1 章:机器学习的挑战