|
为未来做出明智的决策。 请注意数据挖掘与加密挖掘不同尽管这两个过程有时都依赖于一群人 执行复杂的计算。 相关阅读 数据分析的 种类型 数据挖掘过程 数据挖掘过程贯穿数据收集和分析的整个过程。它包括初始数据收集然后进行数据可视化。在可视化步骤中数据分析师从大数据集中提取信息。他们可能使用不同的技术来生成有关目标数据集的预测、描述或其他信息。 此外数据科学家可以使用对相关性、关联性或模式的观察来描述他们收集和挖掘的数据。他们还可以通过不同的回归或分类方法对数据进行分类或聚类。 数据挖掘过程通常包括四个主要步骤 设定目标 大多数组织首先决定他们想要了解数据集的哪些内容、应该提出哪些问题以及应该为项目设置哪些参数。在此步骤中数据。
分析师可能会进行额外的研究以便他们能够了解其工作的业务背景。 数据准备 一旦数据科学家知道他们在寻找什么他们就可以确定要挖掘或分析的正确数据集。然后他们收集相关数据并通过消除数据“噪音例如异常值、缺失值和意外输入的重复数据点来“清理数据。 模型构建与模式挖掘 数据科学家研究有趣或值得注意的数据关系例如相关性或顺序模式。高频数据模式通常对 加纳手机号码数据 企业有更广泛的应用。但在许多情况下数据集的偏差可能很有趣。例如异常的财务数据点可能表明存在欺诈的可能性。在模式挖掘步骤中科学家可以利用深度学习算法对数据集进行分类、聚类或组织。 数据评估与结论实施 一旦汇总挖掘的数据就会对结果进行评估、解释并用于得出结论。然后根据前面概述的初始目标这些结论可能会被用来影响政策。
业务决策或其他行动。 数据挖掘技术 数据科学家可以使用各种数据挖掘技术以及算法来挖掘大量数据并提取有用的信息。一些最常见的数据挖掘技术是 关联规则使用不同的规则来查找数据集中数据点之间的关系。关联规则常用于“购物篮分析以便企业了解不同产品之间的关系、消费者的消费习惯等。 神经网络用于深度学习算法。这些处理训练数据并使用不同层的数字节点模仿人脑的工作方式。 决策树分析。该技术使用回归方法或分类来根据预定决策来预测结果。它通过树状可视化提供结论以便外行人可以理解不同决策的结果。 K 最近邻或 KNN 算法。这些算法根据与其他相关和可用数据点的邻近性和关联性对数据点进行分类。它们可用于计算数据点之间的距离或差异例如欧几里德距离。 虽然上述所有数据挖掘技。
|
|