Enterprise Just Builder

Solution for Enterprise Software Architecture

machine learning

机器学习(1)数据挖掘 机器学习 和人工智能的区别

本文主要分为两部分,第一部分阐述数据挖掘(data mining)、机器学习(machine learning)和人工智能(AI)之间的区别。这三者的区别主要是目的不同,其手段(算法,模型)有很大的重叠,所以容易混淆。第二部分主要阐述以上的技能与数据科学(data science)的关系,以及数据科学(data science)和商业分析(business analytics)之间的关系。

数据挖掘 VS. 机器学习VS. 人工智能
数据挖掘 (data mining): 有目的地从现有大数据中提取数据的模式 pattern 和模型 model。
关键字:模式提取,大数据。

数据挖掘是从现有的信息(existing information)中提取数据的模式(pattern)和模型(model),即精选出最重要的信息,以用于未来机器学习和 AI 的数据使用。其核心目的是找到数据变量之间的关系。其发展出来的主要原因是大数据的发展,用传统的数据分析的方式已经无能处理那么多大量的看似不相关的数据的处理,因此需要数据挖掘技术去提取各种数据和变量之间的相互关系,从而精炼数据。

数据挖掘本质上像是机器学习和人工智能的基础,他的主要目的是从各种各样的数据来源中,提取出超集(superset)的信息,然后将这些信息合并让你发现你从来没有想到过的模式和内在关系。这就意味着,数据挖掘不是一种用来证明假说的方法,而是用来构建各种各样的假说的方法。数据挖掘不能告诉你这些问题的答案,他只能告诉你,A 和 B 可能存在相关关系,但是它无法告诉你 A 和 B 存在什么相关关系。

机器学习(machine learning): 自动地从过往的经验中学习新的知识。
关键字:关键字: 自动化,自我优化,预测,training data,推荐系统

>>> 阅读全文

 

, ,

创建推荐引擎: 基于 Azure, Hadoop 和 Mahout 的机器学习

喜欢帮助别人的感觉吗?

我们将根据 Stack Exchange 用户回答问题的历史,向他提供一些“建议回答”的问题。这与亚马逊上根据购物记录来推荐商品的经验十分相似。如果你不知道 Stack Exchange 是个什么?建议你登录一下Stack OverFlow

通过本文,你可以了解如何根据对用户的历史“答案”的分析,来预测他可能可以回答的问题。也许 Stack Exchange 现在的推荐系统比我们实现的要更棒,但这不妨碍我们本着学习的目的来重复造一个轮子。1

我们将要完成以下任务:

  • 从 Stack Exchange 数据集中提取所需的信息
  • 利用得到的信息来构建推荐系统

让我们从最基础的开始。如果你对 Apache Hadoop 以及在 Azure 上部署 Hadoop 完全陌生,我建议你试读一些介绍文章。2

>>> 阅读全文

 

, , , ,