Electronic Joint Business

Solution for E-Business

用 RapidMiner 进行情感分析 (一)

RapidMiner(社区版,AGPL)是一个免费的开源分析工具,由于其灵活性和鲁棒性,它也成为了一个优秀的原型平台。RapidMiner 提供了一整套完整的算法,允许你快速切换来尝试不同的模型。 使用 RapidMiner 无需编码,但也提供了 R 语言和 Groovy 插件。RapidMiner 基于 Java 的,所以可以在任何平台上运行。这里我会演示如何用监督学习(Supervised learning)来创建一个人气模型以展示其灵活性。 本文将对 RapidMiner 做一个基本介绍,所以我会详细介绍每一个步骤如何进行。 在机器学习(Machine learning)领域,监督学习(Supervised learning)、非监督学习(Unsupervised learning)以及半监督学习(Semi-supervised learning)是三类研究比较多,应用比较广的学习技术,wiki 上对这三种学习的简单描述如下: 监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。 非监督学习:直接对输入数据集进行建模,例如聚类。 半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数。 由于本文将使用监督学习,首先我们需要一组标签数据。这里我们将使用康奈尔大学 Pang 和 Lee 所提供movie review data,大小为 2K. 同时你还可以在该站点上找到不少在情感分析方面很有价值的论文。 本文处理记录所用的 RapidMiner 版本为 5.2.017,并带有文字处理扩展插件。 Java 版本为 1.6。本系列分为两部分,在第一部分中重点将放在展示如何构建一个人气模型。您可以点击屏幕截图来查看大图。 参考: Sentiment Analysis in RapidMiner No related content found.×Scan to share with WeChat

, , ,

Leave a Reply

Your email address will not be published. Required fields are marked *

Time limit is exhausted. Please reload CAPTCHA.