社交网络数据及文本挖掘方面的专业技术培训课程方案
培训背景
随着社交网络日益发展,人们乐于在社交网络上分享自己的生活,拓展自己的人脉。这一系列活动背后,是基于社交网络的巨大数据。然而,人们对社交网络数据的挖掘和分析都还处于相对初级的阶段,大规模、高维度数据的挖掘方法还在不断地演化。随着信息技术的迅猛发展,参与到社交网络的人越来越多,人们乐于在网络中去分享自己的相关信息,拓展自己的人脉。文本挖掘为何如此重要呢?据普遍估计,在所有与业务有关的信息中,有80%的信息是非结构化文本数据和半结构化文本数据。换言之,如果不对这80%的信息所代表的大量数据应用文本分析,所有嵌入的业务信息和消费者行为数据都会被浪费。术语文本挖掘常常被称为文本分析具有很多的实际意义,比如垃圾过滤、从电子商务网站上的意见和建议中提取信息、在博客和评论网站中进行社交收听和意见挖掘、增强客户服务和电子邮件支持、业务文档的自动化处理、法律领域的电子发现、衡量消费者的偏好、索赔分析和欺诈检测,企业甚至能通过社交平台去直接影响客户,一切都似乎因为社交网络的出现而变的美好。
培训收益
1.本课程尽量避开数学公式,按照“讲清思想方法原理—结合具体案例—R语言实现细节”思路,让即使是几乎没有什么基础的学员,掌握R语言数据挖掘的基本思路和模式,打下未来深入的良好基础,能在工作和学习中结合具体问题立马上手操作解决;
2.课程注重学练结合的方法,会采取小组讨论的方法,充分调动大家思考的积极性,在做中掌握相关知识和技能;
3.课程紧紧抓住R语言和数据挖掘的重点和难点,详细的分析和讲解,在理解难、容易出错的地方反复提醒,以便学员在课后容易的进行自己复习和相关拓展;
4.本课程让学员领略大数据技术的魅力和广阔前景,使学员掌握主流的大数据(包括结构化、半结构化和非结构化数据)的表示、建模、存储、管理、分析处理、挖掘、推荐技术、匹配技术与关联分析技术,以及机器学习平台的原理与应用实战;
5.课程紧密结合行业市场需求和国际国内最新技术发展潮流,让学员掌握大数据分析挖掘平台架构和应用部署,分享成功的大数据应用项目实施经验,学习大数据分析应用项目解决方案咨询服务;
6.让学员掌握常见的大数据分析方法和数据挖掘算法使用方法,以及大数据开发与运维技术。让学员掌握基于Hadoop大数据平台的数据挖掘平台Mahout、MLbase机器学习算法库应用、数据仓库HIVE、实时分析平台Spark、实时挖掘平台Shark、分布式机器学习与推荐系统平台Oryx的入门、中级以及高级应用,并对主流的大数据分析建模与挖掘推荐平台产品剖析。
培训特色
本课程让学员领略大数据技术的魅力和广阔前景,使学员掌握社交网络与文本挖掘技术的分析能力增强对社交网络数据和文本的分析能力。
课程大纲
日程 | 培训模块 | 内容 |
---|---|---|
第一天 上午 | 大数据概述 |
1.大数据基本概念、技术梗概、技术沿革,以及大数据技术是如何改变人工智能技术、语音识别技术、图像识别/视频理解、自然语言处理技术等,以及大数据技术在政府、金融、石油、教育、交通、医疗卫生等行业的成功案例; 2.大数据的结构化数据模型、半结构化模型和非结构化数据的存储模型,逻辑模型,以及分析建模工具的常用方法。 |
数据挖掘及Mahout |
1.十大常用的并行数据挖掘算法、原理、应用场景,以及技术实战; 2.并行数据挖掘平台Mahout的技术架构、核心组件的工作原理以及技术; 3.Mahout应用开发技术; 4.Mahout项目实战。 | |
第一天 下午 | R语言精要 |
本着循序渐进而又覆盖R语言重要而有用的基本内容原则,本讲从R语言入门开始,以前期的数据处理为核心,以实际案例为载体,内容包括R语言的向量、数据框、矩阵运算、缺失值和零值的处理、特别注重用R语言构造函数编程解决实际问题,详细介绍强大的数据清洗整理plyr、zoo、car等常用包和强大的作图ggplot2包,为使用R语言进行数据挖掘打下扎实的工具基础。 主要案例: 案例1:如何用R语言plyr等包合并、排序、分析数据并编制香农-威纳指数; 案例2:如何用R语言编程同时实现几十个高难度数据分析可视化图片的jpeg格式输出; 案例3:如何使用R语言进行分层或者整群抽样构建训练集与测试集; 案例4:使用ggplot2画出各种复杂的图形。 |
第二天 上午 |
神经网络和 R语言的实现 |
神经网络由大量的节点和输出函数构成逻辑策略,本讲介绍其原理,主要通过案例的方式讲解R语言实现神经网络算法的过程和注意的事项。 主要案例: 案例1:酒的品质和种类的神经网络的分析和预测; 案例2:公司财务预警建模。 |
企业基于社交网络数据的收获 | 1.潜在商机的发现,通过数据挖掘与分析能够得到什么? 2.危机预警 ,通过数据挖掘与分析,可以对一些网络中突然发布的一条可能对企业产生危机的信息即时的监控; 3.效果预测, 通过数据挖掘与分析让企业能花最少的钱得到最大的产出。 | |
第二天 下午 | 交叉验证比较各个模型 | 对于同一个数据,可能有很多模型来拟合,如何衡量和比较模型的精度呢?本讲将介绍交叉验证训练集和测试集的方法来帮助大家在实际中选取最佳模型进行拟合和预测。 |
第三天 上午 |
决策树(回归树)分析 和R语言实现 |
决策树是数据挖掘的经典方法,其原理容易被理解。本讲主要讲授两种最为普遍的决策树算法:CART和C4.5算法,使用rpart和J48函数进行R语言分析。 主要案例: 案例1:对汽车耗油量进行决策树分析并完成相关目标变量的预测; 案例2:使用决策树帮助电信局判断和预测客户办理宽带业务。 |
第三天 下午 |
使用R语言结合KNN 算法进行文本挖掘 |
文本挖掘,特别是对中文的文本挖掘日趋重要。本讲介绍文本挖掘的原理和方法,帮助大家使用R语言在大量的非结构化的数据中发现有价值的信息,抽取潜在有用的数据,发现适合模式,实现可视化结果展示。 主要案例: 案例:使用R语言结合KNN算法对网页(Web)进行文本挖掘(含分词、分类、可视化等)。 |