
11月1日晚,“经济学科拔尖学生培养试验计划”学生在经济学楼A-501教室继续开展本学期第二个学科话题的集体学习交流活动。本次活动由R语言应用小组的三位同学具体介绍包括网络爬虫、文本挖掘和数据挖掘等三个R语言应用的相关内容。
首先,肖健同学简要介绍如何应用RCurl包和XML包进行网络爬虫。他通过现场操作展示了如何运用R抓取网络表格,下载网络文件,搜索整理团购网站优惠信息,以及调用新浪财经的股票数据。接着,田渝琪同学介绍文本挖掘的应用基础、作用、特点,以及它和网络搜索,数据挖掘的区别。她重点展示了如何用R进行文本挖掘,并以路透社新闻语料为例讲解了完整的文本挖掘过程。最后,樊金麟同学介绍了有关数据挖掘、分类和预测、监督学习和非监督学习的一系列概念。他还以KNN算法、K-均值聚类、DBSCAN为例具体介绍了数据挖掘的算法及其应用。
“拔尖计划”最近两次R语言应用小组组织的学习活动很好地带领同学们了解了R语言在数据科学方面的应用,激发了大家对数据科学领域深入学习的兴趣。后续的活动仍将以此兴趣小组研讨的模式开展。
(“拔尖计划”学生陈浩禹)