大数据实训产品

您当前位置: 首页 » 产品 » 大数据实验实训教学项目平台
大数据实验实训教学项目平台
  • 大数据实验实训教学项目平台
  • 大数据实验实训教学项目平台

大数据实验实训教学项目平台

概述

提供行业典型项目案例及行业数据,项目涉及农业、运营商、电商、舆情、体育、交通、航空、银行、互联网、环境等10多个领域,每个教学项目案例包数据量均达到GB-TB以上,均为真实数据,每个案例有详细的分析步骤。通过完整的端到端到业务流程演示与上机操作训练,让学生真正了解大数据行业背景以及企业实施技术需求。通过极具针对性的训练,动手操作,使学生在最短时间内得到应用技术技能的提升,理进一步满足职业岗位对工作技能的需求。

咨询热线:0771-5830198

提供行业典型项目案例及行业数据,项目涉及农业、运营商、电商、舆情、体育、交通、航空、银行、互联网、环境等10多个领域,每个项目案例都配备项目方案及指导手册、项目源代码及代码注释、案例数据、系统安装部署文档。

 

(图:项目案例)

 

每个教学项目案例包数据量均达到GB-TB以上,均为真实数据,每个案例有详细的分析步骤。通过完整的端到端到业务流程演示与上机操作训练,让学生真正了解大数据行业背景以及企业实施技术需求。通过极具针对性的训练,动手操作,使学生在最短时间内得到应用技术技能的提升,理进一步满足职业岗位对工作技能的需求。

 

行业

项目名称

项目方案及指导手册

项目源代码及代码注释

案例数据

系统安装部署文档

农业

大数据行业应用-农业市场大数据分析

运营商

大数据行业应用-运营商在线服务

电商

大数据行业应用-线上竞拍

舆情

大数据行业应用-情感分析

体育

大数据行业应用-NBA赛事预测

交通

大数据行业应用-交通轨迹

航空

大数据行业应用-航班线路

银行

大数据行业应用-银行贷款风险评估

互联网

大数据行业应用-搜索引擎构建

环境

大数据行业应用-生态环境数据分析

 

一、大数据行业应用-农业市场大数据分析

 

农业大数据是融合了农业地域性、季节性、多样性、周期性等自身特征后产生的来源广泛、类型多样、结构复杂、具有潜在价值,并难以应用通常方法处理和分析的数据集合。它保留了大数据自身具有的规模巨大(volume)、类型多样(variety)、价值密度低(value)、处理速度快(velocity)、精确度高(veracity)和复杂度(complexity)等基本特征,并使农业内部的信息流得到了延展和深化。

 

为了不断推进农业经济的优化,实现可持续的产业发展和区域产业结构优化,进一步推动智慧农业的建设进程,需要全面及时掌握农业的发展动态,这需要依托农业大数据及相关大数据分析处理技术,建设一个农业大数据分析应用平台—农业大数据平台来支撑。

 

(图-项目结果展示)

 

本系统架构采用模块化设计,分为数据爬取模块、数据存储模块、数据预处理模块、数据计算模块、数据可视化展现模块。可实现区域行情、品种对比、价格预测、价格走势等功能。

 

 

①、区域行情:分析当天品类,品种,价格,省份的分布情况。

 

②、品种对比:分析各个省份各个市场各个品种各个品类最近5天的价格并且统计所选省份市场品种品类的当天的品种,均价,市场,时间信息。

 

③、价格走势:分析各个年份各个月份下各个品种(土豆,番茄,豌豆)的价格。

 

④、价格预测:对昆明市斗南花卉鲜花批发交易市场下卡罗拉(新市场), 冷美人, 蜜桃雪山(香槟), 戴安娜, 大桃红的价格进行预测。

 

 

二、大数据行业应用-运营商在线服务

 

随着通信行业的普及,以及人们对网络的需求越来越大,因此运营商的一些在线服务需求也来越大。对于客户体验来说,电子渠道提供了一个足不出户办理业务的便捷方式,对于运营商来说,电子渠道低成本分流了实体渠道的业务压力,将线下渠道的人力资源从低价值的业务办理中释放出来。

 

 

本系统架构采用模块化设计,分为数据预处理、数据存储模块、数据处理模块、数据ETL模块、结果展现模块。可多维度统计数据、投诉风险预测、区域服务效能监控、实时展现故障区域位置及故障信息等。

 

 

①、全区服务统计:分别计算各服务区域内的申告量、处理量、回单量、回单率、重障量、重障率、及时量、及时率、成功率。

 

②、投诉风险:通过申告次数、呼叫次数和用户情绪这三个维度评定用户等级,预防高危用户流失,降低投诉次数,提高用户体验。

 

③、区域服务效能:通过申告量、专席人数来对各区域服务团队进行监控。

 

④、热点故障区域分布:在地图上展现多发故障的位置以及故障信息。

 

 

三、大数据行业应用-线上竞拍

 

因为某宝,某东,已经满足大部分中国消费者的需求,所以大部分中国人都不太关注Ebay网站,但是Ebay在国外很受欢迎,它是一个管理可让全球民众上网买卖物品的线上拍卖及购物网站,人们可以拍卖的形式出售和竞价商品,但是并不是所有拍卖都可以成功,因此我们利用ebay的历史数据使用机器学习方法训练模型并预测一项拍卖是否会成功,并预测成功交易的最终价格。

 

 

本系统架构采用模块化设计,分为数据准备、数据存储模块、数据分析模块、模型训练模块、模型预测模块。通过历史数据利用机器学习算法训练模型,找出商品所有特征项与拍卖成功与否的正负相关性,预测拍卖能否成功,并预测价格的准确度。

 

 

四、大数据行业应用-情感分析

 

互联网时代舆论观点都散布在各种社交网络平台或新闻提要中。对于这种网上海量分布的数据,可以挖掘各种重要信息,可以了解当前的舆论导向以及支持自身做出一些重要性的决定等等,所以针对网络社交平台中海量数据的挖掘分析显得尤为重要。

 

 

本系统架构分为数据准备模块、文本转换向量模块、数据分词模块、可视化模块、模型训练模块、模型预测模块、程序运行模块。通过从twitter数据中抽取有用信息,结合文本分析算法处理文本内容,使用机器学习相关算法从训练数据集中训练出随机森林模型,再使用模型针对测试数据集进行预测分析,结合可视化组件直观展示民意分布,即时了解舆情导向。

 

五、大数据行业应用-NBA赛事预测

 

目前可以通过球队的排名对比赛的结果进行赛前估计,但是这种猜测一般觉有不确定性。所以利用机器学习算法对球队的以往表现,以及对手的表现综合各方面的因素做一个统计,从中学习出某种规律,这样我们就可以得到可靠性比较高的预测结果。

 

 

本系统架构采用模块化设计,分为数据获取模块、特征选择模块、数据分析模块、模型训练模块、模型预测模块,程序运行模块等。通过从已有数据中抽取有用的信息并通过相应算法,将球队重新划分等级,利用机器学习算法,从中学习出特有的规律预测比赛结果。

 

六、大数据行业应用-交通轨迹

 

随着各种打车软件的发展,人们足不出户就可以约车,本案例主要是来探究生活中存在的打车难的问题,这个问题限制了我们有些时间的出行,浪费了我们的时间。在哪些地方容易打车,什么时候的车更容易搭乘,这是我们要着手解决的问题。

 

 

本系统采用模块化设计,分为数据准备, 解析csv数据, 构建特征向量,聚类模型训练,聚类模型测试, 分析预测结果,数据可视化。通过spark和机器学习算法等相关技能,对打车的现状进行分析,并最终用可视化的手段直观的展示分析结果。为用户提供决策支持。

 

七、大数据行业应用-航班线路

 

飞机航班常因为天气或机场原因,导致航班的延误甚至取消,该项目基于一批航班的历史数据对航班的各种重要指标做统计分析,如最繁忙航线、某机场起降最频繁时段等;最后利用机器学习,对航班延误做预测,旅客可参考这些统计及预测结果调整行程安排。

 

 

本案例使用Hadoop作为底层支持,其中HDFS提供底层存储支持,Yarn提供集群中应用的资源调度支持;Hive提供spark sql中的元数据访问支持;spark core作为spark sql的核心支持。使用spark sql分析航空数据的一些指标。

 

八、大数据行业应用-银行贷款风险评估

 

银行贷款专员需要分析贷款者一系列数据,以便搞清楚那些贷款申请者是“安全的”,低风险的。银行的“风险”是什么,通常通过模型法来评估:即在长期大量的数据积累的基础上,搜集各类可能影响客户风险的要素并建立数学模型,其预测结果可以为贷款员放贷提供相关依据。通过模型计算出客户的违约概率。这是目前绝大多数商业银行通行的做法。

 

 

亲自动手搭建项目所需的实验环境:hadoop集群、spark on yarn模式安装、IDEA及scala插件的安装。使用MLlib分析用户数据对用户做风险分类。

 

九、大数据行业应用—搜索引擎构建

 

互联网时代舆论观点都散布在各种社交网络平台或新闻提要中。对于这种网上海量分布的数据,可以挖掘各种重要信息,可以了解当前的舆论导向以及支持自身做出一些重要性的决定等等,所以针对网络社交平台中海量数据的挖掘分析显得尤为重要。

 

 

本系统架构分为数据准备模块、文本转换向量模块、数据分词模块、可视化模块、模型训练模块、模型预测模块、程序运行模块。通过从twitter数据中抽取有用信息,结合文本分析算法处理文本内容,使用机器学习相关算法从训练数据集中训练出随机森林模型,再使用模型针对测试数据集进行预测分析,结合可视化组件直观展示民意分布,即时了解舆情导向。