当前位置: 首页 > >

基于Hadoop云*台的海量数据挖掘方法_论文

发布时间:

… …   n^T量_^SE&INFOR■^TnON眦 _柏 E……一………………t一……………… …………………………………  基于 Hadoop云* 台的海量数据挖掘 方法  王长斌  (鞍山师范学 院数学与信息科学学院 ,辽宁 鞍山 1 14016)  摘 要:Hadoop云* 台对海量数据 的 HDFS分布式存储 ,在应用 map/reduce并行编程后 ,可 实现数据挖掘技术 的并  行计 算。对 Hadoop体 系的实际部 署和运行 ,map/reduce的数据挖掘程序架构方法和运行过程进行 了构思和 实现。  关键词 :数据挖掘 ;Hadoop体 系;参数配置 ;map/reduce程序 ;海量数据  1 前 言  海量数据有 Internet Web数据 、视频 图像 、企业数据 、公  共服 务管理数据 、医学 图像 数据 。数 据挖掘 实际是 创新 的技  术 .最令人感兴趣 的是在基 因技术 中发现 DNA子序列 。海量  数据挖 掘不仅 能发现所需 的知识为决 策服务 ,数据 分析还 能  发现模 式和规律 :而且在海 量数据存 储在分 布式 系统 的新 阶  段 ,数 据挖掘技 术也升 级为分 布式数据 挖掘 。云计算 的 IaaS  能解决 海量数据挖 掘的底层 系统设施 问题 .谷歌 的 GAE,雅  虎 的 YAP。IBM 的 “蓝云”,亚 马逊 的 AWS,微软 的 Azure都  是 云计 算产品 和服务系统 。Hadoop是 开源项 目 Nutch的子 项  目,Apache基金会开发 的分 布式计算* 台。基于 Hadoop云计  算 系统 的复杂数据 挖掘技术 ,可实现 不 同领 域的应用 ,生 物  信息学 、商业数据 分析 、汽 车计算机 辅助制 造等 ,获得 了 良  好 的商 业价 值 。 中国移 动 基 于云计 算 的 数据 挖 掘服 务 系 统  WPDminer.立足提供下 一代互联 网服务 。 中国电信也参加 了  全球云计算 测试* 台 Open Cirrus[  1。  分布式 数据挖掘优 化管理存 储在 不 同地 理位置 的海量 数  据 ,而且采用 数据一次写入 、多次读取 的方法 。Hadoop云计  算有 3大 主要 系统 :文件 系统 HDFS、分 布式 编程模 式 Map/  Reduce和分 布式数 据库 Hbase;包 括 10个组 件 ,分布在上 百  个 网络 结点或 上千个 Pc机组成 的集群 中 。整 合不 同 Hadoop  系统的云计算资源 .则可实现第三代互 联网技术口1。  2  Hadoop体 系 的参数 配置 和运行 系统设置  布署 Hadoop集群 系统有 4个步骤:计算机 系统安装 和网络  构建 .SSH认证 .Hadoop参数配置 .部署和运行。  2.1  系统 硬 件 、软 件和 网络 参 数 配 置  Hadoop实验 系统包括主结点 master和数据结点 ,称为 主  从节点式 系统 。建 立集 群 ,实验系统有 4个节 点 ,一 个命 名  节 点 Namenode和 3个 数 据 节 点 datanode。 硬 件 系 统 配 置 :  CPU:intel Pentium Dual—Core3.20GHZ.内存 4G,硬 盘 400G。  2.1.1局 域 网 IP地 址 配 置  如表 1所 示  表 1 Hadoop系统 IP地 址  节 点  datanode  datanode  名称  hadoop2  hadoop3  lP地 址   192.169.1.2  l92.I69.1.3  2.1.2/etc/hosts文件 配 置  集群 master节 点作 为命名节 点 ,/etc/hosts文件 中包 括所  有数据节 点 的内容 。而 Datanode节点 的/etc/hosts文件配 置包  括此 数据节点 ,以 Hadoop2为例 ,如表 2所示 。  表 2 /etc/host文件   命名节点 fhadoop)  127.0.0.O  localhost  1ocalhost  数据节点 (hadoop2)  l27.0n 0  localhost  lOCalhost  l92.169.1.O  hadoop  Hadoop  l92.169.1.0  hadoop  Hadoop  192.169.1.1  hadoopI  hadoopI  l92.169.1.2  hadoop2  hadoop2  192.169.1.2  hadoop2  hadoop2  192.169.1.3  hadoop3  hadoop3  2.1_3软 件 配置  操作系统 :linux 6.0,Hadoop版本 :Hadoop 0.20.0,SSH  client/Server:Hadoop运行 要求 SSH 的设 置必 须准 确 。此 外 ,  还包 括 JDK 1.6.0和 Eclipse 7.5 Linux。  2.1.4文件 系统 设 置  集 群 中 所 有 节 点 的文 件 系统 部 署 相 同 .用 户 名 使 用  Hadoop, 目录 名/h0me/Hadoop/Hadoop一0.2O.0。  2.2  SSH 设 置  首先 .Namenode Hadoop通 过 SSH 无密码 公钥 方式启 动  Hadoopl~Hadoop3上 的 守 护 进 程 。然 后 用 Hadoop的 命 令 生 成  密码 对 ,有一个 私钥 id—rsa和一个公钥 id—rsa.pub。公钥 应复  制 到 所 有 datanode结 点 . 保 存 在/home/Hadoop/.ssh/autho—  rized keys文件 中 ;而 私钥保 存在 namenode结 点上 ,存储 路  — 径 是/home/hadoop/.ssh



友情链接: