hadoop 中的gridmix谁用过?
adoda
2009-03-27
hadoop 中的gridmix谁用过?
现在正在学习使用gridmix,但貌似网上资料很少,不知道谁用过? 可不可以给个详细点的文档啥的 先谢谢了 |
|
adoda
2009-04-24
看来问题还得自己解决啊,现在把自己用的一些经验分享下:
Gridmix使用说明: 1. 编译examples,导入C++源: 先以hadoop的用户登入系统,然后进入hadoop的安装目录,例如:我的hadoop目录是/home/hdfs/hadoop-0.19.0/。 > cd /home/hdfs/hadoop-0.19.0/ 编译examples,并导入C++源 > ant -Dcompile.c++=yes examples 可能会遇到的问题: 1) 提示JAVA_HOME路径不对,则是你的Hadoop里的JAVA_HOME路径和SSH登入用户的JAVA_HOME路径不匹配,修改/etc/profile里的JAVA_HOME配置,改成和Hadoop里的一样就可以解决这个问题。 2) 提示文件无执行权限,因为上面的命令需要执行gridmix里的很多文件,而在安装Hadoop时,很多文件都是直接复制过来的,这样就导致文件权限丢失,需要将所有提示有问题的文件都赋予可执行的权限,一般使用的命令是:> chmod 权限 文件名。改完后就可以继续编译了。 当看到有成功的提示时就编译完成了。完成后,当前目录下会多出个bulid文件夹。 拷贝pipe sort的例子到默认文件系统的一个当地目录: > $HADOOP_HOME/bin/hadoop dfs -mkdir $GRID_MIX_PROG > $HADOOP_HOME/bin/hadoop dfs -put build/c++-examples/$PLATFORM_STR/bin/pipes-sort $GRID_MIX_PROG 注意: $GRID_MIX_PROG得换成你自己设定的目录,因为在这个时候配置没有完成,系统还无法解析这个路径,$GRID_MIX_PROG一般设置成/gridmix/programs。 $PLATFORM_STR就是c++-build文件夹下的那个文件的文件名,自己把它替换了。 2. 配置一些参数: 需要配置的参数有: HADOOP_HOME The hadoop install location GRID_MIX_HOME The location of these scripts APP_JAR The location of the hadoop example GRID_MIX_DATA The location of the datsets for these benchmarks GRID_MIX_PROG The location of the pipe-sort example 不过一般默认都是配好的,配置文件在gridmix-env文件中,不需要去修改。 3. 生产数据 gridmix的数据要自己去生成,就是执行gridmix的generateData.sh脚本。 先进到相应目录,然后执行脚本。 >./generateData.sh 可能会遇到的问题: 1) 文件执行权限不够,generateData.sh脚本需要运行很多其它的脚本,都需要可执行的权限,记得赋予这些脚本可执行的权限就不会有问题了。 2) generateData是一个job,需要用Hadoop来运行,在运行这个脚本前,确认Hadoop能正常工作。 4. 运行作业 当数据生成后就可以运行gridmix里的测试作业了,里面有各种各样的作业,可以运行自己需要的类型的作业。 不过里面有很多脚本的代码有问题,就是里面很多路径都不对,需要自己改下,然后再运行。 5. 版本问题 gridmix会修改当前Hadoop的版本信息,gridmix编译时会运行Hadoop里那个build.xml文件,它会修改Hadoop的版本信息,我有一次遇到主控节点与其它节点版本不匹配,导致Hadoop不能正常启动,所以我把bulid.xml里的版本信息改为与当前版本一致然后把gridmix重装了一遍,现在已经没有这个问题了。不知道这样做是否正确,待检验。还望哪位达人解释下这个版本信息的具体含义。 |
相关讨论
相关资源推荐
- hadoop配置文件详解系列(一)-core-site.xml篇
- 批量把XML文件投入MQ,和批量把MQ生成XML文件的java工具
- 一文流:hive使用 bulk load 批量导入数据到 hbase
- Java中生成excel文件返回数据
- 在easydl平台上传已经标注好的数据,怎么按照要求进行json和图片格式配置。是用labellmg图片标注工具生成的xml文件。
- 阿里云oss多文件批量获取打成zip包下载详解-Java版
- 【实践篇】4.13 SpringBoot Redis 多数据源集成支持哨兵模式和Cluster集群模式
- python自动化高效办公第二期,带你项目实战【一】{excel数据处理、批量化生成word模板、pdf和ppt等自动化操作}
- Java 嵌入数据处理引擎:SQLite 的挑战者
- 分布式文件系统FastDFS看这一篇就够了(文件上传下载、单机部署及集群部署)