hadoop 中的gridmix谁用过?

adoda 2009-03-27
hadoop 中的gridmix谁用过?

现在正在学习使用gridmix,但貌似网上资料很少,不知道谁用过?
可不可以给个详细点的文档啥的
先谢谢了
adoda 2009-04-24
看来问题还得自己解决啊,现在把自己用的一些经验分享下:
Gridmix使用说明:
1. 编译examples,导入C++源:
 先以hadoop的用户登入系统,然后进入hadoop的安装目录,例如:我的hadoop目录是/home/hdfs/hadoop-0.19.0/。
> cd /home/hdfs/hadoop-0.19.0/
 编译examples,并导入C++源
> ant -Dcompile.c++=yes examples
可能会遇到的问题:
1) 提示JAVA_HOME路径不对,则是你的Hadoop里的JAVA_HOME路径和SSH登入用户的JAVA_HOME路径不匹配,修改/etc/profile里的JAVA_HOME配置,改成和Hadoop里的一样就可以解决这个问题。
2) 提示文件无执行权限,因为上面的命令需要执行gridmix里的很多文件,而在安装Hadoop时,很多文件都是直接复制过来的,这样就导致文件权限丢失,需要将所有提示有问题的文件都赋予可执行的权限,一般使用的命令是:> chmod 权限 文件名。改完后就可以继续编译了。
当看到有成功的提示时就编译完成了。完成后,当前目录下会多出个bulid文件夹。
 拷贝pipe sort的例子到默认文件系统的一个当地目录:
> $HADOOP_HOME/bin/hadoop dfs -mkdir $GRID_MIX_PROG
> $HADOOP_HOME/bin/hadoop dfs -put build/c++-examples/$PLATFORM_STR/bin/pipes-sort $GRID_MIX_PROG
注意:
$GRID_MIX_PROG得换成你自己设定的目录,因为在这个时候配置没有完成,系统还无法解析这个路径,$GRID_MIX_PROG一般设置成/gridmix/programs。
$PLATFORM_STR就是c++-build文件夹下的那个文件的文件名,自己把它替换了。

2. 配置一些参数:
需要配置的参数有:
HADOOP_HOME     The hadoop install location
GRID_MIX_HOME   The location of these scripts
APP_JAR         The location of the hadoop example
GRID_MIX_DATA   The location of the datsets for these benchmarks
GRID_MIX_PROG   The location of the pipe-sort example
不过一般默认都是配好的,配置文件在gridmix-env文件中,不需要去修改。

3. 生产数据
gridmix的数据要自己去生成,就是执行gridmix的generateData.sh脚本。
先进到相应目录,然后执行脚本。
>./generateData.sh
可能会遇到的问题:
1) 文件执行权限不够,generateData.sh脚本需要运行很多其它的脚本,都需要可执行的权限,记得赋予这些脚本可执行的权限就不会有问题了。
2)  generateData是一个job,需要用Hadoop来运行,在运行这个脚本前,确认Hadoop能正常工作。

4. 运行作业
当数据生成后就可以运行gridmix里的测试作业了,里面有各种各样的作业,可以运行自己需要的类型的作业。
不过里面有很多脚本的代码有问题,就是里面很多路径都不对,需要自己改下,然后再运行。

5. 版本问题
gridmix会修改当前Hadoop的版本信息,gridmix编译时会运行Hadoop里那个build.xml文件,它会修改Hadoop的版本信息,我有一次遇到主控节点与其它节点版本不匹配,导致Hadoop不能正常启动,所以我把bulid.xml里的版本信息改为与当前版本一致然后把gridmix重装了一遍,现在已经没有这个问题了。不知道这样做是否正确,待检验。还望哪位达人解释下这个版本信息的具体含义。


Global site tag (gtag.js) - Google Analytics