Hadoop client and cluster separation
我是hadoop 的新手,linux 也是如此。我的教授要求我们使用端口映射或 VPN 将 Hadoop 客户端和集群分开。我不明白这种分离的意义。谁能给个提示?
现在我有了集群客户端分离的想法。我认为客户端机器上也需要安装hadoop。当客户端提交一个hadoop作业时,它被提交给集群的主服务器。
我还有一些幼稚的想法:
1.创建客户端机器并安装hadoop .
2. 将
3. 将
对吗?
4.那我不知道怎么设置
5.我觉得主要思路是设置配置文件让作业在hadoop集群中运行,但是具体怎么做我不知道。
首先..这个链接有关于客户端如何与namenode通信的详细信息
http://www.informit.com/articles/article.aspx?p=2460260
用户不应破坏集群的功能。就是这个意思。想象一下,有一大群数据科学家从集群的一个主人那里开始他们的工作。如果有人启动内存密集型操作,在同一台机器上运行的主进程可能最终没有内存并崩溃。这将使整个集群处于故障状态。
如果您将客户端节点与主/从节点分开,用户仍然可以使客户端崩溃,但集群会保持正常运行。