Revision as of 08:12, 29 September 2016

清华大学交叉信息研究院GPU-Cluster（Docker)用户操作指南

申请Docker资源

请登录www.shurenyun.com 注册一个账户。

请把注册的帐户信息（即：注册时填写的邮箱）发送给尹伟老师，尹伟老师的邮箱是yw@mail.tsinghua.edu.cn，尹老师进行授权后，即可使用Docker资源。

使用Docker资源

用户使用Docker（GPU-Cluster）资源，详细操作，如下：

使用注册的账户登录www.shurenyun.com，点击左侧导航栏中的“应用管理”，然后点击右上角的第一个图标，会出现“新建应用”，点击“新建应用”，填写的信息如下：

1）应用名称：自定义。

2）选择集群：单击黑色的三角选择按钮，选中gpu-share:GPU-cluster

3）镜像地址：手工输入如下地址 demoregistry.dataman-inc.com/srypoc/deeplearning

4）镜像版本：手工输入如下版本 allinone

5）网络模式：网桥模式（这里必须选择网桥模式，因为容器的暴露端口是22，主机模式会跟宿主机的22端口冲突）。

6）容器规格： CPU权重，可以设置为1。内存大小根据情况而定。

7）容器个数：1（docker的数量，根据情况而定）。

点击“容器个数”下面的V型按钮，打开“高级设置”，设置如下内容：

8）选择主机：不需要输入标签。可以使用默认的“主机（默认随机）”，也可以直接选择 10.1.0.[170,172,177,179,180]中的某一台或几台主机。

9）挂载点：点击添加挂接路径按钮，添加如下2项信息。

1>主机目录：/var/lib/docker/volumes/nvidia_driver_352.79/_data 映射到容器目录：/usr/local/nvidia

2>主机目录：/mnt/data 映射到容器目录：/mnt/data 用户需要将持久化保持的数据放到该目录的某个文件夹下。(注：该目录是个nfs目录，数据将会被持久化存储到 ceph 上。由于当前版本数人云无法与ldap绑定，所以该目录里面的文件没有隔离机制，用户要各自建立一个 home 目录来放置自己的文件)。

10）应用地址：点击“添加应用地址”，应用端口文本框中填写22；协议选择TCP；映射端口文本框中填写1024-65535之间任意一个端口。

11）环境变量：可以不填写。

12）Docker 参数: 单击“添加DOCKER参数”按钮，添加如下3个参数。

Key文本框中填写: device 对应的Value文本框中填写: /dev/nvidia-uvm

Key文本框中填写: device 对应的Value文本框中填写: /dev/nvidia0

Key文本框中填写: device 对应的Value文本框中填写: /dev/nvidiactl

13）日志目录：可以不修改。

14）CMD：把docker启动时需要执行的命令，放在该处。如无该需求，此处便不用填写。

点击“创建”按钮，开始创建应用。“应用状态”显示“运行中”，则表明创建成功。单击“实例”项，在“实例名称”下面可以看到该应用对应的主机IP地址和端口号。

记下该主机IP地址和端口号，使用ssh访问容器时，会用到这两个值。

应用创建成功后，通过命令：ssh -o ServerAliveInterval=5 -p 端口 root@IP地址，密码：password ，即可访问容器。

登录容器后，可以通过命令：caffe device_query -gpu all 来查看GPU信息。

Difference between revisions of "GPU-Cluster(Docker) User Guide"

Revision as of 08:12, 29 September 2016

申请Docker资源

使用Docker资源

Navigation menu

Personal tools

Namespaces

Variants

Views

More

Search

Navigation

Tools

@@ Line 59: / Line 59: @@
 记下该主机IP地址和端口号，使用ssh访问容器时，会用到这两个值。
-应用创建成功后，通过命令“ssh -o ServerAliveInterval=5  -p 端口  root@IP地址”，密码：password ，即可访问容器。
+应用创建成功后，通过命令：ssh -o ServerAliveInterval=5  -p 端口  root@IP地址，密码：password ，即可访问容器。
 登录容器后，可以通过命令：caffe device_query -gpu all 来查看GPU信息。