|
|
(One intermediate revision by the same user not shown) |
Line 1: |
Line 1: |
− | 清华大学交叉信息研究院GPU-Cluster(Docker)用户操作指南
| |
| | | |
− |
| |
− | = 申请Docker资源 =
| |
− |
| |
− | 请登录www.shurenyun.com 注册一个账户。
| |
− |
| |
− | 请把注册的帐户信息(即:注册时填写的邮箱)发送给尹伟老师,尹伟老师的邮箱是yw@mail.tsinghua.edu.cn,尹老师进行授权后,即可使用Docker资源。
| |
− |
| |
− |
| |
− | = 使用Docker资源 =
| |
− |
| |
− | 用户使用Docker(GPU-Cluster)资源,详细操作,如下:
| |
− |
| |
− | 使用注册的账户登录www.shurenyun.com,点击左侧导航栏中的“应用管理”,然后点击右上角的第一个图标,会出现“新建应用”,点击“新建应用”,填写的信息如下:
| |
− |
| |
− | 1)应用名称: 自定义。
| |
− |
| |
− | 2)选择集群: 单击黑色的三角选择按钮,选中gpu-share:GPU-cluster
| |
− |
| |
− | 3)镜像地址: 手工输入如下地址 demoregistry.dataman-inc.com/srypoc/deeplearning
| |
− |
| |
− | 4)镜像版本: 手工输入如下版本 allinone
| |
− |
| |
− | 5)网络模式: 网桥模式(这里必须选择网桥模式, 因为容器的暴露端口是22,主机模式会跟宿主机的22端口冲突)。
| |
− |
| |
− | 6)容器规格: CPU权重,可以设置为1。内存大小根据情况而定。
| |
− |
| |
− | 7)容器个数:1(docker的数量,根据情况而定)。
| |
− |
| |
− | 点击“容器个数”下面的V型按钮,打开“高级设置”,设置如下内容:
| |
− |
| |
− | 8)选择主机: 不需要输入标签。可以使用默认的“主机(默认随机)”,也可以直接选择 10.1.0.[170,172,177,179,180]中的某一台或几台主机。
| |
− |
| |
− | 9)挂载点:点击添加挂接路径按钮,添加如下2项信息。
| |
− |
| |
− | 1>主机目录:/var/lib/docker/volumes/nvidia_driver_352.79/_data 映射到容器目录:/usr/local/nvidia
| |
− |
| |
− | 2>主机目录:/mnt/data 映射到容器目录:/mnt/data 用户需要将持久化保持的数据放到该目录的某个文件夹下。(注:该目录是个nfs目录,数据将会被持久化存储到 ceph 上。由于当前版本数人云无法与ldap绑定,所以该目录里面的文件没有隔离机制,用户要各自建立一个 home 目录来放置自己的文件)。
| |
− |
| |
− | 10)应用地址: 点击“添加应用地址”,应用端口文本框中填写22;协议选择TCP;映射端口文本框中填写1024-65535之间任意一个端口。
| |
− |
| |
− | 11)环境变量: 可以不填写。
| |
− |
| |
− | 12)Docker 参数: 单击“添加DOCKER参数”按钮,添加如下3个参数。
| |
− |
| |
− | Key文本框中填写: device 对应的Value文本框中填写: /dev/nvidia-uvm
| |
− |
| |
− | Key文本框中填写: device 对应的Value文本框中填写: /dev/nvidia0
| |
− |
| |
− | Key文本框中填写: device 对应的Value文本框中填写: /dev/nvidiactl
| |
− |
| |
− | 13)日志目录: 可以不修改。
| |
− |
| |
− | 14)CMD: 把docker启动时需要执行的命令,放在该处。如无该需求,此处便不用填写。
| |
− |
| |
− | 点击“创建”按钮,开始创建应用。“应用状态”显示“运行中”,则表明创建成功。单击“实例”项,在“实例名称”下面可以看到该应用对应的主机IP地址和端口号。
| |
− |
| |
− | 记下该主机IP地址和端口号,使用ssh访问容器时,会用到这两个值。
| |
− |
| |
− | 应用创建成功后,通过命令:ssh -o ServerAliveInterval=5 -p 端口 root@IP地址,密码:password ,即可访问容器。
| |
− |
| |
− | 登录容器后,可以通过命令:caffe device_query -gpu all 来查看GPU信息。
| |
− |
| |
− | = 常见问题及解决办法 =
| |
− |
| |
− | 1、在建立的应用中,执行apt-get update时,提示如下错误:
| |
− |
| |
− | W: GPG error: http://developer.download.nvidia.com Release: The following signatures couldn't be verified because the public key is not available: NO_PUBKEY F60F4B3D7FA2AF80
| |
− |
| |
− | 解决办法为:
| |
− |
| |
− | 执行如下命令添加公钥
| |
− |
| |
− | wget -qO - http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1404/x86_64/7fa2af80.pub | sudo apt-key add -
| |
− |
| |
− | 然后再执行apt-get update
| |