Difference between revisions of "GPU-Cluster(Docker)3.0 User Guide"

From IIIS-Systems
Jump to: navigation, search
(自定义镜像)
(自定义镜像)
Line 60: Line 60:
 
用户在容器环境内(用户发布应用所对应的环境),执行如下命令:sudo  docker  login  10.1.0.180 使用VPN帐号名和VPN帐号的密码进行登录,当出现Login Succeeded提示,说明登录成功,
 
用户在容器环境内(用户发布应用所对应的环境),执行如下命令:sudo  docker  login  10.1.0.180 使用VPN帐号名和VPN帐号的密码进行登录,当出现Login Succeeded提示,说明登录成功,
  
继续执行命令:sudo  docker  commit  容器主机名  10.1.0.180/项目名/镜像名,其中“容器名”,
+
继续执行命令:sudo  docker  commit  容器主机名  10.1.0.180/项目名/镜像ID:镜像tag。用户可以在当前容器中,执行hostname命令,获得“容器主机名”;命令中的“项目名”需要用户自己在镜像仓库中创建项目,操作为:使用浏览器访问10.1.0.180,使用VPN帐号和密码登录,在“项目”界面,选择“我的项目”或“公开项目”,然后点击“新增项目”按钮,创建项目;命令中的镜像ID,用户自己命名,只要不重名即可;命令中的镜像tag,自用自己定义,一般写成latest。
  
 
= 常见问题及解决办法 =
 
= 常见问题及解决办法 =

Revision as of 09:48, 22 November 2016

清华大学交叉信息研究院GPU-Cluster(Docker)3.0用户操作指南


申请GPU资源

需要使用GPU资源的用户,请把如下信息发送给尹伟老师,尹伟老师的邮箱是yw@mail.tsinghua.edu.cn,尹老师建立帐号并授权后,即可使用GPU资源。

1、帐号名

2、姓名

3、邮箱

4、电话

5、申请资源目的

6、使用期限

修改用户的密码

1)连接VPN,访问 http://10.1.1.1:81/ui

2)使用申请的帐号和密码登录。登录后,单击右上角的第二个按钮,可以看到“个人中心”,在个人中心界面,用户可以修改自己的密码。

使用GPU资源

用户使用GPU资源,操作步骤,如下:

1)连接VPN,访问 http://10.1.1.1:81/ui

2)使用申请的帐号和密码登录。登录后,单击左侧导航栏中的“应用管理”,单击右上角的“加号”,在界面中点击“json模式”,单击“从文件中读取”按钮,上传json文件。

json文件的下载地址为:http://pan.baidu.com/s/1bpvawH5 在上传json文件之前,请修改json文件内容第2行"id"值中的xxx(其他内容不用修改),把xxx修改成“应用名”。

应用名由用户命名,应用名中可以包含小写字母或数字,不能包含大写字母及标点符号,应用名不能重名。

上传json文件后,点击“创建”按钮,便可以创建应用。应用创建后,单击左侧导航栏中的“应用管理”,在“我的应用”中,单击应用名称,即可看到应用所在主机的IP地址和端口号。

使用命令“ssh -p 端口号 VPN帐号名@IP地址” ,密码与VPN帐号的密码相同 , 即可登录。

注意事项

1、该GPU集群通过docker为用户提供GPU资源,使用docker时,请把重要数据存放在用户的家目录下,即“/home/用户名”目录,该目录挂接ceph存储系统。即便容器出现问题,存放在该目录下的数据不会丢失。

2、用户基于基础镜像启动容器后,在容器中安装了新的软件或搭建了实验环境,在更新或扩展该容器时,用户自己安装的软件或实验环境会被自动清除。如果用户希望保留自己安装的软件或实验环境,请参见本文档“自定义镜像”部分内容。

自定义镜像

1、用户什么时候需要自定义镜像?

用户基于基础镜像启动容器,并在容器中配置了实验环境,希望再启一个容器,容器中带有自己的实验环境,此时需要用到“自定义镜像”。

用户基于基础镜像启动容器,并在容器中安装了软件或配置了实验环境,在更新容器时,容器会删除用户安装的软件或实验环境,恢复到基础镜像提供的系统状态。如果用户希望

保留自己安装的软件或实验环境,需要用到自定义镜像。

2、制作自定义镜像的步骤

用户在容器环境内(用户发布应用所对应的环境),执行如下命令:sudo docker login 10.1.0.180 使用VPN帐号名和VPN帐号的密码进行登录,当出现Login Succeeded提示,说明登录成功,

继续执行命令:sudo docker commit 容器主机名 10.1.0.180/项目名/镜像ID:镜像tag。用户可以在当前容器中,执行hostname命令,获得“容器主机名”;命令中的“项目名”需要用户自己在镜像仓库中创建项目,操作为:使用浏览器访问10.1.0.180,使用VPN帐号和密码登录,在“项目”界面,选择“我的项目”或“公开项目”,然后点击“新增项目”按钮,创建项目;命令中的镜像ID,用户自己命名,只要不重名即可;命令中的镜像tag,自用自己定义,一般写成latest。

常见问题及解决办法

1、在建立的应用中,执行apt-get update时,提示如下错误:

W: GPG error: http://developer.download.nvidia.com Release: The following signatures couldn't be verified because the public key is not available: NO_PUBKEY F60F4B3D7FA2AF80

解决办法为:

执行如下命令添加公钥

wget -qO - http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1404/x86_64/7fa2af80.pub | sudo apt-key add -

然后再执行apt-get update

2、用户在安装软件时,如果提示访问https站点有问题,或server certificate verification failed,请修改/etc/apt/sources.list文件,修改源。然后执行命令apt-get update