GPU-Cluster(Docker)3.0 User Guide

From IIIS-Systems
Revision as of 09:25, 20 November 2016 by Yw (Talk | contribs) (使用GPU资源)

Jump to: navigation, search

清华大学交叉信息研究院GPU-Cluster(Docker)3.0用户操作指南


申请GPU资源

需要使用GPU资源的用户,请把如下信息发送给尹伟老师,尹伟老师的邮箱是yw@mail.tsinghua.edu.cn,尹老师建立帐号并授权后,即可使用GPU资源。

1、帐号名

2、姓名

3、邮箱

4、电话

5、申请资源目的

6、使用期限

修改用户的密码

1)连接VPN,访问 http://10.1.1.1:81/ui

2)使用申请的帐号和密码登录。登录后,单击右上角的第二个按钮,可以看到“个人中心”,在个人中心界面,用户可以修改自己的密码。

使用GPU资源

用户使用GPU资源,操作步骤,如下:

1)连接VPN,访问 http://10.1.1.1:81/ui

2)使用申请的帐号和密码登录。登录后,单击左侧导航栏中的“应用管理”,单击右上角的“加号”,在界面中点击“json模式”,单击“从文件中读取”按钮,上传json文件。

json文件的下载地址为:http://pan.baidu.com/s/1c1NisH6 在上传json文件之前,请修改json文件内容第2行"id"值中的xxx(其他内容不用修改),把xxx修改成“应用名”。

应用名由用户命名,应用名中可以包含小写字母或数字,不能包含大写字母及标点符号,应用名不能重名。

上传json文件后,点击“创建”按钮,便可以创建应用。应用创建后,单击左侧导航栏中的“应用管理”,在“我的应用”中,单击应用名称,即可看到应用所在主机的IP地址和端口号。

使用命令“ssh -p 端口号 VPN帐号名@IP地址” ,密码与VPN帐号的密码相同 , 即可登录。

注意事项

1、该GPU集群通过docker为用户提供GPU资源,使用docker时,请把重要数据存放在用户的家目录下,即“/home/用户名”目录,该目录挂接ceph存储系统。即便容器出现问题,存放在该目录下的数据不会丢失。

2、用户自己可以保存镜像,镜像仓库,正在搭建中。

常见问题及解决办法

1、在建立的应用中,执行apt-get update时,提示如下错误:

W: GPG error: http://developer.download.nvidia.com Release: The following signatures couldn't be verified because the public key is not available: NO_PUBKEY F60F4B3D7FA2AF80

解决办法为:

执行如下命令添加公钥

wget -qO - http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1404/x86_64/7fa2af80.pub | sudo apt-key add -

然后再执行apt-get update

2、用户在安装软件时,如果提示访问https站点有问题,或server certificate verification failed,请修改/etc/apt/sources.list文件,修改源。然后执行命令apt-get update