Difference between revisions of "大模型系统教学实践平台操作指南"

From IIIS-Systems
Jump to: navigation, search
(Created page with "= K8S用户指南 = == 建立vpn连接 == 使用k8s集群之前,需要先建立vpn连接。关于vpn的配置及应用,请参见: http://wiki.iiis.systems:9988/w/inde...")
 
(创建pod(以Deployment类型pod为例))
 
(57 intermediate revisions by the same user not shown)
Line 1: Line 1:
= K8S用户指南 =
+
清华大学交叉院大模型系统教学实践平台操作指南
  
== 建立vpn连接 ==
+
 
 +
= 申请平台资源 =
  
使用k8s集群之前,需要先建立vpn连接。关于vpn的配置及应用,请参见:
+
为了更好地培养学生使用、训练、研发大模型应用与系统框架实践能力,探索新的研究方向和趋势,清华大学交叉院特建设大模型系统教学实践平台,提供强大的算力支持。
 +
 
 +
需要使用平台资源的用户,请将申请邮件发送至yw@mail.tsinghua.edu.cn,同时抄送给导师,请导师回复“同意”。
 +
 
 +
提交的信息包括:
 +
 
 +
1)账号名
 +
 
 +
2)姓名
 +
 
 +
3)email
 +
 
 +
4)手机号
 +
 
 +
5)申请资源的理由
 +
 
 +
6)资源使用期限
 +
 
 +
7)导师姓名
 +
 
 +
8)备注:使用大模型平台
 +
 
 +
= 使用平台资源 =
 +
 
 +
用户需要先通过VPN连接平台网络,然后访问平台资源。
 +
 
 +
== VPN配置及使用 ==
 +
 
 +
为了便于用户访问集群,并提高其安全性,我们提供了VPN服务。如果用户在集群中建立了虚拟机,希望在客户端机器上访问虚拟机(比如ping、ssh等),则需要先建立VPN连接。
 +
 
 +
关于VPN配置及应用,请参见如下链接:
  
 
http://wiki.iiis.systems:9988/w/index.php/VPN_User_Guide
 
http://wiki.iiis.systems:9988/w/index.php/VPN_User_Guide
  
== 下载配置文件 ==
+
<!---== VPN配置及使用 ==
 +
 
 +
=== VPN介绍 ===
 +
 
 +
为了便于用户访问集群,并提高其安全性,我们提供了VPN访问。如果用户在集群中建立了虚拟机,希望在客户端机器上访问虚拟机(比如ping、ssh等),则需要建立VPN连接。
 +
 
 +
=== VPN配置 ===
 +
 
 +
对于VPN的具体配置,分两种情形:Windows系统上配置VPN、MAC系统上配置VPN。
 +
 
 +
1>Windows系统上配置VPN
 +
 
 +
如果你使用的是Windows 10系统,请按照下面的链接自行修改。
 +
 
 +
http://blog.csdn.net/lc_1994/article/details/50662909
 +
 
 +
用户先要确认Windows系统是32位系统,还是64位系统。基于此,安装相应的Cisco Vpn Client软件。
 +
 
 +
64位Windows系统对应的Cisco Vpn Client软件下载地址为:
 +
 
 +
http://pan.baidu.com/s/1skkBr5N
 +
 
 +
安装后,运行该软件。单击主界面上的“NEW”按钮,新建VPN连接,界面如图。
 +
 
 +
[[Image:1.jpg]]
 +
 
 +
Connection Entry为VPN连接名。用户自己命名。
 +
 
 +
Description为描述信息,可不填写。
 +
 
 +
Host为VPN服务器地址,填写gw.iiis.co。如果你在校内,可以尝试使用thu.iiis.co (不能在校外访问,可能有些校内网段不行。)
 +
 
 +
Group Authentication下的Name栏填写test;Password栏填写123456。
 +
 
 +
配置完成后的界面,单击Save保存。
 +
 
 +
双击刚刚建立的连接,会出现用户名和密码的输入界面,在该界面下,输入用户的VPN帐号和密码,即可连接成功,如图。
 +
 
 +
[[Image:2.jpg]]
 +
 
 +
2>MAC系统上配置VPN
 +
 
 +
安装MAC系统的客户机,无需安装第三方软件。利用系统自带的VPN组件,即可建立VPN连接。具体操作如下:
 +
 
 +
打开“网络偏好设置”,建立一个新的VPN连接,配置如图。接口选择VPN;VPN类型选择Cisco IPSec;服务器名称,用户自定义设置。
 +
 
 +
[[Image:3.jpg]]
 +
 
 +
单击“鉴定设置”,设置共享的密钥为123456,群组名称为test,如图
 +
 
 +
[[Image:4.jpg]]
 +
 
 +
设置完成后,连接VPN,会出现用户名和密码的输入界面,如下图。在该界面下,输入用户的VPN帐号和密码,即可连接成功。
 +
 
 +
[[Image:20.jpg]]
 +
 
 +
=== VPN的常见故障及解决办法 ===
 +
 
 +
3)VPN的常见故障及解决办法
 +
 
 +
1>如果无法连接VPN,一般的排除办法如下:
 +
 
 +
•测试客户机与VPN服务器之间的网络连通性: ping  gw.iiis.co。
 +
 
 +
•查看客户机的防火墙及安全策略。
 +
 
 +
2>如果能够出现用户名和密码输入界面,但无法连接成功。说明用户名和密码的输入有误,请仔细核查。--->
 +
 
 +
== 平台基本操作 ==
 +
 
 +
=== 平台访问方式 ===
 +
 
 +
1)平台访问方式
 +
 
 +
通过URL访问平台,URL为: http://10.1.0.207,登录后界面如图。
  
使用harbor.iiis.co:31388下载配置文件,输入的用户名为vpn账号名,但不带@iiis.co后缀。
+
[[image:t1.jpg]]
  
== 下载yaml文件 ==
+
选择身份及用户的命名空间后,即可进入主页面,如下图。
  
为了便于用户通过yaml文件在K8S下申请及使用资源,特提供yaml文件样例。用户可以根据需求,下载相应yaml文件,也可以修改yaml文件内容。
+
[[image:t2.jpg]]
  
提示:yaml文件中拉取的镜像,操作系统为ubuntu18.04,包含如下软件:tensorflow1.15.3、horovod0.19.2、cuda10.0、cudnn7、python3.6。
+
=== 配置镜像仓库登陆密钥 ===
  
yaml文件介绍,如下:
+
单击左侧导航栏中的“配置中心”下的“密文”,点击“创建Secret”,输入信息如下:
  
1)建立pod时,如果不需要持久存储数据,则可以选择的yaml文件为:ubuntu-tf-example.yaml
 
  
2)建立pod时,如果需要共享数据并实现多用户访问共享数据,则可以使用IP地址挂接nfs,此种方式没有隐私性和可靠性保证。满足该需求的yaml文件为:ubuntu-tf+nfs-no_pvc-direct-example.yaml
+
[[image:t3new.jpg]]
  
3)建立pod时,如果需要持久存储重要数据,对数据传输及读写性能要求不高(比如存储程序代码),并且不希望其他用户访问该数据,则可以使用基于pvc方式的nfs。满足该需求的yaml文件为:ubuntu-tf+nfs-direct-example.yaml
+
=== 创建pod(以Deployment类型pod为例) ===
  
4)建立pod时,如果需要持久存储重要数据,对数据传输及读写性能要求较高(比如存储实验数据),并且不希望其他用户访问该数据,则可以使用基于pvc方式的cephfs。满足该需求的yaml文件为:ubuntu-tf+cephfs-direct-example.yaml
+
1>点击左侧导航栏中“应用程序”下的“工作负载”,然后点击“创建部署”。其“基本信息选项卡”配置如下图:
  
5)建立pod时,如果需要持久存储数据,既需要使用基于pvc方式的nfs,又需要使用基于pvc方式的cephfs。则可以选择的yaml文件为:ubuntu-tf+nfs+cephfs-example.yaml
+
[[image:t4.jpg]]
  
6)建立pod时,想临时存放实验数据,对数据传输及读写性能要求较高。则可以选择的yaml文件为:ubuntu-tf+local-disk-example.yaml
+
2>“容器信息”选项卡配置如下图:
  
7)建立pod时,如果需要使用torch,则可以选择的yaml文件为:ubuntu-runtime-torch.yaml
+
提示:镜像为 harbor.ai.iiis.co/share/pytorch/pytorch:2.1.1-cuda12.1-cudnn8-runtime-ssh
  
8) 修改用户quota的yaml文件为:quota.yaml
+
[[image:t5new.jpg]]
  
9)建立挂接nfs所需的pvc,其yaml文件为:nfs-pvc-example.yaml
+
3>“存储挂载”选项卡配置(挂载nfs实现用户代码、用户程序等数据持久性存储)中,点击“添加数据卷”,配置如下图:
  
10)建立挂接cephfs所需的pvc,其yaml文件为:cephfs-pvc-example.yaml
+
[[image:t6.jpg]]
  
上述各yaml文件,下载地址为:
+
4>上述配置完成后,点击“保存”,按提示点击“确定”,即可创建pod,创建后,单击bash,便可进入pod。
  
https://pan.baidu.com/s/18INpkkxoifemg0sPa6UEWQ
+
= 镜像仓库操作 =
  
提取码为:cdm6
+
通过URL访问平台,URL为: https://10.1.0.207,登录后可以新建项目,操作如下图。
  
== k8s常见问题及反馈 ==
+
[[image:t9.jpg]]
  
用户使用k8s集群时,如果遇到问题,可以把问题提交到github上,同时把问题反馈到微信群。
+
= 故障或问题反馈 =
  
github地址为:github.com/iiisthu/gpupool
+
用户在使用平台过程中,如遇到故障或操作方面的问题,请及时在微信群中进行反馈。

Latest revision as of 14:59, 12 December 2023

清华大学交叉院大模型系统教学实践平台操作指南


申请平台资源

为了更好地培养学生使用、训练、研发大模型应用与系统框架实践能力,探索新的研究方向和趋势,清华大学交叉院特建设大模型系统教学实践平台,提供强大的算力支持。

需要使用平台资源的用户,请将申请邮件发送至yw@mail.tsinghua.edu.cn,同时抄送给导师,请导师回复“同意”。

提交的信息包括:

1)账号名

2)姓名

3)email

4)手机号

5)申请资源的理由

6)资源使用期限

7)导师姓名

8)备注:使用大模型平台

使用平台资源

用户需要先通过VPN连接平台网络,然后访问平台资源。

VPN配置及使用

为了便于用户访问集群,并提高其安全性,我们提供了VPN服务。如果用户在集群中建立了虚拟机,希望在客户端机器上访问虚拟机(比如ping、ssh等),则需要先建立VPN连接。

关于VPN配置及应用,请参见如下链接:

http://wiki.iiis.systems:9988/w/index.php/VPN_User_Guide


平台基本操作

平台访问方式

1)平台访问方式

通过URL访问平台,URL为: http://10.1.0.207,登录后界面如图。

T1.jpg

选择身份及用户的命名空间后,即可进入主页面,如下图。

T2.jpg

配置镜像仓库登陆密钥

单击左侧导航栏中的“配置中心”下的“密文”,点击“创建Secret”,输入信息如下:


T3new.jpg

创建pod(以Deployment类型pod为例)

1>点击左侧导航栏中“应用程序”下的“工作负载”,然后点击“创建部署”。其“基本信息选项卡”配置如下图:

T4.jpg

2>“容器信息”选项卡配置如下图:

提示:镜像为 harbor.ai.iiis.co/share/pytorch/pytorch:2.1.1-cuda12.1-cudnn8-runtime-ssh

T5new.jpg

3>“存储挂载”选项卡配置(挂载nfs实现用户代码、用户程序等数据持久性存储)中,点击“添加数据卷”,配置如下图:

T6.jpg

4>上述配置完成后,点击“保存”,按提示点击“确定”,即可创建pod,创建后,单击bash,便可进入pod。

镜像仓库操作

通过URL访问平台,URL为: https://10.1.0.207,登录后可以新建项目,操作如下图。

T9.jpg

故障或问题反馈

用户在使用平台过程中,如遇到故障或操作方面的问题,请及时在微信群中进行反馈。