Difference between revisions of "大模型系统教学实践平台操作指南"

From IIIS-Systems
Jump to: navigation, search
(Created page with "= K8S用户指南 = == 建立vpn连接 == 使用k8s集群之前,需要先建立vpn连接。关于vpn的配置及应用,请参见: http://wiki.iiis.systems:9988/w/inde...")
 
Line 1: Line 1:
= K8S用户指南 =
+
清华大学交叉信息研究院大模型系统教学实践平台操作指南
  
== 建立vpn连接 ==
+
 
 +
= 申请集群资源 =
  
使用k8s集群之前,需要先建立vpn连接。关于vpn的配置及应用,请参见:
+
为了更好地培养学生使用、训练、研发大模型应用与系统框架实践能力,探索新的研究方向和趋势,清华大学交叉信息研究院特建设大模型系统教学实践平台,提供强大的算力支持。
 +
 
 +
需要使用平台资源的用户,请向平台管理员尹伟老师提交资源使用申请。提交申请的邮箱为:yw@mail.tsinghua.edu.cn
 +
 
 +
提交的信息包括:
 +
 
 +
1)账号名(系统会随机生成密码,用户登录系统后,可以自行修改密码)
 +
 
 +
2)姓名
 +
 
 +
3)email
 +
 
 +
4)手机号
 +
 
 +
5)申请资源的理由
 +
 
 +
6)资源使用期限
 +
 
 +
7)导师姓名
 +
 
 +
8)备注:使用大模型平台
 +
 
 +
= 使用集群资源 =
 +
 
 +
用户使用集群资源,需要先通过VPN连接集群网络,然后通过OpenStack使用集群资源。详细配置及操作,如下:
 +
 
 +
== VPN配置及使用 ==
 +
 
 +
为了便于用户访问集群,并提高其安全性,我们提供了VPN服务。如果用户在集群中建立了虚拟机,希望在客户端机器上访问虚拟机(比如ping、ssh等),则需要先建立VPN连接。
 +
 
 +
关于VPN配置及应用,请参见如下链接:
  
 
http://wiki.iiis.systems:9988/w/index.php/VPN_User_Guide
 
http://wiki.iiis.systems:9988/w/index.php/VPN_User_Guide
  
== 下载配置文件 ==
+
<!---== VPN配置及使用 ==
 +
 
 +
=== VPN介绍 ===
 +
 
 +
为了便于用户访问集群,并提高其安全性,我们提供了VPN访问。如果用户在集群中建立了虚拟机,希望在客户端机器上访问虚拟机(比如ping、ssh等),则需要建立VPN连接。
 +
 
 +
=== VPN配置 ===
 +
 
 +
对于VPN的具体配置,分两种情形:Windows系统上配置VPN、MAC系统上配置VPN。
 +
 
 +
1>Windows系统上配置VPN
 +
 
 +
如果你使用的是Windows 10系统,请按照下面的链接自行修改。
 +
 
 +
http://blog.csdn.net/lc_1994/article/details/50662909
 +
 
 +
用户先要确认Windows系统是32位系统,还是64位系统。基于此,安装相应的Cisco Vpn Client软件。
 +
 
 +
64位Windows系统对应的Cisco Vpn Client软件下载地址为:
 +
 
 +
http://pan.baidu.com/s/1skkBr5N
 +
 
 +
安装后,运行该软件。单击主界面上的“NEW”按钮,新建VPN连接,界面如图。
 +
 
 +
[[Image:1.jpg]]
 +
 
 +
Connection Entry为VPN连接名。用户自己命名。
 +
 
 +
Description为描述信息,可不填写。
 +
 
 +
Host为VPN服务器地址,填写gw.iiis.co。如果你在校内,可以尝试使用thu.iiis.co (不能在校外访问,可能有些校内网段不行。)
 +
 
 +
Group Authentication下的Name栏填写test;Password栏填写123456。
 +
 
 +
配置完成后的界面,单击Save保存。
 +
 
 +
双击刚刚建立的连接,会出现用户名和密码的输入界面,在该界面下,输入用户的VPN帐号和密码,即可连接成功,如图。
 +
 
 +
[[Image:2.jpg]]
 +
 
 +
2>MAC系统上配置VPN
 +
 
 +
安装MAC系统的客户机,无需安装第三方软件。利用系统自带的VPN组件,即可建立VPN连接。具体操作如下:
 +
 
 +
打开“网络偏好设置”,建立一个新的VPN连接,配置如图。接口选择VPN;VPN类型选择Cisco IPSec;服务器名称,用户自定义设置。
 +
 
 +
[[Image:3.jpg]]
 +
 
 +
单击“鉴定设置”,设置共享的密钥为123456,群组名称为test,如图
 +
 
 +
[[Image:4.jpg]]
 +
 
 +
设置完成后,连接VPN,会出现用户名和密码的输入界面,如下图。在该界面下,输入用户的VPN帐号和密码,即可连接成功。
 +
 
 +
[[Image:20.jpg]]
 +
 
 +
=== VPN的常见故障及解决办法 ===
 +
 
 +
3)VPN的常见故障及解决办法
 +
 
 +
1>如果无法连接VPN,一般的排除办法如下:
 +
 
 +
•测试客户机与VPN服务器之间的网络连通性: ping  gw.iiis.co。
 +
 
 +
•查看客户机的防火墙及安全策略。
 +
 
 +
2>如果能够出现用户名和密码输入界面,但无法连接成功。说明用户名和密码的输入有误,请仔细核查。
 +
 
 +
重要提示:如果用户无法解决VPN连接故障,可以联系集群管理员尹伟老师,邮箱是:yw@mail.tsinghua.edu.cn  --->
 +
 
 +
== OpenStack基本操作 ==
 +
 
 +
=== OpenStack访问方式 ===
 +
1)OpenStack访问方式
 +
 
 +
通过URL访问OpenStack,URL为: cloud.iiis.systems:9988  ,其界面如图。
 +
 
 +
[[image:5.jpg]]
 +
 
 +
使用之前申请的用户邮箱和密码登录。登录成功后,进入用户操作界面,见图。
 +
 
 +
[[image:7.jpg]]
 +
 
 +
=== 启动虚拟机的过程 ===
 +
 
 +
1>单击左侧导航栏中的“云主机”,再单击“创建云主机”。
 +
 
 +
[[image:7.png]]
 +
 
 +
2>选择启动源:填写云主机名称和数量。单击镜像右侧的+号,选择镜像。
 +
 
 +
[[image:8.png]]
 +
 
 +
3>配置:通过输入cpu核数、内存容量、磁盘容量,来检索对应配置的flavor。比如建立4核CPU、16G内存,60G磁盘的VM,则输入4-16384-60,会检索出对应的flavor,单击flavor右侧的+号,添加配置。如下图:
 +
 
 +
[[image:tupeizhi.jpg]]
 +
 
 +
4>网络:单击网络界面右侧的+号,添加网络。
 +
 
 +
[[image:11.png]]
 +
 
 +
5>安全组:默认的安全组为default。
 +
 
 +
[[image:12.png]]
 +
 
 +
单击default左侧的符号 > ,便可以查看default安全组中的安全策略。如果无法执行ping操作或ssh操作,则确认default安全组中是否存在对应的安全策略。
 +
 
 +
[[image:13.png]]
 +
 
 +
6>密码与密钥对:创建登录操作系统所需的密码或密钥。
 +
 
 +
[[image:14.png]]
 +
 
 +
如果用户希望以用户名和密码的方式登录OS,则在该界面直接设置管理员的密码,建立虚拟机之后,用户可以用管理员(比如root)和该密码登录OS。
 +
 
 +
如果用户希望以密钥的方式登录OS,以前没有密钥,则单击“创建密钥对”按钮,创建密钥对。创建密钥对界面如下图。请把私钥的内容复制--粘帖到客户机的文件中,把文件命名为id_rsa,把文件权限设置为400,命令是chmod 400 id_rsa 。注意:只有在生成密钥对时,才允许用上述方法保存私钥内容,系统不提供私钥下载按钮。
 +
 
 +
[[image:14.jpg]]
 +
 
 +
请把
 +
 
 +
如以前有密钥,则单击“导入密钥对”按钮,导入密钥。
 +
 
 +
如果当前存在可用密钥,则需要单击密钥右侧的+号,加载该密钥。
 +
 
 +
[[image:12.jpg]]
 +
 
 +
7>虚拟机的状态如图。
 +
 
 +
[[image:15.jpg]]
 +
 
 +
8>如果用户希望通过外网访问虚拟机(比如在客户端机器上,通过ssh访问虚拟机),则要为虚拟机捆绑公网IP(Floating IP)。先单击左侧导航栏中的“公网IP”,再单击“为项目申请IP”,在资源池中选择“public_net”然后单击“分配IP”,即可获得公网IP地址。
 +
 
 +
[[image:16.png]]
  
使用harbor.iiis.co:31388下载配置文件,输入的用户名为vpn账号名,但不带@iiis.co后缀。
+
获得公网IP地址后,把该公网IP地址捆绑在虚拟机上。具体操作为:单击左侧导航栏中的“云主机”,勾选需要捆绑公网IP的虚拟机,单击“更多”下拉菜单,选中“捆绑公网IP”。
  
== 下载yaml文件 ==
+
[[image:17.png]]
  
为了便于用户通过yaml文件在K8S下申请及使用资源,特提供yaml文件样例。用户可以根据需求,下载相应yaml文件,也可以修改yaml文件内容。
+
=== 虚拟机访问方式 ===
  
提示:yaml文件中拉取的镜像,操作系统为ubuntu18.04,包含如下软件:tensorflow1.15.3、horovod0.19.2、cuda10.0、cudnn7、python3.6。
+
虚拟机的访问方式有三种:
  
yaml文件介绍,如下:
+
通过Console进行访问。
  
1)建立pod时,如果不需要持久存储数据,则可以选择的yaml文件为:ubuntu-tf-example.yaml
+
通过SSH进行访问。
  
2)建立pod时,如果需要共享数据并实现多用户访问共享数据,则可以使用IP地址挂接nfs,此种方式没有隐私性和可靠性保证。满足该需求的yaml文件为:ubuntu-tf+nfs-no_pvc-direct-example.yaml
+
通过公有IP地址直接访问。
  
3)建立pod时,如果需要持久存储重要数据,对数据传输及读写性能要求不高(比如存储程序代码),并且不希望其他用户访问该数据,则可以使用基于pvc方式的nfs。满足该需求的yaml文件为:ubuntu-tf+nfs-direct-example.yaml
+
=== 通过console进行访问 ===
  
4)建立pod时,如果需要持久存储重要数据,对数据传输及读写性能要求较高(比如存储实验数据),并且不希望其他用户访问该数据,则可以使用基于pvc方式的cephfs。满足该需求的yaml文件为:ubuntu-tf+cephfs-direct-example.yaml
+
勾选云主机,单击云主机的名称。在属性界面中,单击console选项卡。
  
5)建立pod时,如果需要持久存储数据,既需要使用基于pvc方式的nfs,又需要使用基于pvc方式的cephfs。则可以选择的yaml文件为:ubuntu-tf+nfs+cephfs-example.yaml
+
[[image:18.jpg]]
  
6)建立pod时,想临时存放实验数据,对数据传输及读写性能要求较高。则可以选择的yaml文件为:ubuntu-tf+local-disk-example.yaml
+
在Console控制台上,出现虚拟机的OS信息。可以通过该界面登录OS。
  
7)建立pod时,如果需要使用torch,则可以选择的yaml文件为:ubuntu-runtime-torch.yaml
+
[[image:19.png]]
  
8) 修改用户quota的yaml文件为:quota.yaml
+
=== 通过SSH进行访问 ===
  
9)建立挂接nfs所需的pvc,其yaml文件为:nfs-pvc-example.yaml
+
通过SSH连接虚拟机的公网 IP。该访问方式,需要用户先通过VPN的帐号和密码,建立VPN连接,然后在客户机上通过SSH访问虚拟机。
  
10)建立挂接cephfs所需的pvc,其yaml文件为:cephfs-pvc-example.yaml
+
如果创建虚拟机时,在“密码与密钥对”界面,用户输入了管理员的密码,则可以使用“ssh  用户名@虚拟机的公网IP”命令访问虚拟机。
  
上述各yaml文件,下载地址为:
+
如果创建虚拟机时,在“密码与密钥对”界面,用户建立或导入或使用现有的密钥对,则可以使用“ssh -i id_rsa 用户名@虚拟机的公网IP”命令访问虚拟机。
  
https://pan.baidu.com/s/18INpkkxoifemg0sPa6UEWQ
+
=== 通过公有IP地址直接访问 ===
  
提取码为:cdm6
+
为虚拟机申请一个互联网上可以直接访问的公有IP地址。该种访问方式,需要另行收取公有IP地址的费用。
  
== k8s常见问题及反馈 ==
+
如需申请公有IP地址,请联系管理员尹伟老师,邮箱为: yw@mail.tsinghua.edu.cn
  
用户使用k8s集群时,如果遇到问题,可以把问题提交到github上,同时把问题反馈到微信群。
+
= 故障或问题联系人 =
  
github地址为:github.com/iiisthu/gpupool
+
用户在使用机群过程中,如遇到故障或操作方面的问题,请联系尹伟老师,邮箱为: yw@mail.tsinghua.edu.cn

Revision as of 15:03, 30 November 2023

清华大学交叉信息研究院大模型系统教学实践平台操作指南


申请集群资源

为了更好地培养学生使用、训练、研发大模型应用与系统框架实践能力,探索新的研究方向和趋势,清华大学交叉信息研究院特建设大模型系统教学实践平台,提供强大的算力支持。

需要使用平台资源的用户,请向平台管理员尹伟老师提交资源使用申请。提交申请的邮箱为:yw@mail.tsinghua.edu.cn

提交的信息包括:

1)账号名(系统会随机生成密码,用户登录系统后,可以自行修改密码)

2)姓名

3)email

4)手机号

5)申请资源的理由

6)资源使用期限

7)导师姓名

8)备注:使用大模型平台

使用集群资源

用户使用集群资源,需要先通过VPN连接集群网络,然后通过OpenStack使用集群资源。详细配置及操作,如下:

VPN配置及使用

为了便于用户访问集群,并提高其安全性,我们提供了VPN服务。如果用户在集群中建立了虚拟机,希望在客户端机器上访问虚拟机(比如ping、ssh等),则需要先建立VPN连接。

关于VPN配置及应用,请参见如下链接:

http://wiki.iiis.systems:9988/w/index.php/VPN_User_Guide


OpenStack基本操作

OpenStack访问方式

1)OpenStack访问方式

通过URL访问OpenStack,URL为: cloud.iiis.systems:9988 ,其界面如图。

5.jpg

使用之前申请的用户邮箱和密码登录。登录成功后,进入用户操作界面,见图。

7.jpg

启动虚拟机的过程

1>单击左侧导航栏中的“云主机”,再单击“创建云主机”。

7.png

2>选择启动源:填写云主机名称和数量。单击镜像右侧的+号,选择镜像。

8.png

3>配置:通过输入cpu核数、内存容量、磁盘容量,来检索对应配置的flavor。比如建立4核CPU、16G内存,60G磁盘的VM,则输入4-16384-60,会检索出对应的flavor,单击flavor右侧的+号,添加配置。如下图:

Tupeizhi.jpg

4>网络:单击网络界面右侧的+号,添加网络。

11.png

5>安全组:默认的安全组为default。

12.png

单击default左侧的符号 > ,便可以查看default安全组中的安全策略。如果无法执行ping操作或ssh操作,则确认default安全组中是否存在对应的安全策略。

13.png

6>密码与密钥对:创建登录操作系统所需的密码或密钥。

14.png

如果用户希望以用户名和密码的方式登录OS,则在该界面直接设置管理员的密码,建立虚拟机之后,用户可以用管理员(比如root)和该密码登录OS。

如果用户希望以密钥的方式登录OS,以前没有密钥,则单击“创建密钥对”按钮,创建密钥对。创建密钥对界面如下图。请把私钥的内容复制--粘帖到客户机的文件中,把文件命名为id_rsa,把文件权限设置为400,命令是chmod 400 id_rsa 。注意:只有在生成密钥对时,才允许用上述方法保存私钥内容,系统不提供私钥下载按钮。

14.jpg

请把

如以前有密钥,则单击“导入密钥对”按钮,导入密钥。

如果当前存在可用密钥,则需要单击密钥右侧的+号,加载该密钥。

12.jpg

7>虚拟机的状态如图。

15.jpg

8>如果用户希望通过外网访问虚拟机(比如在客户端机器上,通过ssh访问虚拟机),则要为虚拟机捆绑公网IP(Floating IP)。先单击左侧导航栏中的“公网IP”,再单击“为项目申请IP”,在资源池中选择“public_net”然后单击“分配IP”,即可获得公网IP地址。

16.png

获得公网IP地址后,把该公网IP地址捆绑在虚拟机上。具体操作为:单击左侧导航栏中的“云主机”,勾选需要捆绑公网IP的虚拟机,单击“更多”下拉菜单,选中“捆绑公网IP”。

17.png

虚拟机访问方式

虚拟机的访问方式有三种:

通过Console进行访问。

通过SSH进行访问。

通过公有IP地址直接访问。

通过console进行访问

勾选云主机,单击云主机的名称。在属性界面中,单击console选项卡。

18.jpg

在Console控制台上,出现虚拟机的OS信息。可以通过该界面登录OS。

19.png

通过SSH进行访问

通过SSH连接虚拟机的公网 IP。该访问方式,需要用户先通过VPN的帐号和密码,建立VPN连接,然后在客户机上通过SSH访问虚拟机。

如果创建虚拟机时,在“密码与密钥对”界面,用户输入了管理员的密码,则可以使用“ssh 用户名@虚拟机的公网IP”命令访问虚拟机。

如果创建虚拟机时,在“密码与密钥对”界面,用户建立或导入或使用现有的密钥对,则可以使用“ssh -i id_rsa 用户名@虚拟机的公网IP”命令访问虚拟机。

通过公有IP地址直接访问

为虚拟机申请一个互联网上可以直接访问的公有IP地址。该种访问方式,需要另行收取公有IP地址的费用。

如需申请公有IP地址,请联系管理员尹伟老师,邮箱为: yw@mail.tsinghua.edu.cn

故障或问题联系人

用户在使用机群过程中,如遇到故障或操作方面的问题,请联系尹伟老师,邮箱为: yw@mail.tsinghua.edu.cn