Difference between revisions of "大模型系统教学实践平台操作指南"

From IIIS-Systems
Jump to: navigation, search
(创建pod(以Deployment类型pod为例))
 
(52 intermediate revisions by the same user not shown)
Line 1: Line 1:
清华大学交叉信息研究院大模型系统教学实践平台操作指南
+
清华大学交叉院大模型系统教学实践平台操作指南
  
 
    
 
    
 
= 申请平台资源 =
 
= 申请平台资源 =
  
为了更好地培养学生使用、训练、研发大模型应用与系统框架实践能力,探索新的研究方向和趋势,清华大学交叉信息研究院特建设大模型系统教学实践平台,提供强大的算力支持。
+
为了更好地培养学生使用、训练、研发大模型应用与系统框架实践能力,探索新的研究方向和趋势,清华大学交叉院特建设大模型系统教学实践平台,提供强大的算力支持。
  
需要使用平台资源的用户,请向平台管理员尹伟老师提交资源使用申请。提交申请的邮箱为:yw@mail.tsinghua.edu.cn
+
需要使用平台资源的用户,请将申请邮件发送至yw@mail.tsinghua.edu.cn,同时抄送给导师,请导师回复“同意”。
  
 
提交的信息包括:  
 
提交的信息包括:  
  
1)账号名(系统会随机生成密码,用户登录系统后,可以自行修改密码)
+
1)账号名
  
 
2)姓名
 
2)姓名
Line 28: Line 28:
 
= 使用平台资源 =
 
= 使用平台资源 =
  
用户使用平台资源,需要先通过VPN连接集群网络,然后通过OpenStack使用集群资源。详细配置及操作,如下:
+
用户需要先通过VPN连接平台网络,然后访问平台资源。
  
 
== VPN配置及使用 ==
 
== VPN配置及使用 ==
Line 104: Line 104:
 
•查看客户机的防火墙及安全策略。
 
•查看客户机的防火墙及安全策略。
  
2>如果能够出现用户名和密码输入界面,但无法连接成功。说明用户名和密码的输入有误,请仔细核查。
+
2>如果能够出现用户名和密码输入界面,但无法连接成功。说明用户名和密码的输入有误,请仔细核查。--->
 
+
重要提示:如果用户无法解决VPN连接故障,可以联系集群管理员尹伟老师,邮箱是:yw@mail.tsinghua.edu.cn  --->
+
  
 
== 平台基本操作 ==
 
== 平台基本操作 ==
  
 
=== 平台访问方式 ===
 
=== 平台访问方式 ===
 +
 
1)平台访问方式
 
1)平台访问方式
  
通过URL访问平台,URL为: cloud.iiis.systems:9988  ,其界面如图。
+
通过URL访问平台,URL为: http://10.1.0.207,登录后界面如图。
 
+
[[image:5.jpg]]
+
 
+
使用之前申请的用户邮箱和密码登录。登录成功后,进入用户操作界面,见图。
+
 
+
[[image:7.jpg]]
+
 
+
=== 启动虚拟机的过程 ===
+
 
+
1>单击左侧导航栏中的“云主机”,再单击“创建云主机”。
+
 
+
[[image:7.png]]
+
 
+
2>选择启动源:填写云主机名称和数量。单击镜像右侧的+号,选择镜像。
+
 
+
[[image:8.png]]
+
 
+
3>配置:通过输入cpu核数、内存容量、磁盘容量,来检索对应配置的flavor。比如建立4核CPU、16G内存,60G磁盘的VM,则输入4-16384-60,会检索出对应的flavor,单击flavor右侧的+号,添加配置。如下图:
+
 
+
[[image:tupeizhi.jpg]]
+
 
+
4>网络:单击网络界面右侧的+号,添加网络。
+
 
+
[[image:11.png]]
+
 
+
5>安全组:默认的安全组为default。
+
 
+
[[image:12.png]]
+
 
+
单击default左侧的符号 > ,便可以查看default安全组中的安全策略。如果无法执行ping操作或ssh操作,则确认default安全组中是否存在对应的安全策略。
+
 
+
[[image:13.png]]
+
 
+
6>密码与密钥对:创建登录操作系统所需的密码或密钥。
+
 
+
[[image:14.png]]
+
 
+
如果用户希望以用户名和密码的方式登录OS,则在该界面直接设置管理员的密码,建立虚拟机之后,用户可以用管理员(比如root)和该密码登录OS。
+
 
+
如果用户希望以密钥的方式登录OS,以前没有密钥,则单击“创建密钥对”按钮,创建密钥对。创建密钥对界面如下图。请把私钥的内容复制--粘帖到客户机的文件中,把文件命名为id_rsa,把文件权限设置为400,命令是chmod 400 id_rsa 。注意:只有在生成密钥对时,才允许用上述方法保存私钥内容,系统不提供私钥下载按钮。
+
 
+
[[image:14.jpg]]
+
 
+
请把
+
 
+
如以前有密钥,则单击“导入密钥对”按钮,导入密钥。
+
 
+
如果当前存在可用密钥,则需要单击密钥右侧的+号,加载该密钥。
+
 
+
[[image:12.jpg]]
+
 
+
7>虚拟机的状态如图。
+
 
+
[[image:15.jpg]]
+
 
+
8>如果用户希望通过外网访问虚拟机(比如在客户端机器上,通过ssh访问虚拟机),则要为虚拟机捆绑公网IP(Floating IP)。先单击左侧导航栏中的“公网IP”,再单击“为项目申请IP”,在资源池中选择“public_net”然后单击“分配IP”,即可获得公网IP地址。
+
 
+
[[image:16.png]]
+
  
获得公网IP地址后,把该公网IP地址捆绑在虚拟机上。具体操作为:单击左侧导航栏中的“云主机”,勾选需要捆绑公网IP的虚拟机,单击“更多”下拉菜单,选中“捆绑公网IP”。
+
[[image:t1.jpg]]
  
[[image:17.png]]
+
选择身份及用户的命名空间后,即可进入主页面,如下图。
  
=== 虚拟机访问方式 ===
+
[[image:t2.jpg]]
  
虚拟机的访问方式有三种:
+
=== 配置镜像仓库登陆密钥 ===
  
通过Console进行访问。
+
单击左侧导航栏中的“配置中心”下的“密文”,点击“创建Secret”,输入信息如下:
  
通过SSH进行访问。
 
  
通过公有IP地址直接访问。
+
[[image:t3new.jpg]]
  
=== 通过console进行访问 ===
+
=== 创建pod(以Deployment类型pod为例) ===
  
勾选云主机,单击云主机的名称。在属性界面中,单击console选项卡。
+
1>点击左侧导航栏中“应用程序”下的“工作负载”,然后点击“创建部署”。其“基本信息选项卡”配置如下图:
  
[[image:18.jpg]]
+
[[image:t4.jpg]]
  
在Console控制台上,出现虚拟机的OS信息。可以通过该界面登录OS。
+
2>“容器信息”选项卡配置如下图:
  
[[image:19.png]]
+
提示:镜像为 harbor.ai.iiis.co/share/pytorch/pytorch:2.1.1-cuda12.1-cudnn8-runtime-ssh
  
=== 通过SSH进行访问 ===
+
[[image:t5new.jpg]]
  
通过SSH连接虚拟机的公网 IP。该访问方式,需要用户先通过VPN的帐号和密码,建立VPN连接,然后在客户机上通过SSH访问虚拟机。
+
3>“存储挂载”选项卡配置(挂载nfs实现用户代码、用户程序等数据持久性存储)中,点击“添加数据卷”,配置如下图:
  
如果创建虚拟机时,在“密码与密钥对”界面,用户输入了管理员的密码,则可以使用“ssh  用户名@虚拟机的公网IP”命令访问虚拟机。
+
[[image:t6.jpg]]
  
如果创建虚拟机时,在“密码与密钥对”界面,用户建立或导入或使用现有的密钥对,则可以使用“ssh -i id_rsa 用户名@虚拟机的公网IP”命令访问虚拟机。
+
4>上述配置完成后,点击“保存”,按提示点击“确定”,即可创建pod,创建后,单击bash,便可进入pod。
  
=== 通过公有IP地址直接访问 ===
+
= 镜像仓库操作 =
  
为虚拟机申请一个互联网上可以直接访问的公有IP地址。该种访问方式,需要另行收取公有IP地址的费用。
+
通过URL访问平台,URL为: https://10.1.0.207,登录后可以新建项目,操作如下图。
  
如需申请公有IP地址,请联系管理员尹伟老师,邮箱为: yw@mail.tsinghua.edu.cn
+
[[image:t9.jpg]]
  
= 故障或问题联系人 =
+
= 故障或问题反馈 =
  
用户在使用平台过程中,如遇到故障或操作方面的问题,请联系尹伟老师,邮箱为: yw@mail.tsinghua.edu.cn
+
用户在使用平台过程中,如遇到故障或操作方面的问题,请及时在微信群中进行反馈。

Latest revision as of 14:59, 12 December 2023

清华大学交叉院大模型系统教学实践平台操作指南


申请平台资源

为了更好地培养学生使用、训练、研发大模型应用与系统框架实践能力,探索新的研究方向和趋势,清华大学交叉院特建设大模型系统教学实践平台,提供强大的算力支持。

需要使用平台资源的用户,请将申请邮件发送至yw@mail.tsinghua.edu.cn,同时抄送给导师,请导师回复“同意”。

提交的信息包括:

1)账号名

2)姓名

3)email

4)手机号

5)申请资源的理由

6)资源使用期限

7)导师姓名

8)备注:使用大模型平台

使用平台资源

用户需要先通过VPN连接平台网络,然后访问平台资源。

VPN配置及使用

为了便于用户访问集群,并提高其安全性,我们提供了VPN服务。如果用户在集群中建立了虚拟机,希望在客户端机器上访问虚拟机(比如ping、ssh等),则需要先建立VPN连接。

关于VPN配置及应用,请参见如下链接:

http://wiki.iiis.systems:9988/w/index.php/VPN_User_Guide


平台基本操作

平台访问方式

1)平台访问方式

通过URL访问平台,URL为: http://10.1.0.207,登录后界面如图。

T1.jpg

选择身份及用户的命名空间后,即可进入主页面,如下图。

T2.jpg

配置镜像仓库登陆密钥

单击左侧导航栏中的“配置中心”下的“密文”,点击“创建Secret”,输入信息如下:


T3new.jpg

创建pod(以Deployment类型pod为例)

1>点击左侧导航栏中“应用程序”下的“工作负载”,然后点击“创建部署”。其“基本信息选项卡”配置如下图:

T4.jpg

2>“容器信息”选项卡配置如下图:

提示:镜像为 harbor.ai.iiis.co/share/pytorch/pytorch:2.1.1-cuda12.1-cudnn8-runtime-ssh

T5new.jpg

3>“存储挂载”选项卡配置(挂载nfs实现用户代码、用户程序等数据持久性存储)中,点击“添加数据卷”,配置如下图:

T6.jpg

4>上述配置完成后,点击“保存”,按提示点击“确定”,即可创建pod,创建后,单击bash,便可进入pod。

镜像仓库操作

通过URL访问平台,URL为: https://10.1.0.207,登录后可以新建项目,操作如下图。

T9.jpg

故障或问题反馈

用户在使用平台过程中,如遇到故障或操作方面的问题,请及时在微信群中进行反馈。