先安装系统,公司需要固定版本2004,内核必须在5.15.0-107以下,使用uname -r 查看内核版本,检查完后使用命令安装openssh:
sudo apt install openssh-server
安装完后确定机器IP 然后使用任意机器SSH连接算法环境安装服务器,现IP10.1.31.163,连接命令:
在CMD或者UBUNTU中输入:
ssh hy-20@10.1.31.163
输入后回车,会出现提示,输入yes回车,然后输入密码:hy123456,回车
进到算法环境安装服务器后 ,进入环境目录:
cd imagespull
然后修改hosts文件:
vi hosts
进入vi界面后修改三行开头的ip 为要安装的机器的IP,修改好后 按ESC 输入:wq保存 (如果需要多台同时安装 ,直接在每个长命令后回车加一行一样的命令 修改IP即可,如果机器准备状态不一,则使用cp hosts (新hosts文件名,比如:hosts1、hosts2,复制前先查看目录下有没有对应的文件名,如果有,则使用其他文件名)新建一个hosts文件,VI修改其他IP保存 )后 输入:
ansible-playbook -i hosts nouveau.yml
布置基础环境(布置基础环境会重启),重启完后输入:
ansible-playbook -i hosts nvidia.yml
安装显卡驱动,安装完成后输入:
ansible-playbook -i hosts AlgorithmEnv-2.yml
安装算法环境(这个过程很长,耐心等待)
即可完成算法环境的安装
注释:安装过程可能会遇到很多报错,常见报错如下:
1.内容中出现.ssh/known_hosts报错,解决方法如下:
cd ~
cd .ssh
rm -rf known_hosts
删除保存的known_hosts文件 重新回到镜像安装环境
cd ~
cd imagespull
继续部署
Comments NOTHING