Tesla计算卡的折腾以及各种需求下的安装配置攻略

A@NAZOrip
A@NAZOrip 2023年11月10日
  • 在其它设备中阅读本文章

❀好像没什么用,当做练习写写日记叙事用的经验分享吧

❀折腾倒是真的折腾


「硬件」

    相比于买溢价起飞,显存大小不变的新显卡,对于Premiere/After Effects渲染视频来说直接加块旧显卡的性价比会高很多,相当于给视频剪辑软件增加了CUDA核心数和显存,除此之外就没有意义了...

方案选择

条件1—主板

  • 微星B650 Edge,买的时候顾及USB和SATA接口的数量,结果导致PCIE线路不够用;如果直接插一个PCIE3.0x16的设备,就只能用到PCIE3.0 x1或x2的带宽
  • 方案:从南桥M.2接口转接出一条PCIE4.0x4,长16的槽
    • 条件1—主板.jpg

条件2—主显散热

  • 要想办法降低新显卡对独显散热器进风区域的阻挡,而且根据热力学,分散开的发热源比聚集起来的发热源更容易散热
  • 方案:利用机箱的竖装PCIE槽安装新显卡
    • 条件2—机箱.jpg

条件3—半高卡

  • 结论是Tesla T4,RTX A2000,RTX 4060半高,Tesla P4四个显卡可行
  • Tesla T4 16GB / RTX A2000 12GB当时折合5000RMB左右
  • RTX A2000 6GB / RTX 4060半高当时折合3000RMB左右
  • Tesla P4 8GB当时只折合350RMB左右,如果失败的话损失不会太大
    • 条件3—半高卡.jpg

条件4—转接线

  • 由于PCIE x4的供电电线少于PCIE x16,而Tesla P4没有独立供电,所以需要额外供电才能带的动
  • R43转接线有个SATA供电转PCIE供电的功能,但买到之后发现只有两针,所以实际的供电可能只有PCIE x8的35W,但起码是能跑的
  • 方案:买独立供电的显卡,或能提供额外供电的PCIE转接线,加上运费一共177RMB
    • 条件3—转接线.jpg

主动散热

    Nvidia特斯拉/Grid系列的显卡属于计算卡(服务器风道散热),因此考虑了性价比和美观程度后,通过以下两个部件实现主动散热:

  • 仅支持一种风扇的3D打印连接件,安装方法是将Tesla p4导风罩的后部螺丝拧松,然后插入散热片和导风罩间
    • 转接件.jpg
  • 台达/DELTA BFB0512HHA, 50x50x10mm风扇,加上连接件和运费一共228RMB
  • 如果不考虑美观,或要求散热更好的话,直接用束带绑两个80mm风扇上去也可以
连接件+散热方案=¥405,属于被主板和机箱联合坑了一笔

检查与组装

    GPU到货后的惯例拆解检查,然后组装:

  • 螺丝数量较多,需要一块磁铁用于收集螺丝
  • PCB背面的部件有点泛黄,几乎无尘,所有导热垫都不需要更换,硅脂有点干;推测是被翻新过,买来后直接用是没问题的
  • 风扇连接件到货后发现的底部较厚,所以用砂纸打薄了0.5mm,但由于没有高目数的砂纸所以用磨刀石抛了一下光,因为磨刀石两边高中间低的问题导致抛光结果较差...
  • M.2转PCIE线的SATA供电接口刚好用机箱背部2.5"SATA硬盘连接线的额外接口供电
  • M.2转PCIE线的PCIE部分无法固定到机箱或主板上,而是通过Tesla卡固定到靠内的PCIE槽上,有点扯到延长线

    到此就完成了所有部件的安装


「软件」

    经研究,Tesla计算卡有三种驱动:

  • 破解了Grid驱动付费功能的修改版Grid驱动
    • Windows任务管理器和GPU-Z中看的到GPU/显存占用
    • 不支持和GeForce显卡驱动共存,其中一个不能加载驱动的显卡会在设备管理器中显示错误代码31
    • 支持WDDM/TCC两种模式
  • 英伟达官方的桌面/Desktop驱动
    • Windows任务管理器和GPU-Z中看不到GPU/显存占用,只能用Nvidia-smi查看
    • 支持与GeForce显卡驱动共存
    • 仅TCC模式
  • 自行修改Quadro/Studio/Grid驱动
    • 英伟达将同一款核心通过驱动差异拆分为多种产品,所以直接将兼容的Studio驱动里添加进Tesla卡的型号就有可能实现支持
    • 警告:以下仅为大致步骤,推荐跳过,不能保证可用性,安装修改后的驱动可能会造成黑屏死机之类的问题
    1. TechPowerUp网站里找到自己拥有的GeForce显卡型号,或直接从GPU-Z的Lookup按钮一键找到对应页面
    2. 找到并点进下方表格的核心编号:
      • 核心编号位置.png
    3. 打开页面中找到同核心的Tesla/Quadro/GeForce显卡
    4. 确保页面中的型号出现在了Grid驱动的Display.Driver\nv_dispsig.inf, [strings]栏目里
    5. 在GeForce驱动里的Display.Driver\nv_dispig.inf, [strings]栏目里找到对应GeForce显卡的行
    6. 将5(GeForce驱动的对应行)拷贝到4(Grid驱动的上述位置)里,另存同名文件到桌面
    7. 利用英伟达驱动先解压再安装的特性,直接运行Grid/Studio驱动并解压到桌面,然后用6替换掉Display.Driver\nv_dispsig.inf,安装
驱动模式
  • Windows Display Driver Mode (WDDM)
    • Windows显卡驱动模式,作为显示画面的显卡使用
    • 输出画面 - 占据一定的PCIE通道带宽,传给插入显示接口的GPU
    • 所有GeForce显卡默认使用
  • Tesla Compute Cluster (TCC)
    • 计算卡模式,作为计算单元使用
    • 无画面 - 节省一定的PCIE通道带宽
    • Tesla桌面/Desktop驱动仅支持这一种模式
驱动选择

    所以根据上述,驱动选择的逻辑如此:

  • 搭配GeForce显卡: 安装桌面/Desktop驱动,任务管理器看不到但至少不影响使用
  • 搭配图形算力比Tesla强的独/核显: 安装Grid驱动并设置为TCC模式(高成本解决A卡I卡能玩游戏但没有CUDA的问题?)
  • 搭配图形算力比Tesla弱的独/核显: 安装Grid驱动并设置为WDDM模式,使Tesla成为主显
  • 服务器虚拟化: 修改支持当前所有GPU核心(如GP104,TU102等)的Studio或Grid驱动
Tesla驱动安装

推荐用NVCleanInstall安装GeForce驱动,以尽可能地减少垃圾

  1. 安装Tesla驱动(需要重启)
    • 若照上述说明安装了Grid驱动,则在重启之前完成:
    • CMD输入 "nvidia-smi -L"(大写)以查看Tesla卡的GPU编号
    • CMD输入 "nvidia-smi -i <Tesla GPU编号> -dm <0/1>"(0=WDDM, 1=TCC)以根据上述设置驱动模式
  2. 安装GeForce驱动,选择清除所有预设(需要重启)
  3. 去设备管理器(此电脑右键-->管理-->设备管理器)检查显示适配器中,两个显卡同时出现
  4. CMD输入nvidia-smi,看到两张显卡同时存在即可
风扇曲线
  • BFB0512HHA风扇为3针,因此不要在1分2,1分N线中插入4针的其它风扇,否则转速无法被控制
  • 以下为Windows平台下最优方案Fan Control免费开源软件的用法:
  1. 下载Fan Control,从左栏Settings-->Start at User Log On设置为开机自动运行
    • Fan Control.png
  2. 回到主页,点右下角⊕-->Add "Graph" Fan Curve添加一个温度-转速曲线图:
    • 差不多这样,由于BFB0512HHA比较安静,所以至少51%左右的转速就可以了
    • 风扇曲线.png
  3. 在主页上方Controls栏目找到对应BFB0512HHA的风扇接口,然后命名为Tesla <型号名>以方便查阅
    • 每个接口右上角的"⋮"中选Manual Control手动,然后调到100%,直到正确的风扇转速被调到100%即可定位
  4. 在对应接口的Curve栏目上连接刚刚设置的曲线
  5. 右上角"⋮"中选保存
  • 使用软件控制风扇曲线的好处是不用每次更新BIOS都重新设置风扇曲线了,而且解决了部分厂家的风扇曲线设置菜单及其难用,或者不存在的问题

到此就算完成了所有的安装步骤了,打开GPU-Z的传感器菜单,进AE/PR看看功耗变化即可

那么就这样


打赏信息

在线丢人,求个打赏,支持一下T_T
pp_tip_qrcode.png

这玩意年收入6人民币

其它参考来源:

  • www.jianshu.com/p/68bf40eb9b64
  • www.bilibili.com/read/cv19201270/
  • linustechtips.com/topic/1496913-can-i-enable-wddm-on-a-tesla-p40/