Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ImportError: /home/root/anaconda/envs/cogvlm2/lib/python3.10/site-packages/torch/lib/../../nvidia/cusparse/lib/libcusparse.so.12: symbol __nvJitLinkComplete_12_4, version libnvJitLink.so.12 not defined in file libnvJitLink.so.12 with link time reference #207

Open
1 of 2 tasks
sf9ehf9fe opened this issue Dec 26, 2024 · 1 comment

Comments

@sf9ehf9fe
Copy link

System Info / 系統信息

(cogvlm2) [root@localhost env]# pip list
Package Version


aiofiles 23.2.1
annotated-types 0.7.0
anyio 4.7.0
asyncer 0.0.7
bidict 0.23.1
bitsandbytes 0.42.0
certifi 2024.12.14
chainlit 1.3.2
charset-normalizer 3.4.1
chevron 0.14.0
click 8.1.8
dataclasses-json 0.6.7
Deprecated 1.2.15
distro 1.9.0
einops 0.8.0
exceptiongroup 1.2.2
fastapi 0.115.6
filelock 3.16.1
filetype 1.2.0
fsspec 2024.12.0
googleapis-common-protos 1.66.0
grpcio 1.68.1
h11 0.14.0
httpcore 1.0.7
httpx 0.28.1
huggingface-hub 0.27.0
idna 3.10
importlib_metadata 8.5.0
Jinja2 3.1.5
jiter 0.8.2
Lazify 0.4.0
literalai 0.0.623
loguru 0.7.3
MarkupSafe 3.0.2
marshmallow 3.23.2
mpmath 1.3.0
mypy-extensions 1.0.0
nest-asyncio 1.6.0
networkx 3.4.2

Who can help? / 谁可以帮助到您?

No response

Information / 问题信息

  • The official example scripts / 官方的示例脚本
  • My own modified scripts / 我自己修改的脚本和任务

Reproduction / 复现过程

import torch 报的错误是ImportError: /home/root/anaconda/envs/cogvlm2/lib/python3.10/site-packages/torch/lib/../../nvidia/cusparse/lib/libcusparse.so.12: symbol __nvJitLinkComplete_12_4, version libnvJitLink.so.12 not defined in file libnvJitLink.so.12 with link time reference

Expected behavior / 期待表现

import torch 报的错误是ImportError: /home/root/anaconda/envs/cogvlm2/lib/python3.10/site-packages/torch/lib/../../nvidia/cusparse/lib/libcusparse.so.12: symbol __nvJitLinkComplete_12_4, version libnvJitLink.so.12 not defined in file libnvJitLink.so.12 with link time reference

@huangshiyu13
Copy link
Member

出现这个错误通常是由于库版本不匹配或者CUDA环境配置有问题。特别是 libnvJitLink.so.12libcusparse.so.12 的版本和链接时间引用有冲突。以下是几个可能的解决方案:

  1. 更新CUDA和cuDNN版本
    确保你使用的CUDA和cuDNN版本与PyTorch的预编译版本匹配。例如,如果你的PyTorch是从官方渠道安装的,请确保你使用的CUDA版本也是PyTorch支持的版本。

  2. 重新安装PyTorch
    你可以尝试重新安装PyTorch并指定匹配的CUDA版本。可以使用以下命令:

    pip uninstall torch
    pip cache purge
    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu113 

    cu113 换成你实际使用的CUDA版本,如 cu116

  3. 设置环境变量
    确保你的环境变量配置正确,特别是LD_LIBRARY_PATH应该包含正确的CUDA库路径。可以在终端或者 shell 配置文件(如 .bashrc.bash_profile)中添加:

    export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

    请将 /usr/local/cuda 替换为你安装的CUDA路径。

  4. 检查依赖版本

    使用 pip list 确认你当前的依赖与需求匹配。例如,如果你使用 conda 环境,确保依赖都安装在相同的环境中而不要跨环境使用。

  5. 清理和重新安装
    有时简单的卸载和重新安装可能无法完全解决问题,可以尝试彻底清理环境然后重新安装相关库。首先创建新的虚拟环境,然后在其中安装必须的包:

    conda create -n newenv python=3.10
    conda activate newenv
    pip install torch torchvision torchaudio 
    # 安装其他必需的包
  6. 升级驱动
    确保你的NVIDIA驱动程序也是最新的,因为某些CUDA库的特性和驱动版本相关。

  7. 检查符号链接
    确保没有损坏的符号链接指向错误的库版本。在 /usr/local/cuda/lib64 或者其他相关路径下,可以用 ls -la 检查库文件,例如:

    ls -la /usr/local/cuda/lib64/libnvJitLink.so.12

    如果有问题,可以重新创建正确的符号链接。

通过以上步骤你应该能解决导入 torch 时遇到的库加载问题。如果问题依然存在,请提供更多详细的系统信息和安装过程,便于更好地诊断问题。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants