
numpy 通过 c 扩展模块(如 `_multiarray_umath`)将 python 接口直接绑定到底层 c 函数,调用 `np.array()` 等函数时,python 解释器直接跳转至动态链接的 `.so`(或 `.dll`)中的原生代码,无需中间 python 层转发。
NumPy 的高性能核心源于其对 C 语言的深度集成。当用户执行 np.array([1, 2, 3]) 时,表面是 Python 函数调用,实则是一次零开销的原生函数跳转——Python 解释器识别该对象为 builtin_function_or_method 类型,直接委托给已加载的共享库中对应的 C 实现。
这一机制的关键在于 Python 的 C API 扩展规范。NumPy 的核心模块 _multiarray_umath 在 C 源码中(位于 numpy/_core/src/multiarray/multiarraymodule.c)通过标准的 PyModuleDef 结构体定义模块接口:
static PyMethodDef array_module_methods[] = {
{"array",
(PyCFunction)array_array, // 绑定到 C 函数 array_array()
METH_FASTCALL | METH_KEYWORDS,
"Construct an array."},
// ... 其他方法
{NULL, NULL, 0, NULL}
};
static PyModuleDef moduledef = {
PyModuleDef_HEAD_INIT,
"_multiarray_umath", // 模块名,对应 Python 中的 numpy.core._multiarray_umath
NULL, -1,
array_module_methods, // 方法表:Python 名称 → C 函数指针
NULL, NULL, NULL, NULL
};模块初始化时调用 PyModule_Create(&moduledef),Python 运行时据此注册所有方法。其中 "array" 字符串作为 Python 可见的属性名,被映射至 C 函数 array_array()(定义于同一文件约第 1700 行),该函数完成内存分配、类型推断、数据拷贝等全部底层逻辑。
编译后,该模块生成平台相关的共享库(例如 numpy/core/_multiarray_umath.cpython-311-linux-x86_64.so),由 Python 动态加载。此时 numpy.core._multiarray_umath.array 即为一个指向 C 函数入口的原生可调用对象:
立即学习“Python免费学习笔记(深入)”;
import numpy as np import numpy.core._multiarray_umath # 验证二者为同一对象 assert np.array is numpy.core._multiarray_umath.array # True # 尝试反汇编会失败——因其非 Python 字节码 import dis dis.dis(np.array) # TypeError: don't know how to disassemble builtin_function_or_method
至于 np.array 如何从 _multiarray_umath.array “浮现”到顶层命名空间,则依赖 NumPy 的 Python 层导入链(如 numpy/__init__.py → numpy/core/__init__.py → numpy/core/multiarray.py),但该过程仅涉及对象引用传递,不参与实际调用路径。真正执行时,Python 直接穿透所有 Python 层,进入 C 函数栈。
⚠️ 注意事项:所有 np.* 中性能敏感函数(如 empty, sum, dot)均采用相同模式:Python 接口名 → PyMethodDef 映射 → C 函数地址;@array_function_from_c_func_and_dispatcher 等装饰器仅用于支持 __array_function__ 协议,不改变调用本质,它只是在分发前做协议兼容性检查,最终仍调用原始 C 函数;修改 C 层需重新编译整个 NumPy;调试建议使用 gdb 加载 .so 文件,或通过 ctypes.PyDLL 直接访问符号。
简言之,NumPy 并非“从 Python 调用 C”,而是让 Python 原生理解并直接调用 C——这是 CPython 扩展机制的典型实践,也是其媲美 Fortran/C 性能的根本保障。










