pyc文件是怎么创建的?

供稿:hz-xin.com     日期:2025-01-14
pyc文件的触发

前面我们提到,每一个代码块(code block)都会对应一个PyCodeObject对象,Python会将该对象存储在pyc文件中。但不幸的是,事实并不总是这样。有时,当我们运行一个简单的程序时并没有产生pyc文件,因此我们猜测:有些Python程序只是临时完成一些琐碎的工作,这样的程序仅仅只会运行一次,然后就不会再使用了,因此也就没有保存至pyc文件的必要。

如果我们在代码中加上了一个import abc这样的语句,再执行你就会发现Python为其生成了pyc文件,这就说明import会触发pyc的生成。

实际上,在运行过程中,如果碰到import abc这样的语句,那么Python会在设定好的path中寻找abc.pyc或者abc.pyd文件。如果没有这些文件,而是只发现了abc.py,那么Python会先将abc.py编译成PyCodeObject,然后创建pyc文件,并将PyCodeObject写到pyc文件里面去。

接下来,再对abc.pyc进行import动作,对,并不是编译成PyCodeObject对象之后就直接使用。而是先写到pyc文件里面去,然后再将pyc文件里面的PyCodeObject对象重新在内存中复制出来。

关于Python的import机制,我们后面会剖析,这里只是用来完成pyc文件的触发。当然得到pyc文件还有其它方法,比如使用py_compile模块。

#a.pyclassA:a=1#b.pyimporta

执行b.py的时候,会发现创建了a.cpython-38.pyc。另外关于pyc文件的创建位置,会在当前文件的同级目录下的__pycache__目录中创建,名字就叫做:py文件名.cpython-版本号.pyc。

pyc文件里面包含哪些内容

上面我们提到,Python通过import module进行加载时,如果没有找到相应的pyc或者pyd文件,就会在py文件的基础上自动创建pyc文件。而创建之后,会往里面写入三个内容:

1. magic number

这是Python定义的一个整数值,不同版本的Python会定义不同的magic number,这个值是为了保证Python能够加载正确的pyc。

比如Python3.7不会加载3.6版本的pyc,因为Python在加载pyc文件的时候会首先检测该pyc的magic number,如果和自身的magic number不一致,则拒绝加载。

2. pyc的创建时间

这个很好理解,判断源代码的最后修改时间和pyc文件的创建时间。如果pyc文件的创建时间比源代码的修改时间要早,说明在生成pyc之后,源代码被修改了,那么会重新编译并生成新的pyc,而反之则会直接加载已存在的pyc。

3. PyCodeObject对象

这个不用说了,肯定是要存储的。

pyc文件的写入

下面就来看看pyc文件是如何写入上面三个内容的。

既然要写入,那么肯定要有文件句柄,我们来看看:

//位置:Python/marshal.c//FILE是C自带的文件句柄//可以把WFILE看成是FILE的包装typedefstruct{FILE*fp;//文件句柄//下面的字段在写入信息的时候会看到interror;intdepth;PyObject*str;char*ptr;char*end;char*buf;_Py_hashtable_t*hashtable;intversion;}WFILE;

首先是写入magic number和创建时间,它们会调用PyMarshal_WriteLongToFile函数进行写入:

voidPyMarshal_WriteLongToFile(longx,FILE*fp,intversion){//magicnumber和创建时间,只是一个整数//在写入的时候,使用char[4]来保存charbuf[4];//声明一个WFILE类型变量wfWFILEwf;//内存初始化memset(&wf,0,sizeof(wf));//初始化内部成员wf.fp=fp;wf.ptr=wf.buf=buf;wf.end=wf.ptr+sizeof(buf);wf.error=WFERR_OK;wf.version=version;//调用w_long将x、也就是版本信息或者时间写到wf里面去w_long(x,&wf);//刷到磁盘上w_flush(&wf);}

所以该函数只是初始化了一个WFILE对象,真正写入则是调用的w_long。

staticvoidw_long(longx,WFILE*p){w_byte((char)(x&0xff),p);w_byte((char)((x>>8)&0xff),p);w_byte((char)((x>>16)&0xff),p);w_byte((char)((x>>24)&0xff),p);}

w_long则是调用 w_byte 将 x 逐个字节地写到文件里面去。

而写入PyCodeObject对象则是调用了PyMarshal_WriteObjectToFile,我们也来看看长什么样子。

voidPyMarshal_WriteObjectToFile(PyObject*x,FILE*fp,intversion){charbuf[BUFSIZ];WFILEwf;memset(&wf,0,sizeof(wf));wf.fp=fp;wf.ptr=wf.buf=buf;wf.end=wf.ptr+sizeof(buf);wf.error=WFERR_OK;wf.version=version;if(w_init_refs(&wf,version))return;/*callermushcheckPyErr_Occurred()*/w_object(x,&wf);w_clear_refs(&wf);w_flush(&wf);}

可以看到和PyMarshal_WriteLongToFile基本是类似的,只不过在实际写入的时候,PyMarshal_WriteLongToFile调用的是w_long,而PyMarshal_WriteObjectToFile调用的是w_object。

staticvoidw_object(PyObject*v,WFILE*p){charflag='\0';p->depth++;if(p->depth>MAX_MARSHAL_STACK_DEPTH){p->error=WFERR_NESTEDTOODEEP;}elseif(v==NULL){w_byte(TYPE_NULL,p);}elseif(v==Py_None){w_byte(TYPE_NONE,p);}elseif(v==PyExc_StopIteration){w_byte(TYPE_STOPITER,p);}elseif(v==Py_Ellipsis){w_byte(TYPE_ELLIPSIS,p);}elseif(v==Py_False){w_byte(TYPE_FALSE,p);}elseif(v==Py_True){w_byte(TYPE_TRUE,p);}elseif(!w_ref(v,&flag,p))w_complex_object(v,flag,p);p->depth--;}

可以看到本质上还是调用了w_byte,但这仅仅是一些特殊的对象。如果是列表、字典之类的数据,那么会调用w_complex_object,也就是代码中的最后一个else if分支。

w_complex_object这个函数的源代码很长,我们看一下整体结构,具体逻辑就不贴了,我们后面会单独截取一部分进行分析。

staticvoidw_complex_object(PyObject*v,charflag,WFILE*p){Py_ssize_ti,n;//如果是整数的话,执行整数的写入逻辑if(PyLong_CheckExact(v)){//......}//如果是浮点数的话,执行浮点数的写入逻辑elseif(PyFloat_CheckExact(v)){if(p->version>1){//......}else{//......}}//如果是复数的话,执行复数的写入逻辑elseif(PyComplex_CheckExact(v)){if(p->version>1){//......}else{//......}}//如果是字节序列的话,执行字节序列的写入逻辑elseif(PyBytes_CheckExact(v)){//......}//如果是字符串的话,执行字符串的写入逻辑elseif(PyUnicode_CheckExact(v)){if(p->version>=4&&PyUnicode_IS_ASCII(v)){//......}else{//......}}else{//......}}//如果是元组的话,执行元组的写入逻辑elseif(PyTuple_CheckExact(v)){//......}//如果是列表的话,执行列表的写入逻辑elseif(PyList_CheckExact(v)){//......}//如果是字典的话,执行字典的写入逻辑elseif(PyDict_CheckExact(v)){//......}//如果是集合的话,执行集合的写入逻辑elseif(PyAnySet_CheckExact(v)){//......}//如果是PyCodeObject对象的话//执行PyCodeObject对象的写入逻辑elseif(PyCode_Check(v)){//......}//如果是Buffer的话,执行Buffer的写入逻辑elseif(PyObject_CheckBuffer(v)){//......}else{W_TYPE(TYPE_UNKNOWN,p);p->error=WFERR_UNMARSHALLABLE;}}

源代码虽然长,但是逻辑非常单纯,就是对不同的对象、执行不同的写动作,然而其最终目的都是通过w_byte写到pyc文件中。了解完函数的整体结构之后,我们再看一下具体细节,看看它在写入对象的时候到底写入了哪些内容?

staticvoidw_complex_object(PyObject*v,charflag,WFILE*p){//......elseif(PyList_CheckExact(v)){W_TYPE(TYPE_LIST,p);n=PyList_GET_SIZE(v);W_SIZE(n,p);for(i=0;i<n;i++){w_object(PyList_GET_ITEM(v,i),p);}}elseif(PyDict_CheckExact(v)){Py_ssize_tpos;PyObject*key,*value;W_TYPE(TYPE_DICT,p);/*ThisoneisNULLobjectterminated!*/pos=0;while(PyDict_Next(v,&pos,&key,&value)){w_object(key,p);w_object(value,p);}w_object((PyObject*)NULL,p);}//......}

以列表和字典为例,它们在写入的时候实际上写的是内部的元素,其它对象也是类似的。

deffoo():lst=[1,2,3]#把列表内的元素写进去了print(foo.__code__.co_consts)#(None,1,2,3)

但问题来了,如果只是写入元素的话,那么Python在加载的时候怎么知道它是一个列表呢?所以在写入的时候不能光写数据,类型信息也要写进去。我们再看一下上面列表和字典的写入逻辑,里面都调用了W_TYPE,它负责将类型信息写进去。

因此无论对于哪种对象,在写入具体数据之前,都会先调用W_TYPE将类型信息写进去。如果没有类型信息,那么当Python加载pyc文件的时候,只会得到一坨字节流,而无法解析字节流中隐藏的结构和蕴含的信息。

所以在往pyc文件里写入数据之前,必须先写入一个标识,诸如TYPE_LIST、TYPE_TUPLE、TYPE_DICT等等,这些标识正是对应的类型信息。

如果解释器在pyc文件中发现了这样的标识,则预示着上一个对象结束,新的对象开始,并且也知道新对象是什么样的对象,从而也知道该执行什么样的构建动作。当然,这些标识也是可以看到的,在底层已经定义好了。

//marshal.c#defineTYPE_NULL'0'#defineTYPE_NONE'N'#defineTYPE_FALSE'F'#defineTYPE_TRUE'T'#defineTYPE_STOPITER'S'#defineTYPE_ELLIPSIS'.'#defineTYPE_INT'i'/*TYPE_INT64isnotgeneratedanymore.Supportedforbackwardcompatibilityonly.*/#defineTYPE_INT64'I'#defineTYPE_FLOAT'f'#defineTYPE_BINARY_FLOAT'g'#defineTYPE_COMPLEX'x'#defineTYPE_BINARY_COMPLEX'y'#defineTYPE_LONG'l'#defineTYPE_STRING's'#defineTYPE_INTERNED't'#defineTYPE_REF'r'#defineTYPE_TUPLE'('#defineTYPE_LIST'['#defineTYPE_DICT'{'#defineTYPE_CODE'c'#defineTYPE_UNICODE'u'#defineTYPE_UNKNOWN'?'#defineTYPE_SET'<'#defineTYPE_FROZENSET'>'

到了这里可以看到,其实Python对PyCodeObject对象的导出实际上是不复杂的。因为不管什么对象,最后都为归结为两种简单的形式,一种是数值写入,一种是字符串写入。

上面都是对数值的写入,比较简单,仅仅需要按照字节依次写入pyc即可。然而在写入字符串的时候,Python设计了一种比较复杂的机制,有兴趣可以自己阅读源码,这里不再介绍。

PyCodeObject的包含关系

有下面一个文件:

//位置:Python/marshal.c//FILE是C自带的文件句柄//可以把WFILE看成是FILE的包装typedefstruct{FILE*fp;//文件句柄//下面的字段在写入信息的时候会看到interror;intdepth;PyObject*str;char*ptr;char*end;char*buf;_Py_hashtable_t*hashtable;intversion;}WFILE;0

显然编译之后会创建三个PyCodeObject对象,但是有两个PyCodeObject对象是位于另一个PyCodeObject对象当中的。

也就是foo和A对应的PyCodeObject对象,位于模块对应的PyCodeObject对象当中,准确的说是位于co_consts指向的常量池当中。举个栗子:

//位置:Python/marshal.c//FILE是C自带的文件句柄//可以把WFILE看成是FILE的包装typedefstruct{FILE*fp;//文件句柄//下面的字段在写入信息的时候会看到interror;intdepth;PyObject*str;char*ptr;char*end;char*buf;_Py_hashtable_t*hashtable;intversion;}WFILE;1

我们看到f2对应的PyCodeObject确实位于f1的常量池当中,准确的说是f1的常量池中有一个指针指向f2对应的PyCodeObject。

不过这都不是重点,重点是PyCodeObject对象是可以嵌套的。当在一个作用域内部发现了一个新的作用域,那么新的作用域对应的PyCodeObject对象会位于外层作用域的PyCodeObject对象的常量池中,或者说被常量池中的一个指针指向。

而在写入pyc的时候会从最外层、也就是模块的PyCodeObject对象开始写入。如果碰到了包含的另一个PyCodeObject对象,那么就会递归地执行写入新的PyCodeObject对象。

如此下去,最终所有的PyCodeObject对象都会写入到pyc文件当中。因此pyc文件里的PyCodeObject对象也是以一种嵌套的关系联系在一起的,和代码块之间的关系是保持一致的。

//位置:Python/marshal.c//FILE是C自带的文件句柄//可以把WFILE看成是FILE的包装typedefstruct{FILE*fp;//文件句柄//下面的字段在写入信息的时候会看到interror;intdepth;PyObject*str;char*ptr;char*end;char*buf;_Py_hashtable_t*hashtable;intversion;}WFILE;2

这里问一下,上面那段代码中创建了几个PyCodeObject对象呢?

答案是6个,首先模块是一个,foo函数一个,bar函数一个,类A一个,类A里面的foo函数一个,类A里面的bar函数一个,所以一共是6个。

而且这里的PyCodeObject对象是层层嵌套的,一开始是对整个全局模块创建PyCodeObject对象,然后遇到了函数foo,那么再为函数foo创建PyCodeObject对象,依次往下。

所以,如果是常量值,则相当于是静态信息,直接存储起来便可。可如果是函数、类,那么会为其创建新的PyCodeObject对象,然后再收集起来。

小结

以上就是pyc文件相关的内容,源文件在编译之后会得到pyc文件。因此我们不光可以手动导入 pyc,用Python直接执行pyc文件也是可以的。

以上就是本次分享的所有内容,想要了解更多欢迎前往公众号:Python编程学习圈,每日干货分享



执行标准以Q开头的有什么区别?
执行标准以Q开头并不差。这种编号方式代表的是企业标准,它规定了企业在生产、经营和管理等方面的一系列要求。企业标准是企业内部规范行为的文件,其重要性在于确保企业活动的有序性和产品的质量。国家鼓励企业制定高于国家标准或行业标准的企业标准,以此来推动企业的技术进步和管理提升。企业标准的制定和发布...

手机GT-9300系统文件后缀 YC是什么意思
不要删 系统文件一旦损坏很麻烦 如果影响底层资料的话 只能拆机修复了

高高手--分盘符隐藏文件
将这一段保存到txt中,并修改文件名为yc.bat echo off attrib 文件名1 -s -h attrib 文件名2 -s -h 将这一段保存到txt中,并修改文件名为xs.bat 开始->运行->cmd 输入cd :G:\\ 输入attrib yc.bat +s +h attrib xs.bat +s +h 这样,这两个bat文件就不见了,可以在:工具-文件夹...

.yc后缀的文件用什么播放器可以播放
这是洋葱数学的视频,洋葱花了几百万加的格式,这个暂时对于小成本或者0成本还是无解的。

电脑网速变慢到以往的十分之一,在任务管理器中发现一些可疑服务【如图...
生成一个当前进程的yc.csv文件列表,然后输入: FC g:\\zccsv g:\\yc.csy 回车后就可以看到前后列表文件的不同了,通过比较发现,电脑多了一个名为“Winion0n.exe”(这里以这个进程为例)不是“Winionon.exe”的异常进程。 对这样的可疑进程,如何判断它是否是病毒呢?根据大部分病毒(特别是...

yccard.dll丢失怎么回事
2、文件损坏:yccard.dll文件可能由于磁盘故障、病毒感染等原因而损坏。3、注册表错误:yccard.dll文件的相关信息可能在Windows注册表中存在错误或损坏。4、软件冲突或版本不匹配:某些软件或驱动程序依赖于特定版本的yccard.dll文件,如果您安装了不兼容的软件或版本,就可能导致yccard.dll丢失的错误。

提问:文件后缀名的意义.
LU ThoughtWing库单元文件 k LVL Parallax Software的 Miner Descent\/D2 Level扩展p"MT: LWLO Lightwave分层对象文件 >2nwls LWOB Lightwave对象文件 lpk LWP Lotus WordPro 96\/97文件 r LWSC Lightwave视景文件 e LYR DataCAD层文件 =;F|d- LZH LH ARC压缩档案 } LZS Skyroads数据文件 W}YC M1V MPEG...

怎么将cass里的高程点生成坐标文件
提取原有地形图图面上的坐标和高程点:“工程应用菜单”-“图面高程点生成数据文件”或“等高线生成 数据文件”获取原图中的坐标高程数据,并保存为CASS的dat坐标数据文件。

GO语言无缝地图游戏服务端YCServer源码解析(2)
UserManager服务专注于玩家管理,接收玩家连接,记录玩家所在地图服务和当前地图切换状态。相关数据结构位于UserInfo.go文件中,包括YEntity.Info(玩家实体信息)、M_uid(玩家ID)、M_current_map(当前地图服务)、M_session_id(网络连接标识)、M_map_switch_state(地图切换状态)等。YCServer的实体结构...

TEMP的临时文件是怎么产生的,可以随便乱删吗?
应用程序在使用的过程中都会产生一些临时文件供自己使用,理论上来说,在应用程序退出时这些文件后会被自动删除。当应用程序在运行过程中出错或非正常退出时,这些文件就会留在临时目录中。另外,大部分软件在安装时会在临时目录下建立目录并存放临时文件,安装完成后有时也会由于各种原因留下较多文件。这些...