生成器和迭代器是相互依赖的,迭代器每次需要一个值,调用生成器返回一直,直到生成器返回集合所有的值。这个过程是交替执行的。
迭代器
迭代器是一个可以记住遍历的位置的对象。从集合的第一个元素开始遍历,直至集合所有的元素都被访问完毕。
接下来会使用 C/C++ 实现迭代器的遍历,用 C/C++ 实现一个传参为迭代器对象的函数,内部会先调用 PyObject_GetIter
将对象转化为一个可迭代的对象,然后循环调用 PyIter_Next
,直至返回 NULL,在遍历的过程中调用 PyObject_Print
输出集合元素,并减少 item
的引用次数,最后通过 Py_BuildValue
构建一个空的返回值。
graph TD; parse_params(参数解析 PyArg_ParseTuple)-->get_iter{获取迭代为NULL<br>PyObject_GetIter} get_iter--yes-->en(结束) get_iter--no-->while_get(循环获取值<br>PyIter_Next) while_get-->is_null{返回结果为NULL} is_null--yes-->en(结束) is_null--no-->while_get
C/C++ 实现,实现迭代器
// main.cpp
#include "Python.h"
#include <stdio.h>
static PyObject *iter_print(PyObject *self, PyObject *args) {
PyObject *iter;
if (!PyArg_ParseTuple(args, "O", &iter)) {
return NULL;
}
PyObject *item = NULL;
PyObject *iterator = PyObject_GetIter(iter);
if (iterator == NULL) {
return NULL;
}
while ((item = PyIter_Next(iterator))) {
PyObject_Print(item, stdout, Py_PRINT_RAW);
printf("\n");
Py_DECREF(item);
}
Py_DECREF(iterator);
return Py_BuildValue("");
}
static PyObject *gen(PyObject *self, PyObject *args) {
PyObject* obj = NULL;
return obj;
}
static PyMethodDef MyDemoMethods[] = {
{"iter_print", iter_print, METH_VARARGS, "iter print"},
{"gen", gen, METH_VARARGS, "gen"},
{nullptr, nullptr, 0, nullptr},
};
static struct PyModuleDef spammodule = {
PyModuleDef_HEAD_INIT,
"demo", /* name of module */
NULL, /* module documentation, may be NULL */
-1, /* size of per-interpreter state of the module,
or -1 if the module keeps state in global variables. */
MyDemoMethods
};
PyMODINIT_FUNC PyInit_demo(void) {
return PyModule_Create(&spammodule);
}
编写 setup.py 安装动态链接库,分发模块
执行 python setup.py install
将动态链接库生出,并拷贝至系统模块中,方便程序导入调用
# setup.py
from distutils.core import setup, Extension
setup(name="demo", version="1.0",
ext_modules=[Extension("spam", ["iter.cpp"])])
编写 Python 程序,测试结果
如下程序执行 python test.py
可以看到输出结果为 0 ~ 19 的整数,证明我们的程序是正确的。
# test.py
import demo
def test():
for i in range(20):
yield i
demo.iter_print(test())
生成器
生成器是特殊的子程序,类似返回数组的函数,具备参数,可以被调用,产生一些列的值,但是所有的值不是一次性返回,每次产生一个值。
编写 C/C++ 代码,实现生成器
如下程序是实现一个反转列表的生成器,倒序输出列表中的值。生成器是一个类。
生成器相对于迭代器略微复杂,首先我们需要自定义一个类 RevgenState
,与之前的 C/C++ 实现扩展类原理相似,中间多了一个环节就是实现 next
的调用过程 revgen_next
。
首先程序需要判断游标是否已经遍历完所有的元素,如果遍历结束返回空 NULL。否则返回对应索引的值,并移动索引。PySequence_GetItem
第一个参数为列表,第二个参数为索引,帮助我们快速检索元素,程序拿到返回值返回给外部。
#include "Python.h"
typedef struct {
PyObject_HEAD
Py_ssize_t seq_index, enum_index;
PyObject *sequence;
} RevgenState;
static PyObject *revgen_new(PyTypeObject *type, PyObject *args, PyObject *kwargs) {
PyObject *sequence;
if (!PyArg_UnpackTuple(args, "revgen", 1, 1, &sequence))
return NULL;
if (!PySequence_Check(sequence)) {
PyErr_SetString(PyExc_TypeError, "revgen() expects a sequence");
return NULL;
}
Py_ssize_t len = PySequence_Length(sequence);
if (len == -1)
return NULL;
RevgenState *rgstate = (RevgenState *) type->tp_alloc(type, 0);
if (!rgstate)
return NULL;
Py_INCREF(sequence);
rgstate->sequence = sequence;
rgstate->seq_index = len - 1;
rgstate->enum_index = 0;
return (PyObject *) rgstate;
}
static void revgen_dealloc(RevgenState *rgstate) {
Py_XDECREF(rgstate->sequence);
Py_TYPE(rgstate)->tp_free(rgstate);
}
static PyObject *revgen_next(RevgenState *rgstate) {
if (rgstate->seq_index >= 0) {
PyObject *elem = PySequence_GetItem(rgstate->sequence,
rgstate->seq_index);
if (elem) {
PyObject *result = Py_BuildValue("lO", rgstate->enum_index, elem);
rgstate->seq_index--;
rgstate->enum_index++;
return result;
}
}
rgstate->seq_index = -1;
Py_CLEAR(rgstate->sequence);
return NULL;
}
PyTypeObject PyRevgen_Type = {
PyVarObject_HEAD_INIT(&PyType_Type, 0)
"revgen", /* tp_name */
sizeof(RevgenState), /* tp_basicsize */
0, /* tp_itemsize */
(destructor) revgen_dealloc, /* tp_dealloc */
0, /* tp_print */
0, /* tp_getattr */
0, /* tp_setattr */
0, /* tp_reserved */
0, /* tp_repr */
0, /* tp_as_number */
0, /* tp_as_sequence */
0, /* tp_as_mapping */
0, /* tp_hash */
0, /* tp_call */
0, /* tp_str */
0, /* tp_getattro */
0, /* tp_setattro */
0, /* tp_as_buffer */
Py_TPFLAGS_DEFAULT, /* tp_flags */
0, /* tp_doc */
0, /* tp_traverse */
0, /* tp_clear */
0, /* tp_richcompare */
0, /* tp_weaklistoffset */
PyObject_SelfIter, /* tp_iter */
(iternextfunc) revgen_next, /* tp_iternext */
0, /* tp_methods */
0, /* tp_members */
0, /* tp_getset */
0, /* tp_base */
0, /* tp_dict */
0, /* tp_descr_get */
0, /* tp_descr_set */
0, /* tp_dictoffset */
0, /* tp_init */
PyType_GenericAlloc, /* tp_alloc */
revgen_new, /* tp_new */
};
static struct PyModuleDef spammodule = {
PyModuleDef_HEAD_INIT,
"spam", /* m_name */
"", /* m_doc */
-1, /* m_size */
};
PyMODINIT_FUNC
PyInit_spam(void) {
PyObject *module = PyModule_Create(&spammodule);
if (!module)
return NULL;
if (PyType_Ready(&PyRevgen_Type) < 0)
return NULL;
Py_INCREF((PyObject *) &PyRevgen_Type);
PyModule_AddObject(module, "revgen", (PyObject *) &PyRevgen_Type);
return module;
}
编写测试程序,测试生成器和迭代器
执行如下程序python test.py
,输出结果依次为(0, 'c')
, (1, 'b')
, (2, 'a')
。从结果来看已经达到了此次实验的目的。
# test.py
import demo
import spam
demo.iter_print(spam.revgen(['a', 'b', 'c']))
总结
从以上实验的过程和结果来看,C/C++ 实现生成器和迭代器并没有想象的那么复杂,套用模板即可。了解 C/C++ 开发 Python 扩展的整个流程之后,照搬模板就显得游刃有余了,简单点的参数调试和测试也十分的简单。
迭代器和生成器的出现可以避免一次性将数据加载到内存中,减少内存分配,腾出更多的内存空间给其他的模块。