本文转自:https://blog.csdn.net/u012436149/article/details/73737299
本文只是简单的翻译了 https://www.tensorflow.org/extend/adding_an_op 的简单部分,高级部分请移步官网。
可能需要新定义 c++ operation 的几种情况:
为了实现你的自定义操作,你需要做一下几件事:
You define the interface of an op by registering it with the TensorFlow system.
在注册 op 的时候,你需要指定:
为了演示这个到底怎么工作的,我们来看一个简单的例子:
#include "tensorflow/core/framework/op.h"
#include "tensorflow/core/framework/shape_inference.h"
using namespace tensorflow;
REGISTER_OP("ZeroOut")
.Input("to_zero: int32")
.Output("zeroed: int32")
.SetShapeFn([](::tensorflow::shape_inference::InferenceContext* c) {
c->set_output(0, c->input(0));
return Status::OK();
});
这个 ZeroOut op 接收一个 int 32 的 tensor 作为输入,输出同样也是一个 int32的 tensor。这个 op 也使用了一个 shape 方法来确保输入和输出的维度是一样的。例如,如果输入的tensor 的shape 是 [10, 20],那么,这个 shape 方法保证输出的 shape 也是 [10, 20]。
注意: op 的名字必须遵循驼峰命名法,而且要保证 op 的名字的唯一性。
当你 定义了 op 的接口之后,你可以提供一个或多个 关于op 的实现。
为了实现这些 kernels:
将 kernel 代码也放到 之前创建的 zero_out.cc 文件中:
#include "tensorflow/core/framework/op_kernel.h"
using namespace tensorflow;
class ZeroOutOp : public OpKernel {
public:
explicit ZeroOutOp(OpKernelConstruction* context) : OpKernel(context) {}
void Compute(OpKernelContext* context) override {
// 获取输入 tensor
const Tensor& input_tensor = context->input(0);
auto input = input_tensor.flat();
// 创建输出 tensor, context->allocate_output 用来分配输出内存?
Tensor* output_tensor = NULL;
OP_REQUIRES_OK(context, context->allocate_output(0, input_tensor.shape(),
&output_tensor));
auto output_flat = output_tensor->flat();
// 执行计算操作。
const int N = input.size();
for (int i = 1; i < N; i++) {
output_flat(i) = 0;
}
// Preserve the first input value if possible.
if (N > 0) output_flat(0) = input(0);
}
};
在实现了 kernel 之后,就可以将这个注册到 tensorflow 系统中去了。在注册时,你需要对 op 的运行环境指定一些限制。例如,你可能有一个 kernel 代码是给 CPU 用的,另一个是给 GPU用的。通过把下列代码添加到 zero_out.cc 中来完成这个功能:
REGISTER_KERNEL_BUILDER(Name("ZeroOut").Device(DEVICE_CPU), ZeroOutOp);
注意:你实现的 OpKernel 的实例可能会被并行访问,所以,请确保 Compute方法是线程安全的。保证访问 类成员的 方法都加上
mutex。或者更好的选择是,不要通过 类成员来分享 状态。考虑使用 ResourceMgr 来追踪状态。
多线程主要由 work shard 搞定。
请移步官网
使用系统编译器 编译 定义的 op
我们可以使用 系统上的 c++ 编译器 g++ 或者 clang 来编译 zero_out.cc 。二进制的 PIP 包 已经将编译所需的 头文件 和 库 安装到了系统上。Tensorflow 的 python library 提供了一个用来获取 头文件目录的函数 get_include。下面是这个函数在 ubuntu 上的输出:
$ python
>>> import tensorflow as tf
>>> tf.sysconfig.get_include()
'/usr/local/lib/python2.7/site-packages/tensorflow/include'
假设你已经安装好了 g++ ,你可以使用 下面一系列的命令 将你的 op 编译成一个 动态库。
TF_INC=$(python -c 'import tensorflow as tf; print(tf.sysconfig.get_include())')
g++ -std=c++11 -shared zero_out.cc -o zero_out.so -fPIC -I $TF_INC -O2
如果你的 g++ 版本>5.0 的话,加上这个参数 -D_GLIBCXX_USE_CXX11_ABI=0
Tensorflow 的 python 接口提供了 tf.load_op_library 函数用来加载动态 library,同时将 op 注册到tensorflow 框架上。load_op_library 返回一个 python module,它包含了 op和 kernel 的 python wrapper 。因此,一旦你编译好了一个 op,就可以使用下列代码通过 python来执行它:
import tensorflow as tf
zero_out_module = tf.load_op_library('./zero_out.so')
with tf.Session(''):
zero_out_module.zero_out([[1, 2], [3, 4]]).eval()
# Prints
array([[1, 0], [0, 0]], dtype=int32)
记住:生成的函数的名字是 snake_case name。如果在c++文件中, op 的名字是ZeroOut,那么在python 中,名字是 zero_out。
一个验证你的自定义的op是否正确工作的一个好的方法是 为它写一个测试文件。创建一个 zero_out_op_test.py 文件,内容为:
import tensorflow as tf
class ZeroOutTest(tf.test.TestCase):
def testZeroOut(self):
zero_out_module = tf.load_op_library('./zero_out.so')
with self.test_session():
result = zero_out_module.zero_out([5, 4, 3, 2, 1])
self.assertAllEqual(result.eval(), [5, 0, 0, 0, 0])
if __name__ == "__main__":
tf.test.main()
然后运行这个 test
//zero_out.cc 文件
#include "tensorflow/core/framework/op.h"
#include "tensorflow/core/framework/shape_inference.h"
#include "tensorflow/core/framework/op_kernel.h"
using namespace tensorflow;
REGISTER_OP("ZeroOut")
.Input("to_zero: int32")
.Output("zeroed: int32")
.SetShapeFn([](::tensorflow::shape_inference::InferenceContext* c) {
c->set_output(0, c->input(0));
return Status::OK();
});
class ZeroOutOp : public OpKernel {
public:
explicit ZeroOutOp(OpKernelConstruction* context) : OpKernel(context) {}
void Compute(OpKernelContext* context) override {
// 将输入 tensor 从 context 中取出。
const Tensor& input_tensor = context->input(0);
auto input = input_tensor.flat();
// 创建一个 ouput_tensor, 使用 context->allocate_ouput() 给它分配空间。
Tensor* output_tensor = NULL;
OP_REQUIRES_OK(context, context->allocate_output(0, input_tensor.shape(),
&output_tensor));
auto output_flat = output_tensor->flat();
// Set all but the first element of the output tensor to 0.
const int N = input.size();
for (int i = 1; i < N; i++) {
output_flat(i) = 0;
}
// Preserve the first input value if possible.
if (N > 0) output_flat(0) = input(0);
}
};
REGISTER_KERNEL_BUILDER(Name("ZeroOut").Device(DEVICE_CPU), ZeroOutOp);
#创建动态链接库的命令
g++ -std=c++11 -shared zero_out.cc -o zero_out.so -fPIC -D_GLIBCXX_USE_CXX11_ABI=0 -I $TF_INC -O2
tensorflow 自定义 op 的方法可以总结为:
还有一种方法是用 bazel 编译。
https://www.tensorflow.org/extend/adding_an_op