Henry Ma's Projects
采用TensorRT的C++接口进行ONNX模型转TRT,并进行Inference推理。前处理采用C++版本的OpenCV。
《C和指针》一书的代码
A REAL-TIME 3D detection network [Pointpillars] compiled by CUDA/TensorRT/C++.
使用pybind11进行Python、C++以及CUDA的混合编程
pybind11库的一些简单使用例子
Serving PyTorch 1.0 Models as a Web Server in C++
PyTorch自定义算子
retinaface的训练及优化部署
Boosting your Web Services of Deep Learning Applications.
⚡ Useful scripts when using TensorRT
TensorRT实现Plugin的一些模板化流程
用TensorRT的Python API去搭建trt网络
TensorRT ONNX Plugin、Inference、Compile
a simple, efficient, easy-to-use nvidia TensorRT wrapper for cnn,sopport c++ and python
myk's learning material of Computer Network: Top Down Approach
Simple samples for TensorRT programming
A upsampling layer for tenosrrt...
这是我在实践中发现采用Gunicorn的Web Server时,传输数据比较大时(比如说一张1080x720的图片其解码完的图像矩阵~6M),要明显比Flask默认的Werkzurg慢得多。由于Gunicorn是以命令行的方式启动的,所以调试不太方便,所以我就按照原始的WSGI方式写了个测试代码。
将Yolov3模型转成可以进行动态Batch的TensorRT推理以及Triton Inference Serving上部署的TensorRT模型
This repository deploys YOLOv4 as an optimized TensorRT engine to Triton Inference Server