Deion The ORT backend always returns output tensors on CPU

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

Once <a class="issue-link js-issue-link" data-error-text="Failed to load title" data-i

Any update ? <a class="user-mention notranslate" data-hovercard-type="user" data-h

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

ORT backend always returns tensor on CPU about onnxruntime_backend HOT 7 CLOSED

triton-inference-server commented on August 27, 2024 2

ORT backend always returns tensor on CPU

from onnxruntime_backend.

Comments (7)

askhade commented on August 27, 2024 2

@Slyne This will be available in triton 22.02 release.

from onnxruntime_backend.

CoderHam commented on August 27, 2024

@Tabrizian @tanmayv25 can you look into the same

from onnxruntime_backend.

askhade commented on August 27, 2024

This issue explains the current limitation and why output is always on CPU : triton-inference-server/server#3364

from onnxruntime_backend.

askhade commented on August 27, 2024

Once triton-inference-server/server#3364 is merged we will enable output binding to gpus in ort backend.

from onnxruntime_backend.

Slyne commented on August 27, 2024

Any update ?
@askhade
@deadeyegoodwin

from onnxruntime_backend.

Slyne commented on August 27, 2024

@askhade Thank you for informing!

from onnxruntime_backend.

vu0607 commented on August 27, 2024

@askhade
I serving encoder-decoder model (TrOCR) on Triton onnx backend. I meet a problem:
First, I call and get output from encoder model in server. Afterthat, because output on GPU, I need to transfer to CPU for converting to numpy before call output from decoder model on server. It make botteneck. Hope you can help me with issue. Thanks a lot.

from onnxruntime_backend.

ORT backend always returns tensor on CPU about onnxruntime_backend HOT 7 CLOSED

Comments (7)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent