Giter Site home page Giter Site logo

메모리 할당 문제 about nlp-challenge HOT 8 CLOSED

naver avatar naver commented on August 17, 2024
메모리 할당 문제

from nlp-challenge.

Comments (8)

toriving avatar toriving commented on August 17, 2024

추가로 모델을 돌리거나 제출을 할때 오류가 자주 뜨는데 원인이 무엇인지 궁금합니다.
image

from nlp-challenge.

nsml-admin avatar nsml-admin commented on August 17, 2024

안녕하세요

  1. 현재 메모리는 기본값으로 24G로 고정되어 있습니다. 조정이 필요하면 nsml run --memory 16G 같이 조정가능합니다. 에러가 나온다는 메세지나 캡처화면을 볼수있을까요?

  2. 현재 특정장비에 세션이 할당될경우 위와같은 에러가 발생하는걸로 파악됩니다. 현재 장비 점검중에 있고 해당장비들을 제외시켜놔서 위와같은 에러상황은 발생하지 않을걸로 생각됩니다.(혹시라도 또 발생하면 제보해주시면 감사하겠습니다)
    제보해주셔서 감사드리며 불편을 드려서 죄송합니다.

감사합니다.

from nlp-challenge.

toriving avatar toriving commented on August 17, 2024

nsml run -d NER --memory '48G'
를 했을때는
image
이런 에러가발생합니다.
또한
nsml run -d NER --memory 48G
을 실행하면 실제로는 24G가 적용되는데 24G가 최대치인가요?

from nlp-challenge.

toriving avatar toriving commented on August 17, 2024

또한 submit시에 OOM 에러가 나는데 반면에 디버깅시에도 트레이닝시에도 잘 됩니다.
제생각엔 infer 함수를 그대로 submit에서 쓰게된다면 batch size가 full batch로 되서 그런것같은데
해결방안이 있을까요?

from nlp-challenge.

toriving avatar toriving commented on August 17, 2024

또한 세션에 로그가 안뜨는 오류가 있는데 확인해주실수있나요?
State_Of_The_Art/NER/127 155 158 입니다.

from nlp-challenge.

nsml-admin avatar nsml-admin commented on August 17, 2024

안녕하세요.

  1. 위 에러는 한번 확인해보겠습니다.
  2. 24G가 정용된다는게 gpu의 메모리인가요? gpu메모리의 최대치는 24G이고, 실제 cpu메모리는 약 45G까지라고 생각하시면됩니다.
  3. submit할때의 batch size는 full은 아니고 2500씩 입력됩니다. 세션번호를 알려주시면 에러로그를 보여드릴수있을거같습니다.
  4. 해당세션의 장비들이 문제가있어서 문제 해결하였고 현재는 정상작동할거같습니다. 불편을드려서 죄송합니다.

감사합니다.

from nlp-challenge.

toriving avatar toriving commented on August 17, 2024
  1. State_Of_The_Art/NER/127 입니다.

from nlp-challenge.

nsml-admin avatar nsml-admin commented on August 17, 2024

위 세션 확인해봤는데

/bin/bash: line 1:    74 Killed ~~

로 세션이 종료되었습니다.

여러가지 이유가 있지만 대부분의 경우는 OOM킬로 세션이 꺼진경우이고, 트레이닝 중에도 메모리를 24G에 임박하게 사용하였던걸로 생각됩니다.

최대 지피유의 메모리는 24G입니다.

감사합니다.

from nlp-challenge.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.