The detnas from megvii-model

if 'caption' in anns[0]: IndexError: list index out of range

In step 5 (model evaluation) when calling the function evaluete_prediction_coco( ), I get an error. Within this function, a value is assigned to a coco_dt variable by returning the call coco_get.loadRes(coco_result), but at this moment the error if 'caption' in anns [0] is displayed: IndexError: list index out of range

Retinanet search

Hi, thank you for sharing the code. But I can't find the config file of retinanet_search. Could you upload it?

Supernet training and tuning

Thanks for your excellent work!

I have not found how to pretrain supernet in ImageNet and tuning supernet in COCO, here is no supernet training, only the training of the searched network.

Why search cfg.SOLVER.IMS_PER_BATCH = 8 ?

cfg.SOLVER.IMS_PER_BATCH = 8
cfg.SOLVER.MAX_ITER = 88888888
cfg.TEST.IMS_PER_BATCH = ngpus_per_node

when I change it, training is very slow.
And when i start more than one run_server.sh: ERROR RuntimeError: Address already in use.
Thx!!!!

Step5 evaluation result very low

Have you ever had a situation where in Step 5 (model evaluation)，all the models searched were evaluated very low, that is, the AP value? I trained the supernet both on my own dataset and COCO dataset, but all searched models had a very low AP during step 5, close to 0. However, when I evaluated the model using the script 'tools/test_net.py', the AP was greater than 0.6.

HELP！many issuea，but i flow your tips

$ bash scripts/run_detnas_coco_fpn_300M_search.sh

Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed.

Traceback (most recent call last):
File "tools/train_net.py", line 19, in
from maskrcnn_benchmark.data import make_data_loader
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/init.py", line 2, in
from .build import make_data_loader
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/build.py", line 11, in
from . import datasets as D
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/datasets/init.py", line 3, in
from .coco import COCODataset
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/datasets/coco.py", line 3, in
import torchvision
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/init.py", line 3, in
from torchvision import models
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/init.py", line 12, in
from . import detection
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/init.py", line 1, in
from .faster_rcnn import *
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/faster_rcnn.py", line 13, in
from .rpn import AnchorGenerator, RPNHead, RegionProposalNetwork
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/rpn.py", line 11, in
from . import _utils as det_utils
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py", line 19, in
class BalancedPositiveNegativeSampler(object):
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1219, in script
_compile_and_register_class(obj, _rcb, qualified_name)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1076, in _compile_and_register_class
_jit_script_class_compile(qualified_name, ast, rcb)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/_recursive.py", line 222, in try_compile_fn
return torch.jit.script(fn, _rcb=rcb)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1226, in script
fn = torch._C._jit_script_compile(qualified_name, ast, _rcb, get_default_args(obj))
RuntimeError:
builtin cannot be used as a value:
at /mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py:14:56
def zeros_like(tensor, dtype):
# type: (Tensor, int) -> Tensor
return torch.zeros_like(tensor, dtype=dtype, layout=tensor.layout,
~~~~~~~~~~~~~ <--- HERE
device=tensor.device, pin_memory=tensor.is_pinned())
'zeros_like' is being compiled since it was called from 'torch.torchvision.models.detection._utils.BalancedPositiveNegativeSampler.call'
at /mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py:72:12

        # randomly select positive and negative examples
        perm1 = torch.randperm(positive.numel(), device=positive.device)[:num_pos]
        perm2 = torch.randperm(negative.numel(), device=negative.device)[:num_neg]

        pos_idx_per_image = positive[perm1]
        neg_idx_per_image = negative[perm2]

        # create binary mask from indices
        pos_idx_per_image_mask = zeros_like(
        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~...  <--- HERE
            matched_idxs_per_image, dtype=torch.uint8
        )
        neg_idx_per_image_mask = zeros_like(
            matched_idxs_per_image, dtype=torch.uint8
        )

        pos_idx_per_image_mask[pos_idx_per_image] = torch.tensor(1, dtype=torch.uint8)
        neg_idx_per_image_mask[neg_idx_per_image] = torch.tensor(1, dtype=torch.uint8)

Traceback (most recent call last):
File "tools/train_net.py", line 19, in
from maskrcnn_benchmark.data import make_data_loader
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/init.py", line 2, in
from .build import make_data_loader
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/build.py", line 11, in
from . import datasets as D
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/datasets/init.py", line 3, in
from .coco import COCODataset
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/datasets/coco.py", line 3, in
import torchvision
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/init.py", line 3, in
from torchvision import models
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/init.py", line 12, in
from . import detection
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/init.py", line 1, in
from .faster_rcnn import *
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/faster_rcnn.py", line 13, in
from .rpn import AnchorGenerator, RPNHead, RegionProposalNetwork
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/rpn.py", line 11, in
from . import _utils as det_utils
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py", line 19, in
class BalancedPositiveNegativeSampler(object):
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1219, in script
_compile_and_register_class(obj, _rcb, qualified_name)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1076, in _compile_and_register_class
_jit_script_class_compile(qualified_name, ast, rcb)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/_recursive.py", line 222, in try_compile_fn
return torch.jit.script(fn, _rcb=rcb)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1226, in script
fn = torch._C._jit_script_compile(qualified_name, ast, _rcb, get_default_args(obj))
RuntimeError:
builtin cannot be used as a value:
at /mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py:14:56
def zeros_like(tensor, dtype):
# type: (Tensor, int) -> Tensor
return torch.zeros_like(tensor, dtype=dtype, layout=tensor.layout,
~~~~~~~~~~~~~ <--- HERE
device=tensor.device, pin_memory=tensor.is_pinned())
'zeros_like' is being compiled since it was called from 'torch.torchvision.models.detection._utils.BalancedPositiveNegativeSampler.call'
at /mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py:72:12

        # randomly select positive and negative examples
        perm1 = torch.randperm(positive.numel(), device=positive.device)[:num_pos]
        perm2 = torch.randperm(negative.numel(), device=negative.device)[:num_neg]

        pos_idx_per_image = positive[perm1]
        neg_idx_per_image = negative[perm2]

        # create binary mask from indices
        pos_idx_per_image_mask = zeros_like(
        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~...  <--- HERE
            matched_idxs_per_image, dtype=torch.uint8
        )
        neg_idx_per_image_mask = zeros_like(
            matched_idxs_per_image, dtype=torch.uint8
        )

        pos_idx_per_image_mask[pos_idx_per_image] = torch.tensor(1, dtype=torch.uint8)
        neg_idx_per_image_mask[neg_idx_per_image] = torch.tensor(1, dtype=torch.uint8)

Traceback (most recent call last):
File "tools/train_net.py", line 19, in

from maskrcnn_benchmark.data import make_data_loader

File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/init.py", line 2, in
from .build import make_data_loader
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/build.py", line 11, in
from . import datasets as D
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/datasets/init.py", line 3, in
from .coco import COCODataset
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/datasets/coco.py", line 3, in
import torchvision
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/init.py", line 3, in
from torchvision import models
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/init.py", line 12, in
from . import detection
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/init.py", line 1, in
from .faster_rcnn import *
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/faster_rcnn.py", line 13, in
from .rpn import AnchorGenerator, RPNHead, RegionProposalNetwork
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/rpn.py", line 11, in
from . import _utils as det_utils
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py", line 19, in
class BalancedPositiveNegativeSampler(object):
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1219, in script
Traceback (most recent call last):
File "tools/train_net.py", line 19, in
from maskrcnn_benchmark.data import make_data_loader
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/init.py", line 2, in
from .build import make_data_loader
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/build.py", line 11, in
from . import datasets as D
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/datasets/init.py", line 3, in
_compile_and_register_class(obj, _rcb, qualified_name)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1076, in _compile_and_register_class
from .coco import COCODataset
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/datasets/coco.py", line 3, in
import torchvision
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/init.py", line 3, in
from torchvision import models
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/init.py", line 12, in
from . import detection
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/init.py", line 1, in
from .faster_rcnn import *
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/faster_rcnn.py", line 13, in
_jit_script_class_compile(qualified_name, ast, rcb)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/_recursive.py", line 222, in try_compile_fn
from .rpn import AnchorGenerator, RPNHead, RegionProposalNetwork
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/rpn.py", line 11, in
return torch.jit.script(fn, _rcb=rcb)
from . import _utils as det_utils
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py", line 19, in
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1226, in script
class BalancedPositiveNegativeSampler(object):
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1219, in script
fn = torch._C._jit_script_compile(qualified_name, ast, _rcb, get_default_args(obj))
RuntimeError:
builtin cannot be used as a value:
at /mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py:14:56
def zeros_like(tensor, dtype):
# type: (Tensor, int) -> Tensor
return torch.zeros_like(tensor, dtype=dtype, layout=tensor.layout,
~~~~~~~~~~~~~ <--- HERE
device=tensor.device, pin_memory=tensor.is_pinned())
'zeros_like' is being compiled since it was called from 'torch.torchvision.models.detection._utils.BalancedPositiveNegativeSampler.call'
at /mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py:72:12

        # randomly select positive and negative examples
        perm1 = torch.randperm(positive.numel(), device=positive.device)[:num_pos]
        perm2 = torch.randperm(negative.numel(), device=negative.device)[:num_neg]

        pos_idx_per_image = positive[perm1]
        neg_idx_per_image = negative[perm2]

        # create binary mask from indices
        pos_idx_per_image_mask = zeros_like(
        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~...  <--- HERE
            matched_idxs_per_image, dtype=torch.uint8
        )
        neg_idx_per_image_mask = zeros_like(
            matched_idxs_per_image, dtype=torch.uint8
        )

        pos_idx_per_image_mask[pos_idx_per_image] = torch.tensor(1, dtype=torch.uint8)
        neg_idx_per_image_mask[neg_idx_per_image] = torch.tensor(1, dtype=torch.uint8)

_compile_and_register_class(obj, _rcb, qualified_name)

File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1076, in _compile_and_register_class
_jit_script_class_compile(qualified_name, ast, rcb)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/_recursive.py", line 222, in try_compile_fn
return torch.jit.script(fn, _rcb=rcb)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1226, in script
fn = torch._C._jit_script_compile(qualified_name, ast, _rcb, get_default_args(obj))
RuntimeError:
builtin cannot be used as a value:
at /mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py:14:56
def zeros_like(tensor, dtype):
# type: (Tensor, int) -> Tensor
return torch.zeros_like(tensor, dtype=dtype, layout=tensor.layout,
~~~~~~~~~~~~~ <--- HERE
device=tensor.device, pin_memory=tensor.is_pinned())
'zeros_like' is being compiled since it was called from 'torch.torchvision.models.detection._utils.BalancedPositiveNegativeSampler.call'
at /mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py:72:12

        # randomly select positive and negative examples
        perm1 = torch.randperm(positive.numel(), device=positive.device)[:num_pos]
        perm2 = torch.randperm(negative.numel(), device=negative.device)[:num_neg]

        pos_idx_per_image = positive[perm1]
        neg_idx_per_image = negative[perm2]

        # create binary mask from indices
        pos_idx_per_image_mask = zeros_like(
        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~...  <--- HERE
            matched_idxs_per_image, dtype=torch.uint8
        )
        neg_idx_per_image_mask = zeros_like(
            matched_idxs_per_image, dtype=torch.uint8
        )

        pos_idx_per_image_mask[pos_idx_per_image] = torch.tensor(1, dtype=torch.uint8)
        neg_idx_per_image_mask[neg_idx_per_image] = torch.tensor(1, dtype=torch.uint8)

Traceback (most recent call last):
File "tools/train_net.py", line 19, in
from maskrcnn_benchmark.data import make_data_loader
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/init.py", line 2, in
from .build import make_data_loader
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/build.py", line 11, in
from . import datasets as D
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/datasets/init.py", line 3, in
from .coco import COCODataset
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/datasets/coco.py", line 3, in
import torchvision
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/init.py", line 3, in
from torchvision import models
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/init.py", line 12, in
from . import detection
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/init.py", line 1, in
from .faster_rcnn import *
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/faster_rcnn.py", line 13, in
from .rpn import AnchorGenerator, RPNHead, RegionProposalNetwork
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/rpn.py", line 11, in
from . import _utils as det_utils
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py", line 19, in
class BalancedPositiveNegativeSampler(object):
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1219, in script
Traceback (most recent call last):
Traceback (most recent call last):
File "tools/train_net.py", line 19, in
_compile_and_register_class(obj, _rcb, qualified_name)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1076, in _compile_and_register_class
Traceback (most recent call last):
File "tools/train_net.py", line 19, in
File "tools/train_net.py", line 19, in
from maskrcnn_benchmark.data import make_data_loader
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/init.py", line 2, in
from maskrcnn_benchmark.data import make_data_loader
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/init.py", line 2, in
from maskrcnn_benchmark.data import make_data_loader
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/init.py", line 2, in
from .build import make_data_loader
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/build.py", line 11, in
from .build import make_data_loader
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/build.py", line 11, in
from . import datasets as D
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/datasets/init.py", line 3, in
from . import datasets as D
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/datasets/init.py", line 3, in
_jit_script_class_compile(qualified_name, ast, rcb)
from .coco import COCODataset
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/datasets/coco.py", line 3, in
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/_recursive.py", line 222, in try_compile_fn
from .coco import COCODataset
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/datasets/coco.py", line 3, in
from .build import make_data_loader
import torchvision
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/build.py", line 11, in
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/init.py", line 3, in
import torchvision
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/init.py", line 3, in
from torchvision import models
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/init.py", line 12, in
from . import datasets as D
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/datasets/init.py", line 3, in
from torchvision import models
from . import detection
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/init.py", line 12, in
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/init.py", line 1, in
from .coco import COCODataset
from .faster_rcnn import *from . import detection

File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/faster_rcnn.py", line 13, in
File "/home/mist/DetNAS-master/maskrcnn_benchmark/data/datasets/coco.py", line 3, in
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/init.py", line 1, in
return torch.jit.script(fn, _rcb=rcb)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1226, in script
from .rpn import AnchorGenerator, RPNHead, RegionProposalNetwork
from .faster_rcnn import * File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/rpn.py", line 11, in

import torchvision  File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/faster_rcnn.py", line 13, in <module>

File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/init.py", line 3, in
from . import _utils as det_utils
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py", line 19, in
from .rpn import AnchorGenerator, RPNHead, RegionProposalNetworkfrom torchvision import models

File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/init.py", line 12, in
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/rpn.py", line 11, in
class BalancedPositiveNegativeSampler(object):
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1219, in script
from . import detectionfrom . import _utils as det_utils

File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/init.py", line 1, in
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py", line 19, in
class BalancedPositiveNegativeSampler(object):
from .faster_rcnn import * File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1219, in script

File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/faster_rcnn.py", line 13, in
from .rpn import AnchorGenerator, RPNHead, RegionProposalNetwork
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/rpn.py", line 11, in
from . import _utils as det_utils
File "/mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py", line 19, in
fn = torch._C._jit_script_compile(qualified_name, ast, _rcb, get_default_args(obj))
RuntimeError_compile_and_register_class(obj, _rcb, qualified_name):

builtin cannot be used as a value:
at /mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py:14:56
def zeros_like(tensor, dtype):
# type: (Tensor, int) -> Tensor
return torch.zeros_like(tensor, dtype=dtype, layout=tensor.layout,
~~~~~~~~~~~~~ <--- HERE
device=tensor.device, pin_memory=tensor.is_pinned())
'zeros_like' is being compiled since it was called from 'torch.torchvision.models.detection._utils.BalancedPositiveNegativeSampler.call'
at /mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py:72:12

        # randomly select positive and negative examples
        perm1 = torch.randperm(positive.numel(), device=positive.device)[:num_pos]
        perm2 = torch.randperm(negative.numel(), device=negative.device)[:num_neg]

        pos_idx_per_image = positive[perm1]
        neg_idx_per_image = negative[perm2]

        # create binary mask from indices
        pos_idx_per_image_mask = zeros_like(
        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~...  <--- HERE
            matched_idxs_per_image, dtype=torch.uint8
        )
        neg_idx_per_image_mask = zeros_like(
            matched_idxs_per_image, dtype=torch.uint8
        )

        pos_idx_per_image_mask[pos_idx_per_image] = torch.tensor(1, dtype=torch.uint8)
        neg_idx_per_image_mask[neg_idx_per_image] = torch.tensor(1, dtype=torch.uint8)

File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1076, in _compile_and_register_class

class BalancedPositiveNegativeSampler(object):

File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1219, in script
_compile_and_register_class(obj, _rcb, qualified_name)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1076, in _compile_and_register_class
_jit_script_class_compile(qualified_name, ast, rcb)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/_recursive.py", line 222, in try_compile_fn
_compile_and_register_class(obj, _rcb, qualified_name)return torch.jit.script(fn, _rcb=rcb)
_jit_script_class_compile(qualified_name, ast, rcb)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1226, in script
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/_recursive.py", line 222, in try_compile_fn

File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1076, in _compile_and_register_class
return torch.jit.script(fn, _rcb=rcb)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1226, in script
fn = torch._C._jit_script_compile(qualified_name, ast, _rcb, get_default_args(obj))
RuntimeError: _jit_script_class_compile(qualified_name, ast, rcb)
builtin cannot be used as a value:
at /mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py:14:56
def zeros_like(tensor, dtype):
# type: (Tensor, int) -> Tensor
return torch.zeros_like(tensor, dtype=dtype, layout=tensor.layout,
~~~~~~~~~~~~~ <--- HERE
device=tensor.device, pin_memory=tensor.is_pinned())
'zeros_like' is being compiled since it was called from 'torch.torchvision.models.detection._utils.BalancedPositiveNegativeSampler.call'
at /mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py:72:12

        # randomly select positive and negative examples
        perm1 = torch.randperm(positive.numel(), device=positive.device)[:num_pos]
        perm2 = torch.randperm(negative.numel(), device=negative.device)[:num_neg]

        pos_idx_per_image = positive[perm1]
        neg_idx_per_image = negative[perm2]

        # create binary mask from indices
        pos_idx_per_image_mask = zeros_like(
        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~...  <--- HERE
            matched_idxs_per_image, dtype=torch.uint8
        )
        neg_idx_per_image_mask = zeros_like(
            matched_idxs_per_image, dtype=torch.uint8
        )

        pos_idx_per_image_mask[pos_idx_per_image] = torch.tensor(1, dtype=torch.uint8)
        neg_idx_per_image_mask[neg_idx_per_image] = torch.tensor(1, dtype=torch.uint8)

File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/_recursive.py", line 222, in try_compile_fn
return torch.jit.script(fn, _rcb=rcb)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/jit/init.py", line 1226, in script
fn = torch._C._jit_script_compile(qualified_name, ast, _rcb, get_default_args(obj))
RuntimeError:
builtin cannot be used as a value:
at /mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py:14:56
def zeros_like(tensor, dtype):
# type: (Tensor, int) -> Tensor
return torch.zeros_like(tensor, dtype=dtype, layout=tensor.layout,
~~~~~~~~~~~~~ <--- HERE
device=tensor.device, pin_memory=tensor.is_pinned())
'zeros_like' is being compiled since it was called from 'torch.torchvision.models.detection._utils.BalancedPositiveNegativeSampler.call'
at /mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py:72:12

        # randomly select positive and negative examples
        perm1 = torch.randperm(positive.numel(), device=positive.device)[:num_pos]
        perm2 = torch.randperm(negative.numel(), device=negative.device)[:num_neg]

        pos_idx_per_image = positive[perm1]
        neg_idx_per_image = negative[perm2]

        # create binary mask from indices
        pos_idx_per_image_mask = zeros_like(
        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~...  <--- HERE
            matched_idxs_per_image, dtype=torch.uint8
        )
        neg_idx_per_image_mask = zeros_like(
            matched_idxs_per_image, dtype=torch.uint8
        )

        pos_idx_per_image_mask[pos_idx_per_image] = torch.tensor(1, dtype=torch.uint8)
        neg_idx_per_image_mask[neg_idx_per_image] = torch.tensor(1, dtype=torch.uint8)

fn = torch._C._jit_script_compile(qualified_name, ast, _rcb, get_default_args(obj))

RuntimeError:
builtin cannot be used as a value:
at /mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py:14:56
def zeros_like(tensor, dtype):
# type: (Tensor, int) -> Tensor
return torch.zeros_like(tensor, dtype=dtype, layout=tensor.layout,
~~~~~~~~~~~~~ <--- HERE
device=tensor.device, pin_memory=tensor.is_pinned())
'zeros_like' is being compiled since it was called from 'torch.torchvision.models.detection._utils.BalancedPositiveNegativeSampler.call'
at /mistgpu/miniconda/lib/python3.7/site-packages/torchvision/models/detection/_utils.py:72:12

        # randomly select positive and negative examples
        perm1 = torch.randperm(positive.numel(), device=positive.device)[:num_pos]
        perm2 = torch.randperm(negative.numel(), device=negative.device)[:num_neg]

        pos_idx_per_image = positive[perm1]
        neg_idx_per_image = negative[perm2]

        # create binary mask from indices
        pos_idx_per_image_mask = zeros_like(
        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~...  <--- HERE
            matched_idxs_per_image, dtype=torch.uint8
        )
        neg_idx_per_image_mask = zeros_like(
            matched_idxs_per_image, dtype=torch.uint8
        )

        pos_idx_per_image_mask[pos_idx_per_image] = torch.tensor(1, dtype=torch.uint8)
        neg_idx_per_image_mask[neg_idx_per_image] = torch.tensor(1, dtype=torch.uint8)

Traceback (most recent call last):
File "/mistgpu/miniconda/lib/python3.7/runpy.py", line 193, in _run_module_as_main
"main", mod_spec)
File "/mistgpu/miniconda/lib/python3.7/runpy.py", line 85, in _run_code
exec(code, run_globals)
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/distributed/launch.py", line 253, in
main()
File "/mistgpu/miniconda/lib/python3.7/site-packages/torch/distributed/launch.py", line 249, in main
cmd=cmd)
subprocess.CalledProcessError: Command '['/mistgpu/miniconda/bin/python3', '-u', 'tools/train_net.py', '--local_rank=7', '--config-file', 'configs/e2e_faster_rcnn_DETNAS_COCO_FPN_300M_search.yaml', 'OUTPUT_DIR', 'models/DETNAS_COCO_FPN_300M_1x_search']' returned non-zero exit status 1.

Problems about different activate paths between GPUs in Imagenet pretraining

Hi, I've noticed that in Imagenet pretraining process, the activate path of each gpu is different (see here) since there is no synchronize operation like that in the finetuning process (see here).
Does it means models on each gpu are different? Or did you only used one gpu for imagenet pretraining?

Set grad to None if grad.sum() == 0

Hi, great work!

I am quite new in PyTorch, so please forgive me if this is just some common approach in PyTorch. Could you please educate me on why the grad is set to None when grad.sum() == 0 .

DetNAS/Supernet-ImageNet/train.py

Lines 229 to 231 in 94623fd

    
           for p in model.parameters(): 
        
               if p.grad is not None and p.grad.sum() == 0: 
        
                   p.grad = None

The branches which not have been used in each batch will have 0 gradients, right? Then what's the purpose of setting them to None, and how it will benefit the training?

Thanks

why use sync_candidates

I do not understand why use it,Could you please explain that a little bit

error：command '/usr/bin/nvcc' failed with exit status1

I ran bash config.sh, but error occurred during the installation of maskrcnn_benchmark.
My environment: cuda=10.1, gcc=7.5 .

How to perform validate in the imagenet pre-train phase？

In the validate function of train.py: output = model(data), but the forward of ShuffleNetV2DetNAS class in detnasnet.py is not handled by rngs=None, will it be wrong at runtime?

Training of 300M didn't seem to meet the expectation

After training on 300M model, got finally
is there anything wrong with my training?
here's the log file:
log.txt

COCO training

Thanks for your excellent work!

How much time this step?
COCO training
bash scripts/run_detnas_coco_fpn_300M_search.sh
('-search' in cfg.MODEL.BACKBONE.CONV_BODY is to distinguish supernet training from single model.)
AND
only after training coco, can train search backbone? Can you offer Supernet coco fine-tuning model?

Pre-train accuracy

How does your accuracy on the training set change during the process of pre-training on ImageNet? I found that my training accuracy improves very slowly when training a supernet defined by myself, Is it normal?

Training model in Google Cloud

I'm interested in your approach, and I would like to train the model in a Google cloud virtual machine.
Can you release a tutorial on how to install/setup the model in Google cloud VM?
Or provide any further resources on how to proceed in that situation?
Thank you for you attention to this situation.

only one GPU, I met the error that "Default process group is not initialized"

I only have one GPU, and when I trained the supernet on coco, there was an error that "AssertionError: Default process group is not initialized"
I think that i should not use "SyncBN" to distributed calculating. how can I set it up so I can train with only one GPU?

RuntimeError: Some elements marked as dirty during the forward method were not returned as output. The inputs that are modified inplace must all be outputs of the Function.

this error happened, can you give me some suggestions?

Set param.requires_grad to False

Hello, great work!
I have a question in this code. Why do you set param.requires_grad to False? Won't it cause a runtime error when calling loss.backward()? Thanks for your answer.

DetNAS/maskrcnn_benchmark/engine/trainer.py

Lines 112 to 113 in aa92a90

    
           for param in model.parameters(): 
        
               param.requires_grad = False

你们的计算量300M的含义

你们这个300M的计算量，是指的在2242243的图片下backbone的计算量，还是整个网络的计算量

problem about syncbn_gpu

hi, I complete 'bash config.sh'. When I finetune Supernet on coco, I get a problem about syncbn_gpu: "syncbn_gpu.cpython-37m-x86_64-linux-gnu.so: undefined symbol: _ZN3c1011CPUTensorIdEv"
Maybe it is a version problem? My python=3.7 torch=1.3 torchvision=0.4.1, cuda=10.1 cudnn=7.6.5
Looking forward to your help.

I solved that, maybe it is the cpython version problem.

Pre-train time

Hello, when running your pre-train code, it finds iteration once, which takes an average of 1.3 seconds, then 300k iteration is expected to take at least 108 hours (4.5 days), but your paper says 1.5 days, my experimental environment is as follows:
Hardware Configuration:
1, GPU: 8 * Tesla V100-PCIE
2, CPU: 88 * virtual core
Software configuration:
1, pytorch==1.0.1.post2
2, batchsize=1024
3, DataLoader: num_workers=80
4, datasets: Imagenet
Is it that you are using other acceleration strategies?

I met a problem when I installed compile.sh

syncbn_cuda_kernel.cu:12:35: fatal error: ATen/cuda/CUDAContext.h: No such file or directory
compilation terminated.
error: command '/usr/local/cuda/bin/nvcc' failed with exit status 1

Type of Distributed protocol - RabbitMQ

Hello,

I'm currently trying to understand what type of communication protocol is defined in the mq_server_base.py https://github.com/megvii-model/DetNAS/blob/master/distributed_arch_search/mq_server_base.py class?
Is it of publish\subscribe type? Or master-slave?

I need to convert from using the RabbitMq interface to a format that OpenMpi accepts that's why I'm trying to understand the procedure.

Errors about install rabbitmq-server

when I run command follow the README, I meet a error like this.

sudo apt install rabbitmq-server

bash config.sh

Hello, when I perform bash config.sh appear
nvcc fatal : Unsupported gpu architecture 'compute_75
How can I solve it

At the end of the current 50-candidate eval, the program is stuck

At the end of the current 50-candidate eval, the program is stuck， always return result

installation

Installation
Modify the path to your coco dataset in config.sh.
bash config.sh
According to the above installation instructions, after installation, why does the second step lead to errors?

ModuleNotFoundError: No module named 'syncbn_gpu'

when i run the code there is something wrong whit it
ModuleNotFoundError: No module named 'syncbn_gpu'
@megvii-model

Pre-train time

Hello, when running your pre-train code, it finds iteration once, which takes an average of 1.3 seconds, then 300k iteration is expected to take at least 108 hours (4.5 days), but your paper says 1.5 days, my experimental environment is as follows:
Hardware Configuration:
1, GPU: 8 * Tesla V100-PCIE
2, CPU: 88 * virtual core
Software configuration:
1, pytorch==1.0.1.post2
2, batchsize=1024
3, DataLoader: num_workers=80
4, datasets: Imagenet
Is it that you are using other acceleration strategies?

It is necessary to install under pytorch1.3 with cuda10.1？

My device is under Pytorch1.2 with cuda10.0

FileNotFoundError: [Errno 2] No such file or directory: 'datasets/coco/train2014/COCO_train2014_000000366414.jpg'

Training supernet is hard to converge.

Hello,
I find that the supernet training process is hard to converge. Would you mind providing us log files?

Why this code use rebbitmq

I do not understand the code use rebbitmq to do the search

{'status': 'failure'} Traceback (most recent call last): File "distributed_arch_search/search.py", line 138, in sync_candidates info['acc']=res['acc'] KeyError: 'acc' try to get 1499-1579437134.2298317

when I search the network with my data, I meet this problem:

{'status': 'failure'}
Traceback (most recent call last):
File "distributed_arch_search/search.py", line 138, in sync_candidates
info['acc']=res['acc']
KeyError: 'acc'

	for p in model.parameters():
	if p.grad is not None and p.grad.sum() == 0:
	p.grad = None

megvii-model / detnas Goto Github PK

detnas's People

Contributors

Stargazers

Watchers

Forkers

detnas's Issues

Recommend Projects

Recommend Topics

Recommend Org