Это таска будет посвещена проверке ряда гипотез, целью которых будет повторить результ

Гипотезы Поварова: <inp

Гипотезы Брыксина: <inp

[code2seq] repeat "perfect storm" about gcm HOT 3 OPEN

natalymr commented on July 3, 2024

[code2seq] repeat "perfect storm"

from gcm.

Comments (3)

natalymr commented on July 3, 2024

На маленьком репозитории 18.6, на большом репозитории - 9.0
Почему при увеличении данных могла упасть точность?

Мои гипотезы:

распределение данных в маленьком датасете было проще, чем распределение данных в большом => проверить
- рандомно взять из большого датасета то же количество данных, что и в маленьком
- 3 эпохи - 5.4 (batch size = 16, на большом val, взяв первые 219 коммитов)
- 15 эпох - 8.76 (batch size = 16, на большом val, взяв первые 219 коммитов)
- 15 эпох - 4.52 (batch size = 16, на большом val)
- 5 эпох - 4.94 (batch size = 1, на большом val, взяв первые 219 коммитов)
- 14 эпох - 10.09 (batch size = 1, на большом val, взяв первые 219 коммитов)
- 14 эпох - 4.88 (batch size = 1, на большом val)
- на модели, обученной на маленьком датасете, прогнать val большого
- 12 эпоха
  - маленький val = 15.61
  - большой val = 6.05
  - большой val (взяли первые 300 коммитов) = 13.80
- на модели, обученной на большом датасете, прогнать val маленького
- 7 эпоха
  - маленький val = 13.69
  - большой val = 7.01
  - большой val (взяли первые 300 коммитов) = 12.58
сваливаемся в локальным экстремум, нужно подобрать скорость обучения
нужен больший batch size (кажется, одно и то же с предыдущим)

from gcm.

natalymr commented on July 3, 2024

Гипотезы Поварова:

давайте разрежем данные по количеству измененных функций и будем обучаться для каждого из такого случаев отдельно (подробности здесь #13)

from gcm.

natalymr commented on July 3, 2024

Гипотезы Брыксина:

нужна глобальная проверка на некотором рандомном множестве репозиториев
- apache/hadoop
  точность - 3.8
  там надо убрать "contributed by" в каждом коммите и проверить еще раз
- apache/dubbo
- еще репозитории
внимательно смотреть на данные, потому что может быть мусор