Giter Site home page Giter Site logo

[code2seq] repeat "perfect storm" about gcm HOT 3 OPEN

natalymr avatar natalymr commented on July 3, 2024
[code2seq] repeat "perfect storm"

from gcm.

Comments (3)

natalymr avatar natalymr commented on July 3, 2024

На маленьком репозитории 18.6, на большом репозитории - 9.0
Почему при увеличении данных могла упасть точность?

Мои гипотезы:

  • распределение данных в маленьком датасете было проще, чем распределение данных в большом => проверить
    • рандомно взять из большого датасета то же количество данных, что и в маленьком
    • 3 эпохи - 5.4 (batch size = 16, на большом val, взяв первые 219 коммитов)
    • 15 эпох - 8.76 (batch size = 16, на большом val, взяв первые 219 коммитов)
    • 15 эпох - 4.52 (batch size = 16, на большом val)
    • 5 эпох - 4.94 (batch size = 1, на большом val, взяв первые 219 коммитов)
    • 14 эпох - 10.09 (batch size = 1, на большом val, взяв первые 219 коммитов)
    • 14 эпох - 4.88 (batch size = 1, на большом val)
    • на модели, обученной на маленьком датасете, прогнать val большого
    • 12 эпоха
      • маленький val = 15.61
      • большой val = 6.05
      • большой val (взяли первые 300 коммитов) = 13.80
    • на модели, обученной на большом датасете, прогнать val маленького
    • 7 эпоха
      • маленький val = 13.69
      • большой val = 7.01
      • большой val (взяли первые 300 коммитов) = 12.58
  • сваливаемся в локальным экстремум, нужно подобрать скорость обучения
  • нужен больший batch size (кажется, одно и то же с предыдущим)

from gcm.

natalymr avatar natalymr commented on July 3, 2024

Гипотезы Поварова:

  • давайте разрежем данные по количеству измененных функций и будем обучаться для каждого из такого случаев отдельно (подробности здесь #13)

from gcm.

natalymr avatar natalymr commented on July 3, 2024

Гипотезы Брыксина:

  • нужна глобальная проверка на некотором рандомном множестве репозиториев
    • apache/hadoop
      точность - 3.8
      там надо убрать "contributed by" в каждом коммите и проверить еще раз
    • apache/dubbo
    • еще репозитории
  • внимательно смотреть на данные, потому что может быть мусор

немного перекликается с гипотезой Поварова (если большие коммиты плохие, то будем считать их мусором и не работать с ними)

  • придумать способ оценки качества коммитов и брать коммиты только с высоким качеством (:woman-shrugging: как)

from gcm.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.