Comments (3)
На маленьком репозитории 18.6, на большом репозитории - 9.0
Почему при увеличении данных могла упасть точность?
Мои гипотезы:
- распределение данных в маленьком датасете было проще, чем распределение данных в большом => проверить
- рандомно взять из большого датасета то же количество данных, что и в маленьком
- 3 эпохи - 5.4 (batch size = 16, на большом val, взяв первые 219 коммитов)
- 15 эпох - 8.76 (batch size = 16, на большом val, взяв первые 219 коммитов)
- 15 эпох - 4.52 (batch size = 16, на большом val)
- 5 эпох - 4.94 (batch size = 1, на большом val, взяв первые 219 коммитов)
- 14 эпох - 10.09 (batch size = 1, на большом val, взяв первые 219 коммитов)
- 14 эпох - 4.88 (batch size = 1, на большом val)
- на модели, обученной на маленьком датасете, прогнать val большого
- 12 эпоха
- маленький val = 15.61
- большой val = 6.05
- большой val (взяли первые 300 коммитов) = 13.80
- на модели, обученной на большом датасете, прогнать val маленького
- 7 эпоха
- маленький val = 13.69
- большой val = 7.01
- большой val (взяли первые 300 коммитов) = 12.58
- сваливаемся в локальным экстремум, нужно подобрать скорость обучения
- нужен больший batch size (кажется, одно и то же с предыдущим)
from gcm.
Гипотезы Поварова:
- давайте разрежем данные по количеству измененных функций и будем обучаться для каждого из такого случаев отдельно (подробности здесь #13)
from gcm.
Гипотезы Брыксина:
- нужна глобальная проверка на некотором рандомном множестве репозиториев
- apache/hadoop
точность - 3.8
там надо убрать "contributed by" в каждом коммите и проверить еще раз - apache/dubbo
- еще репозитории
- apache/hadoop
- внимательно смотреть на данные, потому что может быть мусор
немного перекликается с гипотезой Поварова (если большие коммиты плохие, то будем считать их мусором и не работать с ними)
- придумать способ оценки качества коммитов и брать коммиты только с высоким качеством (:woman-shrugging: как)
from gcm.
Related Issues (20)
- [dataset] анализ сообщений HOT 3
- [baseline] naive HOT 1
- [articles] metrics table HOT 3
- [baseline] naive message generation based on gumtree diff HOT 3
- [baseline] naive bayes HOT 4
- [baseline] code2seq HOT 1
- [code2seq] train on method diff until reasonable BLEU @natalymr
- [code2seq] add rnn in training pipeline HOT 1
- [merge messages] HOT 4
- [code2seq] new dataset HOT 5
- [code2seq] commits with 1, 2, 3 etc changed functions HOT 2
- [scores] оценить качество данных - ранжирующая функция HOT 6
- [NMT] do not forget about this article HOT 6
- [scores] хватит смотреть в один bleu score, надо что-нибудь визуализировать, чтобы лучше понимать, что происходит HOT 2
- [dataset] гипотезы HOT 2
- [seim] выступление HOT 2
- [diploma] Текст диплома HOT 2
- [nmt-2.0] HOT 8
- [code2seq] 2 inputs HOT 2
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from gcm.