大佬又来打扰了，有个关于precision, recall的问题想请教下。目前metis的特征都是比较通用的，我们根据自己的业务去设计特征时是可以较好的提升模型效

关于评价指标的问题 about metis HOT 5 CLOSED

tencent commented on May 22, 2024

关于评价指标的问题

from metis.

Comments (5)

zr9558 commented on May 22, 2024

可以先收集数据集，并且把训练数据和测试数据分开。每次训练完之后都用测试数据看一下 recall 和 precision，选择最好的一个模型和一组参数就可以了。一般来说，recall 和 precision 可以满足大部分场景。

from metis.

zkybs commented on May 22, 2024

可以先收集数据集，并且把训练数据和测试数据分开。每次训练完之后都用测试数据看一下 recall 和 precision，选择最好的一个模型和一组参数就可以了。一般来说，recall 和 precision 可以满足大部分场景。

试验了很多， recall 和 precision 确实最直观的反映效果，但是 recall 和 precision 是会受阈值影响的，你们是一开始就固定使用 0.85 的阈值，然后后面都不变阈值？

from metis.

zr9558 commented on May 22, 2024

可以先收集数据集，并且把训练数据和测试数据分开。每次训练完之后都用测试数据看一下 recall 和 precision，选择最好的一个模型和一组参数就可以了。一般来说，recall 和 precision 可以满足大部分场景。

试验了很多， recall 和 precision 确实最直观的反映效果，但是 recall 和 precision 是会受阈值影响的，你们是一开始就固定使用 0.85 的阈值，然后后面都不变阈值？

阈值会随着模型，数据集，recall 和 precision 的效果而改变。

from metis.

zkybs commented on May 22, 2024

可以先收集数据集，并且把训练数据和测试数据分开。每次训练完之后都用测试数据看一下 recall 和 precision，选择最好的一个模型和一组参数就可以了。一般来说，recall 和 precision 可以满足大部分场景。

试验了很多， recall 和 precision 确实最直观的反映效果，但是 recall 和 precision 是会受阈值影响的，你们是一开始就固定使用 0.85 的阈值，然后后面都不变阈值？

阈值会随着模型，数据集，recall 和 precision 的效果而改变。

阈值会影响recall，precision，最纠结的地方在于，通过搜索你可以选择一个比较好的阈值，但是会存在这么一个现象：
某个样本集参数下，正常样本的score噪声比较多且比较大（越大越异常），虽然能找到某一个阈值是好于其他模型的，但其不稳定性也很高，会容易因为一些波动而误报；相较于另一个模型，即使结果稍差，但其区分度是比较明显的。

所以我认为直接去找到一个最好的阈值在模型调优时并不合适，我们初步的方案也是借鉴了你们的上线标准，满足上线标准时根据F1寻找最优阈值。在模型调优进行比较时（判断某次修改是否有效），固定两个阈值分别统计recall, precision（两个阈值确保正常样本和异常样本有一定的区分间隙），都满足上线标准时，就看F1。
总结一下，就是固定两个阈值来调优模型，满足上线标准就说明可以用了，后面的选择就不那么重要了，F1还是其他的都可以。

现在问题是这种评价方式是我们自己想出来的，不知道有没有别的问题，所以听听你们的建议

from metis.

zr9558 commented on May 22, 2024

可以先收集数据集，并且把训练数据和测试数据分开。每次训练完之后都用测试数据看一下 recall 和 precision，选择最好的一个模型和一组参数就可以了。一般来说，recall 和 precision 可以满足大部分场景。

试验了很多， recall 和 precision 确实最直观的反映效果，但是 recall 和 precision 是会受阈值影响的，你们是一开始就固定使用 0.85 的阈值，然后后面都不变阈值？

阈值会随着模型，数据集，recall 和 precision 的效果而改变。

阈值会影响recall，precision，最纠结的地方在于，通过搜索你可以选择一个比较好的阈值，但是会存在这么一个现象：
某个样本集参数下，正常样本的score噪声比较多且比较大（越大越异常），虽然能找到某一个阈值是好于其他模型的，但其不稳定性也很高，会容易因为一些波动而误报；相较于另一个模型，即使结果稍差，但其区分度是比较明显的。

所以我认为直接去找到一个最好的阈值在模型调优时并不合适，我们初步的方案也是借鉴了你们的上线标准，满足上线标准时根据F1寻找最优阈值。在模型调优进行比较时（判断某次修改是否有效），固定两个阈值分别统计recall, precision（两个阈值确保正常样本和异常样本有一定的区分间隙），都满足上线标准时，就看F1。
总结一下，就是固定两个阈值来调优模型，满足上线标准就说明可以用了，后面的选择就不那么重要了，F1还是其他的都可以。

现在问题是这种评价方式是我们自己想出来的，不知道有没有别的问题，所以听听你们的建议

基本上我们的思路是差不多的~~~

from metis.

关于评价指标的问题 about metis HOT 5 CLOSED

Comments (5)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent