鲁大师AI Mark 知识小贴士

超分辨率 / 背景虚化

PSNR:

峰值信噪比(英语:Peak signal-to-noise ratio,常缩 写为PSNR)是一个表示讯号最大可能功率和影响它的表示精度的破坏性噪声功率的比值的工程术语。

PSNR接近50dB,代表压缩后的图像仅有些许非常小的误差。
PSNR大于30dB,人眼很难察觉压缩后和原始影像的差异。
PSNR介于20dB到30dB之间,人眼就可以察觉出图像的差异。

SSIM:

结构相似性指标(英文:structural similarity index SSIM index)是一种用以衡量两张数位影像相似程度的指标。结构相似性指标的范围为0到1。当衡量的两个信号完全相同时,结构相似性指标的值为1。

物体识别

TOP1: (80%)

模型输出与图片的标准分类一模一样的百分比。

TOP5: (80%)

模型输出的最高的5种可能包含图片标准分类的百分比。

阅读理解

EM:Exact Match 表示预测答案和真实答案完全匹配 例子:

predict true
我爱你中国 == 我爱你中国
我爱中国 != 我爱你中国

F1:预测与真实的重合度例子:
predict true
我爱中国大地,我爱你中国
step1:计算预测与真实答案的交集,记为交集:我爱中国
step2:计算交集与预测的重合度,记为预测重合度:我爱中国 / 我爱中国大地 = 4/6
step3:计算交集与真实答案的重合度,记为真实答案重合度 = 我爱中国 / 我爱你中国 = 4/5

F1 = 2 * (预测的重合度 * 真实答案重合度) / (预测的重合度 + 真实答案重合度) = (2 * (4/6 * 4/5) )/ (4/6 + 4/5) = 8/11

人脸识别

TAR 是人脸识别中比较常见的指标,用来表示将同一个人的多张照片正确判断成同一个人的比例。例如:我们让小明拍摄 100 张照片,然后看看最终人脸识别的结果能不能认出这 100 张照片都是小明,如果有 98 张能判断成小明,则我们认为 TAR 就是 98%。

TAR 是一个精度指标,TAR 的值越大越好,越大表示 模型在此设备上提取面部特征越精准。

TAR 通常和 FAR(False Accept Rate)一起使用,否则没有意义。FAR 的定义是:比较不同人的照片,将他们错认为同一个人的比例,FAR 值越小越好。在 AIMARK 中我们的 FAR 固定控制在 0.001(即:百分之 0.1),科学表达方式是:TAR=0.98 @ FAR=0.001

速度指标

PPS 是一个速度指标,PPS 的值越大越好,越大表示模型在此设备上跑的越快,物理意义是一秒钟模型能计算完全多少个输入。

例子:
在整个测试过程结束后,假如程序将得知平均提取每张照片需要 2.6 毫秒,而 1 秒钟等于 1000 毫秒,则每秒钟处理数等于 1000 / 2.6 = 384.61538462。呈现时截取小数点后两位,记录为 384.61 PPS