几种距离计算方法

2024-05-02 19:57

1. 几种距离计算方法

 本次记录:   1、闵可夫斯基距离   2、马氏距离   3、内积   4、汉明距离   5、杰卡德距离   6、编辑距离   7、KL散度距离
   假设数值点P和Q的坐标如下:   
                                                                                   
                                           当p趋近于无穷大时,闵可夫斯基距离转化为契比雪夫距离,即:
                                           下图展示了随着p值的变动,其距离表达式的几何意义:
                                           闵可夫斯基距离比较直观,但是它与数据分布无关,因此具有一定的局限性,如果x方向的幅值远远大于y方向的值,这个距离公式就会过度放大x维度的作用。所以,在计算距离之前,我们还需要对数据进行z-transform处理,即减去均值,除以标准差:
                                           上述计算距离建立在各个维度互不相关的前提下,如果维度之间的数据相关,例如身高和体重的两个数据维度之间是有很大的关联的,这个时候就要用到马氏距离。
                                           对于上面这幅等高线图来说,如果用欧氏距离计算的话,绿黑距离大于红黑距离,但是马氏距离恰恰相反。
   马氏距离实际上是利用 Cholesky transformation 来消除不同维度之间的相关性和尺度不同的性质。
   假设样本点p为:
                                           数据集分布的均值为:
                                           协方差矩阵为:  
   则样本点p与数据集合的马氏距离为:
                                           马氏距离也可以衡量同一分布的样本x和y的相似性:
                                           其实当样本协方差矩阵是个单位矩阵时,也就是样本各个维度的方差为1,马氏距离与欧氏距离等价,那么也就可以将马氏距离看作是标准化了的欧氏距离。
   ○ 在判断一个样本是否属于一个集合时,首先计算这个集合的中心点,也就是计算这个集合中全部样本向量的均值,然后求出该点到中心点的距离,但是这样计算出的距离会存在一个问题,也就是:某些集合的跨度较大,原本应该属于该集合的样本可能因为距离其他集合中心点近而被误分,这也就是量纲带来的影响!
   ○马氏距离为了消除量纲,上面求出的样本点距集合中心的距离再除以一个尺度因子,也就是样本的标准差,而方差刚好是协方差矩阵的对角线,那么马氏距离便可以表示为上面的式子了,因为这里除的方差,而我们想要除以标准差,因此需要开根号。
   
                                                                                   
   有时候皮尔逊相关系数也直接叫相关系数,计算方式是协方差除以两个变量的标准差,相关系数衡量的是俩个随机变量的相关程度。   
                                           
   由于皮尔逊系数具有的良好性质,在各个领域都应用广泛,例如,在推荐系统根据为某一用户查找喜好相似的用户,进而提供推荐,优点是可以不受每个用户评分标准不同和观看影片数量不一样的影响。
   汉明距离特指 相同长度 的两字符串的编辑距离(实际编辑距离不一定是同长度的):   
                                           
   有些场景下特定的数值并不能代表什么,例如有一个电影库,用 1 表示用户看过电影,0表示用户没看过,那么对于电影库中的电影就可以用01组成一个序列,考虑到电影基础很大,用户毕竟看过的电影是相对很少的,因此共同没看过的电影不一定能反应两用户爱好相似,但是看过同一部电影则一定程度上可以反映相似,因此在这个例子中,等于1的权重应该远大于0的权重,因此引出了杰卡德系数:
                                           用 M11 表示两个用户都看过的电影数目,M10 表示用户 A 看过,用户 B 没看过的电影数目,M01 表示用户 A 没看过,用户 B 看过的电影数目,M00 表示两个用户都没有看过的电影数目。
   汉明距离特指同长度字符串的距离,而编辑距离是可以允许增删的,衡量不同长度的字符串距离。
   同时,编辑距离作为一道基础的动归题目,秋招过程也是被问了好几次,包括百度和头条。
   前面我们谈论的都是两个数值点之间的距离,实际上两个概率分布之间的距离是可以测量的。在统计学里面经常需要测量两组样本分布之间的距离,进而判断出它们是否出自同一个 population,常见的方法有卡方检验(Chi-Square)和 KL 散度( KL-Divergence)。
   熵的大小与字符平均最短编码长度是一样的(shannon)。
   设有一个未知的分布 p(x), 而 q(x) 是我们所获得的一个对 p(x) 的近似,按照 q(x) 对该随机变量的各个值进行编码,平均长度比按照真实分布的 p(x) 进行编码要额外长一些,多出来的长度这就是 KL 散度(之所以不说距离,是因为不满足对称性和三角形法则),即:

几种距离计算方法

2. 距离的计算

通常使用距离来衡量两个对象之间的相异度,即定义单元间的距离。选择不同的距离,聚类结果会有所差异。目前,并没有明确的原则或理论为基础来选择标准化方法和相似性度量的方法。在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进行聚类。经比较分析,本书选择欧氏距离平方法。

3. 计算距离

A是焦点,准线是x=3,P到A的距离等于P到准线距离,
P到A,B距离之和就是P到准线距离以及到B距离之和,画图可以看出最短距离是B到准线的那个垂线段,P点是抛物线和这个垂线段的交点。
这个垂线段的长度等于3-(2)=5即为所有。

计算距离

4. 距离计算

2分15秒=135秒=135/3600=3/80小时
120公里=120000米
所以隧道长=120000*3/80=4500米

5. 距离计算

答:

因为:AD=AB=R
根据余弦定理有:
BD^2=AB^2+AD^2-2AB*AD*cos∠BAD
BD^2=2R^2-2(R^2)*cos∠BAD
BD=√2R√(1-cos∠BAD)
同理可求得:
BC=√2R√(1-cos∠BAC)
CD=√2R√(1-cos∠CAD)

距离计算

6. 两点间距离的计算方法是什么?

可以使用两点间距离公式来求:设两个点A、B以及坐标分别为x1,y1、x2,y2,则A和B两点之间的距离为:

两点间距离公式常用于函数图形内求两点之间距离、求点的坐标的基本公式,是距离公式之一。两点间距离公式叙述了点和点之间距离的关系。
扩展资料
两点之间距离公式推导过程
已知AB两点坐标为A(x1,y1) B(x2,y2)。
过A做一直线与X轴平行,过B做一直线与Y轴平行,两直线交点为C。
则AC垂直于BC(因为X轴垂直于Y轴)
则三角形ACB为直角三角形由勾股定理得
AB^2=AC^2+BC^2
故AB=根号下AC^2+BC^2,即两点间距离公式 。
参考资料来源:百度百科——两点间距离公式

7. 计算两点间距离


计算两点间距离

8. 两点之间的距离计算公式