스펙트럼 클러스터링의 맥락에서 친 화성 매트릭스 고유 벡터와 그래프 라플라시안 고유 벡터의 차이점은 무엇입니까?

On 1월 31, 2021 by admin

스펙트럼 클러스터링에서는 고유 벡터 문제를 해결하는 것이 표준 관행입니다.

$$ L v = \ lambda v $$

여기서 $ L $는 그래프 Laplacian이고, $ v $는 고유 값 $ \ lambda $와 관련된 고유 벡터입니다.

제 질문 : 왜 그래프 Laplacian을 사용합니까? 그래프 (친화도 행렬) 자체에 대한 고유 벡터 문제를 풀기 만하면됩니다. 이 비디오에서 그 사람이 한 것처럼 ?

PS : 저는 이 같은 질문 이 더 적절한 채널이라고 생각합니다. 제가 틀렸다면 용서 해주세요.

Answer

개념은 동일하지만 데이터 유형에 따라 혼란스러워집니다. Spectral Clustering as Ng et al. explain은 표준 데이터 클러스터링에 관한 것이며 Laplacian 행렬은 대수 그래프 이론에서 사용되는 그래프 파생 행렬입니다.

요점은 객체의 유사성을 이 매트릭스는 스펙트럼 클러스터링에 사용될 수 있습니다.

표준 데이터 (예 : 샘플-특징 매트릭스)가있는 경우 근접성 또는 친 화성 또는 매트릭스라고 부르고 싶은 모든 항목을 찾아 스펙트럼을 적용 할 수 있습니다. 클러스터링.

그래프가있는 경우이 선호도는 인접 행렬, 거리 행렬 또는 Laplacialn 행렬과 같은 것이 될 수 있으며 이러한 행렬에 대한 고유 함수를 풀면 해당 결과를 얻을 수 있습니다.

라플라시안을 사용하는 것보다는 djacency는 소위 선호도 행렬을 양의 반 정확하게 유지하는 것입니다 (그리고 정규화 된 라플라시안 행렬은 0과 2 사이의 정규화 된 고유 값을 제공하고 그래프의 구조를 훨씬 더 잘 보여주기 때문에 더 나은 선택입니다).

간단히 말해서 데이터의 친 화성을 포함하는 행렬이있는 한 일반적으로 스펙트럼 클러스터링을 사용할 수 있습니다. 차이점은 세부 사항에 있습니다 (방금 언급 한 정규화 된 Laplacian의 속성)

예, 제 생각에는 ' 조금 혼란 스럽습니다. ' 아직 명확하지 않습니다. 표준 데이터 (친 화성 관련 없음)가있는 경우 데이터 샘플 간의 쌍별 거리를 사용하여이를 선호도 행렬 A로 만들 수 있습니다. 이제 A를 그래프로 보면 라플라시안을 취하고 고유 벡터를 풀고 해를 얻을 수 있습니다. A가 그래프로 표시되지 않으면 ' 행렬 고유 벡터 (PCA)를 간단히 풀고 해를 얻을 수 있습니다. ' 차이점은 무엇입니까?
질문을 다시 읽었습니다. 대답은 속성 (예 : 내 대답에서 언급 한 것)입니다. 라플라시안 행렬은 더 나은 분해를 제공합니다. 그러나 당신은 절대적으로 유사성 관련 행렬에 대해 고유 함수를 단독으로 사용할 수 있으며 세부 사항이 다른 일부 결과를 얻을 수 있습니다. 예를 들어 언급 한 PCA에 대한 예 : PCA는 공분산 행렬을 사용하여 분산이 높은 곳을 캡처하지만 일반적으로 개념은 다른 스펙트럼 분해 기술과 동일한 방향을 따릅니다. ' " 토요일 밤 " 문장을 보는 즉시 제 답변을 교정하겠습니다. )