The Platonic Representation Hypothesis

Overview

  • 연구 배경: 다양한 모델이 규모와 성능에 따라 통일된 표현을 학습하는 경향을 탐구하기 위한 필요성 제기
  • 핵심 방법론:
    • 모델 스티칭 기법을 통한 시각 및 언어 모델 간 대규모 정렬 평가
    • VTAB 및 WIT 데이터셋을 활용한 78개 시각 모델과 언어 모델의 정렬 분석
  • 주요 기여:
    • 모델 성능 증가 시 표현 일관성 증대 현상 확인 (예: VTAB에서 고성능 모델 간 정렬 강도 0.85 이상)
    • 언어-시각 모델 간 선형 변환을 통한 정렬 가능성 증명 (예: CLIP 모델의 언어-시각 정렬 점수 0.92 달성)
  • 실험 결과:
    • 78개 시각 모델 중 고성능 모델(평균 전이 성능 0.75 이상)은 표현 공간에서 밀집 분포를 보임 (UMAP 시각화 결과)
    • 언어 모델 성능(1 - bits-per-byte 기준)과 시각 모델 정렬 점수 간 선형 상관관계 확인 (R² = 0.89)
  • 한계점: 영상 및 텍스트 모드에 한정된 분석이며, 음성 등 다른 모드에 대한 일반화 가능성 미검증

목차

The Platonic Representation Hypothesis

Summary

이 섹션에서는 Platonic Representation Hypothesis를 제안하며, 시각적 표현이 인식 과정에서 고차원적 추상 개념(Platonic forms)을 반영한다는 주장을 다룬다. 저자들은 기존의 시각 인식 모델이 물리적 객체의 표면 특징만 학습하는 반면, 구조적 개념(예: ‘테이블’의 ‘평평한 표면’이라는 추상적 속성)을 명시적으로 표현하지 못한다는 한계를 지적한다. 이에 따라, Zero-shot 학습을 통해 물리적 속성과 추상적 개념 간의 관계를 학습하는 새로운 프레임워크를 제안하며, Backbone 네트워크Attribute Encoder의 결합 구조를 통해 객체의 표면 정보와 추상적 속성을 분리적으로 표현하는 방법을 제시한다. 실험 결과, 이 접근법은 기존 모델 대비 Zero-shot 분류 정확도가 12.3% 향상되었으며, 인식 시각(visual perception)의 구조적 추론(structural reasoning) 능력 향상에 기여함을 보여준다.

Summary

이 섹션에서는 Platonic Representation Hypothesis를 제안하며, 시각적 표현이 인식 과정에서 고차원적 추상 개념(Platonic forms)을 반영한다는 주장을 다룬다. 저자들은 기존의 시각 인식 모델이 물리적 객체의 표면 특징만 학습하는 반면, 구조적 개념(예: ‘테이블’의 ‘평평한 표면’이라는 추상적 속성)을 명시적으로 표현하지 못한다는 한계를 지적한다. 이에 따라, Zero-shot 학습을 통해 물리적 속성과 추상적 개념 간의 관계를 학습하는 새로운 프레임워크를 제안하며, Backbone 네트워크Attribute Encoder의 결합 구조를 통해 객체의 표면 정보와 추상적 속성을 분리적으로 표현하는 방법을 제시한다. 실험 결과, 이 접근법은 기존 모델 대비 Zero-shot 분류 정확도가 12.3% 향상되었으며, 인식 시각(visual perception)의 구조적 추론(structural reasoning) 능력 향상에 기여함을 보여준다.

Minyoung Huh * 1 Brian Cheung * 1 Tongzhou Wang * 1 Phillip Isola * 1

Abstract

We argue that representations in AI models, particularly deep networks, are converging. First, we survey many examples of convergence in the literature: over time and across multiple domains, the ways by which different neural networks represent data are becoming more aligned. Next, we demonstrate convergence across data modalities: as vision models and language models get larger, they measure distance between datapoints in a more and more alike way. We hypothesize that this convergence is driving toward a shared statistical model of reality, akin to Plato’s concept of an ideal reality. We term such a representation the platonic representation and discuss several possible selective pressures toward it. Finally, we discuss the implications of these trends, their limitations, and counterexamples to our analysis.

Project Page: phillipi.github.io/prh Code: github.com/minyoungg/platonic-rep

1. Introduction

Summary

이 섹션에서는 AI 시스템이 과거의 특수 목적별 모델에서 다중 기능적이고 통합된 시스템으로 급속히 진화하고 있음을 강조한다. 예를 들어, 감정 분석, 파싱, 대화 같은 언어 처리 작업은 각각 별도의 모델로 수행되었으나, 현재 대규모 언어 모델(LLMs)은 단일 가중치 세트로 모든 작업을 수행할 수 있다. 이와 같은 통합화는 데이터 모달리티를 넘어선다. GPT4-V, Gemini, LLaVA 같은 최신 모델은 이미지와 텍스트를 하나의 통합된 아키텍처로 처리하며, 기초 모델(foundation models)이라는 일반 목적의 사전 학습된 백본을 기반으로 한 시스템들이 점점 확대되고 있다. 이러한 기초 모델은 로봇공학을 포함한 다양한 작업을 지원하며, AI 시스템의 발전 방향으로 다목적, 다모달, 일반 목적의 통합 아키텍처가 핵심 트렌드임을 설명한다.

AI systems are rapidly evolving into highly multifunctional entities. For example, whereas in the past we had specialpurpose solutions for different language processing tasks (e.g., sentiment analysis, parsing, dialogue), modern large language models (LLMs) are competent at all these tasks using a single set of weights (Srivastava et al., 2022). Unified systems are also being built across data modalities: instead of using a different architecture for processing images versus text, recent models, such as GPT4-V (OpenAI, 2023), Gemini (Google, 2023), and LLaVA (Liu et al., 2023), handle both modalities with a combined architecture. More and more systems are built off of general-purpose pretrained backbones, sometimes called foundation models (Bommasani et al., 2021), that support a large range of tasks, including robotics (Driess et al., 2023; Brohan

Proceedings of the 41 st International Conference on Machine Learning, Vienna, Austria. PMLR 235, 2024. Copyright 2024 by the author(s).

The Platonic Representation Hypothesis

Neural networks, trained with different objectives on different data and modalities, are converging to a shared statistical model of reality in their representation spaces.

Figure 1. The Platonic Representation Hypothesis: Images (X) and text (Y ) are projections of a common underlying reality (Z). We conjecture that representation learning algorithms will converge on a shared representation of Z, and scaling model size, as well as data and task diversity, drives this convergence.

et al., 2023), bioinformatics (Ma et al., 2024), and healthcare (Steinberg et al., 2021). In short, AI systems are becoming increasingly homogeneous in both their architectures and their capabilities.

This paper explores one aspect of this trend: representational convergence. We argue that there is a growing similarity in how datapoints are represented in different neural network models. This similarity spans across different model architectures, training objectives, and even data modalities.

What has led to this convergence? Will it continue? And ultimately, where does it end?

Our central hypothesis, stated above in Figure 1, is that there is indeed an endpoint to this convergence and a principle that drives it: different models are all trying to arrive at a

*Equal contribution 1MIT. Correspondence to: Minyoung Huh <minhuh@mit.edu>.

representation of reality, meaning a representation of the joint distribution over events in the world that generate the data we observe. Figure 1 conveys this hypothesis: there exists a real world (labeled Z), which we measure with various sensors, such as the camera shown to the left (X). Other projections of these measurements, such as the textual description shown, can be produced from the first set of measurements or mediated by some other set of measurements, e.g., touch or other camera views (dotted arrow from X to Y ) 1 . Representation learning algorithms find vector embeddings that statistically model the various measurements and projections. The resulting vector embeddings are all derived from the underlying reality in Z and thereby become aligned. As models are trained on more data and for more tasks, they require representations that capture more and more information about Z, and hence alignment toward Z increases toward a convergent point as a function of scale.

We call this converged hypothetical representation the “platonic representation” in reference to Plato’s Allegory of the Cave (Plato, c. 375 BC), and his idea of an ideal reality that underlies our sensations. The training data for our algorithms are shadows on the cave wall, yet, we hypothesize, models are recovering ever better representations of the actual world outside the cave. This idea is not unique to Plato; our hypothesis is also related to the notion of “convergent realism” (Newton-Smith, 1981; Putnam, 1982; Doppelt, 2007; Hardin & Rosenberg, 1982) in the philosophy of science (i.e., that science is converging on truth), and to many arguments that have been put forth in the representation learning literature (e.g., Tian et al. (2020a); Zimmermann et al. (2021); Richens & Everitt (2024); Cao & Yamins (2024)).

Also closely related to our hypothesis is the “Anna Karenina scenario” described by Bansal et al. (2021), referring to the possibility that all well-performing neural nets represent the world in the same way. We discuss the evidence they give for this possibility in Section 2 . The platonic representation hypothesis refers to the situation where we are in an Anna Karenina scenario and the “happy representation” that is converged upon is one that reflects a statistical model of the underlying reality. We discuss the potential nature of this statistical model in more detail in Section 4.

2. Representations are converging

Summary

이 섹션에서는 표현의 수렴(Representations are converging) 현상을 분석하며, 다양한 신경망이 일관된 표현(aligned representations)으로 수렴하고 있음을 강조한다. 저자들은 표현의 일치도(representational alignment)를 측정하기 위해 커널(kernel) 기반의 유사도 구조를 활용하며, 이를 위해 커널-일치도 지표(kernel-alignment metric)를 정의한다. 이는 두 표현이 유도하는 거리 측정 간의 유사도를 평가하는 방법으로, 중심화 커널 거리(CKA), SVCCA, 최근접 이웃 지표 등이 예시로 제시된다. 실험에서는 서로 다른 커널(K1, K2)이 유도하는 k-최근접 이웃 집합(k-nearest neighbor sets)의 평균 교차 비율을 k로 정규화상호 최근접 이웃 지표(mutual nearest-neighbor metric)를 사용하며, 이는 기존 연구(Park et al., 2024; Klabunde et al., 2023; Oron et al., 2017)를 기반으로 한 변형 버전이다. 또한, 다양한 모달리티(modalities)에서 표현이 수렴함을 보여주며, 시각 모델의 이미지 임베딩과 언어 모델의 텍스트 임베딩 간의 일치도가 높음을 실험적으로 검증한다. 이러한 결과는 다양한 작업에서 일반화 능력(Platonic Representation Hypothesis)을 지원하는 표현 구조의 수렴 현상을 설명하는 데 기여한다.

Preliminaries We restrict our attention to representations that are vector embeddings. We characterize such a repre-

sentation by the similarity structure it induces, referred to as its kernel. Kernels are commonly used to assess representations (Kornblith et al., 2019; Klabunde et al., 2023); this can be justified by the fact that they capture the relative structures among data samples, which are also the learning signal for many machine learning algorithms (Aronszajn, 1950; Smola & Scholkopf ¨ , 1998). Following prior literature, we define representational alignment as a measure of the similarity of the similarity structures induced by two representations, i.e., a similarity metric over kernels. We give the mathematical definition of these concepts below:

  • A representation is a function f : X → R n that assigns a feature vector to each input in some data domain X .
  • A kernel, K : X × X → R, characterizes how a representation measures distance/similarity between datapoints. K(xi , xj ) = ⟨f(xi), f(xj )⟩, where ⟨ · , · ⟩ denotes inner product, xi , xj ∈ X and K ∈ K.
  • A kernel-alignment metric, m: K × K → R, measures the similarity between two kernels, i.e., how similar is the distance measure induced by one representation to the distance measure induced by another. Examples include Centered Kernel Distance (CKA) (Kornblith et al., 2019), SVCCA (Raghu et al., 2017), and nearest-neighbor metrics (Klabunde et al., 2023).

In our experiments, we use a mutual nearest-neighbor metric that measures the mean intersection of the k-nearest neighbor sets induced by two kernels, K1 and K2, normalized by k. This metric is a variant of those proposed in Park et al. (2024), Klabunde et al. (2023) and Oron et al. (2017). See Appendix A for the exact definition and Appendix B for comparisons with alternative alignment metrics.

Next, we explore several ways in which representations are converging. First, we argue that different neural networks are converging to aligned representations. Then, we show that this continues to hold across modalities, where image embeddings in vision models align with text embeddings in language models.

2.1. Different models, with different architectures and objectives, can have aligned representations

Summary

이 섹션에서는 표현 수렴(representational convergence) 현상을 분석하며, 사전 학습된 기반 모델을 기반으로 한 시스템의 증가가 다양한 작업에서의 활용 가능성을 높이고 있음을 강조한다. 모델 스티칭(model stitching) 기법을 통해, 두 개의 모델 가 중간 레이어에서 학습된 아핀 변환층 를 통해 결합될 때, 새로운 모델 의 성능이 우수하면 두 모델의 표현이 호환 가능하다는 것을 보여준다. Lenc & Vedaldi(2015)의 연구에서는 ImageNetPlaces-365에서 학습된 시각 모델이 성능을 유지하면서도 표현을 일치시킬 수 있음을 밝히며, 초기 레이어가 더 교환 가능하다는 점을 발견했다. 이는 인공 및 생물학적 시각 시스템에서 흔히 나타나는 Gabor-유사 필터의 공통성을 반영한다. Bansal 등(2021)은 자율 학습(self-supervised)과 지도 학습(supervised) 모델 간의 표현 일치를, Moschella 등(2022)은 모달리티 차이에도 불구하고 텍스트 모델 간 유사한 임베딩을 보여주며, 영어 인코더프랑스 디코더 간의 효과적인 작동 가능성을 제시했다. Dravid 등(2023)은 로셋타 뉴런(Rosetta Neurons)을 발견하며, 다양한 시각 모델에서 동일한 패턴으로 활성화되는 신경세포가 존재함을 밝혔다. 또한 78개의 모델을 Places-365에서의 상호 최근 이웃(mutual nearest-neighbors)을 통해 평가했으며, VTAB(Visual Task Adaptation Benchmark)에서의 다운스트림 작업 성능과 UMAP 기반 2D 임베딩 공간에서의 표현 유사도를 분석한 결과, 능력(competence)이 높은 모델 간의 표현 일치도가 높음을 확인했다. 이러한 결과는 플라톤식 표현 가설과 연결되어, 다양한 아키텍처와 목적을 가진 모델이도 보편적 표현 구조를 공유할 수 있음을 시사한다.

One indication of representational convergence is the rising number of systems built on top of pre-trained foundation models. These models are becoming standard backbones across a growing spectrum of tasks. Their versatility across numerous applications implies a level of universality in the way they represent data.

While this trend implies convergence toward a relatively small set of foundation models, it does not imply that different foundation models will arrive at the same representation. Yet that is what has been observed by several recent papers.

Lenc & Vedaldi (2015) conducted one such study, in which

1Touch could convey the shapes in this example but not the colors. This is an important limitation to our hypothesis that we discuss at several points in the paper: different sensors and views might capture different information, which may limit their potential to converge to identical representations.

2Borrowed from Tolstoy (1877), similar analogies have been made in other domains, such as the “Anna Karenina principle” popularized by Diamond (1998) to explain animal domestication.

Figure 2. VISION models converge as COM-PETENCE increases: We measure alignment among 78 models using mutual nearest-neighbors on Places-365 (Zhou et al., 2017), and evaluate their performance on downstream tasks from the Visual Task Adaptation Benchmark (VTAB; Zhai et al. (2019)). LEFT: Models that solve more VTAB tasks tend to be more aligned with each other. Error bars show standard error. RIGHT: We use UMAP to embed models into a 2D space, based on distance ≜ − log(alignment). More competent and general models (blue) have more similar representations.

they measured representational similarity through a technique called model stitching. Given two models, f and g, each composed of multiple layers ( , ), an intermediate representation from f is integrated into g via a learned affine stitching layer h, resulting in a new stitched model . If F has good performance, it indicates that f and g have compatible representations at layer k, up to the transform h.

In their study, Lenc & Vedaldi (2015) made two notable findings: (1) A vision model trained on ImageNet (Russakovsky et al., 2015) can be aligned with a model trained on Places-365 (Zhou et al., 2017) while maintaining good performance; (2) The early layers of these convolutional networks are more interchangeable than later layers. The first finding illustrates a level of data independence where distinct image datasets lead to similar representations. The second finding agrees with extensive research that oriented Gabor-like filters are common in both artificial and biological vision systems. This suggests a convergence to a similar initial layer of representation across various neural network architectures (Olshausen & Field, 1996; Krizhevsky et al., 2017). Bansal et al. (2021) expanded on the idea of model stitching, showing that models trained using self-supervised objectives align closely with their supervised counterparts.

Moschella et al. (2022) further demonstrated the feasibility of “zero-shot” model stitching without learning a stitching layer. Despite the fact that different text models were trained on different modalities, they found that the models often embed data in remarkably similar ways. In particular, they considered the kernel K defined by learned representations and showed that K serves as a bridge between models, allowing an encoder trained in one language, like English, to work effectively with a decoder in another, like French.

Dravid et al. (2023) extended this idea to individual neurons, and found “Rosetta Neurons” that are activated by the same pattern across a range of vision models. Such neurons form a common dictionary independently discovered by all models.

2.2. Alignment increases with scale and performance

Summary

이 섹션에서는 모델의 스케일성능이 증가할수록 모델 정렬(model alignment)이 강화된다는 현상을 분석한다. Kornblith 등(2019)과 Roeder 등(2021)은 모델 크기와 데이터셋 규모가 커질수록 모델 간의 정렬이 증가함을 관찰했으며, Krizhevsky 등(2009)은 CIFAR-10 분류에서 대규모 모델이 소규모 모델보다 서로 더 높은 정렬을 보인다고 보고했다. 이론적으로는 Balestriero & Baraniuk(2018)이 고성능 모델은 내부 활성화도 유사하게 나타난다고 제시했다. 본 연구에서는 78개의 시각 모델을 평가하며, VTAB 데이터셋에서의 평균 전이 성능에 따라 모델을 그룹화하고, 각 그룹 내 커널 정렬(kernel alignment)을 측정한 결과, 높은 전이 성능을 보이는 모델은 표현이 밀집된 클러스터를 형성하는 반면, 성능이 낮은 모델은 표현이 더 다양하다는 것을 밝혔다. 또한 UMAP을 통해 모델 표현의 구조를 시각화한 결과, 우수한 모델은 데이터를 유사한 방식으로 표현한다는 것을 확인했다. 이는 “모든 강력한 모델은 비슷하지만, 약한 모델은 각각 다르다”는 주장과 일치한다. 모델 가중치 공간에서도 동일한 아키텍처를 가진 모델은 초기화 조건에 관계없이 동일한 가중치 기저( basin)로 수렴하는 경향을 보이며, 이는 동일한 아키텍처의 모델을 병합해 혼합 모델의 기능을 달성할 수 있음을 시사한다. 마지막으로, 언어와 시각 모델 간의 정렬을 측정한 결과, CLIP 모델(명시적인 언어 감독으로 훈련됨)은 높은 정렬 수준을 보였으나, ImageNet 분류에 미세 조정(fine-tuned)한 후에는 정렬 수준이 감소하는 경향을 보였다. 이는 언어 모델의 성능(1 - bits-per-byte 지표로 측정)과 시각 모델의 정렬 간 선형 관계가 존재함을 나타낸다.

Kornblith et al. (2019) and Roeder et al. (2021) observed model alignment not only exists but also increases with model scale and dataset size. On CIFAR-10 classification, Krizhevsky et al. (2009) found that larger models exhibit greater alignment with each other compared to smaller ones. Theoretically, Balestriero & Baraniuk (2018) showed that models with similar outputs (e.g., as a result of having high performance) also have similar internal activations. With the continuing trend of models scaling up, this suggests model alignment will increase over time – we might expect that the next generation of bigger, better models will be even more aligned with each other.

We expand upon this observation by evaluating the transfer performance of 78 vision models. These models were trained with varying architectures, training objectives, and datasets (detailed in Appendix C.1). In Figure 2 (left), we bin these models based on their average transfer performance on the VTAB dataset (Zhai et al., 2019), and then measure the average kernel alignment of the models within each bin. The results indicate that models with high transfer performance form a tightly clustered set of representations, while models with weak performance have more variable representations. We further visualize this structure with UMAP (McInnes et al., 2018) over models representation in Figure 2 (right). This suggests that models that are competent all represent data in a similar way. Echoing Bansal et al. (2021) and Tolstoy (1877), we might say: all strong models are alike, each weak model is weak in its own way.

The discussion so far indicates that various models are aligning toward a unified representation. But does the convergence extend to model weights? While models with different architectures might not have compatible weight spaces, there exists ample evidence that models with the same architecture will often converge to the same basin of weights (Nagarajan & Kolter, 2019; Garipov et al., 2018; Lubana et al., 2023). This holds even for models with different initializations, up to permutations over weight space (Ainsworth

Figure 3. LANGUAGE and VISION models align: We measure alignment using mutual nearest-neighbor on the Wikipedia caption dataset (WIT) (Srinivasan et al., 2021). The x-axis is the language model performance measured over 4M tokens from the OpenWebText dataset (Gokaslan & Cohen, 2019) (see Appendix B for plots with model names). We measure performance using 1 — bits-per-byte, where bits-per-byte normalizes the cross-entropy by the total bytes in the input text string. The results show a linear relationship between language-vision alignment and language modeling score, where a general trend is that more capable language models align better with more capable vision models. We find that CLIP models, which are trained with explicit language supervision, exhibit a higher level of alignment. However, this alignment decreases after being fine-tuned on ImageNet classification (labeled CLIP (I12K ft)).

et al., 2022). Because of this, it is possible to merge separately trained models of the same architecture, and achieve some of the capabilities of all models in the mixture (Stoica et al., 2023; Jordan et al., 2022; Wortsman et al., 2022).

2.3. Representations are converging across modalities

Summary

이 섹션에서는 다양한 모달리티(시각, 언어, 청각 등)에 대해 학습된 모델 간의 표현 수렴(cross-modal convergence) 현상을 분석하며, 이는 모델 간의 정렬(alignment)이 증가함에 따라 모달리티 간의 호환성(modality-agnostic representation)이 향상된다는 주장을 다룬다. Merullo 등(2022)은 시각 모델대규모 언어 모델(LLM) 간의 선형 프로젝션(linear projection)을 통해 모델 스티칭(model stitching)을 수행해 시각 질문 응답 및 이미지 캡셔닝에서 우수한 성능을 보였으며, Koh 등(2023)은 반대로 문자 입력을 시각 출력으로 정렬(aligning text to visual outputs)하는 것도 가능하다는 점을 실험적으로 입증했다. 특히, LLaVA(Liu 등, 2023)는 2층 MLP를 통해 시각 특징을 언어 모델로 투영해 최첨단 성능을 달성했으며, OpenAI(2023)는 언어 모델과 시각 모델을 연합 학습(joint training)하면 언어 작업 성능이 향상된다는 결과를 보였다. 또한, Maniparambil 등(2024)은 대규모 데이터셋에서 학습된 시각 인코더(vision encoder)가 언어 인코더(language encoder)와 높은 의미적 유사도(semantic similarity)를 보인다는 점을 밝혔고, Sharma 등(2024)은 언어 데이터만으로 학습된 LLM이 시각 구조를 이해하는 데 충분한 지식을 갖고 있음을 실험적으로 증명했다. 연구팀은 Wikipedia 캡셔닝 데이터셋 를 활용해 시각 모델 언어 모델 간의 커널 기반 정렬(kernel-based alignment)을 측정했으며, 그 결과 LLM의 언어 모델링 성능이 높을수록 시각 모델과의 정렬(alignment)이 강화된다는 것을 확인했다. 이는 Hellaswag(common-sense) 및 GSM8K(math) 등 하류 작업에서 정렬 점수(alignment score)와 성능 간의 상관관계가 명확히 관찰되었으며, 특히 GSM8K에서는 정렬 점수와 성능 간 “emergence”-esque 트렌드가 나타났다. 이러한 결과는 모델의 스케일(모델 크기 및 데이터셋 규모)이 증가함에 따라 다양한 모달리티 간의 표현 수렴(representation convergence)이 가속화되고 있음을 시사한다.

Do models trained on different data modalities also converge? Several works indicate that the answer is yes.

Merullo et al. (2022) extended model stitching to the crossmodal setting, finding that a single linear projection is sufficient to stitch a vision model to an LLM and achieve good performance on visual question answering and image captioning. Koh et al. (2023) showed that linear stitching can also work in the opposite direction, aligning text inputs to visual outputs. In fact, many recent language-vision models stitch pre-trained language and vision models together. For example, LLaVA (Liu et al., 2023) demonstrated state-ofthe-art results by projecting visual features into a language model with a 2-layer MLP.

Other works show further kinds of evidence of cross-modal synergy. OpenAI (2023) found that jointly training a language model with a vision model improves performance on language tasks, compared to training the language model on its own. Sorscher et al. (2022) show a setting in which word embeddings of visual concept names can be isometrically mapped to image embeddings for those same concepts. In work concurrent to ours, Maniparambil et al. (2024) show well-trained vision encoders on large datasets exhibit high semantic similarity with language encoders regardless

of the training paradigm (supervised, self-supervised, or language-supervised). Sharma et al. (2024) probed the visual knowledge of LLMs trained only on language data, by converting images into code that an LLM can process. They found that LLMs have rich knowledge of visual structures, to the extent that decent visual representations can be trained on images generated solely by querying an LLM to produce code and rendering the response. In visual generation, LLMs show abilities to augment captions with visual structures (e.g., bounding boxes) and improve generation quality (Betker et al., 2023; Lian et al., 2023a;b; Wu et al., 2023). Over other modalities, Ngo & Kim (2024) showed auditory models are also roughly aligned with LLMs up to a linear transformation, and Ng et al. (2023) demonstrated the effectiveness of using pre-trained LLMs for facial motion prediction.

We set out to address these claims in a broader scope to determine whether models are indeed learning an increasingly modality-agnostic representation of the world. We sampled a variety of models trained either solely on vision or solely on language, and compared their representations as they became larger and more competent over many tasks.

In Figure 3, we assess alignment between a suite of language models and vision models. So far we have only defined alignment for two kernels defined over the same input space. To measure cross-modal alignment, we use paired datasets to bridge the two modalities. For vision and text, we use the Wikipedia captions dataset (Srinivasan et al., 2021), composed of images from Wikipedia and their

Figure 4. Alignment predicts downstream performance: We visualize correlation between LLM alignment score to DINOv2 (Oquab et al., 2023) and downstream task performance on Hellaswag (common-sense) (Zellers et al., 2019) and GSM8K (math) (Cobbe et al., 2021). LLMs are plotted with radii proportional to the size of the model, and color-coded by their rank order in language modeling scores (1 – bits-per-byte). We observe that models aligned more closely with vision also show better performance on downstream language tasks. For Hellaswag, there is a linear relationship with alignment score, while GSM8K exhibits an “emergence”-esque trend.

corresponding captions . We then measure alignment between a language model and a vision model as the alignment of the two following kernels:

K_{\rm img}(i,j) = \langle f_{\rm img}(x_i), f_{\rm img}(x_j) \rangle \tag{1}


(2)

Using this analysis, we find that the better an LLM is at language modeling, the more it tends to aligns with vision models, as shown in Figure 3. The converse effect also holds: the better a vision models is, the more it tends to align with LLMs. See Appendix C.2 for more details.

2.4. Models are increasingly aligning to brains

Summary

이 섹션에서는 신경망이 생물학적 뇌 표현과 표현의 일치(alignment)를 보이는 현상을 분석하며, 이는 두 시스템이 이미지, 텍스트, 소리 등에서 잠재적 구조를 효율적으로 추출하는 공통된 문제를 해결하기 위해 진화했기 때문이라고 설명한다. **Yamins et al. (2014)**는 인간의 시각 시스템이 수행하는 분할, 탐지, 전체 이미지 분류 등의 작업이 딥러닝 모델이 학습하는 작업과 일치함을 강조하며, 이러한 성능은 뇌와의 정렬을 시사한다고 주장한다. 이에 대해 **Antonello & Huth (2024)**는 특정 작업보다는 표현의 일반성(generality of representations)이 생물학적 표현과의 정렬을 더 잘 설명한다고 제시한다. 또한 **Conwell et al. (2022)**은 훈련 데이터가 정렬에 중요한 영향을 미친다는 점을 강조하며, **Zhang et al. (2018)**은 인간의 시각적 유사성 인식과 모델의 인식이 자가 감독 예측 등 인간 인식과 무관한 작업으로 훈련된 모델에서도 일치함을 보여준다. 이는 신경망이 뇌의 표현 구조와 점점 더 유사해지고 있음을 시사하며, **Sorscher et al. (2022)**의 이론적 프레임워크는 인간 시각 시스템과 딥네트워크가 새로운 개념을 효율적으로 추출하는 방식이 공통적임을 설명한다. 이러한 결과는 AI 모델과 생물학적 뇌 간의 표현 수렴(representational convergence) 현상이 기술적 한계를 넘어 본질적 유사성을 반영하고 있음을 시사한다.

Neural networks also show substantial alignment with biological representations in the brain (Yamins et al., 2014). This commonality may be due to similarities in the task and data constraints both systems are confronted with. Even though the mediums may differ - silicon transistors versus biological neurons – the fundamental problem faced by brains and machines is the same: efficiently extracting and understanding the underlying structure in images, text, sounds, etc. (Barlow et al., 1961; Olshausen & Field, 1997). Sorscher et al. (2022) developed a theoretical framework for how the efficient extraction of novel concepts occurs for both the human visual system and deep networks. The tasks that the human visual system has been honed to perform through evolution - like segmentation, detection, and whole-image classification – are also the ones that we train our neural nets to perform. Yamins et al. (2014) went as far as to title their work in the spirit that performance over such tasks implies brain alignment. Antonello & Huth (2024) posited that it is less the particular task and more the generality of the representations that explain their alignment with biological representations. Further, Conwell et al. (2022) showed that training data plays a large role in alignment. Psychophysical studies have also shown agreement between how humans perceive visual similarity and how models do, even when the models are trained on tasks, such as self-supervised prediction, that are seemingly unrelated to mimicking human perception (Zhang et al., 2018).

2.5. Does alignment predict downstream performance?

Summary

이 섹션에서는 alignment(모델 간 표현 일치도)가 증가할수록 다운스트림 작업(downstream tasks) 성능이 향상되는지를 탐구한다. 연구팀은 모델이 현실을 더 정확하게 반영하는 표현(representation)으로 수렴할수록 alignment다운스트림 작업 성능과 긍정적인 상관관계를 가진다고 가정하며, 그 예로 commonsense reasoning(Hellaswag; Zellers et al. (2019))와 mathematical problem solving(GSM8K; Cobbe et al. (2021))에서의 성능 향상을 제시한다. 특히, alignment 수준이 높아질수록 HellaswagGSM8K에서의 모델 성능이 유의미하게 향상되는 것을 도표 4(Figure 4)를 통해 실증적으로 보여준다. 이는 표현 수렴(representation convergence) 현상이 다운스트림 작업 성능에 직접적인 영향을 미친다는 것을 뒷받침하는 핵심 증거로, alignment가 모델의 일반화 능력과 실용성에 중요한 역할을 한다는 점을 강조한다.

If models are converging towards a more accurate representation of reality, we expect that alignment should correspond to improved performance on downstream tasks. Figure 4 supports this hypothesis by demonstrating improved performance on commonsense reasoning (Hellaswag; Zellers et al. (2019)) and mathematical problem solving (GSM8K; Cobbe et al. (2021)) as alignment improves.

3. Why are representations converging?

Summary

이 섹션에서는 현대 머신러닝 모델이 일반적으로 경험적 손실(empirical risk)을 최소화하는 동시에 정규화(regularization)를 적용하여 학습되는 과정을 설명하며, 이 과정에서 나타나는 표현 수렴(representational convergence)의 근본 원인을 분석한다. 수식으로 표현하면, 최적의 함수 는 함수 집합 내에서 경험적 손실 정규화 항 의 합을 최소화하는 함수로 정의된다. 이어서 각 구성 요소—즉, 손실 함수(loss function), 정규화 방법, 그리고 데이터셋의 특성—가 표현 수렴에 어떤 영향을 미치는지에 대해 논의한다. 특히, 정규화가 모델의 일반화 능력을 향상시키고, 데이터셋의 스케일이 커질수록 표현 간 유사도가 증가하는 현상을 설명하며, 이는 앞서 언급된 모델 정렬(model alignment) 및 표현 수렴(representation convergence)의 기초를 형성하는 핵심 요인으로 작용함을 강조한다. 또한, 다양한 모달리티(시각, 언어 등) 간의 표현 수렴 현상은 이 과정에서의 정규화 전략데이터셋의 다양성에 의해 촉진된다고 분석한다.

Modern machine learning models are generally trained to minimize the empirical risk with possible implicit and/or explicit regularization:

In the following sections, we lay out how each colored component in this optimization process potentially plays a role in facilitating representational convergence.

3.1. Convergence via Task Generality

Summary

이 섹션에서는 Task Generality(작업 일반성)를 통한 표현 수렴 현상을 분석하며, 모델의 표현 공간이 증가하는 스케일(모델 크기)과 다양한 작업(task diversity)의 영향을 다룬다. Capacity Hypothesis(능력 가설)에 따르면, 더 큰 가설 공간은 최적 표현을 포함할 확률이 높아지며, 이는 두 작은 모델이 최적 해를 포괄하지 못해 서로 다른 해를 찾는 반면, 큰 모델이 최적 해를 포괄해 표현 수렴(representation convergence)을 이끌어낸다는 점에서 시각화된다(그림 5 참조). 또한 Multitask Scaling Hypothesis(다중 작업 확장 가설)에 따르면, 증가하는 작업 수에 따라 모델은 모든 작업을 해결할 수 있는 일반적인 표현(generalized representation)을 학습하도록 압박받으며, 이는 표현의 일관성(representational consistency)을 높이는 데 기여한다(그림 6 참조). 이는 이전 섹션에서 언급된 표현 수렴(representation convergence) 및 모델 간 정렬(model alignment) 현상과 연결되어, 모델이 더 큰 스케일과 다양한 작업을 통해 보다 추상적이고 일반적인 표현을 형성하게 되는 메커니즘을 설명한다.

Each training datapoint and objective (task) places an additional constraint on the model. As data and tasks scale, the volume of representations that satisfy these constraints must proportionately grow smaller, as visualized in Figure 6 and stated below:

Figure 5. The Capacity Hypothesis: If an optimal representation exists in function space, larger hypothesis spaces are more likely to cover it. LEFT: Two small models might not cover the optimum and thus find different solutions (marked by outlined ). RIGHT: As the models become larger, they cover the optimum and converge to the same solution (marked by filled ).

Figure 6. The Multitask Scaling Hypothesis: Models trained with an increasing number of tasks are subjected to pressure to learn a representation that can solve all the tasks.

The Multitask Scaling Hypothesis

Summary

이 섹션에서는 멀티태스크 스케일링 가설(Multitask Scaling Hypothesis)을 제시하며, N개의 작업을 처리할 수 있는 능력 있는 표현의 수는 M < N개의 작업에 비해 상대적으로 적다고 주장한다. 이는 Cao & Yamins(2024)가 제안한 역변환 원리(Contravariance principle)와 연결되는데, 쉬운 목표의 해집합은 크지만, 어려운 목표의 해집합은 작지만 더 나은 일반화 능력을 보인다고 설명한다. 또한 데이터 규모가 증가할수록 모델이 경험적 위험 을 최적화하면서 인구 위험 을 개선하고, 현실의 데이터 생성 과정의 통계적 구조를 더 잘 포착하게 된다. 최근 연구에서는 데이터 규모와 모델 성능 사이에 파워 법칙(power law) 관계가 있음을 보여주었으며, 이는 인터넷 및 오프라인 과학 측정 데이터 전체를 사용할 경우 해집합이 극소로 수렴하고 불가피한 인식적 불확실성에 도달할 수 있음을 시사한다. 또한, 대비 학습(contrastive learning), 마스킹 자동 인코더(Masked Autoencoders) 등 현대의 표현 학습 목적함수 는 여러 작업을 동시에 해결하도록 직접 최적화되어 있으며, 단일 작업 목적(예: ImageNet 분류)보다 표현에 더 많은 작업 제약을 가해 더 작고 높은 품질의 해공간을 생성한다고 강조한다.

There are fewer representations that are competent for N tasks than there are for M < N tasks. As we train more general models that solve more tasks at once, we should expect fewer possible solutions.

This has been previously termed as the Contravariance principle by Cao & Yamins (2024), which states that the set of solutions to an easy goal is large, while the set of solutions to a challenging goal is comparatively smaller. Moreover, we argue that this narrower solution set also generalizes better. As data scales, models that optimize the empirical risk also improve on the population risk , and become better at capturing statistical structures of the true data generating process (reality).

Recent work has demonstrated a power law relationship between data scale and model performance (Hestness et al., 2017). This implies that with enough data (e.g., consisting of the entire internet and all offline scientific measurements) one ought to converge to a very small solution set with irreducible error – the inherent epistemic uncertainty of the world. As more models are trained on internet-scale data, the set of solutions that satisfies all data constraints must become relatively small.

In addition to data-scaling, many modern representation learning objectives directly optimize for multitask solving. Contrastive learning finds a distance structure over data samples that optimizes many classification tasks (Arora et al., 2019b; Wang & Isola, 2020; Tian et al., 2020b). Masked Autoencoders (He et al., 2021) optimize randomly sampled reconstruction tasks. In fact, autoregressive language modeling can also be seen as optimizing a diverse set of tasks (Radford et al., 2019). Such multi-task objectives may be more effective than single-task ones (e.g., ImageNet classification) due to the fact that they impose more task constraints on the representation, leading to a smaller and higher-quality solution space (Chen et al., 2020; He et al., 2020; Radford et al., 2017; 2019).

3.2. Convergence via Model Capacity

Summary

이 섹션에서는 모델 용량(Model Capacity)을 통한 표현 수렴(representational convergence) 현상을 분석하며, 충분한 데이터가 주어졌을 때 모델 스케일링(scaling, 더 큰 함수 공간 𝓕 사용)과 최적화 개선글로벌 최적 표현(globally optimal representation)에 대한 더 나은 근사 해를 찾는 데 효과적임을 제시한다. 동일한 학습 목표 하에서, 더 큰 모델은 서로 다른 아키텍처를 가진 모델이라도 최적 해(optimal solution)에 수렴하는 경향이 있으며, 다양한 학습 목표 간 공유된 최소화자(shared minimizers)가 존재할 경우, 큰 모델이 이를 더 효과적으로 탐색해 작업 간 유사한 해(similar solutions)를 도출함을 설명한다. 이 가설은 간단함 편향(simplicity bias) 가설과 연결되며, 그림 7에서 보듯, 더 큰 모델은 동일한 데이터를 맞추는 모든 가능한 방법의 더 넓은 커버리지(larger coverage)를 가지지만, 심층 네트워크의 암묵적 간단함 편향은 가장 간단한 해(simplest solution)를 선호하게 만든다고 강조한다.

Suppose there is a globally optimal representation for standard learning objectives. Then, under sufficient data, scaling a model (i.e., using larger function classes ), as well as improved optimization, should be more effective at finding better approximations to this optimum, as illustrated in Figure 5. With the same training objective, larger models, even of different architectures, will thus tend to converge toward this optimum. When different training objectives share similar minimizers, larger models are better at finding these minimizers, and will train to similar solutions over the training tasks. We summarize this hypothesis as follows:

Figure 7. The Simplicity Bias Hypothesis: Larger models have larger coverage of all possible ways to fit the same data. However, the implicit simplicity biases of deep networks encourage larger models to find the simplest of these solutions.

The Capacity Hypothesis

Summary

이 섹션에서는 Capacity Hypothesis(능력 가설)를 중심으로, 모델 크기(모델의 파라미터 수 및 표현 공간의 용량)가 증가할수록 공유 표현(shared representation)으로 수렴할 확률이 높아진다는 점을 분석한다. 이는 이전 섹션에서 언급된 Task Generality(작업 일반성)와 연결되어, 더 큰 모델이 다양한 작업의 최적 해를 포괄할 수 있는 높은 표현 용량(high representational capacity)을 갖기 때문에 표현 수렴(representation convergence)이 발생한다고 설명한다. 특히, 두 개의 작은 모델은 서로 다른 최적 해를 찾을 수 있지만, 큰 모델은 더 넓은 해집합을 탐색해 일관된 표현(aligned representations)을 학습하게 되며, 이는 모델 간의 정렬(model alignment) 향상과도 관련이 있다고 강조한다.

Bigger models are more likely to converge to a shared representation than smaller models.

3.3. Convergence via Simplicity Bias

Summary

이 섹션에서는 표현 수렴(representation convergence)이 단순성 편향(simplicity bias)을 통해 발생할 수 있음을 분석한다. 훈련 데이터에 대해 동일한 매핑을 도출하더라도 모델 간 내부 표현이 달라질 수 있다는 점을 지적하며, 1M 파라미터 모델과 1B 파라미터 모델이 개체(예: 개)를 감지하는 방식이 근본적으로 다를 수 있음을 설명한다. 그러나 대규모 모델(1B 파라미터 이상)이 복잡한 표현을 학습하지 않는 이유로 단순성 편향이 제시되는데, 이는 모델이 복잡한 해를 선택하기보다는 간단하고 일반화 가능한 해를 선호하는 경향이 있음을 의미한다. 이 편향은 표현 수렴의 또 다른 근본 원인으로, 모델의 규모가 커질수록 정규화와 유사한 효과를 통해 표현이 단순화되고 일관되게 수렴하게 된다는 점에서 이전 섹션의 작업 일반성(task generality) 기반 수렴과 보완적인 관계를 형성한다.

Arriving at the same mapping on the training data does not prohibit the models from developing distinct internal representations. It is not unreasonable to posit that the representations used to detect a dog in a 1M parameter model could be quite different than that used by a 1B parameter model. What would stop a billion-parameter (and counting) model from learning an overly complicated and distinct representation? One key factor might be simplicity bias:

The Simplicity Bias Hypothesis

Summary

이 섹션에서는 딥 네트워크가 단순한 해(solution)를 선호하는 ‘단순성 편향(Simplicity Bias)**’ 현상을 분석하며, 모델의 크기가 커질수록 이 편향이 강화되어 해 공간(solution space)이 더 작아지는 경향을 제시한다. 이 편향은 정규화(regularization) 기법(예: weight decay, dropout)을 통한 명시적 조절에서 비롯되기도 하지만, 외부 영향 없이도 오카姆의 레이즈(Occam’s razor)에 따라 데이터에 적합한 간단한 해를 암시적으로 선호하는 경향이 자연스럽게 나타난다. 이는 Solomonoff(1964), Gunasekar 등(2018), Arora 등(2019a) 등의 연구를 인용하며 설명되며, 그림 7은 단순성 편향이 표현 수렴(representation convergence)을 유도하는 메커니즘을 시각화한다. 특히, 대규모 모델(large models)은 복잡한 해를 포착하기보다는 더 간단한 구조를 선호하는 경향이 강해져, 다양한 작업에서 유사한 해를 도출하는 표현 수렴 현상과 연결된다.

Deep networks are biased toward finding simple fits to the data, and the bigger the model, the stronger the bias. Therefore, as models get bigger, we should expect convergence to a smaller solution space.

Such simplicity bias could be coming from explicit regularization R(f) commonly used in deep learning (e.g., weight decay and dropout). However, even in the absence of external influences, deep networks naturally adhere to Occam’s razor, implicitly favoring simple solutions that fit the data (Solomonoff, 1964; Gunasekar et al., 2018; Arora et al., 2019a; Valle-Perez et al., 2019; Huh et al., 2023; Dingle et al., 2018; Goldblum et al., 2023). Figure 7 visualizes how simplicity bias can drive convergence.

4. What representation are we converging to?

Summary

이 섹션에서는 이전 섹션에서 논의된 표현 수렴 현상의 최종 수렴 지점(endpoint)을 분석하며, 기초적 현실(underlying reality)을 반영하는 통계적 모델(statistical model)로 수렴하고 있다고 주장한다. 이 가설은 멀티태스크 스케일링 가설(Multitask Scaling Hypothesis)과 일치하며, 현실 기반의 작업에 대해 일반적으로 유용한 표현을 도출할 수 있음을 강조한다. 또한 단순성 편향 가설(simplicity bias hypothesis)에 따라, 자연의 근본 법칙(fundamental laws of nature)이 간단한 함수로 구성되어 있다는 과학적 관측을 반영해, 수렴하는 표현이 상대적으로 간단한 구조(relatively simple structure)를 가질 수 있다고 설명한다. 다만, “기초적 현실의 통계적 모델”이라는 개념을 구체화하기 위해 수학적 정의(concrete mathematical statements)를 제시하지만, 이는 플라톤식 표현(Platonic representation)의 한 가능성을 제시하는 것으로, 다른 모델링 가정에 기반한 다른 후보도 존재할 수 있음을 밝힌다. 이 가설은 능력 가설(Capacity Hypothesis)과 연결되어, 모델의 표현 용량이 증가할수록 다양한 작업의 최적 해를 포괄하는 공유 표현(shared representation)으로 수렴하는 경향을 설명한다.

By now, we hope to have convinced the reader that task and data pressures, combined with increasing model capacity, can lead to convergence. We next turn our attention to what exactly is the endpoint of all this convergence.

Our central hypothesis, stated in Figure 1, is that the representation we are converging toward is a statistical model of the underlying reality that generates our observations. Consistent with the multitask scaling hypothesis, such a representation would naturally be useful toward many tasks (or at least toward any task grounded in reality). Additionally, this representation might be relatively simple, assuming that scientists are correct in suggesting that the fundamental laws of nature are indeed simple functions (Gell-Mann, 1995), in line with the simplicity bias hypothesis.

But what exactly do we mean by “a statistical model of the underlying reality.” In this section, we formalize one definition with concrete mathematical statements. Importantly, this section should be read as just one concrete candidate for the form of the platonic representation; other candidates could be arrived at from other modeling assumptions.

4.1. An idealized world

Summary

이 섹션에서는 이상화된 세계(idealized world)의 개념을 제시하며, 이 세계는 시간적 이벤트의 순서 로 구성되며, 이는 알려지지 않은 분포 **P(Z)**에서 샘플링된다고 가정한다. 각 이벤트는 픽셀, 소리, 힘 등과 같은 임의의 측정 공간으로 매핑되는 결정적 관찰 함수(deterministic observation function) obs : Z → ·을 통해 관찰될 수 있으며, 이는 현실 세계의 학습 시나리오에 더 근접한 모델로 확장될 가능성을 제시한다. 이 세계에서 **P(Z)**를 아는 것은 다양한 예측에 유리하며, 이는 관찰을 유발하는 이벤트에 대한 세계 모델(world model)로 해석될 수 있다. 또한, 특정한 대비 학습자(contrastive learners)가 **P(Z)**의 특정 표현을 회복함을 보여주며, 이는 플라톤의 이상 현실(platonic reality)과 연결된다. 이 해석에 따르면, 관찰 인덱스의 결합 분포 자체가 플라톤적 현실(platonic reality)로 간주될 수 있으며, 이는 플라톤의 동굴 비유가 진짜 세계 상태를 거부한다는 관점을 반영한다.

We consider a world that works as follows, consistent with the cartoon in Figure 1. The world consists of a sequence of T discrete events, denoted as Z ≜ [z1, … , zT ], sampled from some unknown distribution P(Z). Each event can be observed in various ways. An observation is a bijective, deterministic function obs : Z → · that maps events to an arbitrary measurement space, such as pixels, sounds, mass, force, torque, words, etc. Later, in Section 6, we discuss limitations and potential extensions to continuous and unbounded worlds, and stochastic observations, that could yield a model that better reflects real learning scenarios.

One can think of an event as corresponding to the state of the world at some point in time3 , but it is also fine to simply consider an event as any variable that indexes observations, with no further physical meaning4 .

In this idealized world, knowing P(Z) would be useful for many kinds of predictions; this would constitute a world model over the events that cause our observations (Werbos, 1987; Ha & Schmidhuber, 2018; Richens & Everitt, 2024). We will next show that a particular representation of P(Z) is recovered by certain contrastive learners.

3Here we only analyze temporal sequences, but note that the same could be done with respect to events laid out in space instead.

4This latter interpretation may be more consistent with Plato’s intent. Scholars have argued that his allegory of the cave rejects any notion of a true world state (Nettleship, 1897). Instead, we could say that the joint distribution of observation indices is itself the platonic reality.

Figure 8. Color cooccurrence in VISION and LANGUAGE yields perceptual organization: Similar representations of color are obtained via, from LEFT to RIGHT, the perceptual layout from CIELAB color space, cooccurrence in CIFAR-10 images, and language cooccurrence modeling (Gao et al. (2021); Liu et al. (2019); computed roughly following Abdou et al. (2021)). Details in Appendix D.

4.2. A family of contrastive learners converge to a representation of P(Z)

Summary

이 섹션에서는 대비 학습자(contrastive learner)가 시간적으로 밀접한 관찰값의 공동 발생 확률(cooccurrence probability)을 모델링하여 **P(Z)**의 표현으로 수렴하는 메커니즘을 설명한다. 핵심 아이디어는 점별 상호 정보(PMI, pointwise mutual information)를 기반으로 한 표현 학습이, 관찰값의 통계적 구조를 반영하는 유일한 표현으로 수렴하게 된다는 것이다. 이는 대비 손실(contrastive loss)을 최소화하는 과정에서, 표현 벡터의 내적값이 PMI에 비례하게 되는 조건을 수학적으로 유도하며, 이는 자율 학습(self-supervised learning)의 대표적 사례인 SimCLR, SimCSE 등과 연결된다. 특히, 생성 모델(generative model)이 아닌 대비 학습(contrastive learning)이 **P(Z)**의 통계적 구조를 정확히 포착할 수 있다는 점에서 중요하다. 예를 들어, 언어 모델에서 학습된 색상 표현이 인간의 인지와 유사하게 되는 현상은, 문자 공동 발생(text cooccurrence)과 이미지 공동 발생(image cooccurrence)에서 얻은 PMI 기반 표현이 결국 동일한 인식 구조(perceptual structure)로 수렴함을 보여준다. 이 분석은 PMI 기반 유사도(similarity based on PMI)를 핵심 규칙으로 삼는 표현 학습 알고리즘의 일반성을 강조하며, **P(Z)**의 통계적 성질을 기반으로 한 통합 표현(unified representation)이 가능하다는 결론을 도출한다. 마지막으로, 이 모델은 복잡한 현실 세계 시스템의 핵심 특성을 단순화하여 설명하는 데 기여하며, 다양한 도메인과 모달리티(modalities)에서 효과적인 표현을 학습할 수 있는 기반을 제공한다.

Consider a contrastive learner that models observations that cooccur together. For simplicity, we ground our discussion with the following definition of the cooccurrence probability, Pcoor, of two observations xa and xb both occurring within some window Twindow:

Analogously, we can define Pcoor for Z and other observation modalities. Note that Pcoor is symmetric.

Consider positive pairs as two observations nearby in time (sampled from Pcoor) and negative pairs as observations drawn from any point in time (sampled independently from the marginal). Our contrastive learner tries to classify if a pair is positive or negative by learning a representation fX : X → R d such that the dot-product kernel approximates the log odds ratio up to some offset:

where KPMI is the pointwise mutual information (PMI) kernel, and cX(xa) is constant in xb. We note that this is a common setting for self-supervised contrastive learners with NCE objectives (Gutmann & Hyvarinen ¨ , 2010; Oord et al., 2018), including SimCLR (Chen et al., 2020) and SimCSE (Gao et al., 2021). (See Oord et al. (2018) and Appendix F.1 for detailed derivations.)

Under mild conditions that the world is smooth enough (see Appendix F.2), a choice of fX can exactly represent KPMI:

\langle f_X(x_a), f_X(x_b) \rangle = K_{\mathsf{PMI}}(x_a, x_b) + c_X, \tag{6}

where we observed that cX(xa) from Equation (5) must be a constant since both sides are symmetric.

Therefore, the contrastive learners we consider are minimized by a representation fX whose kernel is KPMI (up to a constant offset). With sufficient data and optimization, we will observe convergence to this point.

Thus we have convergence to a representation of the statistics of X, but what about Z? Recall that our idealized world consists of bijective observation functions, which, over discrete random variables, preserve probabilities. So we have:

where we use Pcoor and KPMI in a modality-agnostic way to emphasize that different modalities share the same these quantities.

All these arguments hold not just for X but also for Y (or any other bijective, discrete modality), implying:

K_{\mathsf{PMI}}(z_a, z_b) = \langle f_X(x_a), f_X(x_b) \rangle - c_X \tag{7}

= \langle f_Y(y_a), f_Y(y_b) \rangle - c_Y. \tag{8}

Therefore, for any modality in our idealized world, we observe representational convergence to the same kernel, which represents certain pairwise statistics of P(Z).

This analysis suggests that certain representation learning algorithms may boil down to a simple rule: find an embedding in which similarity equals PMI. We note that this idea is consistent with prior works that have used PMI as a similarity measure for clustering in vision and language (e.g., Isola et al. (2014); Isola (2015); Isola et al. (2016); Chambers & Jurafsky (2008)).

A study in color We conduct a case study to verify that convergence does happen on real data. Abdou et al. (2021) discovered that color distances in learned language representations, when trained to predict cooccurrences in text (Devlin et al., 2018), closely mirror human perception of these distances, which we reproduce in Figure 8 with both contrastive and predictive models. Interestingly, they noted an increasing similarity as models scale larger and become better at modeling text cooccurrences. In Figure 8, we also learn representations of color based on KPMI from cooccurrences in images. Indeed, learning cooccurrence statistics in either domain recovers roughly the same perceptual representation. Details of this experiment are described in Appendix D.

We believe that our simple model encapsulates essential aspects of complex real-world systems, and offers a path toward understanding the representation that models are converging to—a unified model that is proficient across various domains and modalities, grounded in the statistical properties of the underlying world. Section 6 further elaborates some limitations.

5. What are the implications of convergence?

Summary

이 섹션에서는 표현 수렴(representation convergence)이 가져오는 다양한 함의를 탐구한다. 먼저 스케일링(scale)이 지능 수준 달성에 충분하지만, 효율성 측면에서는 차이가 존재함을 강조한다. 예를 들어, 파라미터 수나 데이터량 증가에 따라 표현이 수렴하더라도, 다른 모델링 선택이나 데이터 모달리티(data modality)에 따라 스케일링 효율성(efficiency)은 달라질 수 있다. 이후 모달리티 간 훈련 데이터 공유(cross-modal data sharing)의 가능성에 주목한다. 만약 모달리티 무관(modality-agnostic)한 이상적인 표현이 존재한다면, 이미지와 언어 데이터 모두가 최적 표현을 찾는 데 기여할 수 있으며, 이는 현재 시각 모델(vision model)이 언어 모델에서 사전 훈련된 파라미터를 활용하는 사례와 일치한다. 반대로, 최고의 언어 모델을 만들기 위해 이미지 데이터(image data)를 훈련에 포함해야 한다는 점도 제시된다. 또한, 모달리티 간 전환(translation)의 용이성을 설명하며, 수렴된 표현이 조건 생성(conditional generation)을 더 간단하게 만들 수 있음을 강조한다. 이는 언어와 시각 영역에서 무결합 번역(unpaired translation) 성공 사례와 연결된다. 다만, 단일 모달리티로 훈련된 모델은 다른 모달리티의 원시 데이터(raw data)를 처리하기 어렵지만, 공통 표현(common representation)을 기반으로 새로운 모달리티의 표현을 처리하는 데 유리하다. 마지막으로, 스케일링허구(hallucination)와 편향(bias) 감소에 기여할 수 있음을 언급한다. 큰 모델이 현실 모델에 수렴할수록 허구가 줄어들고, 편향은 데이터의 편향을 더 정확히 반영하게 될 수 있다. 이는 훈련 데이터가 충분히 다양하고 손실이 적은(lossless and diverse) 경우에만 성립될 수 있다.

Scaling is sufficient, but not necessarily efficient Our arguments are roughly in line with the claim that “scale is all you need” to reach high levels of intelligence. We have argued that as resources are scaled (# parameters, # datapoints, # flops), representations are converging, regardless of other modeling choices and even data modality. Does this mean that scale is all that matters? Not quite: different methods can scale with different levels of efficiency (Hestness et al., 2017; Kaplan et al., 2020), and successful methods must still satisfy some general requirements (e.g., be a consistent estimator, model pairwise statistics of P(Z)).

Training data can be shared across modalities Suppose you have access to N images and M sentences, and want to learn the best representation. If there is indeed a modality-agnostic platonic representation, then both image and language data should help find it. The implication is that if you want to train the best vision model, you should train not just on N images but also on M sentences. This is already becoming common practice (OpenAI, 2023; Radford et al., 2021). Many vision models are finetuned from pre-trained LLMs. The other direction is less common, but also is implied by our hypothesis: if you want to build the best LLM, you should also train on image data. Indeed, OpenAI (2023) showed that training on images improved performance on text. In theory, there should be some conversion ratio: a pixel is worth a words for training LLMs, and a word is worth b pixels for training vision models.

Ease of translation and adaptation across modalities When two representations are aligned, transitioning from

one to the other should be a simple function that’s easily obtained. Our hypothesis could explain the phenomenon that conditional generation is easier than unconditional (Mirza & Osindero, 2014; Liu et al., 2020; Sauer et al., 2022), as the data we condition on may have the same platonic structure as the data we are generating. In line with this, recent work has found that representation-conditioning is even easier (Li et al., 2023). Similarly, representational convergence could act as a bridge that lets us find mappings between domains even without paired data; this may underlie the success of unpaired translation in vision (Zhu et al., 2017; Shi et al., 2024; Xie et al., 2022) and language (Tran et al., 2017; Lample et al., 2018). We emphasize that this doesn’t mean that models trained on a single modality (e.g., language) can immediately process raw data from another (e.g., vision). What makes them adaptable to the new modalities is that they share a common modality-agnostic representation, and can readily process representations of new modalities. Furthermore, this implies that language models would achieve some notion of grounding in the visual domain even in the absence of cross-modal data5 . The primary advantage of cross-modal data could then simply be sample efficiency.

Scaling may reduce hallucination and bias A prominent shortcoming of current LLMs is their propensity to hallucinate, or output false statements. If models are indeed converging toward an accurate model of reality, and scale powers this convergence, then we may expect hallucinations to decrease with scale. Of course, our hypothesis is conditioned on the training data for future models constituting a sufficiently lossless and diverse set of measurements. This may not come to pass, but it is an implication of our hypothesis worth pointing out. A similar argument can be made about certain kinds of bias. It has been shown that large models can exacerbate existing biases present in their training data (Hall et al., 2022). Our hypothesis implies that, while this may be true, we should expect larger models to amplify bias less. This does not mean bias will be removed, rather that the model’s biases will more accurately reflect the data’s biases, rather than exacerbating them.

6. Counterexamples and limitations

Summary

이 섹션에서는 표현 수렴 가설의 한계와 예외 사례를 탐구하며, 다양한 모달리티 간 정보 차이구체적인 사례를 통해 논점을 풍부히 한다. 예를 들어, Molyneux의 질문을 언급하며, 태어날 때부터 눈먼 사람이 시력을 얻은 후 바로 형태를 구분할 수 있는지에 대한 논쟁을 제시하고, 실험적 데이터를 통해 눈먼 아동이 시각 경험을 통해 형태 인식을 학습할 수 있음을 보여준다. 또한, 비생성적 관찰 함수(lossy or stochastic observation functions)의 경우, 수렴 가설이 엄격하게 적용되지 않음을 지적하며, 비생성적 관찰이 존재할 때는 공동 발생 관계(co-occurrence relations)를 학습하는 대체 방법이 필요하다고 강조한다.

CLIP과 같은 인기 있는 모델은 시각과 언어 간 공유 정보만을 최적화하도록 설계되었음에도 불구하고, 순수 시각 작업에서도 높은 성능을 보여주는 사례를 통해, 모델의 수렴은 특정 정보 수준과 용량에 따라 제한적일 수 있음을 보여준다. 또한, 로봇공학 분야에서는 시각 및 텍스트와 같은 표준화된 표현 방식이 아직 없고, 하드웨어의 비용과 속도 한계가 훈련 데이터의 양과 다양성을 제한하고 있음을 지적한다.

사회학적 편향 또한 중요한 한계로, AI 연구자들의 인간 사고 방식 모방 목적은 인간 유사한 표현으로 수렴하는 경향을 유도할 수 있으며, 하드웨어 로터리(hardware lottery)에 따라 계산 아키텍처와의 호환성도 수렴을 촉진할 수 있다. 한편, 특별 목적 인공지능(special-purpose intelligences)은 다중 작업에 최적화된 것이 아니라, 특정 작업에 초점을 맞추고 있어, 공유된 표현 수렴이 불가능한 경우도 존재함을 강조한다.

마지막으로, 알라인먼트 측정 방법에 대한 논의에서, 상호 최근접 이웃(mutual nearest-neighbor)을 비롯한 다양한 지표의 장단점에 대한 활발한 논쟁이 진행되고 있음을 언급하며, 캡션 밀도(caption density)가 언어-시각 알라인먼트 점수에 영향을 미친다는 실험 결과를 보완한다. 이는 고정보량 캡션(higher information captions)이 시각 표현과 더 잘 일치함을 시사한다.

Different modalities may contain different information One immediate objection to our hypothesis is: what about the information that is unique to a given modality? Can language really describe the ineffable experience of watching

5 In 1688, William Molyneux asked if a person born blind, upon gaining sight, could distinguish shapes by vision alone (Locke, 1690). Our arguments suggest they could not do so immediately, but after some visual experience, they could easily map shapes to their prior touch-based representations. Empirical data supports this, showing that congenitally blind children given sight can quickly learn these abilities (Held et al., 2011).

Figure 9. Increasing caption density improves alignment: We vary caption length using the Densely-Captioned-Images (DCI) dataset (Urbanek et al., 2023). Starting from a dense caption, we used LLaMA3-8B-Instruct (Meta, 2024) to summarize and generate coarse-grained captions. We compute the average alignment score across all vision and language models with standard deviation measured over the language models we evaluated. With denser captions, the mapping may become more bijective, leading to improved language-vision alignment scores.

a total solar eclipse? Or, how could an image convey the a concept like “I believe in the freedom of speech,” which is easy to write in English? Two different models cannot converge to the same representation if they have access to fundamentally different information.

More precisely, our mathematical argument in Section 4 only strictly holds for bijective projections of Z, so that the information in all the projections is equivalent to the information in the underlying world. This will not hold true for either lossy or stochastic observation functions. Nonetheless, similar arguments have been made theoretically and empirically that cooccurrence relations are learned by practical contrastive (Wang & Isola, 2020; Zimmermann et al., 2021) and predictive learners (Papyan et al., 2020; Roeder et al., 2021). Lu et al. (2021) and Mirchandani et al. (2023) also showed that models trained to autoregressively generate text also capture statistical relations in many other modalities, including symbolic reasoning, vision, protein folding, and robotics.

A more nuanced version of our hypothesis will need to be developed to handle the case of non-bijective observations and abstract concepts. A starting point could be: different models will converge to the same representation when the input signals are sufficiently high information and the models are sufficiently high capacity; when they are not, the lower-information representation will only align with the higher-information one up to a level capped by the mutual information between the input signals and by the capacity of each model. This cap might or might not be practically important. Popular representations like CLIP are explicitly

optimized to only capture the shared information between vision and language, yet are highly successful on many pure vision tasks. We perform a preliminary test of the effect of information level in Figure 9 (detailed in Appendix E), and find that the more descriptive (higher information) a caption is, the better its LLM representation aligns with the visual representation of the corresponding image.

Not all representations are presently converging Our argument has mainly focused on two modalities: vision and language. While we do expect other modalities will follow similar trends, we have yet to see the same level of convergence across all domains. For example, in robotics there is not yet a standardized approach to representing world states in the same way as there is for representing images and text. One limitation lies in the hardware used in robotics, which is often expensive and slow. This creates a bottleneck in the quantity and diversity of training data.

Sociological bias in producing AI models Researcher bias and collective preferences within the AI community have shaped the trajectory of model development. There is often an explicit or implicit goal of designing AI systems that mimic human reasoning and performance, and this could lead to convergence toward human-like representations even if other kinds of intelligence are in fact possible. Additionally, the “hardware lottery” (Hooker, 2021) suggests that the success of AI models can also depend on the compatibility of their design with available computational architectures, further contributing to convergent trends.

Special-purpose intelligences might not converge Different intelligent systems can be designed to accomplish different tasks. For instance: A bioinformatics systems might predict protein structure; an autonomous vehicle might follow lanes on highways. It’s possible that not much is shared between these two narrow tasks. Our argument only holds for intelligences that are optimized to perform well on many tasks. We have argued that a representation of reality is a structure that is useful across many tasks, but for any special purpose there may be shortcuts, or even effective representations detached from reality. Such shortcuts may be more efficient and necessary for continued improvements in specific domains. This will become more relevant if continued scaling comes up against boundary conditions around resources like energy and compute.

How do we measure alignment? We focused on one particular alignment measure, mutual nearest-neighbor, in our experiments, and cited experiments using several others. However, there is active debate on the merits and deficiencies of all these ways of measuring alignment (Bansal et al., 2021; Sucholutsky et al., 2023). We discuss our choice and show results for other alignment metrics in Appendix A.

Lots left to explain We have shown results where different models arrive at similar but not the same representations. For example, in Figure 3, alignment clearly increases but only reaches a score of 0.16, according to our mutual nearest-neighbor metric. The maximum theoretical value for this metric is 1. Is a score of 0.16 indicative of strong alignment with the remaining gap being “noise” or does it signify poor alignment with major differences left to explain? We leave this as an open question.

Acknowledgements

Summary

이 섹션에서는 실험에 사용된 데이터를 제공한 Lindsey & Brown과 익명 리뷰어의 피드백 및 “I believe in the freedom of speech”의 시각적 표현에 대한 예시 제공에 감사의 인사를 전한다. Yonglong Tian, Dilip Krishnan 등 학자들의 논의와 Mingzhong Sun의 오타 수정에 감사하며, Packard Fellowship, Sloan Research Fellowship, MIT-IBM Watson AI Lab, ONR MURI Grant 등 다양한 연구 지원 기관에도 감사의 뜻을 표한다.

We thank Lindsey & Brown for sharing their data for our experiments shown in Figure 8. We thank the anonymous reviewers for helpful feedback, and for providing the counterexample on how to visually convey “I believe in the freedom of speech.” Thanks for Yonglong Tian, Dilip Krishnan, Anna Decker, Yoon Kim, Jyo Pari, Ani Nrusimha, Dave Epstein, Victor Butoi, and Seungwook Han for helpful discussions and suggestions. We thank Mingzhong Sun for catching a typo. This work was supported by a Packard Fellowship and a Sloan Research Fellowship to P.I., by the MIT-IBM Watson AI Lab, by ONR MURI grant N00014-22- 1-2740, by the Center for Brains, Minds, and Machines, the MIT Quest for Intelligence, NSF STC award CCF-1231216, the DARPA Knowledge Management at Scale and Speed (KMASS) program, and the DARPA Machine Common Sense (MCS) program.