ICLR 2024 Spotlight & CVPR 2024 Highlight: Efficient 3D Scene Representation

IRIS 연구실의 이주찬 연구원과 노다니엘 연구원이 참여한 두 편의 논문이 각각 ICLR 2024 Spotlight와 CVPR 2024 Highlight에 선정되었습니다.

본 연구는 고종환 교수님, 박은병 교수님님이 공동으로 지도한 프로젝트로, 복잡한 3차원 장면을 효율적으로 표현하는 두 가지 방법론을 제시합니다. 첫 번째는 뉴럴 네트워크와 그리드 방식을 융합한 Coordinate-Aware Modulation이며, 두 번째는 소형화된 3D 가우시안 표현 기법입니다.

Coordinate-Aware Modulation 연구는 3차원 이미지나 비디오를 표현할 때 뉴럴 네트워크의 각 레이어마다 그리드의 특징 벡터를 모듈레이션 방식으로 융합했습니다. 기존 방식은 큰 용량을 필요로 했지만, 본 연구는 매우 소형의 그리드를 사용하여 고주파 신호를 효율적으로 표현했습니다. 이미지, 비디오, 3차원 모델 등 다양한 미디어 데이터에 적용한 결과 적은 네트워크 크기로도 우수한 신호 복원 능력을 보였습니다.

Compact 3D Gaussian Splatting 연구는 3D 가우시안 형태로 장면을 표현하는 방식의 저장용량 문제를 해결했습니다. 최근 3D 가우시안 방식은 100 FPS 이상의 빠른 렌더링이 가능하지만 매우 큰 저장용량을 필요로 했습니다. 본 연구는 가우시안의 수를 렌더링 성능 감소 없이 줄이는 데 성공했으며, 새로운 표현 방법론을 제시하여 고성능과 효율적인 저장 공간을 동시에 달성했습니다. 실제 데이터셋 평가에서 렌더링 품질 저하 없이 25배 이상의 저장용량 감소와 렌더링 속도 향상을 이뤘습니다.

첫 번째 연구는 기계학습 분야 최우수 학술대회인 ICLR 2024에서 제출 논문의 상위 6%에 해당하는 Spotlight에 선정되었으며, 두 번째 연구는 컴퓨터비전 분야 최우수 학술대회인 CVPR 2024에서 상위 3%에 해당하는 Highlight에 선정되었습니다. 이러한 효율적인 3D 표현 기술은 NeRF, 생성 모델, 메타버스 등 다양한 분야에서 실용적으로 활용될 수 있을 것으로 기대되며, IRIS 연구실은 이를 기반으로 더욱 발전된 3D 비전 기술을 연구해 나갈 계획입니다.

논문 1: Coordinate-Aware Modulation for Neural Fields
연구 홈페이지: https://maincold2.github.io/cam/
저자: 이주찬, 노다니엘, 남승태, 고종환, 박은병

논문 2: Compact 3D Gaussian Representation for Radiance Field
연구 홈페이지: https://maincold2.github.io/c3dgs/
저자: 이주찬, 노다니엘, Xiangyu Sun, 고종환, 박은병

자세한 내용은 성균관대 Research Stories에서 확인하실 수 있습니다: https://www.skku.edu/skku/research/industry/researchStory_view.do?mode=view&articleNo=117212

IRIS Lab researchers Joochan Lee and Daniel Rho have had two papers selected as ICLR 2024 Spotlight and CVPR 2024 Highlight, respectively.

This research was jointly supervised by Prof. Jong Hwan Ko and Prof. Eunbyung Park, presenting two methodologies for efficiently representing complex 3D scenes. The first is Coordinate-Aware Modulation, which fuses neural networks with grid-based representations, and the second is a compact 3D Gaussian representation technique.

The Coordinate-Aware Modulation research fuses grid feature vectors through modulation at each layer of the neural network when representing 3D images or videos. While existing methods required large capacities, this research efficiently represented high-frequency signals using very small grids. When applied to various media data including images, videos, and 3D models, it demonstrated excellent signal reconstruction capabilities with small network sizes.

The Compact 3D Gaussian Splatting research solved the storage capacity problem of representing scenes as 3D Gaussians. While recent 3D Gaussian methods enable fast rendering above 100 FPS, they required very large storage capacity. This research successfully reduced the number of Gaussians without performance degradation and achieved both high performance and efficient storage space through a new representation methodology. Evaluation on real datasets achieved over 25x storage reduction and rendering speed improvement without quality degradation.

The first research was selected as Spotlight at ICLR 2024, a top machine learning conference, representing the top 6% of submissions. The second was selected as Highlight at CVPR 2024, a top computer vision conference, representing the top 3% of submissions. These efficient 3D representation technologies are expected to be practically applied in various fields such as NeRF, generative models, and metaverse. Building on this foundation, IRIS Lab plans to continue advancing research in 3D vision technologies.

Paper 1: Coordinate-Aware Modulation for Neural Fields
Research homepage: https://maincold2.github.io/cam/
Authors: Joochan Lee, Daniel Rho, Seungtae Nam, Jong Hwan Ko, Eunbyung Park

Paper 2: Compact 3D Gaussian Representation for Radiance Field
Research homepage: https://maincold2.github.io/c3dgs/
Authors: Joochan Lee, Daniel Rho, Xiangyu Sun, Jong Hwan Ko, Eunbyung Park

For more details, please visit SKKU Research Stories: https://www.skku.edu/skku/research/industry/researchStory_view.do?mode=view&articleNo=117212