Neural networks의 convergence, convexity에 대한 논문

2023. 7. 31. 19:46·연구 Research/인공지능 Artificial Intelligent

아직 많이 논문을 읽어보지는 못했지만

최근 Neural network의 수렴성에 대한 연구가 이루어지는 것들이 있는 것 같아서 논문 목록을 미리 작성해놓는다.

 

NN에서 마주치는 어려움 중 하나는 수렴성에 대한 문제이다.

최적화도 nonlinear programming에서 수렴이 어렵기 때문에 이를 convex화시켜서 해결하고자 하는 시도들이 많은데 인공지능 분야도 실제 상황에서 활용되기 위해서는 충분히 수렴이 가능한지에 대한 연구도 많이 필요할 것으로 보인다.

 

 

 

Neural network의 convexity에 대한 연구

 

Milne, T. (2019). Piecewise strong convexity of neural networks. Advances in Neural Information Processing Systems, 32.

 

이 논문에서는 loss function을 기존의 loss function과 weight의 Euclidean norm의 합으로 정의하였다. 그 다음, ReLU와 Weight 조합만으로 특정 set 안에서 문제가 convex하다는 것을 밝혀냈다. 다만 bias가 없기 때문에 universal approximation theorem을 만족시키는지는 알기 어렵다.

 

 

Ergen, T. & Pilanci, M. 두 저자의 convexification of neural networks에 대한 논문을 많이 봐서 기록한다.

 

Ergen, T., and Pilanci, M., “Convex Optimization for Shallow Neural Networks,” presented at the 2019 57th Annual Allerton Conference on Communication, Control, and Computing (Allerton), 2019. https://doi.org/10.1109/ALLERTON.2019.8919769

T. Ergen and M. Pilanci, “Convex duality and cutting plane methods for over-parameterized neural networks,” in OPT-ML workshop, 2019.

T. Ergen and M. Pilanci, “Revealing the structure of deep neural networks via convex duality,” in Proceedings of the 38th international conference on machine learning, in Proceedings of machine learning research, vol. 139. PMLR, Jul. 2021, pp. 3004–3014.

M. Pilanci and T. Ergen, “Neural networks are convex regularizers: Exact polynomial-time convex optimization formulations for two-layer networks,” in Proceedings of the 37th international conference on machine learning, in Proceedings of machine learning research, vol. 119. PMLR, Jul. 2020, pp. 7695–7705. [Online]. Available: https://proceedings.mlr.press/v119/pilanci20a.html

T. Ergen and M. Pilanci, “Global optimality beyond two layers: Training deep relu networks via convex programs,” in International conference on machine learning, PMLR, 2021, pp. 2993–3003.

 

위의 두 개가 가장 기초적인 논문이라서 현재는 읽는 상태다.

 

위 저자들의 깃허브 링크 역시 기록해놓는다.

 

 

 

수렴성에 대한 연구

 

S. Oymak and M. Soltanolkotabi, “Toward moderate overparameterization: Global convergence guarantees for training shallow neural networks,” IEEE Journal on Selected Areas in Information Theory, vol. 1, no. 1, pp. 84–105, 2020.

 

 

저작자표시 비영리 변경금지 (새창열림)

'연구 Research > 인공지능 Artificial Intelligent' 카테고리의 다른 글

[JAX] JAX에서 gradient 추척을 멈추는 방법  (0) 2023.08.22
[PyTorch] 인공지능 재현성을 위한 설정과 주의할 점  (0) 2023.08.11
[JAX] JAX 기반 Neural ODE 라이브러리 : diffrax  (0) 2023.07.28
[JAX] 학습한 모델 저장 및 로드  (0) 2023.06.19
[JAX] 병렬컴퓨팅 예제 - jax.pmap으로 신경망 학습 예제  (0) 2023.06.13
'연구 Research/인공지능 Artificial Intelligent' 카테고리의 다른 글
  • [JAX] JAX에서 gradient 추척을 멈추는 방법
  • [PyTorch] 인공지능 재현성을 위한 설정과 주의할 점
  • [JAX] JAX 기반 Neural ODE 라이브러리 : diffrax
  • [JAX] 학습한 모델 저장 및 로드
보통의공대생
보통의공대생
수학,프로그래밍,기계항공우주 등 공부하는 기록들을 남깁니다.
  • 보통의공대생
    뛰는 놈 위에 나는 공대생
    보통의공대생
  • 전체
    오늘
    어제
    • 분류 전체보기 (468)
      • 공지 (1)
      • 영어 공부 English Study (40)
        • 텝스 TEPS (7)
        • 글 Article (21)
        • 영상 Video (10)
      • 연구 Research (99)
        • 최적화 Optimization (3)
        • 데이터과학 Data Science (7)
        • 인공지능 Artificial Intelligent (40)
        • 제어 Control (45)
      • 프로그래밍 Programming (103)
        • 매트랩 MATLAB (25)
        • 파이썬 Python (33)
        • 줄리아 Julia (2)
        • C++ (3)
        • 리눅스 우분투 Ubuntu (6)
      • 항공우주 Aeronautical engineeri.. (21)
        • 항법 Navigation (0)
        • 유도 Guidance (0)
      • 기계공학 Mechanical engineering (13)
        • 열역학 Thermodynamics (0)
        • 고체역학 Statics & Solid mechan.. (10)
        • 동역학 Dynamics (1)
        • 유체역학 Fluid Dynamics (0)
      • 수학 Mathematics (34)
        • 선형대수학 Linear Algebra (18)
        • 미분방정식 Differential Equation (3)
        • 확률및통계 Probability & Sta.. (2)
        • 미적분학 Calculus (1)
        • 복소해석학 Complex Analysis (5)
        • 실해석학 Real Analysis (0)
      • 수치해석 Numerical Analysis (27)
      • 확률 및 랜덤프로세스 Random process (2)
      • 추론 & 추정 이론 Estimation (3)
      • 기타 (26)
        • 설계 프로젝트 System Design (8)
        • 논문작성 Writing (55)
        • 세미나 Seminar (2)
        • 생산성 Productivity (3)
      • 실험 Experiment (1)
      • 유학 생활 Daily (8)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    에러기록
    옵시디언
    IEEE
    Zotero
    matplotlib
    우분투
    고체역학
    서버
    Numerical Analysis
    인공지능
    Julia
    pytorch
    수치해석
    JAX
    Dear abby
    딥러닝
    Python
    논문작성
    텝스공부
    논문작성법
    생산성
    WOX
    Linear algebra
    Statics
    ChatGPT
    obsidian
    텝스
    MATLAB
    LaTeX
    teps
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
보통의공대생
Neural networks의 convergence, convexity에 대한 논문
상단으로

티스토리툴바