Excerpt from PDF:
A Convex formulation for linear discriminant analysis Sai Vijay Kumar Surineela1, Prathyusha Kanakamalla1, Harigovind Harikumar1, Tomojit Ghosh 1,∗ aWright State University, 3640 Colonel Glenn Hwy, 45435, Dayton, Ohio, USA Abstract We present a supervised dimensionality reduction technique called Convex Lin- ear Discriminant Analysis (ConvexLDA). The proposed model optimizes a multi- objective cost function by balancing two complementary terms. The first term pulls the samples of a class towards its centroid by minimizing a sample’s dis- tance from its class-centroid in low dimensional space. The second term pushes the classes far apart by maximizing their hyperellipsoid scattering volume via the logarithm of the determinant (log det) of the outer product matrix formed by the low-dimensional class-centroids. Using the negative of the log det, we pose the final cost as a minimization problem, which balances the two terms using a hyper-parameter λ. We demonstrate that the cost function is convex. Unlike Fisher LDA, the proposed method doesn’t require to compute the inverse of a matrix, hence avoiding any ill-conditioned problem where data dimension is very high, e.g. RNA-seq data. ConvexLDA doesn’t require pair-wise distance calculation, making it faster and more easily scalable. Moreover, the convex nature of the cost function ensures global optimality, enhancing the reliability of the learned embedding. Our experimental evaluation demonstrates that Con- vexLDA outperforms several popular linear discriminant analysis (LDA)-based methods on a range of high-dimensional biological data, image data sets, etc. Keywords: ConvexLDA, Linear Discriminant Analysis, Convex ∗Corresponding Author Email addresses: surineela.2@wright.edu (Sai Vijay Kumar Surineela ), kanakamalla.2@wright.edu (Prathyusha Kanakamalla ), harikumar.2@wright.edu (Harigovind Harikumar ), tomojit.ghosh@wright.edu (Tomojit Ghosh ) 1Department of Computer Science and Engineering. Preprint submitted to Elsevier March 19, 2025 arXiv:2503.13623v1 [cs.LG] 17 Mar 2025 Optimization, Linear Dimensionality Reduction, Supervised Dimensionality Reduction 1. Introduction Dimensionality reduction (DR) plays a crucial role in pattern recognition tasks, enabling more effective data visualization, feature extraction, and im- proved downstream predictive performance [13, 42]. The recent surge in multi- source data collection has drastically increased data dimensionality, particu- larly in omics analysis, where gene expression data from microarrays or next- generation sequencing can exceed 50,000 measurements [32]. High-dimensional datasets often contain noisy, redundant, missing, or irrelevant features, which can degrade the performance of pattern recognition tasks [28]. The acquisition of such high-dimensional datasets necessitates innovative techniques that can effectively handle large-scale data while remaining robust to noise [30]. DR is widely applied as an essential step to extract meaningful features enabling more effective data visualization, feature extraction, and improved downstream predictive performance [12, 24]. With the advent of deep neural networks (DNNs) such as large language models (LLMs), convolutional neural networks (CNNs), and transformers, DR techniques may seem less prominent. However, despite the success of these complex architectures, linear dimensionality reduction remains a powerful and practical approach due to its interpretability, computational efficiency, and ro- bustness in high-dimensional, low-sample-size (HDLSS) regimes [28]. Deep learning models excel at learning hierarchical representations but pose significant challenges. They require large amounts of labeled data, extensive hyper-parameter tuning, and substantial computational resources. Additionally, …더보기
This paper was uploaded based on materials provided by arXiv.
This paper is an open academic resource, and the original text can be accessed on arXiv.
Source: arXiv – A free repository for scientific and technical researchers.
This paper is provided for academic research purposes, and the original can be downloaded from arXiv.
Visit arXiv to explore more recent papers!
번역 (Translation):
선형 판별 분석 Sai Vijay Kumar Surineela1, Prathyusha Kanakamalla1, Harigovind Harikumar1, Tomojit Ghosh 1, * Awright State University, 3640 Colonel Glenn Hwy, 45435, Dayton, Ohio, USA Select a Eat Dimensiality Analynicl a Supervized Technick a Awright State University, 3640 Conecivents Technick a awright state University, 3640 Conevination Dimension Techance a awright state University, 3640 콜로 그녀 (Convexlda). 제안 된 모델은 두 가지 보완 용어의 균형을 유지하여 다중 목표 비용 기능을 최적화합니다. 첫 번째 용어는 저 차원 공간에서 클래스 중심에서 샘플의 불일치를 최소화함으로써 클래스 샘플을 중심으로 끌어 당깁니다. 두 번째 용어는 저 차원 클래스-중심에 의해 형성된 외부 생성물 매트릭스의 결정 요인 (LOG DET)의 로그를 통해 과부 립시스 산란 부피를 최대화함으로써 클래스를 멀리 떨어 뜨립니다. 로그 DET의 네거티브를 사용하여 최종 비용을 최소화 문제로 제시하는데, 이는 하이퍼 매개 변수 λ를 사용하여 두 용어의 균형을 유지합니다. 우리는 비용 함수가 볼록임을 보여줍니다. Fisher LDA와 달리 제안 된 방법은 행렬의 역수를 계산할 필요가 없으므로 데이터 차원이 매우 높아지는 조건이없는 문제를 피하십시오. RNA-Seq 데이터. Convexlda는 쌍별 거리 계산이 필요하지 않으므로 더 빠르고 쉽게 확장 할 수 있습니다. 또한 비용 함수의 볼록한 특성은 전 세계 최적성을 보장하여 학습 된 임베딩의 신뢰성을 향상시킵니다. 우리의 실험 평가는 Convexlda가 다양한 고 차원의 생물학적 데이터, 이미지 데이터 세트 등에 대한 몇 가지 대중적인 선형 판별 분석 (LDA) 기반 방법을 능가한다는 것을 보여줍니다. 키워드 : Convexlda, 선형 판별 분석, Convex * Surineela.2@ Sai vijay Surineela. Kanakamalla.2@wright.edu (Prathyusha Kanakamalla), harikumar.2@wright.edu (Harigovind harikumar), tomojit.ghosh@wright.edu (Tomojit Ghosh) 1 컴퓨터 과학 및 엔지니어링. 2025 년 3 월 19 일 Elsevier에 제출 된 Preprint : 2503.13623V1 [CS.LG] 17 Mar OPIPINATION, 선형 차원 감소, 감독 차원 감소 1. 소개 차원 감소 (DR)는 패턴 인식 작업에서 중요한 역할을 수행하고,보다 효과적인 시각화, 기능 데이터를 활성화하고 [13, 미용 지연을 제공합니다. 다중 소스 데이터 수집의 최근 급증은 마이크로 어레이 또는 차세대 시퀀싱의 유전자 발현 데이터가 50,000 측정을 초과 할 수있는 OMICS 분석에서 데이터 차원 성을 크게 증가시켰다 [32]. 고차원 데이터 세트에는 종종 시끄럽거나 중복, 누락 또는 관련없는 기능이 포함되어있어 패턴 인식 작업의 성능을 저하시킬 수 있습니다 [28]. 이러한 고차원 데이터 세트를 획득하려면 대규모 데이터를 효과적으로 처리하면서 소음에 대한 강력한 상태를 유지할 수있는 혁신적인 기술이 필요합니다 [30]. DR은보다 효과적인 데이터 시각화, 기능 추출 및 개선 된 다운 스트림 예측 성능을 가능하게하는 의미있는 기능을 추출하기위한 필수 단계로 널리 적용됩니다 [12, 24]. 대형 언어 모델 (LLMS), CNN (C
onvolutional Neural Networks) 및 변압기와 같은 심층 신경망 (DNN)의 출현으로 DR 기술은 덜 두드러 질 수 있습니다. 그러나 이러한 복잡한 아키텍처의 성공에도 불구하고, 선형 차원 감소는 고차원 적, 낮은 샘플 크기 (HDLS) 체제의 해석 성, 계산 효율 및 강화로 인해 강력하고 실용적인 접근 방식으로 남아 있습니다 [28]. 딥 러닝 모델은 계층 적 표현을 배우는 데 탁월하지만 중대한 도전을 제기합니다. 많은 양의 라벨링 된 데이터, 광범위한 하이퍼 매개 변수 튜닝 및 실질적인 계산 리소스가 필요합니다. 또한, … 더보기
이 논문은 arXiv에서 제공되는 자료를 바탕으로 업로드되었습니다.
본 논문은 공개된 학술 자료이며, 원문은 arXiv에서 확인할 수 있습니다.
출처: arXiv – 과학 및 기술 연구자들을 위한 무료 논문 저장소.
이 논문은 학술 연구 목적으로 제공되며, 원문은 arXiv에서 다운로드할 수 있습니다.
더 많은 최신 논문을 보려면 arXiv를 방문하세요!