요약본 (Summary):

This paper discusses the challenges faced in developing software for modern radio interferometers such as MeerKAT, SKA, ngVLA, and DSA-2000 due to their increased sensitivity and data volumes. The authors propose a framework that favors flexibility and ease of development over performance while addressing these challenges. They describe two Python libraries, Dask-MS and Codex Africanus, which enable the development of distributed high-performance radio astronomy code with Dask. These libraries seamlessly integrate with the PyData ecosystem to address Big Data challenges in radio astronomy, breaking down data across multiple processors and compute nodes. The authors emphasize that a fundamental shift in writing radio astronomy algorithms and storing data is necessary due to the breakdown of Moore’s Law and the growth of multi-core and distributed computing.

이 논문은 민감도 및 데이터 볼륨 증가로 인해 Meerkat, Ska, NGVLA 및 DSA-2000과 같은 현대적인 라디오 간섭계를위한 소프트웨어 개발에 직면 한 문제에 대해 논의합니다. 저자는 이러한 과제를 해결하면서 성능보다 유연성과 개발의 용이성을 선호하는 프레임 워크를 제안합니다. 그들은 두 개의 파이썬 라이브러리 인 Dask-MS 및 Code Africanus를 설명하여 Dask와 함께 분산 된 고성능 라디오 천문학 코드를 개발할 수 있습니다. 이 라이브러리는 Pydata 생태계와 완벽하게 통합되어 라디오 천문학의 빅 데이터 문제를 해결하여 여러 프로세서 및 계산 노드에서 데이터를 분해합니다. 저자는 무어의 법칙과 멀티 코어 및 분산 컴퓨팅의 성장으로 인해 라디오 천문학 알고리즘을 작성하고 데이터 저장 데이터를 작성하는 데 근본적인 변화가 필요하다고 강조합니다.

Excerpt from PDF:

Africanus I. Scalable, distributed and efficient radio data processing with Dask-MS and Codex Africanus S. J. Perkinsa, J. S. Kenyonb, L. A. L. Andatib, H. L. Bestera,b, O. M. Smirnovb,a,c, B. V. Hugoa,b aSouth African radio astronomy Observatory (SARAO), Cape Town, WC, South Africa bCentre for radio astronomy Techniques & Technologies (RATT), Department of Physics and Electronics, Rhodes University, Makhanda, EC, South Africa cInstitute for Radioastronomy, National Institute of Astrophysics (INAF IRA), Bologna, Italy Abstract The physical configuration of new radio interferometers such as MeerKAT, SKA, ngVLA and DSA-2000 informs the development of software in two important areas. Firstly, tractably processing the sheer quantity of data produced by new instruments necessitates subdivision and processing on multiple nodes. Secondly, the sensitivity inherent in modern instruments due to improved engineering practices and greater data quantities necessitates the development of new techniques to capitalise on the enhanced sensitivity of modern interferometers. This produces a critical tension in radio astronomy software development: a fully optimised pipeline is desirable for producing science products in a tractable amount of time, but the design requirements for such a pipeline are unlikely to be understood upfront in the context of artefacts unveiled by greater instrument sensitivity. Therefore, new techniques must continuously be developed to address these artefacts and integrated into a full pipeline. As Knuth reminds us, “Premature optimisation is the root of all evil”. This necessitates a fundamental trade-off between a trifecta of (1) performant code (2) flexibility and (3) ease-of-development. At one end of the spectrum, rigid design requirements are unlikely to capture the full scope of the problem, while throw-away research code is unsuitable for production use. This work proposes a framework for the development of radio astronomy techniques within the above trifecta. In doing so, we favour flexibility and ease-of-development over performance, but this does not necessarily mean that the software developed within this framework is slow. Practically this translates to using data formats and software from the Open Source Community. For example, by using NumPy arrays and/or Pandas dataframes, a plethora of algorithms immediately become available to the scientific developer. Focusing on performance, the breakdown of Moore’s Law in the 2010s and the resultant growth of both multi-core and distributed (including cloud) computing, a fundamental shift in the writing of radio astronomy algorithms and the storage of data is required: It is necessary to shard data over multiple processors and compute nodes, and to write algorithms that operate on these shards in parallel. The growth in data volumes compounds this requirement. Given the fundamental shift in compute architecture we believe this is central to the performance of any framework going forward, and is given especial emphasis in this one. This paper describes two Python libraries, Dask-MS and codex africanus which enable the development of distributed High- Performance radio astronomy code with Dask. Dask is a lightweight Python parallelisation and distribution framework that seam- lessly integrates with the PyData ecosystem to address radio astronomy “Big Data“ challenges. Keywords: standards, techniques, interferometric, Computer systems organization, …더보기

This paper was uploaded based on materials provided by arXiv.
This paper is an open academic resource, and the original text can be accessed on arXiv.
Source: arXiv – A free repository for scientific and technical researchers.
This paper is provided for academic research purposes, and the original can be downloaded from arXiv.
Visit arXiv to explore more recent papers!

번역 (Translation):

Africanus I. Dask-MS 및 Codex Africanus S. J. Perkinsa, J. S. Kenyonb, L. A. L. Andatib, H.L. Bestera, B, O. M. Smirnovb, A, B. Hugoa, B Asouth African Radio Astronomy Obstomatory (SARAO), SARICA TOWN, CAPE AFRICAY, WC를위한 B. V. Hugoa, B. V. Hugoa, B. A. L. A. L. Andatib, H.L. Bestera, B, O. M. Smirnovb를 사용한 확장 가능하고 분산 및 효율적인 무선 데이터 처리. & Technologies (RATT), Rhodes University, Makhanda, EC, EC, South Africa, Radiastronomy of Astrophysics (INAF IRA), Bologna, Italy Abstract는 Meerkat, Ska, Ngvla 및 DSA-2000과 같은 새로운 라디오 간섭계의 물리적 구성을 추상화합니다. 첫째, 새로운 계측기에 의해 생성 된 수량의 데이터를 트랙하게 처리하려면 여러 노드에서 세분화 및 처리가 필요합니다. 둘째, 개선 된 엔지니어링 관행과 더 큰 데이터 수로 인해 현대 기기에 내재 된 민감도는 현대 간섭계의 향상된 민감도를 활용하기위한 새로운 기술의 개발이 필요합니다. 이는 라디오 천문학 소프트웨어 개발에서 중요한 긴장을 일으 킵니다. 완전히 최적화 된 파이프 라인은 과학 제품을 다루기 쉬운 시간 내에 생산하는 데 바람직하지만, 이러한 파이프 라인의 설계 요구 사항은 더 큰 기기 민감성에 의해 공개 된 Artefacts의 맥락에서 선행에 이해되지 않을 것입니다. 따라서 이러한 유물을 해결하기 위해 새로운 기술을 지속적으로 개발하고 전체 파이프 라인에 통합해야합니다. Knuth는 우리에게“조기 최적화는 모든 악의 근본입니다”라고 상기시켜줍니다. 이를 통해 (1) 수행자 코드 (2) 유연성과 (3) 개발 용이성 사이의 기본 트레이드 오프가 필요합니다. 스펙트럼의 한쪽 끝에서, 강성 설계 요구 사항은 문제의 전체 범위를 캡처 할 가능성이 낮지 만 Throw-Away Research Code는 생산 사용에 적합하지 않습니다. 이 연구는 위의 Trifecta 내에서 무선 천문학 기술의 개발을위한 프레임 워크를 제안합니다. 그렇게함으로써, 우리는 성능에 대한 유연성과 개발 용이성을 선호하지만,이 프레임 워크 내에서 개발 된 소프트웨어가 느리다는 것을 의미하지는 않습니다. 실제로 이것은 오픈 소스 커뮤니티의 데이터 형식과 소프트웨어를 사용하는 것으로 해석됩니다. 예를 들어, Numpy Array 및/또는 Pandas Dataframes를 사용하여 과학적 개발자가 즉시 알고리즘을 사용할 수있게됩니다. 성능, 2010 년대 무어 법칙의 붕괴 및 클라우드 포함 (클라우드 포함) 컴퓨팅의 결과, 라디오 천문학 알고리즘의 쓰기의 근본적인 변화와 데이터 저장이 필요합니다. 여러 프로세서와 계산 노드를 통해 데이터를 보장하고 이들 Shards에서 비슷하게 작동하는 알게리스트를 작성해야합니다. 데이터 볼륨의 성장은이 요구 사항을 복합합니다. Compute Architecture의 근본적인 변화를 감안할 때 우리는 이것이 앞으로의 모든 프레임 워크의 성능의 핵심이라고 생각하며, 이것에 특별한 강조를받습니다. 이 논문은 두 개의 파이썬 라이브러리 인 Dask-MS 및 Code Africanus에 대해 설명하여 Dask와 함께 분산 된 고성능 라디오 천문학 코드를 개발할 수 있습니다. Dask는 Pydata 생태계와 덜 통합하여 라디오 천문학“빅 데이터”도전을 해결하는 가벼운 파이썬 병렬화 및 분포 프레임 워크입니다. 키워드 : 표준, 기술, 간섭계, 컴퓨터 시스템 조직, … 더보기

이 논문은 arXiv에서 제공되는 자료를 바탕으로 업로드되었습니다.
본 논문은 공개된 학술 자료이며, 원문은 arXiv에서 확인할 수 있습니다.
출처: arXiv – 과학 및 기술 연구자들을 위한 무료 논문 저장소.
이 논문은 학술 연구 목적으로 제공되며, 원문은 arXiv에서 다운로드할 수 있습니다.
더 많은 최신 논문을 보려면 arXiv를 방문하세요!

PDF 다운로드

Leave a comment

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다