본문 바로가기
  • Good Metaphor about AI

분류 전체보기23

Git 초기 세팅 Git을 사용하여 원격 저장소에서 코드를 클론하고, 새 브랜치를 생성한 후 코드 수정 후 커밋하는 과정은 다음과 같다.1. Git이 설치되어 있는지 확인터미널에서 다음 명령어를 실행하여 Git이 설치되어 있는지 확인한다.git --version설치되어 있지 않다면 다음을 실행한다.Ubuntu (리눅스)sudo apt update sudo apt install git -yMac (macOS)brew install git2. Git 사용자 정보 설정Git을 처음 사용하는 경우, 사용자 이름과 이메일을 설정해야 한다.git config --global user.name "Your Name"git config --global user.email "your.email@example.com"설정이 올바르게 되었는지.. 2025. 2. 20.
Masked Autoencoders Are Scalable Vision Learners 기본 정보- 학회: CVPR 2022- 저자: K. He et al.,- 기관:Facebook AI Research (FAIR) Abstract영어 원문This paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. First, we develop an asymmetric encoder-decoder architecture, with .. 2025. 2. 17.
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) 기본 정보- 학회: ICLR 2021- 저자: A. Dosovitskiy et al.,- 기관: Google Reseach, Brain Team Abstract영어 원문While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional network.. 2025. 2. 12.
Improving Language Understanding by Generative Pre-Training 기본 정보- 학회: (-) 2018 (미출판 논문) - 저자: A. Radford et al.,- 기관: OpenAI Abstract영어 원문Natural language understanding comprises a wide range of diverse tasks such as textual entailment, question answering, semantic similarity assessment, and document classification. Although large unlabeled text corpora are abundant, labeled data for learning these specific tasks is scarce, making it challenging for dis.. 2025. 2. 10.
리눅스 기본 명령어 리눅스에서 CPU, GPU, RAM 사양을 확인하는 터미널 명령어는 다음과 같다.1. CPU 사양 확인lscpu또는cat /proc/cpuinfo2. GPU 사양 확인NVIDIA GPU 사용 시:nvidia-smi또는lspci | grep -i nvidiaAMD GPU 사용 시:lspci | grep -i amd또는glxinfo | grep "OpenGL renderer"(위 명령어 실행을 위해 mesa-utils 패키지가 필요할 수 있다.)3. RAM 사양 확인free -h또는cat /proc/meminfo4. 전체 시스템 사양 확인inxi -Fxz(inxi 패키지가 없으면 sudo apt install inxi로 설치 가능)위 명령어를 실행하면 CPU, GPU, RAM을 비롯한 다양한 시스템 정보를 .. 2025. 2. 7.
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 기본 정보- 학회: NAACL 2018- 저자: J. Devlin et al.,- 기관: Google AI Language  Abstract새로운 언어 표현 모델인 BERT를 소개한다. BERT는 "Bidirectional Encoder Representations from Transformers"의 약자로, 기존의 언어 표현 모델(Peters et al., 2018a; Radford et al., 2018)과 달리, 모든 층에서 좌우 문맥을 동시에 고려하여 비지도 학습을 수행하도록 설계되었다. 이를 통해, 사전 학습된 BERT 모델은 단 하나의 출력층만 추가하여 질문 응답, 언어 추론 등 다양한 작업에서 최첨단 성능을 달성할 수 있으며, 별도의 작업별 아키텍처 수정이 거의 필요하지 않다.BERT는 개념.. 2025. 2. 6.
Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions 기본 정보- 학회: ICASSP 2018- 저자: J. Shen et al.,- 대학: Google Inc., University of California, Berkeley  Abstract이 논문은 텍스트로부터 직접 음성을 합성하는 신경망 아키텍처인 Tacotron 2에 대해 설명한다.시스템은 문자 임베딩을 멜 스펙트로그램으로 매핑하는 순환 시퀀스-투-시퀀스 특징 예측 네트워크와, 이러한 스펙트로그램을 입력으로 받아 시계열 도메인 파형을 합성하는 변형된 WaveNet 모델로 구성된다.본 모델은 평균 의견 점수(MOS) 4.53을 달성하며, 이는 전문가가 녹음한 음성의 MOS 4.58과 유사하다. 설계 선택을 검증하기 위해, 본 논문은 시스템의 주요 구성 요소에 대한 제거 연구(ablation study.. 2025. 2. 5.
Tacotron: Towards End-to-End Speech Synthesis 기본 정보- 학회: Interspeech 2017- 저자: Y. Wang et al,.- 대학: Google Inc. Abstract텍스트-음성 변환(TTS) 시스템은 일반적으로 여러 단계로 구성되며, 텍스트 분석 프런트엔드, 음향 모델, 오디오 합성 모듈 등이 포함된다. 이러한 구성 요소를 구축하려면 상당한 도메인 전문 지식이 필요하며, 설계 선택이 불안정할 수 있다. 본 논문에서는 문자 기반으로 직접 음성을 합성하는 엔드투엔드 생성형 TTS 모델인 Tacotron을 제안한다. 이 모델은 쌍을 이용해 완전히 처음부터 훈련될 수 있으며, 랜덤 초기화를 사용한다. 본 연구에서는 시퀀스-투-시퀀스(seq2seq) 프레임워크가 이 어려운 작업에서 잘 작동하도록 만들기 위한 몇 가지 핵심 기술을 제시한다. T.. 2025. 2. 5.
FrugalGPT: How to Use Large Language ModelsWhile Reducing Cost and Improving Performance 기본 정보- 학회: arXiv 2023- 저자: Y. Chen, M. Zaharia, J. Zou- 대학: Stanford / Future Data system lab  Abstract최근 다양한 대형 언어 모델(Large Language Models, LLMs)이 등장하면서, 사용자들은 비용을 지불하고 LLM API를 사용할 수 있는 환경이 조성되었다. 그러나 이러한 API는 제공업체마다 가격 정책이 다르며, 그 차이는 두 배가 아니라 최대 100배(두 자릿수 차이)까지 날 수 있다. 예를 들어, GPT-4, ChatGPT, J1-Jumbo 등의 모델을 사용할 때 비용이 천차만별이며, 특히 대량의 쿼리나 텍스트 데이터를 처리하는 경우 비용 부담이 상당히 클 수 있다.이러한 문제를 해결하기 위해, 본 논.. 2025. 2. 3.