전체 글

전체 글

    [논문 리뷰] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators (ICLR 2020)

    1. 기존 pre-training 방식 LM(Language Modeling) 왼쪽에서 오른쪽으로 처리해 이전에 등장한 단어들을 기반으로 다음 단어를 예측 GPT 등 MLM(Masked Language Modeling) 랜덤하게 전체 토큰의 일부(일반적으로 15%)를 마스킹 처리한 후, 마스크 토큰의 원본 단어를 예측 LM과 비교해 양방향 정보를 모두 고려하는 장점 전체 입력 토큰 중 15%만 학습하는 단점 BERT, RoBERTa, XLNet 등 ⇒ ELECTRA에서는 MLM pre-training 방식의 단점을 보완해 Replaced token detection 방식을 제안 단점 1: 전체 토큰의 15%만 학습해 학습 비용이 많이 듦 단점 2: [MASK]토큰이 pre-training 단계에서만 등장..

    [프로그래머스] 단어 변환 (Python)

    문제 begin으로 주어진 단어에서 시작해 target 단어를 만드려고 한다. words에 주어진 단어 리스트를 사용해 target 단어로 변환할 수 있는데, 한 번에 알파벳이 1개만 다른 단어로 변환할 수 있다. 가장 짧은 변환 과정은? (문제 링크) 내 풀이 BFS로 풀이했으며 deque 라이브러리로 큐를 사용했다. words에 존재하지 않아 변환할 수 없는 단어는 0을 반환한다. (시작 단어, 0)을 queue에 넣는다. queue 요소를 하나 꺼내고, 꺼낸 단어와 1글자만 다른 단어를 큐에 삽입한다. 정답 단어를 찾으면 반환하고, 찾지 못하면 계속 반복한다. from collections import deque # 한 글자만 다른 단어인지 확인 def is_valid(word, target): s..

    [LeetCode] #200. Number of Islands (Python)

    문제 1인 부분은 땅으로 지나갈 수 있고, 0은 바다로 지나갈 수 없다. 땅/바다 정보가 들어있는 2차원 배열이 주어졌을 때, 총 섬의 개수를 구하여라. (문제 링크) 풀이 1 땅/바다 정보가 들어있는 지도 grid 를 탐색하면서 땅인 위치를 찾으면 해당 위치에서 4방향으로 땅이 있는지 dfs를 수행한다. dfs를 완료하면 연결된 땅을 다 방문했기 때문에 섬의 개수를 1 증가시킨다. dfs()를 살펴보면: 탐색하는 좌표 (x, y)의 위치가 지도의 크기를 벗어나거나 이미 방문할 수 없는 곳(바다 또는 이미 방문한 곳)이면 종료한다. 아래와 같이 탐색할 수 있는 조건으로 코드를 짤 수도 있다. 하지만 3개의 AND 조건을 확인하는 것 보다 OR 조건을 확인하는 시간이 짧아 탐색할 수 없는 조건을 사용했다...

    [이코테] 고정점 찾기 (Python, 이진탐색)

    문제 고정점(Fixed Point)이란 수열의 원소 중에서 값이 인덱스와 동일한 원소를 의미한다. 예를 들어 수열 a = {-15, -4, 2, 8, 13}이 있을 때 a[2] = 2 이므로 고정점은 2가 된다. 하나의 수열이 N개의 서로 다른 원소로 이루어지며, 모든 원소는 오름차순으로 정렬되어있다. 수열에서 고정점이 있다면 고정점을 출력하는 프로그램을 작성해라. 시간 복잡도 O(logN)인 알고리즘을 작성해야 한다. # 예시1 n = 5 arr = [-15, -6, 1, 3, 7] # res = 3 # 예시2 n = 7 arr = [-15, -4, 2, 8, 9, 13, 15] # res = 2 # 예시3 n = 7 arr = [-15, -4, 3, 8, 9, 13, 15] # res = -1 풀이 ..

    [논문 리뷰] VGGNet (CVPR 2014)

    안녕하세요 🐣 이번에 공부할 논문은 Very Deep Convolutional Networks for Large-Scale Image Recognition(VGGNet) 입니다. 아직 논문을 자세히 읽지 못해서 추후에 보완하도록 하겠습니다. 논문 원문은 여기서 확인할 수 있습니다. 논문 핵심 내용 CNN layer를 깊이 쌓을수록 성능이 향상된다. → layer에 따른 성능 차이를 확인하기 위해 동일한 크기의 커널을 사용하고 layer만 다르게 쌓아 실험을 진행했다. layer에 따른 성능 차이를 비교하기 위해 3*3크기의 간단한 커널을 사용했다. 아래는 본 논문에서 실험한 6가지 구조이다. AlexNet, ZFNet 처럼 224*244 크기의 컬러 이미지 사용 1개 or 여러개의 convolution ..