안녕하세요!
어텐션에서 쿼리, 키, 값의 개념에 대해 잘 이해가 가지 않아서 질문드립니다.
2.3.2 쿼리, 키, 값 이해하기 부분을 읽을 때는
쿼리 : '파리'
키 : 나는, 최근, 파리, 여행을, 다녀왔다
값 : 키의 토큰 임베딩
그런데 파리, 여행, 다녀왔다가 적절히 섞인 값이 된다면, 사람이 단어를 재해석하는 과정을 모방할 수 있다. 문장에서의 값과 제가 원래 생각했던 값이 확실히 무슨 의미인지 이해가 잘 가지 않았습니다.
74페이지의 두번째 문단에서
쿼리 : 파리 임베딩
키 : 각 토큰의 임베딩
➡️ 쿼리 - 키 관련도 계산
이렇게 이해했습니다. 그래서 윗 부분에서는 값을 키의 토큰 임베딩으로 생각했는데 74페이지의 두번째 문단을 읽을 때는 키가 제가 원래 생각하던 값(value)인가? 하는 생각이 들었습니다. 여기서는 값이 뭔가요?
75페이지의 트랜스포머 아키텍처에서 임베딩을 직접 활용할 때의 문제점을 해결하기 위해 토큰 임베딩을 변환하는 가중치를 도입했다는 부분에서는
쿼리 : 파리 임베딩에 가중치를 곱한 것 = q1
키 : 각각의 토큰 임베딩에 가중치를 곱한 것 = k
값 : ?
--중심 질문은 아니지만 그림 2.12와 2.13에서 임베딩을 직접 활용할 때와 가중치를 도입해 관계를 계산할 때랑 관련도에 차이가 있어야 한다고 생각했는데 관련도가 동일한데 이건 왜인지 궁금합니다!
76페이지에서
트랜스포머에서는 그림 2.14와 같이 값(value)도 토큰 임베딩을 가중치를 통해 변환한다 고 나와있는데 여기서도 값에 대한 부분이 확실히 이해가 되지 않았습니다.
그림 2.14를 보면 값이 키 임베딩을 가중치로 변환한 것이라고 나와 있는데 이렇게 이해하면 되는걸까요?
쿼리-키 관계 계산한 관련도 값과 토큰 임베딩을 값 가중치로 변환한 값(value)를 가중합 하면 파리를 재해석한 결과를 얻을 수 있다.
이 문장에서 값(value)이 토큰 임베딩이 키 값들(나는, 최근, 파리, 여행을, 다녀왔다.)를 임베딩한 값이라고 했는데, 그럼 그림 2.13의 키값과 동일한 것 아닌가요? (가중치가 다르지만)
-- 그림 관련해서 2.13과 2.14에서 쿼리인 '파리'의 가중치가 왜 다른지 궁금합니다!
이걸 지금 적는 와중에도 너무헷갈리네요 ㅠㅠㅋㅋ 제가 말주변이 없어서 혹시라도 제가 적절하지 않게 작성한 부분이 있다면 말씀 부탁드릴게요.
읽어주셔서 감사합니다!
안녕하세요!
어텐션에서 쿼리, 키, 값의 개념에 대해 잘 이해가 가지 않아서 질문드립니다.
2.3.2 쿼리, 키, 값 이해하기 부분을 읽을 때는
쿼리 : '파리'
키 : 나는, 최근, 파리, 여행을, 다녀왔다
값 : 키의 토큰 임베딩
그런데 파리, 여행, 다녀왔다가 적절히 섞인 값이 된다면, 사람이 단어를 재해석하는 과정을 모방할 수 있다. 문장에서의 값과 제가 원래 생각했던 값이 확실히 무슨 의미인지 이해가 잘 가지 않았습니다.
74페이지의 두번째 문단에서
쿼리 : 파리 임베딩
키 : 각 토큰의 임베딩
➡️ 쿼리 - 키 관련도 계산
이렇게 이해했습니다. 그래서 윗 부분에서는 값을 키의 토큰 임베딩으로 생각했는데 74페이지의 두번째 문단을 읽을 때는 키가 제가 원래 생각하던 값(value)인가? 하는 생각이 들었습니다. 여기서는 값이 뭔가요?
75페이지의 트랜스포머 아키텍처에서 임베딩을 직접 활용할 때의 문제점을 해결하기 위해 토큰 임베딩을 변환하는 가중치를 도입했다는 부분에서는
쿼리 : 파리 임베딩에 가중치를 곱한 것 = q1
키 : 각각의 토큰 임베딩에 가중치를 곱한 것 = k
값 : ?
--중심 질문은 아니지만 그림 2.12와 2.13에서 임베딩을 직접 활용할 때와 가중치를 도입해 관계를 계산할 때랑 관련도에 차이가 있어야 한다고 생각했는데 관련도가 동일한데 이건 왜인지 궁금합니다!
76페이지에서
트랜스포머에서는 그림 2.14와 같이 값(value)도 토큰 임베딩을 가중치를 통해 변환한다 고 나와있는데 여기서도 값에 대한 부분이 확실히 이해가 되지 않았습니다.
그림 2.14를 보면 값이 키 임베딩을 가중치로 변환한 것이라고 나와 있는데 이렇게 이해하면 되는걸까요?
쿼리-키 관계 계산한 관련도 값과 토큰 임베딩을 값 가중치로 변환한 값(value)를 가중합 하면 파리를 재해석한 결과를 얻을 수 있다.
이 문장에서 값(value)이 토큰 임베딩이 키 값들(나는, 최근, 파리, 여행을, 다녀왔다.)를 임베딩한 값이라고 했는데, 그럼 그림 2.13의 키값과 동일한 것 아닌가요? (가중치가 다르지만)
-- 그림 관련해서 2.13과 2.14에서 쿼리인 '파리'의 가중치가 왜 다른지 궁금합니다!
이걸 지금 적는 와중에도 너무헷갈리네요 ㅠㅠㅋㅋ 제가 말주변이 없어서 혹시라도 제가 적절하지 않게 작성한 부분이 있다면 말씀 부탁드릴게요.
읽어주셔서 감사합니다!