- 어셈블리어란? - x86-64 어셈블리어 - 데이터 이동: mov, lea - 산술 연산: add, sub, inc, dec - 논리 연산: and, or, xor, not - 비교: cmp, test - 분기: jmp, je, jg
1. 서론
해커의 언어: 어셈블리 💬
컴퓨터 속에는 하나의 거대한 세계가 있다. 복잡한 논리적 인과관계가 존재하고, 여러 개체가 상호작용하며, 그 세계에서 통용되는 기계어(Machine Code)라는 언어가 있다. 그리고 해커가 하는 일은 그 거대한 세계의 허점을 공격하여 시스템을 장악하는 것이다.
컴퓨터 언어, 운영체제, 네트워크, 암호학 등 다양한 배울 것들이 존재하지만, 그중 시스템 해커가 가장 기본적으로 습득해야 하는 지식은 컴퓨터 언어에 관한 것이다. 왜냐하면, 시스템 해커는 컴퓨터의 언어로 작성된 소프트웨어에서 취약점을 발견해야 하기 때문이다.
하지만 컴퓨터의 언어인 기계어는 0과 1로만 구성되어 있어서, 우리는 이해하기 매우 어렵다. 그래서 초기 컴퓨터 과학자 중 한 명인 David Wheeler는 EDSAC을 개발하면서 어셈블리 언어(Assembly Language)와 어셈블러(Assembler)라는 것을 고안했다.
어셈블러는 일종의 통역사인데, 개발자들이 어셈블리어로 코드를 작성하면 컴퓨터가 이해할 수 있는 기계어로 코드를 치환해줬다.
그런데 소프트웨어를 역분석하는 사람들은 여기에 역발상을 더해, 기계어를 어셈블리 언어로 번역하는 역어셈블러(Disassembler)를 개발했다. 기계어로 구성된 소프트웨어를 역어셈블러에 넣으면, 어셈블리 코드로 번역된다. 이로 인해 소프트웨어 분석가들은 소프트웨어를 분석하려고 기계어를 읽을 필요가 없어졌다.
이 포스팅에서 다루는 x86-64를 비롯하여 대중적으로 많이 사용되는 아키텍처들은 인터넷에서 역어셈블러를 구하기 매우 쉽다. 따라서 어셈블리어만 이해할 수 있다면 역어셈블러를 사용하여 소프트웨어를 분석해 볼 수 있다.
따라서 이번 포스팅에서는 어셈블리 언어에 대해 개략적인 설명을 하고, x86-64의 명령어들을 소개할 것이다. 이를 이해하고 나면 소프트웨어를 읽을 수 있는 기본적인 언어 지식을 갖추게 될 것이다.
2. 어셈블리어와 x86-64
어셈블리 언어는 위에서 설명했듯이 컴퓨터의 기계어와 치환되는 언어이다. 이는 기계어가 여러 종류라면 어셈블리어도 여러 종류여야 함을 의미한다. 그리고 이전 포스팅에서 명령어 집합구조(Instruction Set Architecture, ISA)를 설명할 때 얘기했듯이 CPU에 사용되는 ISA는 IA-32, x86-64, ARM, MIPS 등 종류가 굉장히 다양하다.
따라서 이들의 종류만큼 많은 수의 어셈블리어가 존재한다. x64의 세계에는 x64의 어셈블리어가 있고, ARM의 세계에는 ARM의 어셈블리어가 있다. 이 언어는 많이 알면 알수록 좋지만, 해당 포스팅에선 x64아키텍처를 대상으로 하기 때문에 x64 어셈블리어만을 소개하겠다.
2-1. x64 어셈블리 언어 기본 구조
한국어가 주어, 목적어, 서술어 등으로 이루어진 문법 구조를 갖듯이 어셈블리 언어도 마찬가지다. x64 어셈블리 언어는 우리가 사용하는 언어보다는 훨씬 단순한 문법 구조를 지닌다. 이들의 문장은 동사에 해당하는 명령어(Operation Code, Opcode)와 목적어에 해당하는 피연산자(Operand)로 구성된다.
x86-64 어셈블리어의 문법 구조
2-2. 명령어
인텔의 x64에는 매우 많은 명령어가 존재하지만, 여기선 아래의 중요한 21개의 명령어만 자세히 알아보도록 하겠다.
데이터 이동(Data Transfer)
mov, lea
산술 연산(Arithmetic)
inc, dec, add, sub
논리 연산(Logical)
and, or, xor, not
비교(Comparison)
cmp, test
분기(Branch)
jmp, je, jg
스택(Stack)
push, pop
프로시져(Procedure)
call, ret, leave
시스템 콜(System call)
syscall
2-3. 피연산자
피연산자에는 총 3가지 종류가 올 수 있다.
상수 (Immediate Value)
레지스터(Register)
메모리(Memory)
메모리 피연산자는 []으로 둘러싸인 것으로 표현되며, 앞에 크기 지정자(Size Directive) TYPE PTR이 추가될 수 있다. 여기서 타입에는 BYTE, WORD, DWORD, QWORD가 올 수 있으며, 각각 1바이트, 2바이트, 4바이트, 8바이트의 크기를 지정한다.
👇메모리 피연산자의 예
QWORD PTR [0x8048000]
0x8048000의 데이터를 8바이트만큼 참조
DWORD PTR [0x8048000]
0x8048000의 데이터를 4바이트만큼 참조
WORD PTR [rax]
rax가 가르키는 주소에서 데이터를 2바이트 만큼 참조
자료형 WORD의 크기가 2바이트인 이유
초기에 인텔은 WORD의 크기가 16비트인 IA-16 아키텍처를 개발했다. CPU의 WORD가 16비트였기 때문에, 어셈블리어에서도 WORD를 16비트 자료형으로 정의하는 것이 자연스러웠다.
이후에 개발된 IA-32, x86-64 아키텍처는 CPU의 WORD가 32비트, 64비트로 확장됐다. 그러므로 이 둘의 아키텍처에서는 WORD 자료형이 32비트, 64비트의 크기를 지정하는 것이 당연할 것 같았다.
그러나 인텔은 WORD 자료형의 크기를 16비트로 유지했다. 왜냐하면, WORD 자료형의 크기를 변경하면 기존의 프로그램들이 새로운 아키텍처와 호환되지 않을 수 있기 때문이다. 그래서 인텔은 기존에 사용하던 WORD의 크기를 그대로 유지하고, DWORD(Double Word, 32bit)와 QWORD(Quad Word, 64bit) 자료형을 추가로 만들었다.