当前位置：首页 > 问答 > 正文

mssql导入数据后编码乱七八糟，汇总出来一堆乱码问题怎么破

酒紫萱
问答
2026-01-03 21:22:07
15

行，那咱们就直接开聊这个MSSQL导入数据后出现乱码的烦心事儿，这事儿太常见了，一堆问号“???”或者各种奇怪的字符，看着就头大，别急，咱们一步步来捋，问题大概率出在“编码”不一致上，说白了就是“语言”没对上暗号。

核心思路：从源头到终点，确保每一环的“语言”都是通的。

第一步：先按住源头，检查你的数据文件

乱码的根儿，十有八九在你要导入的那个文件身上，你得先搞清楚它是什么“口味”的。

最常见的坑：CSV/TXT文件的编码。 你用记事本打开那个CSV文件，可能看着完全正常，但问题就藏在保存格式里，你点“另存为”，看看下面的“编码”选项，默认很可能是“ANSI”或者“UTF-8”。
- ANSI是什么？ 它其实不是一种具体的编码，在中文Windows环境下，它通常指的是“GB2312”或“GBK”编码，这种编码在中文系统里很普遍,但兼容性不好。
- UTF-8是什么？ 这是一种国际通用的编码，能兼容几乎所有语言的字符,现在是网页和跨系统交换数据的首选。
怎么办？ 最保险的做法是，把你的源文件另存为UTF-8编码的格式，如果文件来源是别人给的，比如从某个系统导出的，你最好问清楚他们导出的编码是什么，如果对方能直接给你UTF-8格式的,那就最省心了。
Excel文件也是个暗坑。 别以为Excel就没问题，有些老版本的Excel保存的CSV，可能默认还是ANSI，同样，如果能另存为，选择“CSV UTF-8（逗号分隔）”这个选项。

第二步：检查MSSQL数据库的“底色”——排序规则

SQL Server有个叫“排序规则”的设置，这玩意儿决定了数据库怎么存储和比较字符数据，它里面就包含了编码信息，如果数据库的排序规则和你的文件编码对不上,乱码就来了。

怎么查你现在数据库的排序规则？打开SQL Server Management Studio，在数据库上右键“属性”，看“选项”页签，里面有个“排序规则”,常见的比如：

Chinese_PRC_CI_AS：这个适用于简体中文,它通常对应的是GBK编码。
SQL_Latin1_General_CP1_CI_AS：这是个拉丁语的排序规则,对中文支持不好。
Latin1_General_100_CI_AS_SC 或 Chinese_PRC_100_CI_AS_SC：后面带“SC”的表示支持Supplementary Character（增补字符），对生僻字和emoji表情支持更好，通常也使用UTF-8编码。

关键点来了： 如果你的源文件是UTF-8编码，但你的数据库排序规则是一个不支持UTF-8的老规则（比如Chinese_PRC_CI_AS），那么即使你导入步骤对了，数据存进去的时候也可能被“转译”错。

怎么办？ 对于新项目，强烈建议创建数据库时就选择一个支持UTF-8的排序规则，比如带“_SC”的或者明确支持UTF-8的版本，如果是现有数据库，修改排序规则很麻烦（需要重建表等），所以这一步主要是让你心里有数,知道问题可能出在哪。

第三步：导入过程中的关键设置——找准“数据流”的语言

这是最立竿见影的一步！无论你用SQL Server Management Studio的导入导出向导，还是写BULK INSERT语句，都有一个指定“代码页”或“文件格式”的地方。

如果你用图形化导入向导：
1. 在选择源文件后，进入“配置平面文件目标”的步骤（如果是CSV/TXT）。
2. 有一个非常非常重要的下拉框，叫“代码页”。不要用默认的！
3. 根据你第一步检查的结果来选：
  - 如果源文件是UTF-8，就在这里选择 65001 (UTF-8)。
  - 如果源文件是ANSI（GBK），就选择 936 (简体中文GBK)。
4. 高级选项里，还可以逐个字段检查一下数据类型，确保字符串类型的字段是nvarchar、nchar之类的Unicode类型，而不是varchar、char。N开头的类型对多语言支持更好。

如果你用SQL语句（如BULK INSERT）： 在语句里，你需要用CODEPAGE参数来指定。

BULK INSERT YourTableName
FROM 'C:\yourfile.csv'
WITH (
    CODEPAGE = '65001',  -- 如果是UTF-8文件
    FIELDTERMINATOR = ',',
    ROWTERMINATOR = '\n',
    DATAFILETYPE = 'char'
);

第四步：终极确认——客户端显示设置

数据其实已经正确存进数据库了，但你在查询窗口里看到的还是乱码，这可能是因为你的SSMS客户端连接数据库时,使用的语言设置不对。

你可以尝试在查询前加一句：

SET NAMES 'GBK'; -- 如果数据库是GBK排序规则
-- 或者
SET NAMES 'UTF-8';

但更常见的方法是，在连接数据库的属性里，设置“默认语言”，在MSSQL环境下，这一步的影响通常不如前几步大，但知道有这么个事儿,万一前边都解决不了可以试试。

总结一下破局流程：

治本： 尽量获取或转换出UTF-8编码的源文件，这是国际通用语言,能避免绝大多数问题。
对症下药： 在导入工具（无论是图形界面还是命令）中，明确指定代码页（Code Page），文件是UTF-8就选65001，是GBK就选936,千万别依赖默认值。
打好基础： 新建数据库时，优先选择支持UTF-8的排序规则（如带_SC的）。
表结构优化： 存放文本的字段，尽量使用NVARCHAR、NTEXT等N前缀的数据类型,它们的兼容性更好。