新微赢技术网

标题: [求助]怎么样统计汉字？ [打印本页]

作者: ♀〓♂♀〓♂ 时间: 2009-11-3 03:04
标题: [求助]怎么样统计汉字？
请问怎么样统计文件里的汉字字数？

作者: 木子 时间: 2009-11-3 03:04
中、英文在一起吗？
哪怎么统计呢？
顶一下吧。

作者: 老鼠爱上猫 时间: 2009-11-3 03:04
若全部都是中文....

char str[] = "我喜欢编程！";
chin_len = strlen(str)/2;

若中文、e文杂交...

char str[] = "我喜欢c编程！";
则字符数：

int num = 0;
for (int i = 0; str[i]; i++) {
if (str[i] & 0x80) {
i++;
}
num++;
}

作者: 爱琴海 时间: 2009-11-3 03:04
给你一个例子统计汉字字数
#include <fstream>
#include <iostream>
using namespace std;
int main()
{
ifstream infile("D:\\china.txt");
if(!infile)
{
cout<<"cann't open this file"<<endl;
exit(1);
}
char ch;
int i = 0;
while(infile.get(ch))//读取一个字符，即一个字节
i++;
cout<<i/2<<endl;//汉字是两个字节，所以除2
system("pause");
return 0;
}

作者: isly‖ 时间: 2009-11-3 03:04
以下是引用stylev在2006-6-9 12:03:15的发言：
若全部都是中文....

若中文、e文杂交...

char str[] = "我喜欢c编程！";

则字符数：

int num = 0;

for (int i = 0; str[i]; i++) {

if (str[i] & 0x80) {//这个表达式解释一下

i++;

}

num++;

}

作者: 边走¤边爱 时间: 2009-11-3 03:04
我来帮stylev解释下，根据规定，汉字的内码第一字节都是在0x80以上，如：

GBK范围：
1st byte 2nd byte
0x81~0xfe 0x40~0x7e and 0x80~0xfe

BIG5范围：
1st byte 2nd byte
0x81~0xfe 0x40~0x7e and 0xa1~0xfe

str[i] & 0x80这个语句是判断第一个字节是否在0x80之上即0x81~0xfe之间，如果是则当前2字节是汉字，否则则不是汉字

作者: 残恋思香 时间: 2009-11-3 03:04
o
xie le

作者: 爱(じΩvê) 时间: 2009-11-3 03:04
标点符号呢？不考虑啊？

作者: 人偶娃娃 时间: 2009-11-3 03:04

标点符号呢？不考虑啊？

可以继续根据内码过滤

作者: 轻松由我 时间: 2009-11-3 03:04
知道，我是说大家的代码，没考虑符号算不算字数~

欢迎光临新微赢技术网 (http://bbs.weiying.cn/)