新微赢技术网

标题: [求助]怎么样统计汉字? [打印本页]

作者: ♀〓♂♀〓♂    时间: 2009-11-3 03:04
标题: [求助]怎么样统计汉字?
请问怎么样统计文件里的汉字字数?
作者: 木子    时间: 2009-11-3 03:04
中、英文在一起吗?
哪怎么统计呢?
顶一下吧。
作者: 老鼠爱上猫    时间: 2009-11-3 03:04
若全部都是中文....


char str[] = "我喜欢编程!";
chin_len = strlen(str)/2;


若中文、e文杂交...

char str[] = "我喜欢c编程!";
则字符数:

int num = 0;
for (int i = 0; str[i]; i++) {
if (str[i] & 0x80) {
i++;
}
num++;
}
作者: 爱琴海    时间: 2009-11-3 03:04
给你一个例子统计汉字字数
#include <fstream>
#include <iostream>
using namespace std;
int main()
{
ifstream infile("D:\\china.txt");
if(!infile)
{
cout<<"cann't open this file"<<endl;
exit(1);
}
char ch;
int i = 0;
while(infile.get(ch))//读取一个字符,即一个字节
i++;
cout<<i/2<<endl;//汉字是两个字节,所以除2
system("pause");
return 0;
}
作者: isly‖    时间: 2009-11-3 03:04
以下是引用stylev在2006-6-9 12:03:15的发言:
若全部都是中文....




若中文、e文杂交...


char str[] = "我喜欢c编程!";

则字符数:


int num = 0;

for (int i = 0; str[i]; i++) {

if (str[i] & 0x80) {//这个表达式解释一下

i++;

}

num++;

}
作者: 边走¤边爱    时间: 2009-11-3 03:04
我来帮stylev解释下,根据规定,汉字的内码第一字节都是在0x80以上,如:

GBK范围:
1st byte 2nd byte
0x81~0xfe 0x40~0x7e and 0x80~0xfe

BIG5范围:
1st byte 2nd byte
0x81~0xfe 0x40~0x7e and 0xa1~0xfe

str[i] & 0x80这个语句是判断第一个字节是否在0x80之上即0x81~0xfe之间,如果是则当前2字节是汉字,否则则不是汉字
作者: 残恋思香    时间: 2009-11-3 03:04
o
xie le
作者: 爱(じΩvê)    时间: 2009-11-3 03:04
标点符号呢?不考虑啊?
作者: 人偶娃娃    时间: 2009-11-3 03:04
标点符号呢?不考虑啊?

可以继续根据内码过滤
作者: 轻松由我    时间: 2009-11-3 03:04
知道,我是说大家的代码,没考虑符号算不算字数~




欢迎光临 新微赢技术网 (http://bbs.weiying.cn/) Powered by Discuz! X3.2