hrefspace

 找回密码
 立即注册
搜索
热搜: PHP PS 程序设计
查看: 1404|回复: 6

如何将拼音汉字表转化成汉字拼音表?

[复制链接]

535

主题

535

帖子

1629

积分

版主

Rank: 7Rank: 7Rank: 7

积分
1629
发表于 2023-10-2 15:58:29 | 显示全部楼层 |阅读模式
这个网站可以查看拼音汉字表:

http://12988.net/www/tool/py/hzpyqb.htm

这张表是按拼音排列的,列出了每个拼音下的汉字

但我想要的是按汉字排列的汉字拼音表,这张表列出的是每个汉字的所有读音

我遇到的困难是这个网站……

http://12988.net/www/tool/py/hzpyqb.htm

……里的内容即不允许复制粘贴,也不允许查看网页源代码。

我也找不到比这个网站更齐全的表格了。

我目前能想到的办法是,屏幕截图,然后OCR。

但OCR对生僻字的识别率太低。

你们有什么更好的办法吗?
回复

使用道具 举报

0

主题

154

帖子

2

积分

新手上路

Rank: 1

积分
2
发表于 2023-10-2 15:59:05 | 显示全部楼层
可以用wget命令抓下来
然后找到
<BODY ****>
把****对应的内容全部删除,再本地打开就可以复制了

不过部首的发音好像错了,比如最后一个是左耳朵,列在zuo的发音了
回复

使用道具 举报

0

主题

189

帖子

25

积分

新手上路

Rank: 1

积分
25
发表于 2023-10-2 15:59:48 | 显示全部楼层
我试了下, 可以查看页面源码,也可以保存为html页面. 把编码转化成utf8, 接下来就是 字符串处理了.
  1. data=Import[NotebookDirectory[]<>"汉字拼音全表.html","Text"];processed=StringCases[data,">"~~(x:WordCharacter..)~~"</span><span style="font-family: 宋体">"~~(y:WordCharacter..)~~"</span>"->{x,y}];Export[NotebookDirectory[]<>"拼音.txt",Flatten[Table[{p[[1]],#}&/@Characters[p[[2]]],{p,processed}],1],"Table"]
复制代码
回复

使用道具 举报

0

主题

199

帖子

66

积分

关内侯

Rank: 2

积分
66
发表于 2023-10-2 16:00:44 | 显示全部楼层
事实上. 我发现 这个页面 有很多问题,  玉字 被识别成了王字.  也就是说, 这个页面 应该也是从某个OCR软件 导出来的结果,  你再来个 二重的OCR,恐怕只会引入更多的问题.

如果是要获取 拼音跟汉字的 数据,  可以在GitHub上找找, 我找到了这个:https://github.com/mozillazg/pinyin-data
回复

使用道具 举报

0

主题

193

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2023-10-2 16:01:11 | 显示全部楼层
我知道python有一个汉字转拼音的包
以前用得很熟
现在只记得from pypinyin import pinyin了……
回复

使用道具 举报

0

主题

173

帖子

2

积分

新手上路

Rank: 1

积分
2
发表于 2023-10-2 16:01:17 | 显示全部楼层
这个网站是可以查到源码,而且解析起来很简单,每一个<p>标签标示了一个拼音和对应的汉字,比如下面这个例子:
<p class="MsoNormal">
<span lang="EN-US">bei</span>
<span style="font-family: 宋体">被北倍杯背悲备碑卑贝辈钡焙狈惫臂褙悖蓓鹎鐾呗邶鞴孛陂碚俻俾偝偹備僃哱唄喺垻埤怫愂憊揹昁杮柸桮梖棑棓椑波牬犕狽珼琲痺盃禙箃糒苝茀菩萆萯葡藣蛽蜚襬誖諀貝跋軰輩鄁鉳鋇錍鐴骳鵯</span>
<span lang="EN-US">
</span></p>
先把拼音到汉字的映射得到(array),然后做一个reverse index就可以了(map)。
当然,前提是这个网页给出的信息是正确的。
回复

使用道具 举报

0

主题

183

帖子

2

积分

新手上路

Rank: 1

积分
2
发表于 2023-10-2 16:01:44 | 显示全部楼层
pypinyin挺好用的

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|hrefspace

GMT+8, 2024-11-22 16:52 , Processed in 0.062370 second(s), 22 queries .

Powered by hrefspace X3.4 Licensed

Copyright © 2022, hrefspace.

快速回复 返回顶部 返回列表