飞扬围棋
标题: 职业棋手棋谱数据库分功整理工程 [打印本页]
作者: kklim 时间: 2004-4-2 18:27
标题: 职业棋手棋谱数据库分功整理工程
职业棋手棋谱数据库分功整理有兴趣吗?[讨论]
职业棋手棋谱数据库分功整理有兴趣吗?
各位,我目前在并入GoGoD(23,200棋谱)以后,我的(estone)棋谱数据库有44,000左右。今晚再并入某棋友交换的18,000左右,我想会达到47,000或48,000棋谱左右。
因为最近使用GoGoD中的GoLibrary它的棋谱搜索,编入索引,棋手实绩统计图表确实好用。甚至可以做棋手A对棋手B的成绩比率!
实际上我在之前上传的棋谱列表就是使用它直接搜索与输出的。我试验了中文棋谱归档,它可以支持中文的棋谱输入与输出,因为是输出到txt为处理的格式。
我打算把棋谱数据库全部棋谱变换为中文,目前棋谱数据库混合了中英棋谱。使用上来不方便。名字标准化也要做,搜索方便。
因为个人空闲时间有限,打算使用分功整理的方法与多人分功整理如10年为单位,按照GoDatabase的档案排序整个中文化。一来我个人节省时间,二来分功整理可以分享成果,如何?
中文化后的棋谱数据库可以使用在Kombilo 0.5k以上,它是支持中文的。如此一来,可以做棋形搜索,比较职业棋士的下法与自己的差别,又有比较完全的棋谱数据库做打棋来使用.
全部棋谱会使用multigo过滤除去US栏的信息,与转化为纯粹sgf文件,方便未来整合。
听听各位意见与见解。
谢谢
林
就算通过kombilo做细节搜索重制棋谱,应当保守的有40,000棋谱以上。
题外话:此外GoGoD的词典也是可以输入输出中文。谁有兴趣增加更新中文数据?
[此贴子已经被作者于2004-5-12 23:26:23编辑过]
作者: tsingloh 时间: 2004-4-2 19:26
造福人民的一件大好事啊
作者: liangr 时间: 2004-4-2 20:20
呵呵,有林兄这样的棋友真飞扬和我们的福气啊
作者: wwazz 时间: 2004-4-2 20:27
请说仔细一点.我原出力!
作者: kklim 时间: 2004-4-3 01:54
以下是引用wwazz在2004-4-2 20:27:34的发言:
请说仔细一点.我原出力!
详细情况
50,000棋谱30~40%英语棋谱信息需要转化为全中文(使用在棋谱搜索,列表,实绩比较,棋形研究等等)
1. 需要分工,把棋谱分割成为比较小单位如年或时代,个人整理分配的单位,翻译英语棋谱成为中文。例子:如一人负责10年部分的棋谱。
2. 然后从estone输出成为单独的sgf棋谱。然后使用multigo过滤(batch processing)除去US栏信息(除去版权),转化为纯粹的sgf4棋谱。
3. 输入进入kombilo0.5k,确保使用中文编码encode,选择拒绝完全相同的棋谱,与比较每一手棋。Kombilo处理后会显示问题如某一棋谱“illegal move (173)”(把这信息输入那一棋谱的注解栏里面“错误(173手)”)或某两棋谱完全相同(选择除去评论与手数比较少的)。
4. 之后按照yyyy-mm-ddx成为文件格式。例子:meijin-otake-ishida.sgf 成为 2003-05-13a.sgf 2003-05-13b.sgf 等等 确保每一个棋谱有唯一的文件名字(之后从搜索到的需要棋谱可以输出全部到指定的地方)。
这就完成了部分的棋谱可以使用在学习了。
谢谢
林
希望解释清楚了。
作者: wwazz 时间: 2004-4-3 10:39
请看我给你发的短信!
作者: kklim 时间: 2004-4-3 13:11
你好,
应如何称呼呢?我全名林金强,马来西亚华人。
首先谢谢你的兴趣参与棋谱整理计划。棋谱数据库在我的手上。我想如果有10位参与,平均每一个人要处理5,000棋谱(50,000/10人)。如果二人,每一个人25,000棋谱,十分疲劳的工件量。
棋手名字以gobase.org的为准。比赛名也是,如Gosei 应是日本碁圣战,不是小棋圣战等等。日本名人战与中国名人战也要注解明确。如果仍然有不能够翻译的名字,列出我在想想办法或要求日本棋友解释一下。错误手数与省略手数必须写在评注栏(Comment)。还有,关于日期格式标准化为yyyy-mm-dd 如不知道月可以写成 1975-00-00 或者1975-winter(冬季),等等。
成绩标准化跟随日本计算目,因此中国的棋谱结果要转化然后写上,(在注解栏备注原来的结果)。
还有其它问题?
因为尊重出力的棋友,应仅与他们分享成果,不回上传公开,这方法如何?
谢谢
林
lim_kimkeong@hotmail.com
作者: kklim 时间: 2004-4-3 13:17
数据库folder directory structure
Database\
0196-1699
1700-99
1800-49
1850-99
1900-09
1910-19
1920-29
1930-39
1940-49
1950-59
1960-69
1970-75
1976-79
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
谢谢
林
作者: kklim 时间: 2004-4-3 13:36
基本上来说,比较缺乏的是欧美的棋战,日本的关西棋院的比赛等等比较冷门的棋战(对东方人来说)。
谢谢
林
作者: kklim 时间: 2004-4-3 13:54
举个具体的例子!
英语棋谱
Otake Hideo Takemiya Masaki 7th Gosei, final game 3 R: B+3.5 Date: 1987-3-08 location: nihon ki-in
illegal move (173)
翻译成为
大竹英雄 武宫正树 第7期碁胜战决赛第3局 R:黑胜3目半 D:1987-03-08 L:日本棋院
评注栏(Comment): 错误手数(173手)
谢谢
林
作者: zuolin 时间: 2004-4-3 19:08
林兄你好,
estone 具有过滤US等信息的功能,还有英文姓名自动翻译成中文的功能,希望这些功能能对你有用.
希望你能做成功,不过我没有时间来帮忙.
作者: kklim 时间: 2004-4-4 18:01
各位,
我整理了2004 1到3月棋谱,请看结果举例说明:-
可以搜索棋谱与做棋手实绩比较,好用吧。
<img src="attachments/dvbbs/200444180852643.jpg" border="0" onclick="zoom(this)" onload="if(this.width>document.body.clientWidth*0.5) {this.resized=true;this.width=document.body.clientWidth*0.5;this.style.cursor='pointer';} else {this.onclick=null}" alt="" />
<img src="attachments/dvbbs/2004441803176538.jpg" border="0" onclick="zoom(this)" onload="if(this.width>document.body.clientWidth*0.5) {this.resized=true;this.width=document.body.clientWidth*0.5;this.style.cursor='pointer';} else {this.onclick=null}" alt="" />
<img src="attachments/dvbbs/200444181281125.jpg" border="0" onclick="zoom(this)" onload="if(this.width>document.body.clientWidth*0.5) {this.resized=true;this.width=document.body.clientWidth*0.5;this.style.cursor='pointer';} else {this.onclick=null}" alt="" />
作者: kklim 时间: 2004-4-4 18:05
以下是引用zuolin在2004-4-3 19:08:38的发言:
林兄你好,
estone 具有过滤US等信息的功能,还有英文姓名自动翻译成中文的功能,希望这些功能能对你有用.
希望你能做成功,不过我没有时间来帮忙.
zuolin兄的estone好用是不用说了,
因为要达成理想成果,multigo batching processing 成为纯粹的sgf4格式,同时除去US 与 SO栏信息对这案例是需要的。
谢谢
林
作者: kklim 时间: 2004-4-4 18:09
各位,
希望更多的人能够参与分工,工件量也自然的减低,结果快看到与能够使用。
谢谢
林
完成的棋谱数据库会电邮给参与者的。
可以电邮我 lim_kimkeong@hotmail.com
[此贴子已经被作者于2004-4-5 0:01:24编辑过]
作者: fuser 时间: 2004-4-5 09:20
林先生:
我愿意做,我基本上可以看到日本的棋手的英文名字,马上反映出他的中文名字,我也有GoGoD程序 ,你可以传一点给我,我试试
作者: prontjiang 时间: 2004-4-5 09:52
纯是好奇,为什么要去掉 US 和 SO?
作者: kklim 时间: 2004-4-5 10:31
关于江兄的关注“为什么要去掉 US 和 SO”
无它,这是最好实践(Best Practice),如电邮给gobase.org's的Jan的棋谱他也会除去US和SO栏,放gobase.org的信息的。解说也会除去避免日后的版权争论。互联网上看了许多信息,基本上下法与事实性的信息一致同意是不能够copyright的,解说棋谱可以。
谢谢
林
作者: kklim 时间: 2004-4-5 14:32
标题: 为什么要batch processing 成为 sgf4?
为什么要batch processing 成为 sgf4?
因为某些棋谱还是sgf3或服务器script,不是真正的sgf格式
谢谢
林
作者: prontjiang 时间: 2004-4-5 14:41
哦,这倒是。不过有注解的棋谱是不是就麻烦些了。
作者: kklim 时间: 2004-4-5 15:19
以下是引用prontjiang在2004-4-5 14:41:05的发言:
哦,这倒是。不过有注解的棋谱是不是就麻烦些了。
江兄,
个人认为,有棋手解说词的棋谱个人收集是可以,如公开宣扬是侵犯棋手著作权的,是比较麻烦的。尤其是追究时,就如定时炸弹。
谢谢
林
作者: 阿修罗刀 时间: 2004-4-5 15:22
功德无量!
不知可以……否?(感觉有点惭愧)
作者: cdshengo 时间: 2004-4-5 17:26
我愿意帮忙,但是我没有GOGOD,对estone用的也不熟,不知道是否一定要订购才能得到GOGOD
作者: kklim 时间: 2004-4-5 17:37
以下是引用cdshengo在2004-4-5 17:26:05的发言:
我愿意帮忙,但是我没有GOGOD,对estone用的也不熟,不知道是否一定要订购才能得到GOGOD
cdshengo兄,
整理分工不需要gogod.完成的棋谱数据库可以使用在kombilo,最强棋形研究免费软件。
estone会图解教你的。
如何?
谢谢
林
可以直接电邮我
作者: kklim 时间: 2004-4-6 18:21
标题: 棋谱附件
各位棋谱整理的参与者,
棋谱附件与关联信息应当电邮到你手上了(根据你们给的电邮地址)。如有缺,也许是信箱满了打回,我这边又设定了自动除去打回电邮。
请留言或sms我。直接电邮我最好。
谢谢
林
[此贴子已经被作者于2004-4-24 1:12:22编辑过]
作者: kklim 时间: 2004-4-7 19:03
标题: 相关的软件下载
相关的软件下载
弈通 estone 0.89 http://estone.nease.net/
kombilo 0.5k http://www.u-go.net/kombilo/
multi-go http://www.ruijiang.com/multigo/
editplus2 http://www.google.com/search?q=editplus2&ie=UTF-8&oe=UTF-8&hl=zh-CN&lr=
谢谢
林
其它的会直接附件在电邮
[此贴子已经被作者于2004-4-24 1:14:41编辑过]
作者: tsingloh 时间: 2004-4-10 10:15
天啊,怎么这麻烦,我头都大了.
作者: jzhl 时间: 2004-4-23 20:52
我愿参与,请将棋谱传给我!
作者: junddd 时间: 2004-4-23 22:06
提示: 作者被禁止或删除 内容自动屏蔽
作者: mmx2 时间: 2004-4-23 22:35
提示: 作者被禁止或删除 内容自动屏蔽
作者: kklim 时间: 2004-4-24 01:19
标题: 谢谢参与
jzhl兄与mmx2兄,
包括你两者与我在内,合计13人参与了职业棋谱整理分工。
通信内容直接使用电邮比较方便,可以cc其他队员。
谢谢
林
作者: jmlv 时间: 2004-4-25 14:04
提示: 作者被禁止或删除 内容自动屏蔽
作者: kklim 时间: 2004-4-28 15:18
以下是引用jmlv在2004-4-25 14:04:36的发言:
kklim你好,我也想参与。
发过e-mail给你,没收到你的回信。
能告诉我怎么联系你吗?
你好,
我电邮你了。欢迎参与。细节电邮沟通。
谢谢
林
作者: yangyang 时间: 2004-4-28 16:59
kklim ,您好
我想参与,希望能帮点忙.
我专业是计算机,数据处理没问题.
作者: kklim 时间: 2004-5-6 22:48
以下是引用yangyang在2004-4-28 16:59:40的发言:
kklim ,您好
我想参与,希望能帮点忙.
我专业是计算机,数据处理没问题.
你好,
我电邮你了。欢迎参与。细节电邮沟通。
谢谢
林
作者: xxww 时间: 2004-5-7 04:35
kklim你好,我也想参与。收到你的回信。抱歉,我也不知道为什么在yahoo.com发中文email总是出乱码。用另一个地址重发e-mail给你了。
[此贴子已经被作者于2004-5-7 5:07:13编辑过]
作者: kklim 时间: 2004-5-12 23:21
标题: 给棋谱整理参与者的[布告]
各位棋谱整理参与者,
你手上应当收到第4次进展报告图表(重新分配负责的年代与进展);与收到棋友为这工程开发的sgfrenamer软件(2个),如没有收到应当是电邮被打回,我这里也自动删除了。
十五位参与者谁没有更新整理进展给我的,请更新最新的信息给我,我会在星期一发表第5次进展给大家(特别是标记红色的年)。
谢谢
林
作者: 地狱烈火 时间: 2004-5-13 23:14
我想参加,只是我英语不行,请问林行不,还有怎么和你联系
作者: yyjo76 时间: 2004-5-14 13:09
提示: 作者被禁止或删除 内容自动屏蔽
作者: 迎刃 时间: 2004-5-14 13:57
支持
作者: jmlv 时间: 2004-5-16 13:12
提示: 作者被禁止或删除 内容自动屏蔽
作者: kklim 时间: 2004-5-16 22:27
以下是引用地狱烈火在2004-5-13 23:14:02的发言:
我想参加,只是我英语不行,请问林行不,还有怎么和你联系
你好,英语不好没有问题。主要还是把英语翻译成为中文,与遵循整理的规则而已。请电邮我你的电邮到 lim_kimkeong@hotmail.com
谢谢
林
作者: kklim 时间: 2004-5-16 22:31
以下是引用yyjo76在2004-5-14 13:09:05的发言:
我的estone里只有20000,请问哪里还有可以下载的棋谱?
需要时间到不同的网站下载如
棋圣道场;gobase.org;与其它的付费服务。
谢谢
林
作者: kklim 时间: 2004-6-18 23:31
有参与整理的棋友应当接收到第8次更新报告了。
没有请电邮询问。
谢谢
林
作者: 笑笑生 时间: 2004-6-19 10:16
一个浩大的工程!!
一个造福网友的工程!!!
一个需要多人参与的工程!!!!
一个不知何时能够完工的工程!!!!!
作者: catcatcat 时间: 2004-6-19 23:38
有这样的工作我也可以试试。
作者: jmlv 时间: 2004-6-27 17:29
提示: 作者被禁止或删除 内容自动屏蔽
欢迎光临 飞扬围棋 (http://flygo.net/BBS/) |
Powered by Discuz! X3.2 |