原始人名清单
我需要一个长长的人名(“罗伯特”,“珍妮弗”,“安德鲁”等)
多久? 100将是好的,但数千会更好。
我喜欢它原始的,而不是在HTML网页或东西,所以我可以很容易地将其导入到我的代码。
- http://deron.meranda.us/data/census-dist-female-first.txt(4275个条目);
-
http://deron.meranda.us/data/census-dist-male-first.txt(1219条目);
-
男性和女性的名字相结合: http : //deron.meranda.us/data/census-derived-all-first.txt
格式化很好:
$ curl http://deron.meranda.us/data/census-dist-female-first.txt | \ awk '{print $1}'
美国人口普查局根据1990年的人口普查结果列出了三个名单 :
- dist.all.last [2MB; 88799个条目]
- dist.female.first [146k; 4275个条目]
- dist.male.first [41k; 1219个条目]
(这些与deron.meranda.us链接的其他答案相同)
引用上面的链接:
三个文件(dist.all.last),(dist.male.first)和(dist female.first)中的每一个都包含四项数据。 这四项是:
“名称”频率百分比累积频率百分比等级在文件(dist.all.last)中,一个条目显示为:
MOORE 0.312 5.312 9
在我们的search范围样本中,MOORE在频率方面排名第九。 样本人口的5.312%被MOORE覆盖,8个名字比MOORE更频繁地出现。 我们的人口样本占姓氏的百分之三点二二。
用Googlesearch,似乎这个数据已被进一步细化成一个单一的5163条目列表( 链接1 , 链接2 ), 格式为 :
<namestyle> <first/last indicator> <name>
名称代码:
- MF:用作男性或女性
- MO:只用作男性
- FO:仅用作女性
第一/最后一个指标:
- LY:用作姓
- LN:未用作姓
例如:
MF LY AARON FO LY ABBEY FO LN ABBIE FO LY ABBY
更新1 :稍微偏离原来的post的主题,但它可能是其他人发现这一点。 如果你正在寻找更多的东西(不只是人名,而是许多名词和短语的性别),你可以看看由Shane Bergsma和Dekang Lin创build的语料库。 数据作为 CoNLL共享任务中 的单个gzip文件提供。
更新2 :www.census.gov重组他们的网站,所以我更新了链接以反映文件的新位置。
更新3 :www.census.gov也从2000年开始对100次以上的姓氏进行调查 ,总共有151,671个姓名( 直接链接到zip )。
这对于原始海报来说已经太晚了,但对于search者来说可能是有用的……这里: http : //www.ssa.gov/OACT/babynames/limits.html
是一个可下载的文本文件,按出生年份列出所有姓名,至less有5个孩子的名字,所以它有大量的数据。
查看我为NLP研究所做的名字数据集。 所有的名字都是从公共资源中提取的。 http://mbejda.github.io它们都是CSV格式。;
(免责声明:我做的)。
这个页面上有很多单词列表 ,包括几个名字列表。
函数将帮助您从字母数字string中提取字母
Dim input As String = "SMITH 1.006 1.006 1" Dim output As String = New String((From c As Char In input Select c Where Char.IsLetter(c)).ToArray()) MsgBox(output)
输出将是:SMITH
感谢: https : //stackoverflow.com/users/1842065/bj%C3%B8rn-roger-kringsj%C3%A5
Vettrasoft Z目录作为其地理信息数据集的一部分,包括名字,任何简短forms或替代拼写(例如,安吉拉/安吉;丹尼尔 – 丹 – 丹尼),性别(男/女/ B /?; B是和?意思是未知的)。 该表有12,779个条目,并且以.unl格式(( – 分离的字段))forms存在。 与名字一起,数据集包括机场(8,200条目),地区代码,国家,邮政(又名邮编),国家,时区等等。 这些数据是作为一个集成包与oo库一起访问这些数据的子程序。 在名字的情况下,你可以这样编写C ++代码:
main() { person_o p = "Daniel Boone"; p.store_add(); }
这将把Daniel Boone保存到数据库中(目前已经实现:mySQL和SQL Server)。 person对象将使用first_names数据库表来自动查找与“Daniel”关联的性别并将其logging为“M”(以及parsing名称,将“Daniel”保存到first_name列,将“Boone”保存到最后名称列)。 Z目录以类似的方式工作,以保存和检索其他人类域对象,如企业,员工,电子邮件地址,电话号码等。