NDSU杂志标志- 2009年春季

以前的故事 下一个故事

2008年秋季

卷. 09, No. 1


内容

PDF版本
(需要Adobe 阅读器)


电子邮件我们


过去的问题



一个喜欢数字的人

一个喜欢数字的人

哔哔的声音. 哔哔的声音. 哔哔的声音. 学生的手臂向床头柜挥去, 试图使闹铃的恼人声音安静下来. 今天是星期六. 没有时间翻身或打盹. 需要咖啡,苏打水,任何含有大量咖啡因的东西来帮助你放松. 穿好衣服. 把门栓出去. 在乐虎电子(乐虎电子)的一幢楼里,人们把它的名字叫作“eye-ack”或IACC,或者它更正式的名称是“工业农业和通信中心”(Industrial Agriculture and Communications Center).

与此同时,另一个人带着优雅的期待来迎接这个早晨. 他整个星期都在为这次活动做计划,最后七天都在想该说什么. 这是他和他的学生们从不错过的,周六早上9点开始的研究会议.m. 到2点.m.即使学生不能因此获得大学学分. 他们出现了. 就像他们在过去25年里的每个周六一样. 学生的名字可能每年都在变化. 但有一点是不变的. “我有一些非常聪明的学生. 就是这样的互动,知道周六就要开始了, 只是很刺激,很有趣吗. 我很期待这些. 那是我这周最开心的事,比尔·佩里佐说, 新大计算机科学特聘教授, 微笑.

学生们也记得这些课程. tafik Abidin现在是Ask的高级软件工程师.Perrizo说,他总是给参加活动的学生带一打甜甜圈. 伊丽莎白王, 现在是韦恩斯堡大学的助理教授, 宾西法尼亚, 回忆起他的承诺. “为了让我们接触到一些前沿研究领域, 他可以在星期六之前一遍又一遍地想. 我们不知道他在研究新问题的时候失去了多少睡眠. 我们也不知道他在办公室里花了多少假期做研究.南加州大学(University of Southern California)的潘飞(音)说,佩里佐训练他的学生构思巧妙的想法,并在研究中发挥创造性.

佩里佐建议至少25 Ph.D. 来自世界各地的学生和大约60名硕士研究生. 再加上比尔·佩里佐36年来在NDSU教过的成千上万的本科生 很多人的生命.

尽管在过去的一年里,由于健康问题,他不得不减少周六的研究会议, 这并没有阻止这个搞数字的人去寻找其他的研究机会, 比如后面有很多0的那个. 他目前的研究重点是争取100万美元的Netflix奖.

这家拥有近11年历史的在线DVD租赁服务公司从2006年开始了为期5年的竞争. “在夏天,我打赌我每周要花70个小时来做这件事. 有时我凌晨四点就来了。”佩里佐说. “我有个主意. 我从事的是数据挖掘,这就是数据挖掘. 这将成为未来20年所有数据挖掘研究的基准."

这个问题, 哪个被25人追赶,全球有5000个团队, 包括创建一个计算机算法,可以准确地建议你可能想看的电影, 根据你之前租的电影的评分. Netflix已经使用了一个名为Cinematch的程序来做到这一点, 但该公司正在寻求一种精确度比现有系统高出10%的系统. 佩里佐欣赏该公司的竞赛方式. “全球可能有5万名科学家花了5年时间研究这个问题. 现在,你来算算. 一小时多少钱? 大约一小时一便士? 你不能用一分钱一小时买到科学家,”他笑着说. “这是聪明的."

Netflix为参赛者提供了一组由其客户提供的1亿部电影评分数据. 如果您是一名数据挖掘者,那么淹没在大量数据中可能接近于实现涅槃. “这是我们在数据挖掘中唯一拥有的真实数据集, 你想要多大就有多大,有多具有挑战性,佩里佐说. 当有无数的数字, 在所有这些数字中寻找模式和有用的信息是有问题的. 想象一下,当你不记得你的车停在哪里,或者在撒哈拉沙漠中找到一组特定的沙粒时,你试图在大都会体育场找到你的车.

“数据挖掘就是我们所说的临时查询. 你想要什么还不太清楚. 你有一种感觉,这个数据集中有有价值的信息. 你想找到它,但不太清楚它是什么. 这就是数据挖掘,”佩里佐说. 也许它可以被描述为一种技术上优越的侦探工作方法, 就像一个有预感的刑警,寻找细节和模式,为破案提供有用的信息.

像佩里佐这样的专家使用一组数字和编写算法,几乎就像全球定位系统一样,在数据宝库中寻找信息. 例如,在日常生活中,食谱只是生产食品的算法. 算法就是你在计算机程序中如何做某件事的一个简单的方法.

在Netflix的比赛中, 成千上万的计算机超级编码员和其他人正在编写算法,这些算法将使Netflix的Cinematch的成功率提高10%. 到目前为止,来自ATT实验室的一个名为BellKor的团队将其提高了8倍.43%. Netflix也奖励50美元,000美元的年度进步奖给解决这个商业智能问题的团队. 选出了比赛的最终赢家, Netflix需要一个免版税但非排他性的使用许可 该软件.

假设有人在五年的时间里赢得了这个奖. 根据比赛规则, 其他人有30天的时间来打败他们, 哪个佩里佐说的, 会导致科学的狂热吗.

“如果我不从事这方面的工作,那我就是个傻瓜,因为这就是数据挖掘研究人员目前的处境,佩里佐说. “恐怕我已经陷入其中了. 我现在不能放手."

Perrizo独特的数据挖掘方法包括垂直结构化数据, 然后编写计算机程序,将有效地, 准确而优雅地挖掘有用信息的数据. 他对垂直结构数据的命名是P-Trees,代表谓词树,而不是Perrizo. 他苦笑着说:“但如果人们犯了这样的错误,我也无所谓。.

他指出,今天所有的数据都是水平结构的. 想象一个有一排排名字的电子表格, 地址, 数字和其他数据从左向右延伸. 用于计算机处理这些数据, 它煞费苦心地研究第一个数据, 然后下一个,下一个,下一个直到它找到它要找的东西. “这很好,除非它的深度像Netflix一样——1亿或10亿条记录的深度,佩里佐说. “嗯,你必须一次一个地看每一个. 这需要永远."

用佩里佐的方法, 数据被颠倒过来了, 将其切成薄片,改为垂直结构,从而形成长条形, 然后将数据压缩到谓词树中以更好地管理它. “如果每次你想处理信息时都必须解压,那么这就不那么有用了. 但是我们没有. 我们可以处理压缩树."

他认为他两年的工作可以让他的团队P-Tree Code Monkeys继续留在Netflix的竞争中. 他仍然没有被大卫vs. 他的追求是歌利亚式的. 其他参加比赛的人的房间里摆满了电脑服务器. 尽管Perrizo使用个人电脑和NDSU的高性能计算中心, 有时需要四天的时间来处理一个手术. 他对即将到来的高性能计算中心的扩展感到非常高兴, 这将增加可用处理器的数量和能力. “现在我可以做点什么了,”他笑着说. “它将比我所能做的快600倍. 本来需要我6天的事情现在只需要我百分之一天."

他还提到,如果不是同事格雷格·韦特斯坦(Greg Wettstein),他不认为自己有机会获得Netflix奖, 计算中心系统管理员. “在我看来,他是世界上最好的系统程序员之一. 作为一个系统程序员,他能做到的水平是一种罕见的才能. 他可以为我提供一个绝对世界级的乐虎集团程序编程环境. 我称他为编程专家."

他让韦茨斯坦看一下他写的一个电脑程序,这个程序给他带来了一些麻烦. “我想他在五分钟内就说,‘你们这里有GO to吗?“我有过几次. 它有1万行代码. 我不知道你怎么能看几分钟就明白,”佩里佐钦佩地说. 韦特斯坦欣赏佩里佐应对个人和职业挑战的方法, 说它是基于对情况的高度理性和分析性评估.

因此,佩里佐继续研究如何才能赢得Netflix奖. 他已经是大学特聘教授. 他发表了200多篇论文. 在他职业生涯的早期, 他曾多次获得美国空军项目的资助,为美国空军设计一个全球信息系统.S. 国防部及其盟友. 他笑着说:“这是一个非常雄心勃勃的项目,但实际上失败了——不是因为我。. 他的荣誉包括赢得2006年知识发现和数据挖掘杯, 这项比赛曾被称为计算机辅助检测的“圣杯”,旨在从放射图像中发现肺栓塞或血凝块.

至于任何“啊哈”!"他研究生涯中的重要时刻或重大发现"我每周都会收到一个. 但99%的人都没有成功,”他说. 一些做. Perrizo拥有数据库和数据挖掘的垂直结构化数据方法的专利. 他拥有另一项并发控制专利, 哪一个, 在数据库中, 就像交通警察, 确保一个计算机用户的活动不会影响到另一个用户. “也许在这一点上, 你有一点灵活性来考虑“我该做些什么来结束这里的事情”?’”佩里佐说. 因此,对Netflix奖的追求. “获胜的人将在很长一段时间内成为著名的数据挖掘研究员. 而且那一百万美元可能也不碍事."

佩里佐是如何在他的职业生涯中走到这一步的——幽默和奉献——似乎与他的余生是平行的. 他的母亲是一名教师,父亲是明尼苏达州南部的农民. 不知怎么的,他成了一名数学家. “我就是喜欢数字. 给我一个数学难题. 我就是喜欢去追求它.他的高中毕业班有15人,他没有上高级代数课,因此在学业上他需要补课. 但当他去明尼苏达大学时,他的博士学位.D. 委员会成员莱恩·夏皮罗对他记忆犹新.

佩里佐后来鼓励夏皮罗加入新大,担任计算机科学系主任. 尽管夏皮罗后来去了波特兰州立大学, 他清楚地概述了佩里佐的成就. Bill在交易处理领域的贡献, 查询处理, 数据挖掘, 分布式数据库和生物信息学是杰出的,并在许多重要方面推动了科学事业.夏皮罗还欣赏另一个方面. “我最钦佩的是比尔能够兼顾他令人印象深刻的职业生涯,同时仍然保持着深厚而充满爱的家庭关系."

谈到在私立学校做兼职教师的妻子和三个已成年的孩子时,佩里佐显然很自豪. 一个女儿管理着纽约市所有的家庭暴力无家可归者收容所. 另一个女儿是一名职业演员,曾在百老汇演出过,现在住在西海岸. 他在明尼阿波利斯的儿子是一名按摩治疗师. 他们当中没有计算机科学家. “不,连一点科学的线索都没有!他假装恼怒地回答.

他会和他的两个女儿辩论,她们都是人文学科的. “他们说,‘你不能事事都用数字.’我说, “反之.' 我们总是使用数字. 我们总是以“是”或“不是”的绝对量化结束. 这是0或1. 我们做决定. 我们要么同意,要么拒绝. 这就是绝对量化. 所以你为什么说我不能从大量的数据积累中得到最终的量化? 如果可以,我应该去. 如果我不能,我会用艺术来决定,”他充满激情地说. “所以这是艺术家和科学家之间的争论. 在我看来,科学家是对的,因为我们所做的一切都是一个决定.“但即使是这个自称数字高手的人也会给他的孩子们一分. “这并不意味着有时我早上醒来,一个问题的完整解决方案就在那里, 就像一件艺术品. 我要花几周的时间来给它排序或写下来."

佩里佐显然把对数字的热情传递给了他的学生. 他寻找的是那些具有发现问题的内在动力的学生, 解决这个问题并做出贡献. “人们记得他们的老师,一般来说, 他们的职业生涯不仅取决于他们选择的职业, 但是他们职业生涯的质量是由他们的老师决定的,他说. 在他狭窄的办公室里,书架上摆满了以前学生留下的纪念品, 就像一本国际游记——木制猫头鹰和来自中国的茶, 产自印度的檀香, 还有来自斯里兰卡和孟加拉国的民间艺术. 就像无穷无尽的计算机代码在屏幕上快速而优雅地游动, 他和以前的学生之间仍有无形的联系, 现在他们在进行自己的研究任务.

他以前的学生在黎巴嫩, 中国, 孟加拉国, 斯里兰卡, 印度, 阿拉斯加, 亚利桑那州, 明尼苏达州, 宾西法尼亚, 阿肯色州, 华盛顿和其他地方. 伊马德·拉哈尔(Imad Rahal)现在是圣. 约翰大学,学院维尔,明尼苏达州.他的硕士和博士学位是佩里佐.D. 顾问. 拉哈尔说,他钦佩“他对自己和他的顾问的坚定信念”, 他的耐心和愿意为他的顾问付出额外的努力, 他对生活的热爱和对学生毕业后的支持. 他就是那个把我培养成研究员的人. 他向我灌输了对研究的热爱,并告诉我我可以做到."

阿拉斯加大学的前学生Kirk Scott用俄语写了一本乐虎电子javascript计算机编程的书. 他现在在哈萨克斯坦休假. 韦恩斯堡大学的伊丽莎白·王说,她以前的教授影响很大, 在她最近的教学评估中,她说:“她确实是大学里最好的研究人员之一. 她不仅发表了许多重要的论文,而且还让她的学生参与她的研究."

王指出,佩里佐作为她的顾问向她提出了挑战,并希望她努力工作. 但她也记得他的同情心. 2003年,由于国际旅行限制,她被困在中国,她联系了自己的导师. "Dr. 佩里佐为我写了一封非常感人的推荐信,还请一位参议员给我写了一封信.S. 驻北京领事馆. 结果是, 不仅是我, 还有我的儿子, 能够回到法戈,这样我就能继续完成我的博士学位.D. 我不知道如果没有Dr. Perrizo的帮助."

随着他的学生不断建立成功的研究事业, 佩里佐继续追求奈飞奖. 如果你想把佩里佐的作品描述为Netflix收藏的一部电影, 经典的《生活多美好,突然浮现在脑海中. 重点是由演员吉米·斯图尔特扮演的主角,他立刻就很平易近人, 聪明的, 幽默的, 富有同情心和决心, 这也许能让我们窥见比尔·佩里佐. 这位65岁的老人将继续进行奈飞公司的五年竞赛,直到2011年, 即使是在他安排教学日程的时候, 化疗和医生预约.

佩里佐能否赢得Netflix一百万美元的奖金, 这当然很好——但也许过程比目的地更重要. 他成功的数学证据已经存在. 他杰出的研究成果证明了这一点, 成功的学生, 还有一个充满爱的家庭.

在过去的一年里,佩里佐减少了他的马拉松比赛. 他曾经做过一些木工活,并改造了他的旧房子的几乎每一平方英寸. 现在他正在成为一名咖啡鉴赏家. 但他谦虚地指出:“实际上,我想我的生活相当无聊."

正如他在吕贝克大学的德国同事沃尔特·多施所指出的那样, 尽管他在科学上取得了成功, 他仍然是一个谦虚,开放的人,有很好的幽默感.Dosch曾与Perrizo一起担任国际计算机及其乐虎集团协会的董事会成员. “我没有什么特别的故事要讲的. Perrizo. 他毕生的工作本身就是一个故事."

——卡罗尔·雷纳


学生集中. 土地赠与. 研究型大学.