第一周
本周是笔者研究生开学第一周,作为网课时长一年半留学生,一开始我的确有一种因为看不见摸不到产生的压力,随着按部就班的学习和顺利本科毕业,也逐渐适应了这种去中心化的教育模式。伴随着疫情的全球化,线上办公和学习成为常态,通过在线学习拿到毕业证的学生占比可能会越来越高。在接下来很长一段时间的通讯里,我可能会分享一些在课程内外学到的知识,包括机器学习和数据分析等。
四个名词
一、易位构词游戏 anagram
二、正则表达式
正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。
三、grep 命令
在filenameA
文件中查找包含word
字符串的代码行
grep 'word' filenameA
四、Jaccard 相似性
雅卡尔指数(英语:Jaccard index),又称为并交比(Intersection over Union)、雅卡尔相似系数(Jaccard similarity coefficient),是用于比较样本集的相似性与多样性的统计量。雅卡尔系数能够量度有限样本集合的相似度,其定义为两个集合交集大小与并集大小之间的比例。
对集合 A, B 而言,求解它们的雅卡尔相似性:
J(A, B) = |A∩B| / |A∪B|
这里有一篇简单的教学,使用 python 来求解两集合的雅卡尔相似性。
见闻
《自然》报道,最近有研究者在一些学术期刊中发现了一批“假”论文,将“大数据”称为“巨信息”(colossal information),“人工智能”称为“仿制意识”(counterfeit consciousness),“云计算”称为“霾运筹”(haze figuring)等。
在 860 多篇出现类似词汇的论文中,有 500 多篇刊登在《微处理器与微系统》一家期刊中,而且作者大多来自中国。
这显然是国内有人将建垃圾网站使用的“伪原创同义词替换工具”开发出了新用处,不建网站,而是发垃圾论文,而且居然引起了《自然》的注意。
笑死我了。
新知
怎样用通俗易懂的文字解释正态分布及其意义?
看完突然意识到,二八定理(在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的)其实是正态分布的一种概括性和抽象性的描述。
数据预处理中经常提到的两个概念归一化(Normalization)和标准化(Standardization)。
工具
字节跳动开源的 markdown 编辑器(来源:Found Pan Tiger Weekly)。
资源丰富的数字图书馆,免费下载书籍。
一周 Crypto
文摘
1/
我们认为基本国策已经发生变化。过去十年,中国希望学美国通过发展服务业来推动 GDP 的增长。但经过了 2018 年中美贸易摩擦和 2020 年新冠疫情的两次冲击,让最高层意识到工业体系的完整和完备是非常重要的。而且我们需要补短板,不让别人卡脖子才能够从疫情中第一个恢复。于是在过去的九个月,我们看到在任何场合都取消了关于服务业占比要提高以及刺激第三产业发展的说法。在 2021 年的政治局政府工作报告会议里专门提出制造业占 GDP 的比例不再下降。这说明在基本发展道路上,我们已经抛弃了美国道路,转向了德国道路。通过发展制造业带动 GDP 未来的进一步增长。所以重制造、轻服务已经成为未来三到五年甚至五到七年的基本政策。在制造业得到资本市场大力融资政策扶持之外,我们看到服务业一系列的遏制政策都出台了,针对教育、医美、电子烟、电商、传媒、娱乐、游戏行业。这些服务业的政策都从原来无监管变成加强监管。所以基本的国策发生了重大的变化。
2/
谢林点,也叫“聚焦点”,是博弈论中人们在没有沟通情况下的选择倾向,做出这一选择是因为这看起来是自然选择,希望别人也采取这样的选择。谢林这样描述:“每个人期望的谢林点是他人期望他本人期望被期望做出的选择。”由于无法精确估计有多少比特币节点,因此对每个节点来说,谢林点就是保持现有的共识规则,避免改变。
比特币的现状可以被理解为稳定的谢林点(Schelling Point),激励所有参与者坚持下去,放弃会带来巨大的损失风险。
-- 《货币未来》