03.快速上手自然语言处理 – 一点微小的工作

美国计算机科学家Bill Manaris在《计算机进展》(Advances in Computers)第47卷的《从人机交互的角度看自然语言处理》一文中曾经给自然语言处理提出了如下的定义:

“自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力和语言应用的模型，建立计算框架来实现这样的语言模型，提出相应的方法来不断地完善这样的语言模型，根据这样的语言模型设计各种实用系统，并探讨这些实用系统的评测技术。”

《自然语言处理入门》–1.新手上路

直观的体验：

一些基本的NLP任务：CxC （待重建）
更加丰富完整的应用场景：HanLP

发展过程和当前状况

今天，我们如何高效进行NLP实际任务？

运行环境与算力提供的角度：
- 云端
  - 大厂通用平台：例如飞桨AI Studio等，往往是基于深度学习的成果
  - 专项小型应用：例如微词云等，将特定简单任务结合现实业务需要做到极致。当然还有各种机翻
  - 私有云计算平台
- API调用：
- 本地
  - 开局一个jieba……
  - HanLP
  - Paddle

用户体验的角度：
- 在线实验环境，通过浏览器
- 本地编程环境，使用IDE
- 封装为App/Web APP

业界/综合考虑效率成本收益的取向：

大厂和个人在掌握资源（算力和大规模语料，也就是，钱）上的巨大差距，原本在大数据时代有所拉近，但在AI时代又再次加大。
新的高效的方法和流程是公开的，但是个人和小型企业难以复现模型的完整产生流程，只能寄希望于通用方案。“打不过就加入”。
但并不是说一定要用最新最厉害的工具去解决所有问题。“杀鸡焉用牛刀”，重要的是正确评估问题，选择适用的方案。

学界/理解原理和提升能力的取向：

关于学习：深入细节和建构完整图景是一体两面不断相互促进的持续过程，例如希尔伯特曲线的现实应用，又比如：
- 从中文分词出发
- 到新词发现这个细分问题
- 作为方法之一的新词发现的信息熵方法与实现
- 文中提到的思路出处：互联网时代的社会语言学：基于SNS的文本数据挖掘
  - 工具层面：新词发现、热词判断、结合得到新热词
  - 业务层面：新热词意味着什么？每日热点如何认定？基于更多维度的细分……
  - 知识层面：信息墒、贝叶斯平均、蒙特卡罗方法、概率论和统计学的差异和联系？
  - 现实生活：IMDb的影片排名要比豆瓣靠谱、现代气象预报如何实现、黑天鹅和投资决策……
本学科的应用情况，和用于研究的建议。还记得第一周的语义网络的例子吗？或许“数字人文”领域的探索和思考值得我们参考（引自《网络分析与人物理论》）：

从虚构作品中自动提取社交网络的原理看似简单，但在实践中是一项相当复杂的综合任务，哪怕仅仅基于对话引语的网络建构，也会涉及到自然语言处理中的命名实体识别、共指解析、别名关联、引语归因（speech attribution）等多方面的任务，而如果是中文作品，现阶段则还要加上分词的难题，所需要的大量基础工作，不是朝夕间可以完成的。当然，如果只满足于一个好看的网络用于印证常识，也未尝不可一试，一种通行的做法是征用现成的主流技术来提取关系。网上不时有爱好者贴出《红楼梦》、《西游记》的角色网络，或是开发一些网络生成工具。这些应用的弱点大都在提取方法的过于简单和随意给出的权重算法。它们大多单纯采取语词共现（co-occurrence）的手段，但无论是在语句水平、段落水平还是事件水平上做出的共现网络，都很难获得清晰而有价值的文学解释，更不要说还会受到“噪音”的干扰，例如对话引语和叙述语之间的无法通约等。另一方面，近年来专业内部的尝试也未曾间断，像对话网络、语义网络，语义对话社会网络，无监督的神经网络……可以说无所不用其极了，看似硬核，但最薄弱的环节，仍然出现在基本的关系界定和相应的网络意义上。例如将语义网和主题模型的方法结合起来，人物实体是靠其镶嵌其中的上下文形成的语义来建立关联的，但是即便如此，这又是一个什么网络呢？仍然经不住来自学科内部更细致的推敲和解释，从科学探索的角度去鼓励之无可厚非，但同时不应忘记，正像一些研究者强调的，人文研究的“容错率”并不亚于自然科学，归根到底还是需要细粒度的测算和建模，其中不能有半点差池好含糊，任何一点细小的差别，都有可能影响到网络建构的准确性，让结果差之千里。而文学叙述偏偏又是一种极其复杂的文学行为，我们通常说小说“文备众体”，叙述话语的层次类型越丰富，对于提取技术的要求越高。当提取的信度还成问题的时候，就更谈不上如何设计算法来衡量关系权重了。当人们依靠NLP将越来越多的关系一股脑挖掘出来，当研究主体的参与越来越少，数据和模式驱动的结果，最后怎么与我们专门解决的问题对接？这也是为什么那种自上而下的、基于特征（featured-based）的做法倒似乎更容易取得人们的信任。

也许，换个老生常谈的说法，我们的研究仍然需要真正的问题意识来发动，需要建立在严谨的假设-验证的基础上。为了解决某个学术史上的特定问题，要首先针对该问题提出一系列假设，然后设计实验来验证或证伪它们，下一步才谈得上文学解释，这兴许是一种立得住的做法。如果观察第一流的数字人文研究，会发现它们大都遵守较严格的社会科学规范，当然，人文学究竟能否接受实证将是另一个问题，这无疑要上升到对数字人文更根本的反思。但无论如何，每个实实在在的问题都在呼唤差异化的、独一无二的解决之道，忽视这一点，便有可能沦为“奇技淫巧之展示”，会陷入“图形崇拜”、“视觉崇拜”中去，会像文献学家嘲笑的那样，无论我们面对多么深邃复杂的人文问题，都是一句话：“废话少说，看图吧！”。

不过，不管有多少尚未可能最终也没法解决的问题，也不妨碍我们自己动手跑一跑：

中文小说人物关系网络绘制
英文词共现统计
计量文献NLP实战

推荐资源：

衍生阅读：

The Humiliation of the Word by Jacques Ellul，对于用数字方式对语言进行处理的意见和背后的哲学思考

You may also like...

week09：背离初衷的比特币

week13：实战http服务

week05：FTP / BT / P2P…