最近在使用百度的情感倾向分析-百度AI开放平台对文本进行情感分析,最终得到的数据结构是这样的
- 日期 positive_prob confidence negative_prob sentiment
- 01-01 0.387509 0.138868 0.61249 0
- 01-01 0.00183346 0.995926 0.998167 0
- 01-02 0.907077 0.793503 0.0929234 2
- 01-02 0.63071 0.179354 0.36929 2
- 01-02 0.725737 0.390526 0.274263 2
- 01-02 0.94582 0.879601 0.0541795 2
- 01-03 0.379795 0.156011 0.620205 0
- 01-03 0.896995 0.7711 0.103005 2
- 01-03 0.143061 0.682086 0.856939 0
复制代码
其中,positive_prob confidence negative_prob sentiment 四个指标的含义,根据官方文档的说明如下
- 参数 类型 说明
- sentiment number 表示情感极性分类结果, 0:负向,1:中性,2:正向
- confidence number 表示分类的置信度
- positive_prob number 表示属于积极类别的概率
- negative_prob number 表示属于消极类别的概率
复制代码
官方的例子如下
- {
- "text":"苹果是一家伟大的公司",
- "items":[
- {
- "sentiment":2, //表示情感极性分类结果
- "confidence":0.40, //表示分类的置信度
- "positive_prob":0.73, //表示属于积极类别的概率
- "negative_prob":0.27 //表示属于消极类别的概率
- }
- ]
- }
复制代码
现在我的问题是,希望运用这4个数值(不是必须全部使用4个)进行一些指标的计算,最终每天对应唯一的数值。即,希望结果如下
- 日期 唯一数值
- 01-01 XXX
- 01-02 XXX
- 01-03 XXX
复制代码
困难之处在于,经计算后的“唯一数值”怎样才算合理呢?这个需要考虑到4个数值的含义。前思后想也没有好的主意。希望能够得到大家的帮助。
谢谢大家!
|