首页 » 对于我们数据集中的几乎所有

对于我们数据集中的几乎所有

以这个片段为例: 其长度为 150 个字符,正好接近旧限制。现在,让我们看一下元描述: 这篇 Goodreads 文章已经被缩短了。 Goodreads 元描述都是如此,并且可能是 CMS 设置或其 SEO 团队的有意识选择。

不管怎样这对于我们当前的分

析来说并不是很有用。 因此,我们尝试收集所有原始元描述标签来检查 whatsapp 数据库 预先收获的数据。我们无法从所有网站收集数据,有些网站根本不使用元描述标签,但我们仍然能够消除一些噪音。 让我们再试一次(…) 因此,让我们提取所有带有视频缩略图的片段,以及我们知道元描述以“…”结尾的片段。

这使我们的数量减少到

26,766 件(大约是原始 89,909 件的 30%)。这是长度频率分布现 强大的作品集对于吸引客户至关重要 在的样子: 我们已经清理了一些底端,但这并不是一个显着的差异。我们仍然看到一些片段被削减到少于 200 个字符。其中一些情况可能是我们无法检索原始元描述标签,但其他情况似乎是合法的推论。

这些片段的大部分被

剪切在 275-350 个字符范围内。在这个清理后的分布中,我们得到 309 个字符,中位数为 317 个字符。左侧仍然有一点尾部,因此分布并不完全正常,但很明显,大部分截止值发生在 300-325 的 bin 中。 长度超过 350 个字符的文章怎么办?从这张图中很难看出,但它们的最大长度为 375 个字符。

在某些情况下

Google 会添加自己的信息: 虽然整篇文章有 375 个字符长,但“跳转 消費者數據  链接是由 Google 添加的。该片段的其余部分长度为 315 个字符。谷歌还在一些片段的前面添加了结果计数和日期。看起来这些字符不计入限制,但是有点难以判断,因为我们没有很多数据点。

元还重要吗?

在我们揭示新的范围之前,这里有一个令人不安的问题 – 当谷歌似乎重写了如此多的片段时,是否值得拥有元描述标签?在该数据集中,我们能够成功检索 70,059 个原始元描述标签(在许多剩余情况下,网站并未仅指定一个)。其中,只有三分之一(35.9%)被用作展示品。

但请记住谷歌会截断其中

一些数据,并向其中一些添加额外的数据。在 15.4% 的情况下,Google 使用了原始的元描述标签,但添加了一些文本。这个数字可能看起来很高,但大多数情况只是谷歌在片段末尾添加了一个句点。显然,谷歌非常坚持完整的句子。因此,现在显示片段与元描述标签完全匹配或完全存在的情况高达 51.3%。

滚动至顶部