<div dir="ltr">several days later and merely a lurker on this list, but my thoughts on this:<div><br></div><div>I think this was a missed opportunity (unsurprisingly) to standardize on something like <a href="https://arxiv.org/pdf/1803.09010.pdf">Datasheets for Datasets</a>. </div><div><br></div><div>On the one hand, cool, making research and datasets ostensibly easier to find. On the other hand, attempts to make Google a one-stop-shop for research is risky. Google probably wants to corner the market on being the first AND last stop for information when people are looking for information, but as a business goal I'm skeptical that it would actually improve academic research and knowledge. Already there's bountiful evidence that many people (especially college students who don't work with their library) start and end their research on Google rather than using scholarly databases (insert gripe about hard-to-access publicly-funded research here), which limits the potential quality of their research results.</div><div><br></div><div>Extending those "lazy" research processes to datasets, and data analysis, especially without exhaustive datasheets for the datasets, seems risky to me. It's encouraging that datasets have dates associated with them, but I'm curious where the description is coming from. If the datasheets for these datasets are essentially algorithmically scraped and generated, is it any better quality than the "knowledge block" blurbs that show up in some Google search results? How can we validate the accuracy of it? Easier-to-find data can easily correlate to better data for data analysts, but it can just as easily correlate to really-off-base analyses where someone did a basic keyword search for a complex dataset and neglected to do the research into the limitations of the dataset. If the interface was something that made information like: what does the data cover? who collected the data? for what purpose? what features exist in the data? which fields were collected and which were derived? what assumptions were made when collecting the data? and other valuable context more visible, I'd be much more encouraged. But it's not.</div><div><br></div><div>Thanks for sharing this with the list, Geert!<br><div><br></div></div><div>- Sarah Moir</div><div>(tech writer at an enterprise big data software company)</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Jan 24, 2020 at 12:48 AM Geert Lovink <<a href="mailto:geert@xs4all.nl" target="_blank">geert@xs4all.nl</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div>my gut feeling says that we should ban this product… what do you think?<div><a href="https://blog.google/products/search/discovering-millions-datasets-web/" target="_blank">https://blog.google/products/search/discovering-millions-datasets-web/</a></div><div><br></div><div><br></div></div>_______________________________________________<br>
re-search mailing list<br>
<a href="mailto:re-search@listcultures.org" target="_blank">re-search@listcultures.org</a><br>
<a href="http://listcultures.org/mailman/listinfo/re-search_listcultures.org" rel="noreferrer" target="_blank">http://listcultures.org/mailman/listinfo/re-search_listcultures.org</a><br>
</blockquote></div>