]> git.rkrishnan.org Git - tahoe-lafs/tahoe-lafs.git/blob - NEWS
Fix handling of correctly encoded unicode filenames (#534)
[tahoe-lafs/tahoe-lafs.git] / NEWS
1 User visible changes in Tahoe-LAFS.  -*- outline -*-
2
3 * Release 1.7.0
4
5 ** Bugfixes
6
7 *** Unicode filenames handling
8
9 Tahoe CLI commands working on local files, for instance 'tahoe cp' or 'tahoe
10 backup', have been improved to correctly handle filenames containing non-ASCII
11 characters.
12
13 In the case where Tahoe encounters a filename which cannot be decoded using the
14 system encoding, an error will be returned and the operation will fail.  Under
15 Linux, this typically happens when the filesystem contains filenames encoded
16 with another encoding, for instance latin1, than the system locale, for
17 instance UTF-8.  In such case, you'll need to fix your system with tools such
18 as 'convmv' before using Tahoe CLI.
19
20 All CLI commands have been improved to support non-ASCII parameters such as
21 filenames and aliases on all supported Operating Systems except Windows as of
22 now.
23
24 * Release 1.6.1 (2010-02-27)
25
26 ** Bugfixes
27
28 *** Correct handling of Small Immutable Directories
29
30 Immutable directories can now be deep-checked and listed in the web UI in
31 all cases. (In v1.6.0, some operations, such as deep-check, on a directory
32 graph that included very small immutable directories, would result in an
33 exception causing the whole operation to abort.) (#948)
34
35 ** Usability Improvements
36
37 Improved user interface messages and error reporting. (#681, #837, #939)
38
39 The timeouts for operation handles have been greatly increased, so that
40 you can view the results of an operation up to 4 days after it has
41 completed. After viewing them for the first time, the results are
42 retained for a further day. (#577)
43
44 * Release 1.6.0 (2010-02-01)
45
46 ** New Features
47
48 *** Immutable Directories
49
50 Tahoe-LAFS can now create and handle immutable directories. (#607, #833, #931)
51 These are read just like normal directories, but are "deep-immutable", meaning
52 that all their children (and everything reachable from those children) must be
53 immutable objects (i.e. immutable or literal files, and other immutable
54 directories).
55
56 These directories must be created in a single webapi call that provides all
57 of the children at once. (Since they cannot be changed after creation, the
58 usual create/add/add sequence cannot be used.) They have URIs that start with
59 "URI:DIR2-CHK:" or "URI:DIR2-LIT:", and are described on the human-facing web
60 interface (aka the "WUI") with a "DIR-IMM" abbreviation (as opposed to "DIR"
61 for the usual read-write directories and "DIR-RO" for read-only directories).
62
63 Tahoe-LAFS releases before 1.6.0 cannot read the contents of an immutable
64 directory. 1.5.0 will tolerate their presence in a directory listing (and
65 display it as "unknown"). 1.4.1 and earlier cannot tolerate them: a DIR-IMM
66 child in any directory will prevent the listing of that directory.
67
68 Immutable directories are repairable, just like normal immutable files.
69
70 The webapi "POST t=mkdir-immutable" call is used to create immutable
71 directories. See docs/frontends/webapi.txt for details.
72
73 *** "tahoe backup" now creates immutable directories, backupdb has dircache
74
75 The "tahoe backup" command has been enhanced to create immutable directories
76 (in previous releases, it created read-only mutable directories) (#828). This
77 is significantly faster, since it does not need to create an RSA keypair for
78 each new directory. Also "DIR-IMM" immutable directories are repairable, unlike
79 "DIR-RO" read-only mutable directories at present. (A future Tahoe-LAFS release
80 should also be able to repair DIR-RO.)
81
82 In addition, the backupdb (used by "tahoe backup" to remember what it has
83 already copied) has been enhanced to store information about existing immutable
84 directories. This allows it to re-use directories that have moved but still
85 contain identical contents, or that have been deleted and later replaced. (The
86 1.5.0 "tahoe backup" command could only re-use directories that were in the
87 same place as they were in the immediately previous backup.)  With this change,
88 the backup process no longer needs to read the previous snapshot out of the
89 Tahoe-LAFS grid, reducing the network load considerably. (#606)
90
91 A "null backup" (in which nothing has changed since the previous backup) will
92 require only two Tahoe-side operations: one to add an Archives/$TIMESTAMP
93 entry, and a second to update the Latest/ link. On the local disk side, it
94 will readdir() all your local directories and stat() all your local files.
95
96 If you've been using "tahoe backup" for a while, you will notice that your
97 first use of it after upgrading to 1.6.0 may take a long time: it must create
98 proper immutable versions of all the old read-only mutable directories. This
99 process won't take as long as the initial backup (where all the file contents
100 had to be uploaded too): it will require time proportional to the number and
101 size of your directories. After this initial pass, all subsequent passes
102 should take a tiny fraction of the time.
103
104 As noted above, Tahoe-LAFS versions earlier than 1.5.0 cannot list a directory
105 containing an immutable subdirectory. Tahoe-LAFS versions earlier than 1.6.0
106 cannot read the contents of an immutable directory.
107
108 The "tahoe backup" command has been improved to skip over unreadable objects
109 (like device files, named pipes, and files with permissions that prevent the
110 command from reading their contents), instead of throwing an exception and
111 terminating the backup process. It also skips over symlinks, because these
112 cannot be represented faithfully in the Tahoe-side filesystem. A warning
113 message will be emitted each time something is skipped. (#729, #850, #641)
114
115 *** "create-node" command added, "create-client" now implies --no-storage
116
117 The basic idea behind Tahoe-LAFS's client+server and client-only processes is
118 that you are creating a general-purpose Tahoe-LAFS "node" process, which has
119 several components that can be activated. Storage service is one of these
120 optional components, as is the Helper, FTP server, and SFTP server. Web gateway
121 functionality is nominally on this list, but it is always active; a future
122 release will make it optional. There are three special purpose servers that
123 can't currently be run as a component in a node: introducer, key-generator,
124 and stats-gatherer.
125
126 So now "tahoe create-node" will create a Tahoe-LAFS node process, and after
127 creation you can edit its tahoe.cfg to enable or disable the desired
128 services. It is a more general-purpose replacement for "tahoe create-client".
129 The default configuration has storage service enabled. For convenience, the
130 "--no-storage" argument makes a tahoe.cfg file that disables storage
131 service. (#760)
132
133 "tahoe create-client" has been changed to create a Tahoe-LAFS node without a
134 storage service. It is equivalent to "tahoe create-node --no-storage". This
135 helps to reduce the confusion surrounding the use of a command with "client" in
136 its name to create a storage *server*. Use "tahoe create-client" to create a
137 purely client-side node. If you want to offer storage to the grid, use
138 "tahoe create-node" instead.
139
140 In the future, other services will be added to the node, and they will be
141 controlled through options in tahoe.cfg . The most important of these
142 services may get additional --enable-XYZ or --disable-XYZ arguments to
143 "tahoe create-node".
144
145 ** Performance Improvements
146
147 Download of immutable files begins as soon as the downloader has located the K
148 necessary shares (#928, #287). In both the previous and current releases, a
149 downloader will first issue queries to all storage servers on the grid to
150 locate shares before it begins downloading the shares. In previous releases of
151 Tahoe-LAFS, download would not begin until all storage servers on the grid had
152 replied to the query, at which point K shares would be chosen for download from
153 among the shares that were located. In this release, download begins as soon as
154 any K shares are located. This means that downloads start sooner, which is
155 particularly important if there is a server on the grid that is extremely slow
156 or even hung in such a way that it will never respond. In previous releases
157 such a server would have a negative impact on all downloads from that grid. In
158 this release, such a server will have no impact on downloads, as long as K
159 shares can be found on other, quicker, servers.  This also means that
160 downloads now use the "best-alacrity" servers that they talk to, as measured by
161 how quickly the servers reply to the initial query. This might cause downloads
162 to go faster, especially on grids with heterogeneous servers or geographical
163 dispersion.
164
165 ** Minor Changes
166
167 The webapi acquired a new "t=mkdir-with-children" command, to create and
168 populate a directory in a single call. This is significantly faster than
169 using separate "t=mkdir" and "t=set-children" operations (it uses one
170 gateway-to-grid roundtrip, instead of three or four). (#533)
171
172 The t=set-children (note the hyphen) operation is now documented in
173 docs/frontends/webapi.txt, and is the new preferred spelling of the old
174 t=set_children (with an underscore). The underscore version remains for
175 backwards compatibility. (#381, #927)
176
177 The tracebacks produced by errors in CLI tools should now be in plain text,
178 instead of HTML (which is unreadable outside of a browser). (#646)
179
180 The [storage]reserved_space configuration knob (which causes the storage
181 server to refuse shares when available disk space drops below a threshold)
182 should work on Windows now, not just UNIX. (#637)
183
184 "tahoe cp" should now exit with status "1" if it cannot figure out a suitable
185 target filename, such as when you copy from a bare filecap. (#761)
186
187 "tahoe get" no longer creates a zero-length file upon error. (#121)
188
189 "tahoe ls" can now list single files. (#457)
190
191 "tahoe deep-check --repair" should tolerate repair failures now, instead of
192 halting traversal. (#874, #786)
193
194 "tahoe create-alias" no longer corrupts the aliases file if it had
195 previously been edited to have no trailing newline. (#741)
196
197 Many small packaging improvements were made to facilitate the "tahoe-lafs"
198 package being included in Ubuntu. Several mac/win32 binary libraries were
199 removed, some figleaf code-coverage files were removed, a bundled copy of
200 darcsver-1.2.1 was removed, and additional licensing text was added.
201
202 Several DeprecationWarnings for python2.6 were silenced. (#859)
203
204 The checker --add-lease option would sometimes fail for shares stored
205 on old (Tahoe v1.2.0) servers. (#875)
206
207 The documentation for installing on Windows (docs/install.html) has been
208 improved. (#773)
209
210 For other changes not mentioned here, see
211 <http://allmydata.org/trac/tahoe/query?milestone=1.6.0&keywords=!~news-done>.
212 To include the tickets mentioned above, go to
213 <http://allmydata.org/trac/tahoe/query?milestone=1.6.0>.
214
215
216 * Release 1.5.0 (2009-08-01)
217
218 ** Improvements
219
220 Uploads of immutable files now use pipelined writes, improving upload speed
221 slightly (10%) over high-latency connections. (#392)
222
223 Processing large directories has been sped up, by removing a O(N^2) algorithm
224 from the dirnode decoding path and retaining unmodified encrypted entries.
225 (#750, #752)
226
227 The human-facing web interface (aka the "WUI") received a significant CSS
228 makeover by Kevin Reid, making it much prettier and easier to read. The WUI
229 "check" and "deep-check" forms now include a "Renew Lease" checkbox,
230 mirroring the CLI --add-lease option, so leases can be added or renewed from
231 the web interface.
232
233 The CLI "tahoe mv" command now refuses to overwrite directories. (#705)
234
235 The CLI "tahoe webopen" command, when run without arguments, will now bring
236 up the "Welcome Page" (node status and mkdir/upload forms).
237
238 The 3.5MB limit on mutable files was removed, so it should be possible to
239 upload arbitrarily-sized mutable files. Note, however, that the data format
240 and algorithm remains the same, so using mutable files still requires
241 bandwidth, computation, and RAM in proportion to the size of the mutable file.
242 (#694)
243
244 This version of Tahoe-LAFS will tolerate directory entries that contain filecap
245 formats which it does not recognize: files and directories from the future.
246 This should improve the user experience (for 1.5.0 users) when we add new cap
247 formats in the future. Previous versions would fail badly, preventing the user
248 from seeing or editing anything else in those directories. These unrecognized
249 objects can be renamed and deleted, but obviously not read or written. Also
250 they cannot generally be copied. (#683)
251
252 ** Bugfixes
253
254 deep-check-and-repair now tolerates read-only directories, such as the ones
255 produced by the "tahoe backup" CLI command. Read-only directories and mutable
256 files are checked, but not repaired. Previous versions threw an exception
257 when attempting the repair and failed to process the remaining contents. We
258 cannot yet repair these read-only objects, but at least this version allows
259 the rest of the check+repair to proceed. (#625)
260
261 A bug in 1.4.1 which caused a server to be listed multiple times (and
262 frequently broke all connections to that server) was fixed. (#653)
263
264 The plaintext-hashing code was removed from the Helper interface, removing
265 the Helper's ability to mount a partial-information-guessing attack. (#722)
266
267 ** Platform/packaging changes
268
269 Tahoe-LAFS now runs on NetBSD, OpenBSD, ArchLinux, and NixOS, and on an
270 embedded system based on an ARM CPU running at 266 MHz.
271
272 Unit test timeouts have been raised to allow the tests to complete on
273 extremely slow platforms like embedded ARM-based NAS boxes, which may take
274 several hours to run the test suite. An ARM-specific data-corrupting bug in
275 an older version of Crypto++ (5.5.2) was identified: ARM-users are encouraged
276 to use recent Crypto++/pycryptopp which avoids this problem.
277
278 Tahoe-LAFS now requires a SQLite library, either the sqlite3 that comes
279 built-in with python2.5/2.6, or the add-on pysqlite2 if you're using
280 python2.4. In the previous release, this was only needed for the "tahoe backup"
281 command: now it is mandatory.
282
283 Several minor documentation updates were made.
284
285 To help get Tahoe-LAFS into Linux distributions like Fedora and Debian,
286 packaging improvements are being made in both Tahoe-LAFS and related libraries
287 like pycryptopp and zfec.
288
289 The Crypto++ library included in the pycryptopp package has been upgraded to
290 version 5.6.0 of Crypto++, which includes a more efficient implementation of
291 SHA-256 in assembly for x86 or amd64 architectures.
292
293 ** dependency updates
294
295  foolscap-0.4.1
296  no python-2.4.0 or 2.4.1 (2.4.2 is good)
297   (they contained a bug in base64.b32decode)
298  avoid python-2.6 on windows with mingw: compiler issues
299  python2.4 requires pysqlite2 (2.5,2.6 does not)
300  no python-3.x
301  pycryptopp-0.5.15
302
303
304 * Release 1.4.1 (2009-04-13)
305
306 ** Garbage Collection
307
308 The big feature for this release is the implementation of garbage collection,
309 allowing Tahoe storage servers to delete shares for old deleted files. When
310 enabled, this uses a "mark and sweep" process: clients are responsible for
311 updating the leases on their shares (generally by running "tahoe deep-check
312 --add-lease"), and servers are allowed to delete any share which does not
313 have an up-to-date lease. The process is described in detail in
314 docs/garbage-collection.txt .
315
316 The server must be configured to enable garbage-collection, by adding
317 directives to the [storage] section that define an age limit for shares. The
318 default configuration will not delete any shares.
319
320 Both servers and clients should be upgraded to this release to make the
321 garbage-collection as pleasant as possible. 1.2.0 servers have code to
322 perform the update-lease operation but it suffers from a fatal bug, while
323 1.3.0 servers have update-lease but will return an exception for unknown
324 storage indices, causing clients to emit an Incident for each exception,
325 slowing the add-lease process down to a crawl. 1.1.0 servers did not have the
326 add-lease operation at all.
327
328 ** Security/Usability Problems Fixed
329
330 A super-linear algorithm in the Merkle Tree code was fixed, which previously
331 caused e.g. download of a 10GB file to take several hours before the first
332 byte of plaintext could be produced. The new "alacrity" is about 2 minutes. A
333 future release should reduce this to a few seconds by fixing ticket #442.
334
335 The previous version permitted a small timing attack (due to our use of
336 strcmp) against the write-enabler and lease-renewal/cancel secrets. An
337 attacker who could measure response-time variations of approximatly 3ns
338 against a very noisy background time of about 15ms might be able to guess
339 these secrets. We do not believe this attack was actually feasible. This
340 release closes the attack by first hashing the two strings to be compared
341 with a random secret.
342
343 ** webapi changes
344
345 In most cases, HTML tracebacks will only be sent if an "Accept: text/html"
346 header was provided with the HTTP request. This will generally cause browsers
347 to get an HTMLized traceback but send regular text/plain tracebacks to
348 non-browsers (like the CLI clients). More errors have been mapped to useful
349 HTTP error codes.
350
351 The streaming webapi operations (deep-check and manifest) now have a way to
352 indicate errors (an output line that starts with "ERROR" instead of being
353 legal JSON). See docs/frontends/webapi.txt for details.
354
355 The storage server now has its own status page (at /storage), linked from the
356 Welcome page. This page shows progress and results of the two new
357 share-crawlers: one which merely counts shares (to give an estimate of how
358 many files/directories are being stored in the grid), the other examines
359 leases and reports how much space would be freed if GC were enabled. The page
360 also shows how much disk space is present, used, reserved, and available for
361 the Tahoe server, and whether the server is currently running in "read-write"
362 mode or "read-only" mode.
363
364 When a directory node cannot be read (perhaps because of insufficent shares),
365 a minimal webapi page is created so that the "more-info" links (including a
366 Check/Repair operation) will still be accessible.
367
368 A new "reliability" page was added, with the beginnings of work on a
369 statistical loss model. You can tell this page how many servers you are using
370 and their independent failure probabilities, and it will tell you the
371 likelihood that an arbitrary file will survive each repair period. The
372 "numpy" package must be installed to access this page. A partial paper,
373 written by Shawn Willden, has been added to docs/proposed/lossmodel.lyx .
374
375 ** CLI changes
376
377 "tahoe check" and "tahoe deep-check" now accept an "--add-lease" argument, to
378 update a lease on all shares. This is the "mark" side of garbage collection.
379
380 In many cases, CLI error messages have been improved: the ugly HTMLized
381 traceback has been replaced by a normal python traceback.
382
383 "tahoe deep-check" and "tahoe manifest" now have better error reporting.
384 "tahoe cp" is now non-verbose by default.
385
386 "tahoe backup" now accepts several "--exclude" arguments, to ignore certain
387 files (like editor temporary files and version-control metadata) during
388 backup.
389
390 On windows, the CLI now accepts local paths like "c:\dir\file.txt", which
391 previously was interpreted as a Tahoe path using a "c:" alias.
392
393 The "tahoe restart" command now uses "--force" by default (meaning it will
394 start a node even if it didn't look like there was one already running).
395
396 The "tahoe debug consolidate" command was added. This takes a series of
397 independent timestamped snapshot directories (such as those created by the
398 allmydata.com windows backup program, or a series of "tahoe cp -r" commands)
399 and creates new snapshots that used shared read-only directories whenever
400 possible (like the output of "tahoe backup"). In the most common case (when
401 the snapshots are fairly similar), the result will use significantly fewer
402 directories than the original, allowing "deep-check" and similar tools to run
403 much faster. In some cases, the speedup can be an order of magnitude or more.
404 This tool is still somewhat experimental, and only needs to be run on large
405 backups produced by something other than "tahoe backup", so it was placed
406 under the "debug" category.
407
408 "tahoe cp -r --caps-only tahoe:dir localdir" is a diagnostic tool which,
409 instead of copying the full contents of files into the local directory,
410 merely copies their filecaps. This can be used to verify the results of a
411 "consolidation" operation.
412
413 ** other fixes
414
415 The codebase no longer rauses RuntimeError as a kind of assert(). Specific
416 exception classes were created for each previous instance of RuntimeError.
417
418 Many unit tests were changed to use a non-network test harness, speeding them
419 up considerably.
420
421 Deep-traversal operations (manifest and deep-check) now walk individual
422 directories in alphabetical order. Occasional turn breaks are inserted to
423 prevent a stack overflow when traversing directories with hundreds of
424 entries.
425
426 The experimental SFTP server had its path-handling logic changed slightly, to
427 accomodate more SFTP clients, although there are still issues (#645).
428
429
430 * Release 1.3.0 (2009-02-13)
431
432 ** Checker/Verifier/Repairer
433
434 The primary focus of this release has been writing a checker / verifier /
435 repairer for files and directories.  "Checking" is the act of asking storage
436 servers whether they have a share for the given file or directory: if there
437 are not enough shares available, the file or directory will be
438 unrecoverable. "Verifying" is the act of downloading and cryptographically
439 asserting that the server's share is undamaged: it requires more work
440 (bandwidth and CPU) than checking, but can catch problems that simple
441 checking cannot. "Repair" is the act of replacing missing or damaged shares
442 with new ones.
443
444 This release includes a full checker, a partial verifier, and a partial
445 repairer. The repairer is able to handle missing shares: new shares are
446 generated and uploaded to make up for the missing ones. This is currently the
447 best application of the repairer: to replace shares that were lost because of
448 server departure or permanent drive failure.
449
450 The repairer in this release is somewhat able to handle corrupted shares. The
451 limitations are:
452
453  * Immutable verifier is incomplete: not all shares are used, and not all
454    fields of those shares are verified. Therefore the immutable verifier has
455    only a moderate chance of detecting corrupted shares.
456  * The mutable verifier is mostly complete: all shares are examined, and most
457    fields of the shares are validated.
458  * The storage server protocol offers no way for the repairer to replace or
459    delete immutable shares. If corruption is detected, the repairer will
460    upload replacement shares to other servers, but the corrupted shares will
461    be left in place.
462  * read-only directories and read-only mutable files must be repaired by
463    someone who holds the write-cap: the read-cap is insufficient. Moreover,
464    the deep-check-and-repair operation will halt with an error if it attempts
465    to repair one of these read-only objects.
466  * Some forms of corruption can cause both download and repair operations to
467    fail. A future release will fix this, since download should be tolerant of
468    any corruption as long as there are at least 'k' valid shares, and repair
469    should be able to fix any file that is downloadable.
470
471 If the downloader, verifier, or repairer detects share corruption, the
472 servers which provided the bad shares will be notified (via a file placed in
473 the BASEDIR/storage/corruption-advisories directory) so their operators can
474 manually delete the corrupted shares and investigate the problem. In
475 addition, the "incident gatherer" mechanism will automatically report share
476 corruption to an incident gatherer service, if one is configured. Note that
477 corrupted shares indicate hardware failures, serious software bugs, or malice
478 on the part of the storage server operator, so a corrupted share should be
479 considered highly unusual.
480
481 By periodically checking/repairing all files and directories, objects in the
482 Tahoe filesystem remain resistant to recoverability failures due to missing
483 and/or broken servers.
484
485 This release includes a wapi mechanism to initiate checks on individual
486 files and directories (with or without verification, and with or without
487 automatic repair). A related mechanism is used to initiate a "deep-check" on
488 a directory: recursively traversing the directory and its children, checking
489 (and/or verifying/repairing) everything underneath. Both mechanisms can be
490 run with an "output=JSON" argument, to obtain machine-readable check/repair
491 status results. These results include a copy of the filesystem statistics
492 from the "deep-stats" operation (including total number of files, size
493 histogram, etc). If repair is possible, a "Repair" button will appear on the
494 results page.
495
496 The client web interface now features some extra buttons to initiate check
497 and deep-check operations. When these operations finish, they display a
498 results page that summarizes any problems that were encountered. All
499 long-running deep-traversal operations, including deep-check, use a
500 start-and-poll mechanism, to avoid depending upon a single long-lived HTTP
501 connection. docs/frontends/webapi.txt has details.
502
503 ** Efficient Backup
504
505 The "tahoe backup" command is new in this release, which creates efficient
506 versioned backups of a local directory. Given a local pathname and a target
507 Tahoe directory, this will create a read-only snapshot of the local directory
508 in $target/Archives/$timestamp. It will also create $target/Latest, which is
509 a reference to the latest such snapshot. Each time you run "tahoe backup"
510 with the same source and target, a new $timestamp snapshot will be added.
511 These snapshots will share directories that have not changed since the last
512 backup, to speed up the process and minimize storage requirements. In
513 addition, a small database is used to keep track of which local files have
514 been uploaded already, to avoid uploading them a second time. This
515 drastically reduces the work needed to do a "null backup" (when nothing has
516 changed locally), making "tahoe backup' suitable to run from a daily cronjob.
517
518 Note that the "tahoe backup" CLI command must be used in conjunction with a
519 1.3.0-or-newer Tahoe client node; there was a bug in the 1.2.0 webapi
520 implementation that would prevent the last step (create $target/Latest) from
521 working.
522
523 ** Large Files
524
525 The 12GiB (approximate) immutable-file-size limitation is lifted. This
526 release knows how to handle so-called "v2 immutable shares", which permit
527 immutable files of up to about 18 EiB (about 3*10^14). These v2 shares are
528 created if the file to be uploaded is too large to fit into v1 shares. v1
529 shares are created if the file is small enough to fit into them, so that
530 files created with tahoe-1.3.0 can still be read by earlier versions if they
531 are not too large. Note that storage servers also had to be changed to
532 support larger files, and this release is the first release in which they are
533 able to do that. Clients will detect which servers are capable of supporting
534 large files on upload and will not attempt to upload shares of a large file
535 to a server which doesn't support it.
536
537 ** FTP/SFTP Server
538
539 Tahoe now includes experimental FTP and SFTP servers. When configured with a
540 suitable method to translate username+password into a root directory cap, it
541 provides simple access to the virtual filesystem. Remember that FTP is
542 completely unencrypted: passwords, filenames, and file contents are all sent
543 over the wire in cleartext, so FTP should only be used on a local (127.0.0.1)
544 connection. This feature is still in development: there are no unit tests
545 yet, and behavior with respect to Unicode filenames is uncertain. Please see
546 docs/frontends/FTP-and-SFTP.txt for configuration details. (#512, #531)
547
548 ** CLI Changes
549
550 This release adds the 'tahoe create-alias' command, which is a combination of
551 'tahoe mkdir' and 'tahoe add-alias'. This also allows you to start using a
552 new tahoe directory without exposing its URI in the argv list, which is
553 publicly visible (through the process table) on most unix systems.  Thanks to
554 Kevin Reid for bringing this issue to our attention.
555
556 The single-argument form of "tahoe put" was changed to create an unlinked
557 file. I.e. "tahoe put bar.txt" will take the contents of a local "bar.txt"
558 file, upload them to the grid, and print the resulting read-cap; the file
559 will not be attached to any directories. This seemed a bit more useful than
560 the previous behavior (copy stdin, upload to the grid, attach the resulting
561 file into your default tahoe: alias in a child named 'bar.txt').
562
563 "tahoe put" was also fixed to handle mutable files correctly: "tahoe put
564 bar.txt URI:SSK:..." will read the contents of the local bar.txt and use them
565 to replace the contents of the given mutable file.
566
567 The "tahoe webopen" command was modified to accept aliases. This means "tahoe
568 webopen tahoe:" will cause your web browser to open to a "wui" page that
569 gives access to the directory associated with the default "tahoe:" alias. It
570 should also accept leading slashes, like "tahoe webopen tahoe:/stuff".
571
572 Many esoteric debugging commands were moved down into a "debug" subcommand:
573
574  tahoe debug dump-cap
575  tahoe debug dump-share
576  tahoe debug find-shares
577  tahoe debug catalog-shares
578  tahoe debug corrupt-share
579
580 The last command ("tahoe debug corrupt-share") flips a random bit of the
581 given local sharefile. This is used to test the file verifying/repairing
582 code, and obviously should not be used on user data.
583
584 The cli might not correctly handle arguments which contain non-ascii
585 characters in Tahoe v1.3 (although depending on your platform it
586 might, especially if your platform can be configured to pass such
587 characters on the command-line in utf-8 encoding).  See
588 http://allmydata.org/trac/tahoe/ticket/565 for details.
589
590 ** Web changes
591
592 The "default webapi port", used when creating a new client node (and in the
593 getting-started documentation), was changed from 8123 to 3456, to reduce
594 confusion when Tahoe accessed through a Firefox browser on which the
595 "Torbutton" extension has been installed. Port 8123 is occasionally used as a
596 Tor control port, so Torbutton adds 8123 to Firefox's list of "banned ports"
597 to avoid CSRF attacks against Tor. Once 8123 is banned, it is difficult to
598 diagnose why you can no longer reach a Tahoe node, so the Tahoe default was
599 changed. Note that 3456 is reserved by IANA for the "vat" protocol, but there
600 are argueably more Torbutton+Tahoe users than vat users these days. Note that
601 this will only affect newly-created client nodes. Pre-existing client nodes,
602 created by earlier versions of tahoe, may still be listening on 8123.
603
604 All deep-traversal operations (start-manifest, start-deep-size,
605 start-deep-stats, start-deep-check) now use a start-and-poll approach,
606 instead of using a single (fragile) long-running synchronous HTTP connection.
607 All these "start-" operations use POST instead of GET. The old "GET
608 manifest", "GET deep-size", and "POST deep-check" operations have been
609 removed.
610
611 The new "POST start-manifest" operation, when it finally completes, results
612 in a table of (path,cap), instead of the list of verifycaps produced by the
613 old "GET manifest". The table is available in several formats: use
614 output=html, output=text, or output=json to choose one. The JSON output also
615 includes stats, and a list of verifycaps and storage-index strings.
616
617 The "return_to=" and "when_done=" arguments have been removed from the
618 t=check and deep-check operations.
619
620 The top-level status page (/status) now has a machine-readable form, via
621 "/status/?t=json". This includes information about the currently-active
622 uploads and downloads, which may be useful for frontends that wish to display
623 progress information. There is no easy way to correlate the activities
624 displayed here with recent wapi requests, however.
625
626 Any files in BASEDIR/public_html/ (configurable) will be served in response
627 to requests in the /static/ portion of the URL space. This will simplify the
628 deployment of javascript-based frontends that can still access wapi calls
629 by conforming to the (regrettable) "same-origin policy".
630
631 The welcome page now has a "Report Incident" button, which is tied into the
632 "Incident Gatherer" machinery. If the node is attached to an incident
633 gatherer (via log_gatherer.furl), then pushing this button will cause an
634 Incident to be signalled: this means recent log events are aggregated and
635 sent in a bundle to the gatherer. The user can push this button after
636 something strange takes place (and they can provide a short message to go
637 along with it), and the relevant data will be delivered to a centralized
638 incident-gatherer for later processing by operations staff.
639
640 The "HEAD" method should now work correctly, in addition to the usual "GET",
641 "PUT", and "POST" methods. "HEAD" is supposed to return exactly the same
642 headers as "GET" would, but without any of the actual response body data. For
643 mutable files, this now does a brief mapupdate (to figure out the size of the
644 file that would be returned), without actually retrieving the file's
645 contents.
646
647 The "GET" operation on files can now support the HTTP "Range:" header,
648 allowing requests for partial content. This allows certain media players to
649 correctly stream audio and movies out of a Tahoe grid. The current
650 implementation uses a disk-based cache in BASEDIR/private/cache/download ,
651 which holds the plaintext of the files being downloaded. Future
652 implementations might not use this cache. GET for immutable files now returns
653 an ETag header.
654
655 Each file and directory now has a "Show More Info" web page, which contains
656 much of the information that was crammed into the directory page before. This
657 includes readonly URIs, storage index strings, object type, buttons to
658 control checking/verifying/repairing, and deep-check/deep-stats buttons (for
659 directories). For mutable files, the "replace contents" upload form has been
660 moved here too. As a result, the directory page is now much simpler and
661 cleaner, and several potentially-misleading links (like t=uri) are now gone.
662
663 Slashes are discouraged in Tahoe file/directory names, since they cause
664 problems when accessing the filesystem through the wapi. However, there are
665 a couple of accidental ways to generate such names. This release tries to
666 make it easier to correct such mistakes by escaping slashes in several
667 places, allowing slashes in the t=info and t=delete commands, and in the
668 source (but not the target) of a t=rename command.
669
670 ** Packaging
671
672 Tahoe's dependencies have been extended to require the "[secure_connections]"
673 feature from Foolscap, which will cause pyOpenSSL to be required and/or
674 installed. If OpenSSL and its development headers are already installed on
675 your system, this can occur automatically. Tahoe now uses pollreactor
676 (instead of the default selectreactor) to work around a bug between pyOpenSSL
677 and the most recent release of Twisted (8.1.0). This bug only affects unit
678 tests (hang during shutdown), and should not impact regular use.
679
680 The Tahoe source code tarballs now come in two different forms: regular and
681 "sumo". The regular tarball contains just Tahoe, nothing else. When building
682 from the regular tarball, the build process will download any unmet
683 dependencies from the internet (starting with the index at PyPI) so it can
684 build and install them. The "sumo" tarball contains copies of all the
685 libraries that Tahoe requires (foolscap, twisted, zfec, etc), so using the
686 "sumo" tarball should not require any internet access during the build
687 process. This can be useful if you want to build Tahoe while on an airplane,
688 a desert island, or other bandwidth-limited environments.
689
690 Similarly, allmydata.org now hosts a "tahoe-deps" tarball which contains the
691 latest versions of all these dependencies. This tarball, located at
692 http://allmydata.org/source/tahoe/deps/tahoe-deps.tar.gz, can be unpacked in
693 the tahoe source tree (or in its parent directory), and the build process
694 should satisfy its downloading needs from it instead of reaching out to PyPI.
695 This can be useful if you want to build Tahoe from a darcs checkout while on
696 that airplane or desert island.
697
698 Because of the previous two changes ("sumo" tarballs and the "tahoe-deps"
699 bundle), most of the files have been removed from misc/dependencies/ . This
700 brings the regular Tahoe tarball down to 2MB (compressed), and the darcs
701 checkout (without history) to about 7.6MB. A full darcs checkout will still
702 be fairly large (because of the historical patches which included the
703 dependent libraries), but a 'lazy' one should now be small.
704
705 The default "make" target is now an alias for "setup.py build", which itself
706 is an alias for "setup.py develop --prefix support", with some extra work
707 before and after (see setup.cfg). Most of the complicated platform-dependent
708 code in the Makefile was rewritten in Python and moved into setup.py,
709 simplifying things considerably.
710
711 Likewise, the "make test" target now delegates most of its work to "setup.py
712 test", which takes care of getting PYTHONPATH configured to access the tahoe
713 code (and dependencies) that gets put in support/lib/ by the build_tahoe
714 step. This should allow unit tests to be run even when trial (which is part
715 of Twisted) wasn't already installed (in this case, trial gets installed to
716 support/bin because Twisted is a dependency of Tahoe).
717
718 Tahoe is now compatible with the recently-released Python 2.6 , although it
719 is recommended to use Tahoe on Python 2.5, on which it has received more
720 thorough testing and deployment.
721
722 Tahoe is now compatible with simplejson-2.0.x . The previous release assumed
723 that simplejson.loads always returned unicode strings, which is no longer the
724 case in 2.0.x .
725
726 ** Grid Management Tools
727
728 Several tools have been added or updated in the misc/ directory, mostly munin
729 plugins that can be used to monitor a storage grid.
730
731 The misc/spacetime/ directory contains a "disk watcher" daemon (startable
732 with 'tahoe start'), which can be configured with a set of HTTP URLs
733 (pointing at the wapi '/statistics' page of a bunch of storage servers),
734 and will periodically fetch disk-used/disk-available information from all the
735 servers. It keeps this information in an Axiom database (a sqlite-based
736 library available from divmod.org). The daemon computes time-averaged rates
737 of disk usage, as well as a prediction of how much time is left before the
738 grid is completely full.
739
740 The misc/munin/ directory contains a new set of munin plugins
741 (tahoe_diskleft, tahoe_diskusage, tahoe_doomsday) which talk to the
742 disk-watcher and provide graphs of its calculations.
743
744 To support the disk-watcher, the Tahoe statistics component (visible through
745 the wapi at the /statistics/ URL) now includes disk-used and disk-available
746 information. Both are derived through an equivalent of the unix 'df' command
747 (i.e. they ask the kernel for the number of free blocks on the partition that
748 encloses the BASEDIR/storage directory). In the future, the disk-available
749 number will be further influenced by the local storage policy: if that policy
750 says that the server should refuse new shares when less than 5GB is left on
751 the partition, then "disk-available" will report zero even though the kernel
752 sees 5GB remaining.
753
754 The 'tahoe_overhead' munin plugin interacts with an allmydata.com-specific
755 server which reports the total of the 'deep-size' reports for all active user
756 accounts, compares this with the disk-watcher data, to report on overhead
757 percentages. This provides information on how much space could be recovered
758 once Tahoe implements some form of garbage collection.
759
760 ** Configuration Changes: single INI-format tahoe.cfg file
761
762 The Tahoe node is now configured with a single INI-format file, named
763 "tahoe.cfg", in the node's base directory. Most of the previous
764 multiple-separate-files are still read for backwards compatibility (the
765 embedded SSH debug server and the advertised_ip_addresses files are the
766 exceptions), but new directives will only be added to tahoe.cfg . The "tahoe
767 create-client" command will create a tahoe.cfg for you, with sample values
768 commented out. (ticket #518)
769
770 tahoe.cfg now has controls for the foolscap "keepalive" and "disconnect"
771 timeouts (#521).
772
773 tahoe.cfg now has controls for the encoding parameters: "shares.needed" and
774 "shares.total" in the "[client]" section. The default parameters are still
775 3-of-10.
776
777 The inefficient storage 'sizelimit' control (which established an upper bound
778 on the amount of space that a storage server is allowed to consume) has been
779 replaced by a lightweight 'reserved_space' control (which establishes a lower
780 bound on the amount of remaining space). The storage server will reject all
781 writes that would cause the remaining disk space (as measured by a '/bin/df'
782 equivalent) to drop below this value. The "[storage]reserved_space="
783 tahoe.cfg parameter controls this setting. (note that this only affects
784 immutable shares: it is an outstanding bug that reserved_space does not
785 prevent the allocation of new mutable shares, nor does it prevent the growth
786 of existing mutable shares).
787
788 ** Other Changes
789
790 Clients now declare which versions of the protocols they support. This is
791 part of a new backwards-compatibility system:
792 http://allmydata.org/trac/tahoe/wiki/Versioning .
793
794 The version strings for human inspection (as displayed on the Welcome web
795 page, and included in logs) now includes a platform identifer (frequently
796 including a linux distribution name, processor architecture, etc).
797
798 Several bugs have been fixed, including one that would cause an exception (in
799 the logs) if a wapi download operation was cancelled (by closing the TCP
800 connection, or pushing the "stop" button in a web browser).
801
802 Tahoe now uses Foolscap "Incidents", writing an "incident report" file to
803 logs/incidents/ each time something weird occurs. These reports are available
804 to an "incident gatherer" through the flogtool command. For more details,
805 please see the Foolscap logging documentation. An incident-classifying plugin
806 function is provided in misc/incident-gatherer/classify_tahoe.py .
807
808 If clients detect corruption in shares, they now automatically report it to
809 the server holding that share, if it is new enough to accept the report.
810 These reports are written to files in BASEDIR/storage/corruption-advisories .
811
812 The 'nickname' setting is now defined to be a UTF-8 -encoded string, allowing
813 non-ascii nicknames.
814
815 The 'tahoe start' command will now accept a --syslog argument and pass it
816 through to twistd, making it easier to launch non-Tahoe nodes (like the
817 cpu-watcher) and have them log to syslogd instead of a local file. This is
818 useful when running a Tahoe node out of a USB flash drive.
819
820 The Mac GUI in src/allmydata/gui/ has been improved.
821
822
823 * Release 1.2.0 (2008-07-21)
824
825 ** Security
826
827 This release makes the immutable-file "ciphertext hash tree" mandatory.
828 Previous releases allowed the uploader to decide whether their file would
829 have an integrity check on the ciphertext or not. A malicious uploader could
830 use this to create a readcap that would download as one file or a different
831 one, depending upon which shares the client fetched first, with no errors
832 raised. There are other integrity checks on the shares themselves, preventing
833 a storage server or other party from violating the integrity properties of
834 the read-cap: this failure was only exploitable by the uploader who gives you
835 a carefully constructed read-cap. If you download the file with Tahoe 1.2.0
836 or later, you will not be vulnerable to this problem. #491
837
838 This change does not introduce a compatibility issue, because all existing
839 versions of Tahoe will emit the ciphertext hash tree in their shares.
840
841 ** Dependencies
842
843 Tahoe now requires Foolscap-0.2.9 . It also requires pycryptopp 0.5 or newer,
844 since earlier versions had a bug that interacted with specific compiler
845 versions that could sometimes result in incorrect encryption behavior. Both
846 packages are included in the Tahoe source tarball in misc/dependencies/ , and
847 should be built automatically when necessary.
848
849 ** Web API
850
851 Web API directory pages should now contain properly-slash-terminated links to
852 other directories. They have also stopped using absolute links in forms and
853 pages (which interfered with the use of a front-end load-balancing proxy).
854
855 The behavior of the "Check This File" button changed, in conjunction with
856 larger internal changes to file checking/verification. The button triggers an
857 immediate check as before, but the outcome is shown on its own page, and does
858 not get stored anywhere. As a result, the web directory page no longer shows
859 historical checker results.
860
861 A new "Deep-Check" button has been added, which allows a user to initiate a
862 recursive check of the given directory and all files and directories
863 reachable from it. This can cause quite a bit of work, and has no
864 intermediate progress information or feedback about the process. In addition,
865 the results of the deep-check are extremely limited. A later release will
866 improve this behavior.
867
868 The web server's behavior with respect to non-ASCII (unicode) filenames in
869 the "GET save=true" operation has been improved. To achieve maximum
870 compatibility with variously buggy web browsers, the server does not try to
871 figure out the character set of the inbound filename. It just echoes the same
872 bytes back to the browser in the Content-Disposition header. This seems to
873 make both IE7 and Firefox work correctly.
874
875 ** Checker/Verifier/Repairer
876
877 Tahoe is slowly acquiring convenient tools to check up on file health,
878 examine existing shares for errors, and repair files that are not fully
879 healthy. This release adds a mutable checker/verifier/repairer, although
880 testing is very limited, and there are no web interfaces to trigger repair
881 yet. The "Check" button next to each file or directory on the wapi page
882 will perform a file check, and the "deep check" button on each directory will
883 recursively check all files and directories reachable from there (which may
884 take a very long time).
885
886 Future releases will improve access to this functionality.
887
888 ** Operations/Packaging
889
890 A "check-grid" script has been added, along with a Makefile target. This is
891 intended (with the help of a pre-configured node directory) to check upon the
892 health of a Tahoe grid, uploading and downloading a few files. This can be
893 used as a monitoring tool for a deployed grid, to be run periodically and to
894 signal an error if it ever fails. It also helps with compatibility testing,
895 to verify that the latest Tahoe code is still able to handle files created by
896 an older version.
897
898 The munin plugins from misc/munin/ are now copied into any generated debian
899 packages, and are made executable (and uncompressed) so they can be symlinked
900 directly from /etc/munin/plugins/ .
901
902 Ubuntu "Hardy" was added as a supported debian platform, with a Makefile
903 target to produce hardy .deb packages. Some notes have been added to
904 docs/debian.txt about building Tahoe on a debian/ubuntu system.
905
906 Storage servers now measure operation rates and latency-per-operation, and
907 provides results through the /statistics web page as well as the stats
908 gatherer. Munin plugins have been added to match.
909
910 ** Other
911
912 Tahoe nodes now use Foolscap "incident logging" to record unusual events to
913 their NODEDIR/logs/incidents/ directory. These incident files can be examined
914 by Foolscap logging tools, or delivered to an external log-gatherer for
915 further analysis. Note that Tahoe now requires Foolscap-0.2.9, since 0.2.8
916 had a bug that complained about "OSError: File exists" when trying to create
917 the incidents/ directory for a second time.
918
919 If no servers are available when retrieving a mutable file (like a
920 directory), the node now reports an error instead of hanging forever. Earlier
921 releases would not only hang (causing the wapi directory listing to get
922 stuck half-way through), but the internal dirnode serialization would cause
923 all subsequent attempts to retrieve or modify the same directory to hang as
924 well. #463
925
926 A minor internal exception (reported in logs/twistd.log, in the
927 "stopProducing" method) was fixed, which complained about "self._paused_at
928 not defined" whenever a file download was stopped from the web browser end.
929
930
931 * Release 1.1.0 (2008-06-11)
932
933 ** CLI: new "alias" model
934
935 The new CLI code uses an scp/rsync -like interface, in which directories in
936 the Tahoe storage grid are referenced by a colon-suffixed alias. The new
937 commands look like:
938  tahoe cp local.txt tahoe:virtual.txt
939  tahoe ls work:subdir
940
941 More functionality is available through the CLI: creating unlinked files and
942 directories, recursive copy in or out of the storage grid, hardlinks, and
943 retrieving the raw read- or write- caps through the 'ls' command. Please read
944 docs/CLI.txt for complete details.
945
946 ** wapi: new pages, new commands
947
948 Several new pages were added to the web API:
949
950  /helper_status : to describe what a Helper is doing
951  /statistics : reports node uptime, CPU usage, other stats
952  /file : for easy file-download URLs, see #221
953  /cap == /uri : future compatibility
954
955 The localdir=/localfile= and t=download operations were removed. These
956 required special configuration to enable anyways, but this feature was a
957 security problem, and was mostly obviated by the new "cp -r" command.
958
959 Several new options to the GET command were added:
960
961  t=deep-size : add up the size of all immutable files reachable from the directory
962  t=deep-stats : return a JSON-encoded description of number of files, size
963                 distribution, total size, etc
964
965 POST is now preferred over PUT for most operations which cause side-effects.
966
967 Most wapi calls now accept overwrite=, and default to overwrite=true .
968
969 "POST /uri/DIRCAP/parent/child?t=mkdir" is now the preferred API to create
970 multiple directories at once, rather than ...?t=mkdir-p .
971
972 PUT to a mutable file ("PUT /uri/MUTABLEFILECAP", "PUT /uri/DIRCAP/child")
973 will modify the file in-place.
974
975 ** more munin graphs in misc/munin/
976
977   tahoe-introstats
978   tahoe-rootdir-space
979   tahoe_estimate_files
980   mutable files published/retrieved
981   tahoe_cpu_watcher
982   tahoe_spacetime
983
984 ** New Dependencies
985
986   zfec 1.1.0
987   foolscap 0.2.8
988   pycryptopp 0.5
989   setuptools (now required at runtime)
990
991 ** New Mutable-File Code
992
993 The mutable-file handling code (mostly used for directories) has been
994 completely rewritten. The new scheme has a better API (with a modify()
995 method) and is less likely to lose data when several uncoordinated writers
996 change a file at the same time.
997
998 In addition, a single Tahoe process will coordinate its own writes. If you
999 make two concurrent directory-modifying wapi calls to a single tahoe node,
1000 it will internally make one of them wait for the other to complete. This
1001 prevents auto-collision (#391).
1002
1003 The new mutable-file code also detects errors during publish better. Earlier
1004 releases might believe that a mutable file was published when in fact it
1005 failed.
1006
1007 ** other features
1008
1009 The node now monitors its own CPU usage, as a percentage, measured every 60
1010 seconds. 1/5/15 minute moving averages are available on the /statistics web
1011 page and via the stats-gathering interface.
1012
1013 Clients now accelerate reconnection to all servers after being offline
1014 (#374). When a client is offline for a long time, it scales back reconnection
1015 attempts to approximately once per hour, so it may take a while to make the
1016 first attempt, but once any attempt succeeds, the other server connections
1017 will be retried immediately.
1018
1019 A new "offloaded KeyGenerator" facility can be configured, to move RSA key
1020 generation out from, say, a wapi node, into a separate process. RSA keys
1021 can take several seconds to create, and so a wapi node which is being used
1022 for directory creation will be unavailable for anything else during this
1023 time. The Key Generator process will pre-compute a small pool of keys, to
1024 speed things up further. This also takes better advantage of multi-core CPUs,
1025 or SMP hosts.
1026
1027 The node will only use a potentially-slow "du -s" command at startup (to
1028 measure how much space has been used) if the "sizelimit" parameter has been
1029 configured (to limit how much space is used). Large storage servers should
1030 turn off sizelimit until a later release improves the space-management code,
1031 since "du -s" on a terabyte filesystem can take hours.
1032
1033 The Introducer now allows new announcements to replace old ones, to avoid
1034 buildups of obsolete announcements.
1035
1036 Immutable files are limited to about 12GiB (when using the default 3-of-10
1037 encoding), because larger files would be corrupted by the four-byte
1038 share-size field on the storage servers (#439). A later release will remove
1039 this limit. Earlier releases would allow >12GiB uploads, but the resulting
1040 file would be unretrievable.
1041
1042 The docs/ directory has been rearranged, with old docs put in
1043 docs/historical/ and not-yet-implemented ones in docs/proposed/ .
1044
1045 The Mac OS-X FUSE plugin has a significant bug fix: earlier versions would
1046 corrupt writes that used seek() instead of writing the file in linear order.
1047 The rsync tool is known to perform writes in this order. This has been fixed.